Аноним
Маска Организаторов
Организатор
- Сообщения
- Монеты
- +89.5
- Оплачено
- 5
- Купоны
- 0
- Кешбэк
- 0
- Баллы
- 0
- @Skladchiki
- #1
Складчина: [Stepik] Data Engineering Fast‑Track: Kafka → Airflow → Spark
- Ссылка на картинку
-
Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.
Чему вы научитесь
Чему вы научитесь
- Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
- Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
- Делать batch и streaming в Spark, настраивать окна и watermark.
- Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
- Настраивать DAG: расписания, retries, SLA, catchup, datasets.
- Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
- Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
- Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).
Показать больше
Зарегистрируйтесь
, чтобы посмотреть авторский контент.