Роадмап
О роадмапе¶
Этот роадмап — конспект моих подходов к обучению Data Engineering.
Он подойдёт тем, кто хочет:
- системно войти в профессию с нуля или близкого к нулю уровня;
- закрыть пробелы в базе (SQL, Git, Python, DWH, Airflow, Greenplum);
- подготовиться к собеседованиям и первым рабочим задачам.
Роадмап можно проходить самостоятельно или вместе со мной в формате менторства.
Если хотите идти с поддержкой ментора — напишите в Telegram: @dementev_dev.
Оглавление¶
- Основные знания — Git, SQL, Python, методологии, Docker
- Практика и инструменты — Airflow, Greenplum, курсовая работа
- Карьера и менторство — резюме, собеседования, испытательный срок
- Расширенные навыки — ClickHouse, Streaming, Lakehouse, dbt
- Софт скиллы
- Дополнительные материалы
Рекомендуемый способ использования:
- двигаться по разделам последовательно, не перепрыгивая через базу;
- выполнять практику и домашки, а не только смотреть материалы;
- возвращаться к разделам по мере появления реальных задач.
Основные знания¶
Git и базовые инструменты¶
База по Git¶
Что такое контроль версий, когда используется, ПОЧЕМУ и как мы в обучении будем использовать. Как создать репозиторий на GitHub, сохранять в нем изменения.
- Что такое Git для Начинающих / GitHub за 30 минут / Git Уроки - Youtube
- Git: Конфликты для Начинающих // Git Cherry Pick, Git Revert, Git Reset - Youtube
- Книга Pro Git - читать главу 1
Основы Markdown¶
- Язык Markdown и файл README | Git и GitHub для начинающих - Youtube
- Markdown и его возможности: простой способ оформления текста
- Синтаксис Markdown: подробная шпаргалка для веб-разработчиков / Skillbox Media
Домашки по остальным темам тренируемся делать в Git, там же пишем документацию.
Когда блок Git и базовые инструменты считаем пройденным:
- вы уверенно создаёте репозиторий, коммитите изменения и отправляете их на GitHub;
- имеете представление о работе с ветками: создание, переключение, что такое merge/PR и разруливание простых конфликтов;
- оформляете базовую документацию в Markdown (README, заголовки, списки, ссылки, кодовые блоки).
Базы данных: SQL и моделирование данных¶
SQL и моделирование данных специально идут рядом: сначала учимся уверенно извлекать данные запросами, затем — понимать и проектировать структуру данных, чтобы ETL/витрины были осмысленными.
База по SQL¶
Книга: PostgreSQL. Основы языка SQL - Глава 1 "Введение в базы данных и SQL" + ДЗ
Бесплатный тренажер: Интерактивный тренажер по SQL – Stepik
Целевой уровень знания SQL - Live кодинг на собесе. Проверяем на первом мок-интервью
CTE
- Зачем нам CTE: Getting started with CTEs | dbt Labs
- Подробнее про синтаксис: PostgreSQL : Документация: 17: 7.8. Запросы WITH (Общие табличные выражения) : Компания Postgres Professional
Для дальнейшей тренировки и поддержания уровня можно использовать Database - LeetCode. Хорошая подборка задачек: SQL 50 - Study Plan - LeetCode
Повышение знаний SQL¶
Смотрим курс от Postgres Pro DEV1
Темы - от "Введение" до "SQL" включительно, "Управление доступом", "Резервное копирование". Для лучшего усваивания материала проделываем все примеры и домашние задания из конспектов лекция.
С темой "PL/pgSQL" можно ознакомиться обзорно.
Для развития навыков инженера будет полезно лабораторные работы делать не в виртуальной машине, а в docker контейнере. Предложенный (не обязательный) вариант - в каталоге postgres-bookings репозитория.
Для дальнейшего закрепления материала - читаем книгу PostgreSQL. Основы языка SQL
- Глава 8 - Индексы + ДЗ
- Глава 9 - Транзакции
- Глава 10 - Повышение производительности + ДЗ
Вопросы оптимизации запросов хорошо описаны в курсе QPT от Postgres Pro. Полученные навыки применимы для работы в том числе с Greenplum, и частично, другими БД. На момент написания, видеолекции были доступны только для старой версии Postgres 13, но ее вполне достаточно.
Моделирование данных¶
Понимание того, как устроены данные и зачем они нужны, — ключ к качественным ETL-процессам.
Мы кратко разбираем:
- Основные подходы: нормализованные (3NF) vs денормализованные (звезда, снежинка)
- Что такое staging, marts, слои raw / clean / business
- Как проектировать таблицы под конкретные сценарии использования
Цель — не стать архитектором, а уметь читать и объяснять структуру данных, чтобы писать осмысленные запросы и трансформации.
Материалы (включая демо DWH-модель из этого репозитория):
- Мартин Клеппман — «Высоконагруженные приложения» - Глава 2: Модели данных и языки запросов. - Для понимания, чем реляционная модель (SQL) отличается от документной (NoSQL) и графовой, и почему для аналитики мы всё ещё любим таблицы (Важно: не перепутайте главу 2 с Частью 2 про распределенные данные!).
- Яндекс Практикум: что такое нормализация, простыми словами (для самых начинающих)
- Базы данных. 1,2,3 нормальные формы. - Youtube
- Введение в структуру хранилища данных
- Теория про Slowly Changing Dimensions: SCD
- (Опционально) Ральф Кимбалл — «Инструментарий хранения и анализа данных» (The Data Warehouse Toolkit) - первые 3 главы
- Практика по моделированию статусов клиента: домашка STG → ODS → DDS → DM
- Еще про Data Vault:
- Конспект и примеры из этого репозитория: DataVault.md
- DataVault за 10 минут - Youtube
- Статья «Что такое Data Vault: моделирование КХД для архитектора Big Data» — обзор, плюсы/минусы, контекст применения.
- Гибкие методологии проектирования Data Vault и Anchor Modeling | Евгений Ермаков | karpov.courses
- Лекция в рамках курса по DWH: именно «Основы Data Vault, создаем первую модель» — хороший формат: теория + пример.
- Доклад - практический пример: Денис Лукьянов — Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на Greenplum
- Хорошее общее введение в модели данных дано в статье и докладе от Yandex: Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса
Когда блок «Базы данных» считаем пройденным:
- вы уверенно пишете запросы с JOIN, агрегатами, подзапросами и CTE;
- можете подробно объяснить план запроса в Postgres, понимаете где планировщик отработал корректно, а где - есть возможность улучшить;
- можете объяснить простую модель данных (3NF/звезда) и прочитать схему DWH;
- решаете типовые задачи уровня SQL live-coding без долгих пауз.
Python¶
- Если совсем не знакомы с Python, начинаем с курса "Поколение Python": курс для начинающих – Stepik
- Изучаем глубже и "оттачиваем" live coding: "Поколение Python": курс для продвинутых – Stepik
- Продолжение "базы", спрашиваемой на собеседованиях, по Python: "Поколение Python": курс для профессионалов. Курс очень полезный, но платный. Вместо него можно почитать "продвинутые" темы дальше.
- "Продвинутые" темы:
- Полезные функции
- Работа с файлами в формате CSV, JSON, YAML
- Итераторы, итерируемые объекты и генераторы
- Декораторы Python: пошаговое руководство
- Работа с датой/временем: https://django.fun/docs/python/3.10/library/datetime/
- ООП
- Виртуальные окружения (venv) — изолируют зависимости проекта; настройте перед установкой Jupyter и библиотек
- Jupyter Lab
- Блог Практикума: «Что такое Jupyter Notebook: как установить и открыть»
- Готовая реализация Jupyter Lab, включающая в себя Spark, в Docker: https://github.com/dementev-dev/jupyter-spark-docker
- Pandas
Полезно, но дороговато и не обязательно: хорошее комбо SQL + Python — "Поколение Python": профи + ООП + SQL – Stepik
Цель — уверенно решать простые задачи на Python в формате live-coding; дальше эти навыки пригодятся для создания DAG Airflow.
Когда блок Python считаем пройденным:
- вы без подсказок пишете небольшие скрипты с циклами, функциями, обработкой ошибок и работой с коллекциями;
- умеете читать и модифицировать чужой код, в том числе с использованием pandas и DataFrame;
- уверенно проходите простой live-coding по Python для DE: прочитать CSV/JSON, отфильтровать, сгруппировать данные и посчитать агрегаты.
- можете отвечать как на простые вопросы собеседований (циклы, списки, словари), так и продвинутые (итераторы, декораторы, управление памятью, базовые понятия ООП)
Методологии разработки¶
Зачем это разработчику? 1. Работа в команде. Вам нужно понимать «правила игры». Почему задачи двигаются именно так? Зачем мы встречаемся каждое утро на 15 минут? Почему нельзя просто взять задачу из середины списка? 2. Собеседование и «легенда». Когда вас спросят: «Как строилась работа в вашей прошлой команде?», вы должны ответить грамотно. Использование правильной терминологии (спринты, груминг, ретроспектива, WIP-лимиты) — это маркер профессионализма. Это показывает, что вы не просто писали код в вакууме, а были частью налаженного процесса.
1. Основы и сравнение подходов¶
Для начала нужно понять глобальную разницу между жестким планированием (Waterfall) и гибкой разработкой (Agile).
- Waterfall или Agile, Scrum или Kanban: что выбрать — Базовая статья. Читать внимательно, закрывает вопросы и по Waterfall, и по выбору пути.
- Agile, Scrum, Kanban - обзор, отличия, мифы — Видео для закрепления. Помогает разложить кашу в голове по полочкам.
2. Agile: Философия гибкости¶
Agile — это не метод, а философия. Scrum и Kanban — это инструменты этой философии.
- Scrum vs Kanban: отличия и разница Agile методов — Сравнение двух главных фреймворков. Важно понять, где заканчивается один и начинается другой.
3. Scrum (Скрам)¶
Используется, когда мы создаем продукт и работаем спринтами (циклами). Часто встречается в продуктовых командах, где DE работает в связке с Backend/Frontend.
4. Kanban (Канбан)¶
Используется для управления потоком задач и поддержки. Наиболее популярен в Data Engineering и DevOps, так как данные поступают непрерывно, и их сложно «запереть» в двухнедельный спринт.
Практика: Как это выглядит в жизни¶
Теория — это хорошо, но на работе вы увидите конкретный интерфейс (Jira или Yandex Tracker). Важно понимать, куда нажимать и как двигать задачи.
1. Jira (Мировой стандарт)¶
Самый популярный инструмент. Скорее всего, вы столкнетесь именно с ним. * Как работать с Jira на реальных проектах (15 мин) — Отличное видео, где показывают базу: как создать задачу, как перетащить её по доске (Kanban) и что писать в комментариях. Смотреть с 04:00, где начинается практика. * Создание и настройка Scrum-досок в JIRA — Если хотите увидеть, как выглядит Спринт и Бэклог изнутри.
2. Yandex Tracker (Российский стандарт)¶
Активно внедряется в крупных компаниях РФ. Логика та же, но интерфейс другой. * Начало работы в Яндекс.Трекере (3 мин) — Супер-короткий официальный гайд. За 3 минуты показывают всё: очереди, доски, карточки. * Настройка процесса разработки в Tracker (c 06:37) — Более глубокий разбор: как выглядит очередь задач разработчика и жизненный цикл тикета.
💡 Совет: Не бойтесь кнопок. Главное правило любого трекера: «Взял задачу в работу — переведи статус в In Progress». Это сигнал команде, что вы заняты и вас лучше не отвлекать.
Когда блок «Методологии разработки» считаем пройденным:
- вы в общих чертах можете объяснить разницу Waterfall vs Agile и Scrum vs Kanban;
- знаете основные мероприятия Scrum (planning / daily / review / retro) и что от вас ожидается на каждом;
- умеете работать с трекером (Jira/Tracker): создать/уточнить задачу, взять в работу, корректно двигать статусы и оставлять понятные комментарии;
- умеете своевременно сообщать о блокерах и уточнять требования, если задача «не бьётся» или в ней не хватает входных данных.
Технические навыки¶
Продвинутый Git¶
- Сжатый, но емкий видеогайд: GIT, GitHub, GitLab. Полный АКТУАЛЬНЫЙ гайд ЗА ПОЛТОРА ЧАСА. Без этого выгонят с работы - Youtube
- Книга: Pro Git - главы - 2 Основы Git - 3 Ветвление в Git - 5 Распределённый Git - 6 GitHub
- Курс работы с Git и GitLab - ЭФКО ЦПР | YouTube плейлист. Настоятельно рекомендую проделать за лектором все те действия что он показывает.
Целевой уровень знания - понимание процесса GitFlow. Как создать ветку, влить изменения в другие ветки. Понимание, зачем. На собесах обычно не спрашивают, но нужно в работе.
Docker¶
- Курс https://karpov.courses/docker
Основное предназначение для нас - учебные стенды, где мы разбираем и тренируемся с разными технологиями. На работе - иногда пригождается. На собесах спрашивают редко.
Запись встреч¶
OBS Studio
- Руководство по OBS: OBS Studio - Настройка ОБС для Записи Игр и Стрима | Настройка Микрофона в Обс и т.д - Youtube
- Как записывать собеседования
Когда блок технических навыков считаем пройденным:
- вы понимаете базовый GitFlow: как организована работа с ветками в команде и как ваши коммиты попадают в прод;
- используете Docker для учебных стендов: запускаете контейнеры, смотрите логи и при необходимости перезапускаете сервисы;
- при необходимости умеете настроить запись экрана/созвонов, чтобы сохранять материалы обучения.
Практика и инструменты¶
Airflow¶
Apache Airflow — инструмент для оркестрации ETL-процессов.
Мы используем его для:
- планирования задач,
- отслеживания зависимостей между шагами,
- визуализации статуса выполнения.
Материалы:
Когда блок Airflow считаем пройденным:
- вы можете объяснить, что такое DAG, задачи, операторы и сенсоры, и как между ними задаются зависимости;
- на базе учебного стенда подготавливаете, отлаживаете и запускаете свои DAG'и с расписанием и несколькими шагами (например, загрузка данных и последующие трансформации);
- уверенно смотрите логи, находите место падения и понимаете, как перезапустить задачу.
Greenplum¶
Разбираем, чем Greenplum отличается от PostgreSQL и зачем нужны MPP-хранилища.
Фундаментальная теория¶
Прежде чем нажимать кнопки, нужно понять "физику" больших данных. Почему обычный Postgres начинает тормозить?
- Мартин Клеппман, "Высоконагруженные приложения":
- Глава 1. Надежность, масштабируемость. (Разбираемся, чем вертикальное масштабирование отличается от горизонтального).
- Глава 3 (только конец главы). Читаем разделы:
- «Обработка транзакций или аналитика?» (OLTP or OLAP?) — ключевое различие нагрузок.
- «Хранение по столбцам» — почему аналитика требует другого способа записи данных на диск.
- Зачем: Это объясняет, почему Greenplum устроен именно так. Без этого вы будете пытаться работать с ним как с обычным Postgres.
Знакомство с Greenplum¶
Теперь, понимая теорию, смотрим, как это реализовано в конкретном инструменте.
- Простое введение: Greenplum | Что это такое и как оно работает? - Youtube
- Визуализатор распределения Greenplum
Курс Yandex по Greenplum — основной учебный курс, рекомендуется пройти целиком:
- Бесплатный курс Yandex Cloud по Greenplum
- Практику по курсу удобно делать на стенде airflow-dwh-gp-lab —
make upподнимает рабочий Greenplum с PXF, не нужен облачный кластер. - Стенд покрывает основные темы курса: типы таблиц (heap / appendonly), политики дистрибуции, сжатие, PXF, анализ планов выполнения (
EXPLAIN). - Единственное ограничение: cloud-специфичные темы (тема 2 курса — развёртывание в Yandex Cloud) на локальном стенде не покрыты.
Дополнительно:
- Учебный курс по Greenplum от datafinder — отдельные главы для углубления.
Когда блок Greenplum считаем пройденным:
- вы понимаете, как данные распределяются по сегментам, что такое skew и как его увидеть;
- на базе стенда
airflow-dwh-gp-labможете загружать и выгружать данные в Greenplum, выполнять запросы и разбирать планы выполнения (EXPLAIN); - можете объяснить, в чём практическая разница между MPP-хранилищем и одиночным Postgres на уровне типичных задач DE и собеседований.
Курсовая работа¶
Курсовая работа — важный майлстоун роадмапа: ваш первый end-to-end data-проект. После неё у вас есть ключевые технические навыки для старта карьеры в Data Engineering.
Курсовая выполняется на том же стенде airflow-dwh-gp-lab, который вы уже использовали для практики по Greenplum.
Что внутри:
- Стенд содержит DWH с реализованным эталонным срезом (STG → ODS → DDS → DM) — это ваш образец для подражания.
- Задача — довести DWH до полного, реализовав недостающие загрузки по аналогии с эталоном.
- Есть готовый план от аналитика (ТЗ с маппингами и бизнес-правилами) — не нужно придумывать, что делать.
- Встроенная автоматическая проверка реализации поможет убедиться в корректности до проверки ментором.
- Ветка
main— рабочая (с заготовками для реализации), веткаsolution— эталон для сверки.
Когда блок курсовой работы считаем пройденным:
- все загрузки реализованы, DWH заполняется полностью (STG → ODS → DDS → DM);
- автоматическая проверка (валидационный DAG) проходит без ошибок;
- вы можете на собеседовании за 5–10 минут рассказать архитектуру проекта, его цели и показать ключевые части кода.
Понятие сложности алгоритмов¶
В Data Engineering редко требуется писать сложные алгоритмы, но важно понимать, как оценивать эффективность кода:
- в SQL — через объём сканируемых данных, типы JOIN’ов, использование индексов;
- в Python — через асимптотику операций с pandas/списками (например, O(n) vs O(n²)).
Это помогает избегать «тормозящих» решений на собеседованиях и в реальных пайплайнах.
Карьера и менторство¶
Менторство по этому роадмапу¶
Если вы нашли этот роадмап в интернете и хотите пройти его не в одиночку, а с поддержкой ментора, можно присоединиться ко мне.
Что даёт менторство:
- структурный план прохождения роадмапа под вашу ситуацию;
- разбор вопросов по SQL / DWH / Airflow и другим темам из этого документа;
- разбор домашних заданий и код-ревью;
- помощь с подготовкой к собеседованиям (резюме, мок-интервью).
Как записаться
Просто напишите мне в Telegram: @dementev_dev
со словами «Хочу пройти роадмап с ментором» — дальше всё обсудим.
Подготовка к собеседованиям¶
Цель блока — сформировать «опыт от 2 лет» и уметь корректно его показать в резюме и на собеседовании.
Помощь в подготовке резюме¶
- Видео от ОМ по составлению резюме - Как накрутить опыт в резюме | «Ультимативный гайд» @digital_ninja - Как писать резюме, чтобы его читали - доклад - Boosty - Как грамотно продать себя на собеседовании / Созвон сообщества - Boosty
- Практика: совместная работа над резюме — ментор помогает переработать опыт, сформировать убедительную карьерную историю и подготовиться к вопросам по ней.
Поиск работы и собеседования¶
- Как подтвердить опыт без трудовой / Хабр против работяг
- Видео по прохождению собеседований из сообщества ОМ — в подготовке
- Практика: мок-собеседования с ментором — тренировка ответов, разбор слабых мест, психологическая подготовка к реальным интервью.
Помощь с прохождением испытательного срока¶
- Как успешно пройти испытательный срок в IT | «Ультимативный гайд» c @digital_ninja - Youtube
- Испытательный срок - доклад - Boosty
Когда блок подготовки к собеседованиям считаем пройденным:
- у вас есть актуальное резюме под DE с понятными примерами проектов вместо «пустого» опыта;
- вы умеете искать и отбирать вакансии на HH и Habr Карьера, адаптируя отклики под конкретную позицию;
- вы прошли хотя бы пару мок-собеседований, получили обратную связь и по результатам доработали резюме и стратегию поиска.
Расширенные навыки¶
Эти темы выходят за рамки базового минимума для старта в Data Engineering, но дают более полное представление об экосистеме.
Их цель — понимать, зачем и когда используется тот или иной инструмент, а не осваивать его на уровне администратора или DevOps-инженера.
Мы кратко знакомимся с:
- Streaming (NiFi + Kafka) — инструментами для построения потоковых и интеграционных пайплайнов;
- ClickHouse — колоночной СУБД для высоконагруженной аналитики;
- Lakehouse (Spark, Iceberg, Trino) — архитектурой, построенной на разделении compute и storage;
- dbt — подходом к трансформации данных как кода.
Практика ограничивается минимальным рабочим примером (запуск в Docker, простой пайплайн или SQL-модель). Этого достаточно, чтобы уверенно говорить об инструменте на собеседовании и понимать его место в архитектуре — а всё остальное при необходимости осваивается уже на проекте.
ClickHouse¶
Бесплатный курс https://yandex.cloud/ru/training/clickhouse
Платный курс ClickHouse для аналитика – Stepik
Streaming (NiFi + Kafka)¶
NiFi — визуальный конструктор потоков данных, Kafka — распределённая очередь сообщений. Вместе они закрывают типичный сценарий: принять данные, буферизовать, доставить в хранилище.
Материалы:
- Apache NiFi с нуля за 3 часа (Youtube-плейлист) — первые 4 видео, дальше — по желанию
- Лучший Гайд по Kafka для Начинающих За 1 Час (Youtube)
Практика — на стенде nifi-kafka-postgres-lab (Docker Compose с NiFi, Kafka и Postgres):
- настраиваем в NiFi простой генератор данных и поток в Postgres;
- строим поток NiFi → Kafka → NiFi → Postgres.
Lakehouse (Spark, Iceberg, Trino)¶
Секция в разработке. Lakehouse — отдельное направление в DE, построенное на разделении compute и storage, открытых табличных форматах (Iceberg, Delta) и движках распределённой обработки (Spark, Trino). Этот роадмап фокусируется на классическом DWH-стеке, поэтому полноценный блок пока не готов — ниже только отправные точки для самостоятельного изучения.
- DataLearn: «Что такое Apache Spark» — введение в Spark с нуля, ~40 минут
- Стенд для экспериментов: mini-lakehouse-lab (Spark + Iceberg + Trino + MinIO)
dbt¶
dbt (data build tool) — инструмент для трансформации данных в хранилище.
Мы рассматриваем его как альтернативу «ручному» написанию сложных CTE и для понимания современного подхода к моделированию данных как кода.
Материалы:
Практика:
- Клонировать jaffle-shop, установить dbt-duckdb, прогнать
dbt build,dbt test,dbt docs generate && dbt docs serve— этого достаточно, чтобы увидеть весь цикл.
Когда блок расширенных навыков считаем пройденным:
- вы можете на собеседовании кратко объяснить, когда уместны Streaming (NiFi/Kafka), ClickHouse, Lakehouse-стек и dbt, и чем они дополняют базовый стек (Postgres, Airflow, Greenplum);
- понимаете типичные сценарии: потоковые интеграции и очереди (NiFi + Kafka), аналитические витрины и отчёты на ClickHouse, Lakehouse-архитектура (Spark/Iceberg/Trino), трансформации данных как код (dbt);
- не боитесь увидеть эти инструменты в описании вакансии и можете поддержать содержательный разговор об их месте в архитектуре.
Софт скиллы¶
- Все ветви дохода в IT / Полный гайд по деньгам
- Гайд как писать отзывы
- Гайд по Антистрессу
Дополнительные материалы¶
- ananevsyu/SandBox_DB_public: Песочница для изучения различных технологий связанных с инженерией данных - Клон проекта dementev_dev/sandbox_db_public-форк
- System Design. Разбор книги "Высоконагруженные приложения". Глава 1 - Youtube — отличный видео-конспект первой главы Клеппмана на русском.
- Индексы в БД - Youtube
- Spark + Iceberg in 1 Hour - Memory Tuning, Joins, Partition - Youtube
- Введение в устройство Parquet и Iceberg - habr
- Введение в Apache Iceberg. Основы, архитектура, как работает?
- Алгоритмы: теория и практика. Методы – Stepik
- Алгоритмы: теория и практика. Структуры данных – Stepik
- Apache Hadoop для самых маленьких: HDFS, RACK-AWARENESS, репликация и Data Locality - Youtube
- Книга. Введение в Apache Kafka для системных аналитиков и проектировщиков интеграций
- Перевод документации dbt на русский язык