Перейти к содержанию

Роадмап

О роадмапе

Этот роадмап — конспект моих подходов к обучению Data Engineering.
Он подойдёт тем, кто хочет:

  • системно войти в профессию с нуля или близкого к нулю уровня;
  • закрыть пробелы в базе (SQL, Git, Python, DWH, Airflow, Greenplum);
  • подготовиться к собеседованиям и первым рабочим задачам.

Роадмап можно проходить самостоятельно или вместе со мной в формате менторства.
Если хотите идти с поддержкой ментора — напишите в Telegram: @dementev_dev.

Оглавление

Рекомендуемый способ использования:

  • двигаться по разделам последовательно, не перепрыгивая через базу;
  • выполнять практику и домашки, а не только смотреть материалы;
  • возвращаться к разделам по мере появления реальных задач.

Основные знания

[к оглавлению]

Git и базовые инструменты

База по Git

Что такое контроль версий, когда используется, ПОЧЕМУ и как мы в обучении будем использовать. Как создать репозиторий на GitHub, сохранять в нем изменения.

Основы Markdown

Домашки по остальным темам тренируемся делать в Git, там же пишем документацию.

Когда блок Git и базовые инструменты считаем пройденным:

  • вы уверенно создаёте репозиторий, коммитите изменения и отправляете их на GitHub;
  • имеете представление о работе с ветками: создание, переключение, что такое merge/PR и разруливание простых конфликтов;
  • оформляете базовую документацию в Markdown (README, заголовки, списки, ссылки, кодовые блоки).

Базы данных: SQL и моделирование данных

SQL и моделирование данных специально идут рядом: сначала учимся уверенно извлекать данные запросами, затем — понимать и проектировать структуру данных, чтобы ETL/витрины были осмысленными.

База по SQL

Книга: PostgreSQL. Основы языка SQL - Глава 1 "Введение в базы данных и SQL" + ДЗ

Бесплатный тренажер: Интерактивный тренажер по SQL – Stepik
Целевой уровень знания SQL - Live кодинг на собесе. Проверяем на первом мок-интервью

CTE
- Зачем нам CTE: Getting started with CTEs | dbt Labs - Подробнее про синтаксис: PostgreSQL : Документация: 17: 7.8. Запросы WITH (Общие табличные выражения) : Компания Postgres Professional

Для дальнейшей тренировки и поддержания уровня можно использовать Database - LeetCode. Хорошая подборка задачек: SQL 50 - Study Plan - LeetCode

Повышение знаний SQL

Смотрим курс от Postgres Pro DEV1 Темы - от "Введение" до "SQL" включительно, "Управление доступом", "Резервное копирование". Для лучшего усваивания материала проделываем все примеры и домашние задания из конспектов лекция.
С темой "PL/pgSQL" можно ознакомиться обзорно.

Для развития навыков инженера будет полезно лабораторные работы делать не в виртуальной машине, а в docker контейнере. Предложенный (не обязательный) вариант - в каталоге postgres-bookings репозитория.

Для дальнейшего закрепления материала - читаем книгу PostgreSQL. Основы языка SQL

  • Глава 8 - Индексы + ДЗ
  • Глава 9 - Транзакции
  • Глава 10 - Повышение производительности + ДЗ

Вопросы оптимизации запросов хорошо описаны в курсе QPT от Postgres Pro. Полученные навыки применимы для работы в том числе с Greenplum, и частично, другими БД. На момент написания, видеолекции были доступны только для старой версии Postgres 13, но ее вполне достаточно.

Моделирование данных

Понимание того, как устроены данные и зачем они нужны, — ключ к качественным ETL-процессам.
Мы кратко разбираем:

  • Основные подходы: нормализованные (3NF) vs денормализованные (звезда, снежинка)
  • Что такое staging, marts, слои raw / clean / business
  • Как проектировать таблицы под конкретные сценарии использования

Цель — не стать архитектором, а уметь читать и объяснять структуру данных, чтобы писать осмысленные запросы и трансформации.

Материалы (включая демо DWH-модель из этого репозитория):

Когда блок «Базы данных» считаем пройденным:

  • вы уверенно пишете запросы с JOIN, агрегатами, подзапросами и CTE;
  • можете подробно объяснить план запроса в Postgres, понимаете где планировщик отработал корректно, а где - есть возможность улучшить;
  • можете объяснить простую модель данных (3NF/звезда) и прочитать схему DWH;
  • решаете типовые задачи уровня SQL live-coding без долгих пауз.

Python

Полезно, но дороговато и не обязательно: хорошее комбо SQL + Python — "Поколение Python": профи + ООП + SQL – Stepik

Цель — уверенно решать простые задачи на Python в формате live-coding; дальше эти навыки пригодятся для создания DAG Airflow.

Когда блок Python считаем пройденным:

  • вы без подсказок пишете небольшие скрипты с циклами, функциями, обработкой ошибок и работой с коллекциями;
  • умеете читать и модифицировать чужой код, в том числе с использованием pandas и DataFrame;
  • уверенно проходите простой live-coding по Python для DE: прочитать CSV/JSON, отфильтровать, сгруппировать данные и посчитать агрегаты.
  • можете отвечать как на простые вопросы собеседований (циклы, списки, словари), так и продвинутые (итераторы, декораторы, управление памятью, базовые понятия ООП)

Методологии разработки

Зачем это разработчику? 1. Работа в команде. Вам нужно понимать «правила игры». Почему задачи двигаются именно так? Зачем мы встречаемся каждое утро на 15 минут? Почему нельзя просто взять задачу из середины списка? 2. Собеседование и «легенда». Когда вас спросят: «Как строилась работа в вашей прошлой команде?», вы должны ответить грамотно. Использование правильной терминологии (спринты, груминг, ретроспектива, WIP-лимиты) — это маркер профессионализма. Это показывает, что вы не просто писали код в вакууме, а были частью налаженного процесса.

1. Основы и сравнение подходов

Для начала нужно понять глобальную разницу между жестким планированием (Waterfall) и гибкой разработкой (Agile).

2. Agile: Философия гибкости

Agile — это не метод, а философия. Scrum и Kanban — это инструменты этой философии.

3. Scrum (Скрам)

Используется, когда мы создаем продукт и работаем спринтами (циклами). Часто встречается в продуктовых командах, где DE работает в связке с Backend/Frontend.

4. Kanban (Канбан)

Используется для управления потоком задач и поддержки. Наиболее популярен в Data Engineering и DevOps, так как данные поступают непрерывно, и их сложно «запереть» в двухнедельный спринт.

Практика: Как это выглядит в жизни

Теория — это хорошо, но на работе вы увидите конкретный интерфейс (Jira или Yandex Tracker). Важно понимать, куда нажимать и как двигать задачи.

1. Jira (Мировой стандарт)

Самый популярный инструмент. Скорее всего, вы столкнетесь именно с ним. * Как работать с Jira на реальных проектах (15 мин) — Отличное видео, где показывают базу: как создать задачу, как перетащить её по доске (Kanban) и что писать в комментариях. Смотреть с 04:00, где начинается практика. * Создание и настройка Scrum-досок в JIRAЕсли хотите увидеть, как выглядит Спринт и Бэклог изнутри.

2. Yandex Tracker (Российский стандарт)

Активно внедряется в крупных компаниях РФ. Логика та же, но интерфейс другой. * Начало работы в Яндекс.Трекере (3 мин) — Супер-короткий официальный гайд. За 3 минуты показывают всё: очереди, доски, карточки. * Настройка процесса разработки в Tracker (c 06:37) — Более глубокий разбор: как выглядит очередь задач разработчика и жизненный цикл тикета.

💡 Совет: Не бойтесь кнопок. Главное правило любого трекера: «Взял задачу в работу — переведи статус в In Progress». Это сигнал команде, что вы заняты и вас лучше не отвлекать.

Когда блок «Методологии разработки» считаем пройденным:

  • вы в общих чертах можете объяснить разницу Waterfall vs Agile и Scrum vs Kanban;
  • знаете основные мероприятия Scrum (planning / daily / review / retro) и что от вас ожидается на каждом;
  • умеете работать с трекером (Jira/Tracker): создать/уточнить задачу, взять в работу, корректно двигать статусы и оставлять понятные комментарии;
  • умеете своевременно сообщать о блокерах и уточнять требования, если задача «не бьётся» или в ней не хватает входных данных.

Технические навыки

Продвинутый Git

Целевой уровень знания - понимание процесса GitFlow. Как создать ветку, влить изменения в другие ветки. Понимание, зачем. На собесах обычно не спрашивают, но нужно в работе.

Docker

  • Курс https://karpov.courses/docker

Основное предназначение для нас - учебные стенды, где мы разбираем и тренируемся с разными технологиями. На работе - иногда пригождается. На собесах спрашивают редко.

Запись встреч

OBS Studio

Когда блок технических навыков считаем пройденным:

  • вы понимаете базовый GitFlow: как организована работа с ветками в команде и как ваши коммиты попадают в прод;
  • используете Docker для учебных стендов: запускаете контейнеры, смотрите логи и при необходимости перезапускаете сервисы;
  • при необходимости умеете настроить запись экрана/созвонов, чтобы сохранять материалы обучения.

Практика и инструменты

[к оглавлению]

Airflow

Apache Airflow — инструмент для оркестрации ETL-процессов.

Мы используем его для:

  • планирования задач,
  • отслеживания зависимостей между шагами,
  • визуализации статуса выполнения.

Материалы:

Когда блок Airflow считаем пройденным:

  • вы можете объяснить, что такое DAG, задачи, операторы и сенсоры, и как между ними задаются зависимости;
  • на базе учебного стенда подготавливаете, отлаживаете и запускаете свои DAG'и с расписанием и несколькими шагами (например, загрузка данных и последующие трансформации);
  • уверенно смотрите логи, находите место падения и понимаете, как перезапустить задачу.

Greenplum

Разбираем, чем Greenplum отличается от PostgreSQL и зачем нужны MPP-хранилища.

Фундаментальная теория

Прежде чем нажимать кнопки, нужно понять "физику" больших данных. Почему обычный Postgres начинает тормозить?

  • Мартин Клеппман, "Высоконагруженные приложения":
    • Глава 1. Надежность, масштабируемость. (Разбираемся, чем вертикальное масштабирование отличается от горизонтального).
    • Глава 3 (только конец главы). Читаем разделы:
    • «Обработка транзакций или аналитика?» (OLTP or OLAP?) — ключевое различие нагрузок.
    • «Хранение по столбцам» — почему аналитика требует другого способа записи данных на диск.
    • Зачем: Это объясняет, почему Greenplum устроен именно так. Без этого вы будете пытаться работать с ним как с обычным Postgres.

Знакомство с Greenplum

Теперь, понимая теорию, смотрим, как это реализовано в конкретном инструменте.

Курс Yandex по Greenplum — основной учебный курс, рекомендуется пройти целиком:

  • Бесплатный курс Yandex Cloud по Greenplum
  • Практику по курсу удобно делать на стенде airflow-dwh-gp-labmake up поднимает рабочий Greenplum с PXF, не нужен облачный кластер.
  • Стенд покрывает основные темы курса: типы таблиц (heap / appendonly), политики дистрибуции, сжатие, PXF, анализ планов выполнения (EXPLAIN).
  • Единственное ограничение: cloud-специфичные темы (тема 2 курса — развёртывание в Yandex Cloud) на локальном стенде не покрыты.

Дополнительно:

Когда блок Greenplum считаем пройденным:

  • вы понимаете, как данные распределяются по сегментам, что такое skew и как его увидеть;
  • на базе стенда airflow-dwh-gp-lab можете загружать и выгружать данные в Greenplum, выполнять запросы и разбирать планы выполнения (EXPLAIN);
  • можете объяснить, в чём практическая разница между MPP-хранилищем и одиночным Postgres на уровне типичных задач DE и собеседований.

Курсовая работа

Курсовая работа — важный майлстоун роадмапа: ваш первый end-to-end data-проект. После неё у вас есть ключевые технические навыки для старта карьеры в Data Engineering.

Курсовая выполняется на том же стенде airflow-dwh-gp-lab, который вы уже использовали для практики по Greenplum.

Что внутри:

  • Стенд содержит DWH с реализованным эталонным срезом (STG → ODS → DDS → DM) — это ваш образец для подражания.
  • Задача — довести DWH до полного, реализовав недостающие загрузки по аналогии с эталоном.
  • Есть готовый план от аналитика (ТЗ с маппингами и бизнес-правилами) — не нужно придумывать, что делать.
  • Встроенная автоматическая проверка реализации поможет убедиться в корректности до проверки ментором.
  • Ветка main — рабочая (с заготовками для реализации), ветка solution — эталон для сверки.

Когда блок курсовой работы считаем пройденным:

  • все загрузки реализованы, DWH заполняется полностью (STG → ODS → DDS → DM);
  • автоматическая проверка (валидационный DAG) проходит без ошибок;
  • вы можете на собеседовании за 5–10 минут рассказать архитектуру проекта, его цели и показать ключевые части кода.

Понятие сложности алгоритмов

В Data Engineering редко требуется писать сложные алгоритмы, но важно понимать, как оценивать эффективность кода:

  • в SQL — через объём сканируемых данных, типы JOIN’ов, использование индексов;
  • в Python — через асимптотику операций с pandas/списками (например, O(n) vs O(n²)).

Это помогает избегать «тормозящих» решений на собеседованиях и в реальных пайплайнах.


Карьера и менторство

[к оглавлению]

Менторство по этому роадмапу

Если вы нашли этот роадмап в интернете и хотите пройти его не в одиночку, а с поддержкой ментора, можно присоединиться ко мне.

Что даёт менторство:

  • структурный план прохождения роадмапа под вашу ситуацию;
  • разбор вопросов по SQL / DWH / Airflow и другим темам из этого документа;
  • разбор домашних заданий и код-ревью;
  • помощь с подготовкой к собеседованиям (резюме, мок-интервью).

Как записаться

Просто напишите мне в Telegram: @dementev_dev
со словами «Хочу пройти роадмап с ментором» — дальше всё обсудим.

Подготовка к собеседованиям

Цель блока — сформировать «опыт от 2 лет» и уметь корректно его показать в резюме и на собеседовании.

Помощь в подготовке резюме

Поиск работы и собеседования

Помощь с прохождением испытательного срока

Когда блок подготовки к собеседованиям считаем пройденным:

  • у вас есть актуальное резюме под DE с понятными примерами проектов вместо «пустого» опыта;
  • вы умеете искать и отбирать вакансии на HH и Habr Карьера, адаптируя отклики под конкретную позицию;
  • вы прошли хотя бы пару мок-собеседований, получили обратную связь и по результатам доработали резюме и стратегию поиска.

Расширенные навыки

Эти темы выходят за рамки базового минимума для старта в Data Engineering, но дают более полное представление об экосистеме.
Их цель — понимать, зачем и когда используется тот или иной инструмент, а не осваивать его на уровне администратора или DevOps-инженера.

[к оглавлению]

Мы кратко знакомимся с:

  • Streaming (NiFi + Kafka) — инструментами для построения потоковых и интеграционных пайплайнов;
  • ClickHouse — колоночной СУБД для высоконагруженной аналитики;
  • Lakehouse (Spark, Iceberg, Trino) — архитектурой, построенной на разделении compute и storage;
  • dbt — подходом к трансформации данных как кода.

Практика ограничивается минимальным рабочим примером (запуск в Docker, простой пайплайн или SQL-модель). Этого достаточно, чтобы уверенно говорить об инструменте на собеседовании и понимать его место в архитектуре — а всё остальное при необходимости осваивается уже на проекте.

ClickHouse

Бесплатный курс https://yandex.cloud/ru/training/clickhouse
Платный курс ClickHouse для аналитика – Stepik

Streaming (NiFi + Kafka)

NiFi — визуальный конструктор потоков данных, Kafka — распределённая очередь сообщений. Вместе они закрывают типичный сценарий: принять данные, буферизовать, доставить в хранилище.

Материалы:

Практика — на стенде nifi-kafka-postgres-lab (Docker Compose с NiFi, Kafka и Postgres):

  • настраиваем в NiFi простой генератор данных и поток в Postgres;
  • строим поток NiFi → Kafka → NiFi → Postgres.

Lakehouse (Spark, Iceberg, Trino)

Секция в разработке. Lakehouse — отдельное направление в DE, построенное на разделении compute и storage, открытых табличных форматах (Iceberg, Delta) и движках распределённой обработки (Spark, Trino). Этот роадмап фокусируется на классическом DWH-стеке, поэтому полноценный блок пока не готов — ниже только отправные точки для самостоятельного изучения.

dbt

dbt (data build tool) — инструмент для трансформации данных в хранилище.

Мы рассматриваем его как альтернативу «ручному» написанию сложных CTE и для понимания современного подхода к моделированию данных как кода.

Материалы:

Практика:

  • Клонировать jaffle-shop, установить dbt-duckdb, прогнать dbt build, dbt test, dbt docs generate && dbt docs serve — этого достаточно, чтобы увидеть весь цикл.

Когда блок расширенных навыков считаем пройденным:

  • вы можете на собеседовании кратко объяснить, когда уместны Streaming (NiFi/Kafka), ClickHouse, Lakehouse-стек и dbt, и чем они дополняют базовый стек (Postgres, Airflow, Greenplum);
  • понимаете типичные сценарии: потоковые интеграции и очереди (NiFi + Kafka), аналитические витрины и отчёты на ClickHouse, Lakehouse-архитектура (Spark/Iceberg/Trino), трансформации данных как код (dbt);
  • не боитесь увидеть эти инструменты в описании вакансии и можете поддержать содержательный разговор об их месте в архитектуре.

Софт скиллы

[к оглавлению]

Все ветви дохода в IT / Полный гайд по деньгамГайд как писать отзывы
Гайд по Антистрессу


Дополнительные материалы

[к оглавлению]

Записи ОМ