[МФТИ] Старт в Data Engineering (Антон Поляков, Гайк Инанц)

Аноним · 11.12.2020

Автоматизируете процессы сбора, очистки и анализа реальных данных без разработчиков (ETL)
Освоите инструменты: Git, SQL, базовый Python
Научитесь работать с хранилищами данных (DWH)

Для кого курс?

Аналитики

Получите навыки работы с хранилищами данных.
Сможете автоматизировать сбор, трансформацию и очистку данных с помощью SQL и Python без разработчиков.
Повысите компетенции для перехода в роль data engineer или data scientist.

Начинающие IT-специалисты

Получите навыки работы с хранилищами данных, SQL, базовым Python и репозиторием GitHub.
Набьете руку в сборе, очистке и хранении данных.
Сможете дальше развиваться как data engineer или аналитик.

Маркетологи

Научитесь быстро извлекать нужные данные без помощи разработчиков.
Научитесь считать статистику по извлеченным данным без привлечения аналитиков.
Научитесь работать с одними из самых востребованных в ИТ инструментами: SQL, Python, GitHub.

Менеджеры, владельцы бизнесов

Узнаете, как устроены процессы сбора, очистки, хранения и анализа данных в современных компаниях.
Поймете, зачем нужны хранилища данных (DWH) и как их использовать.
Научитесь быстро извлекать нужные данные без помощи разработчиков.

Начинающие разработчики

Научитесь проектировать и реализовывать процессы сбора, очистки, хранения и анализа данных.
Получите навыки работы с хранилищами данных, SQL, Python и GitHub.
Повысите компетенции для перехода в роль data engineer или data scientist.

Описание курса
На курсе мы научимся настраивать и автоматизировать процессы сбора, трансформации, очистки, хранения и первичного анализа данных с помощью SQL и базового Python на примерах реальных задач (примеры задач можно посмотреть в программе ниже).
Во втором блоке курса начинается работа над выпускным проектом, для которого есть два варианта выполнения:

взять задачу, заранее подготовленную преподавателями;
согласовать собственную тему, например, связанную с работой слушателя.

На проекте, который подготовили преподаватели, слушателей ждет работа с реальными транзакционными банковскими данными. C помощью Python и SQL слушатели реализуют:

собственное хранилище данных – DWH;
процесс сбора, очистки, трансформации и хранения данных;
систему автоматического поиска мошеннических операций (AntiFraud-система).

Спойлер: Программа
БЛОК I
Неделя 1.
Создание и заполнение таблиц, базовый синтаксис запросов SQL
Научимся строить таблицы, задавать в них форматы полей и ограничения, заполнять таблицы данными. Будем практиковаться писать обращения к таблицам и получать из них данные по простым условиям.
Мы вместе выполним следующее задание:
- создадим ER-модель процесса покупки-продажи акций компании пользователем;
- создадим таблицы по спроектированной модели;
- сформируем таблицы с данными определенных групп пользователей:
- пользователи из Москвы;
- акции компаний, выставленные на торги менее недели назад;
- данные об акциях определенной ценовой категории;
- данные об акциях определенных компаний.
Неделя 2.
Объединение и агрегация данных
Научимся объединять данные из разных таблиц и формировать более сложные запросы, обращаясь сразу к нескольким таблицам. Попрактикуемся в агрегации данных, что позволит нам строить запросы для получения простейшей статистики из данных.
Мы загрузим таблицу о клиентах интернет-магазина, таблицу с их заказами и таблицу с описанием этих заказов. После чего ответим на вопросы:
- Сколько клиенты всего потратили денег за год?
- Какое соотношение онлайн и оффлайн заказов среди клиентов?
- Каких товаров продали больше всего?
- Какие товары принесли наибольшую выручку за последний год?
Неделя 3.
Регулярные выражения и очистка данных
Разберем продвинутые методы работы с строками, изучим регулярные выражения. Это позволит делать более сложную и тонкую обработку строк и поиск по строкам. Кроме того, начнем практиковаться в очистке данных.
Мы реализуем процесс по очистке, валидации и приведению к единому виду данных, оставленных пользователями при регистрации в wifi-сети банковского отделения.
БЛОК II
Неделя 4.
Старт выпускного проекта. Основы UNIX (Linux) систем. Python для создания процессов обработки данных
Начнем готовиться к выпускному проекту и выбирать тему. Слушатель может выполнять заранее подготовленный преподавателем проект, либо согласовать собственную задачу. На этой неделе мы научимся выстраивать полноценный процесс обработки данных с использованием нескольких самописных Python приложений.
Кроме того, на этой неделе будет краткий экскурс в *nix системы, узнаем, как подключаться по ssh к *nix серверу, как выполнять пакеты и как планировать задачи с помощью crontab.
Неделя 5.
Оконные функции в SQL. Библиотека SQLite
Научимся создавать CRUD приложения на python, которое будет сохранять данные в базе данных SQLite.
После этого мы перейдем к довольно сложной, но очень полезной теме – оконным функциям. С их помощью мы научимся решать сложные аналитические задачи.
Научимся создавать локальные базы данных (без подключения к стороннему серверу) и обрабатывать данные – очень полезно, например, если служба безопасности не дает подключаться к сторонним сервисам.
Неделя 6.
Оконные функции и паттерны хранения данных
Разберемся, какие существуют шаблоны (паттерны) хранения данных и продолжим практиковаться в написании сложных оконных функций. Изучим, какие шаблоны хранения используются в современных DWH, научимся хранить историю изменения данных.
Неделя 7.
Инкрементальная загрузка. Оптимизация запросов
Мы изучим подход инкрементальной загрузки, что позволяет снимать с системы актуальное состояние и записывать данные в историческую таблицу. Кроме того, мы будем практиковаться в анализе запросов и их оптимизации.
Мы создадим ETL-процесс ежедневной загрузки транзакционных данных телекома и с помощью индексов ускорим работу некоторых запросов.
Неделя 8.
Разбор задач с собеседований и повторение материала
Будем практиковаться в решении наиболее часто встречающихся задач с собеседований на начинающих Data Engineer, аналитиков и другие близких data-специальностей. Вспомним и еще раз систематизируем все, что изучили на курсе.
Неделя 9-10.
Доработка выпускного проекта. Консультации с преподавателями
В эти две недели дорабатываем выпускные проекты, консультируемся с преподавателями.
Слушатели приходят к преподавателю на консультации с своими вопросами
Неделя 11.
Защита проектов. Подведение итогов курса.

[МФТИ] Старт в Data Engineering (Антон Поляков, Гайк Инанц)

Маска Организаторов

Складчина: [МФТИ] Старт в Data Engineering (Антон Поляков, Гайк Инанц)