[bigdata team] Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive

Карамелькина · 05.05.2023

Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce вычислений и работой с Hive.

Часть 1.
HDFS, Map Reduce, Hive

В этом модуле вы изучите:

вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;

распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;

чтение и запись в HDFS. HDFS APIs: Web, shell.

Hadoop Streaming;

элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).

приложения с несколькими Hadoop-задачами;

тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);

задачи с несколькими входами. Joins в Hadoop.

архитектура Hive, виды таблиц, форматы хранения данных;

трансляция Hive-запросов в MapReduce-задачи;

сериализация и десериализация;

тюнинг Join'ов в Hive;

партиционирование, бакетирование, семплирование;

User defined functions, Hive Streaming.

[bigdata team] Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive

Складчина: [bigdata team] Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive