[bigdata team] Практический курс по Big Data. Часть 3. RT, NoSQL, Data layout, Kafka

Pac-Man · 05.05.2023

Вы научитесь работать с потоковой обработкой данных, познакомитесь с Kafka и Spark Structured Streaming, освоите NoSQL поверх больших данных, подружите Spark с Cassandra.

Подробнее о каждом модуле и полезных навыках, которые вы освоите в модуле, мы рассказали ниже.

В этом модуле вы изучите:

подходы к Realtime-обработке;

гарантии обработки, переход от одной гарантии к другой, архитектуры "Лямбда" и "Каппа";

Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream;

архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей;

семантики доставки сообщений, сжатие данных в Kafka, синхронная и асинхронная репликация.

отличия Key-Value хранилищ от реляционных БД;

компактификация и её виды, CQLSH;

архитектура Cassandra;

обеспечение надёжности и высокодоступности в Key-Value хранилищах;

интеграция Spark с Cassandra.

как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках;

trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные;

форматы данных в Big Data: ORC vs Parquet, Avro

[bigdata team] Практический курс по Big Data. Часть 3. RT, NoSQL, Data layout, Kafka

Складчина: [bigdata team] Практический курс по Big Data. Часть 3. RT, NoSQL, Data layout, Kafka