Цель курса:
SQL Server 2016 – это новая версия универсальной платформы для управления данными, разработки бизнес-приложений и проектов бизнес-аналитики.
Цель курса - предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server..
Целевая аудитория:
Специалисты, анализирующие огромные наборы данных, а также разработчики, использующие R в своих проектах.
После окончания курса Вы будете уметь:
- описывать работу Microsoft R;
- использовать клиента R и Server R для обработки больших данных из разных хранилищ;
- визуализировать данные с помощью графиков и схем;
- преобразовывать и очищать наборы больших данных;
- использовать способы разделения аналитических задач на параллельные задачи;
- строить и оценивать регрессионные модели, генерируемые на основе больших данных;
- создавать, оценивать и разворачивать партиционированные модели на основе больших данных;
- использовать язык R в средах SQL Server и Hadoop.
Предварительная подготовка:
Успешное окончание курсов:
Английский язык уровень Elementary.
Модуль 1. Сервер и клиент Microsoft R
• Обзор сервера Microsoft R
• Использование клиента Microsoft R
• Функции ScaleR
Лабораторная работа: Обзор сервера и клиента Microsoft R
• Использование клиента R в VSTR и RStudio
• Обзор функций ScaleR
• Подключение к удалённому серверу
Модуль 2. Обзор больших данных
• Источники данных ScaleR
• Чтение данных в XDF-объекте
• Обобщение данных в XDF-объекте
Лабораторная работа: Обзор больших данных
• Чтение локального CSV-файла и передача данных в XDF-файл
• Преобразование данных на входе
• Чтение данных из SQL Server и передача в XDF-файл
• Подведение итогов в XDF-файле
Модуль 3. Визуализация больших данных
• Визуализация данных в памяти
• Визуализации больших данных
Лабораторная работа: Визуализация данных
• Использование ggplot для создания многогранной диаграммы с наложением
• Использование rxlinePlot и rxHistogram
Модуль 4. Обработка больших данных
• Преобразование больших данных
• Управление наборами данных
Лабораторная работа: Обработка больших данных
• Преобразование больших данных
• Сортировка и слияние больших данных
• Подключение к удаленному серверу
Модуль 5. Распараллеливание операций анализа
• Использование вычислительного контекста RxLocalParallel с функцией rxExec
• Использование пакета revoPemaR
Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
• Использование rxExec для оптимизации использования ресурсов
• Создание и применение класса PEMA
Модуль 6. Создание и оценка регрессионной модели
• Кластеризации больших данных
• Создание регрессионных моделей и подготовка прогнозов
Лабораторная работа: Создание линейной регрессионной модели
• Создание кластера
• Создание регрессионной модели
• Генерация данных для составления прогнозов
• Использование модели для составления прогнозов и сравнение результатов
Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)
• Создание партиционированных моделей на основе дерева решений.
• Тестирование прогнозов партиционированных моделей
Лабораторная работа: Создание и оценка партиционированных моделей
• Разбиение набора данных
• Построение моделей
• Подготовка прогноза и тестирование результатов
• Сравнение результатов
Модуль 8. Обработка больших данных в SQL Server и Hadoop
• Использование R в SQL Server
• Использование Map/Reduce в Hadoop
• Использование Hadoop Spark
Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
• Создание модели и прогнозирования результатов в SQL Server
• Анализ и вывод результата с помощью Map/Reduce в Hadoop
• Интеграция скрипта sparklyr в рабочий процесс ScaleR