Цель курса:
•определять источники сбора информации и формировать требования к ним;
•применять стандартный CRISP-DM процесс для Вашей организации;
•подбирать команду для работы с большими данными (Big Data);
•выбирать инструментарий для практической работы;
•применять специализированные инструменты Excel – «Пакет анализа данных» и «Тренды»;
•применять «дерево решений»;
•определять подходящие инструменты и методы для решения основных классов задач машинного обучения и взаимодействовать с разработчиками;
•использовать методы классификации данных для машинного обучения;
•подбирать выборки разработки, тестовую и обучающую для достижения наилучших результатов анализа информации;
•организовывать реорганизацию работы компании для применения управления на основе больших данных.
Предварительная подготовка:
Microsoft Excel 2019/2016. Уровень 1. Работа с Excel 2019/2016
Модуль 1. Область применения больших данных. Типовые задачи.
•Цели курса
•Определение основных понятий
•История науки о данных
•Выгоды от работы с большими данными
•Типовые задачи: прогноз продаж, производства, спроса. Анализ поведения. Распознавание образов.
•Экспертные системы.
Модуль 2. Сбор и подготовка исходных данных. Методика CRISP-DM С чего начать. Межотраслевая стандартная методика работы с данными CRISP-DM
•Описательное и ассоциативное исследование исходных данных
•Сегментирование и очистка данных (slice and dice). Примеры инструментов Excel
•Визуализация данных в Excel. Как использовать сводные таблицы и диаграммы
•Практическая работа. Сегментировать и очистить тестовый набор данных.
Модуль 3. Основы математической статистики. ANOVA.
•Надстройка Excel «Пакет анализа»
•Описательная статистика
•Среднее, наиболее вероятное, медиана
•Дисперсия, стандартное отклонение, стандартная ошибка
•Виды распределений
•Пакет анализа данных Excel
•Обзор других прикладных средств работы с данными (R, Python, Octave, MathLab, специализированные БД). Практическая работа. Определить статистические характеристики выборки данных.
Модуль 4. Задача прогноза продаж. Понятие машинного обучения.
•Корреляция. Регрессионный анализ
•Постановка задачи оценки взаимосвязи между различными факторами и построение прогноза
•Корреляция. Коэффициент Пирсона
•Критерий Стьюдента (T-анализ)
•Основы машинного обучения
•Регрессионный анализ
•Критерий Фишера
•Построение и анализ трендов в Excel
•Практическая работа. Определить наличие корреляции и регрессионную зависимость между двумя выборками данных. Построить тренд.
Модуль 5. Задачи классификации и распознавания образов, видео, речи, текста. Понятие нейронных сетей. Примеры применения.
•Задача сегментации дискретных данных на примере задач распознавания (графика, речь, текст)
•Нейронные сети как инструмент решения задач классификации
•Демонстрация на примерах Azure, AWS
•Задачи классификации данных в социальных сетях и поиска оптимального решения (маршрута)
•Графы как инструмент решения задач на социальных графах и прогнозирования поведения
•Дерево решений
•Разбиение на выборки (обучающую, тестовую, проверочную)
•Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
•Практическая работа: провести классификацию набора данных и его разбиение на сегменты.
Модуль 6. Задача исследования социальных сетей. Задача прогнозирования поведения пользователя. Социальные и направленные графы. Деревья решений. Примеры применения
•Задача классификации данных в социальных сетях
•Графы как инструмент решения задач на социальных графах и прогнозирования поведения
•Разбиение на выборки (обучающую, тестовую, проверочную)
•Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
Модуль 7. Продвинутые инструменты: глубокое машинное обучение, искусственный интеллект, нечеткие множества
•Понятие Deep Machine Learning
•Многофакторный бизнес анализ на примере нечетких логик
Модуль 8. Профориентация по специальностям в Data Science. Выводы и рекомендации по построению и организации работы команды
•Роли специалистов по DS: аналитик данных, ученый по данным, программист, цифровой директор
•Требования к компетенциям и взаимодействию сотрудников в области аналитики данных
•Состав и требования к проектной команде для DS
•Подготовка компании к применению «бигдата»