Интеллектуальный анализ данных и процессов

Лекции

Раздел 1. Основы интеллектуального анализа данных

1-2 недели (2 часа).
Системы поддержки принятия решений. Задачи систем поддержки принятия решений (СППР). Базы данных – основа СППР. Неэффективность использования OLTP-систем для анализа данных.
Хранилища данных. Концепция хранилища данных (ХД). Организация ХД. Виды представления данных: БД, веб-ресурсы, файлы, документы и пр. Очистка данных. Концепция ХД и анализ.
3-4 недели (2 часа).
OLAP-системы. Многомерная модель данных. Определение OLAP-системы. Концептуальное многомерное представление. Архитектура OLAP-систем.
Математические основы интеллектуального поиска и анализа данных. Нечёткие системы, нейронные сети, генетические алгоритмы, кластеризация и классификация объектов.
5-6 недели (2 часа).
Интеллектуальный анализ данных (data mining). Добыча данных (data mining). Задачи, методы, извлечение знаний из данных, стандартизация. Практическое применение data mining. Модели процесса обнаружения знаний.
Классификация и регрессия. Постановка задачи. Представление результатов. Методы построения правил класиификации. Методы построения деревьев решений. Методы построения математических функций. Прогнозирование временных рядов.
7-8 недели (2 часа).
Поиск ассоциативных правил. Постановка задачи. Представление результатов. Алгоритмы поиска ассоциативных правил.
Кластеризация. Постановка задачи кластеризации. Представление результатов. Базовые алгоритмы кластеризации. Адаптивные методы кластеризации.

Раздел 2. Анализ различных видов данных. Анализ процессов

9-10 недели (2 часа).
Визуальный анализ данных (visual mining). Выполнение визуального анализа данных. Характеристики средств визуализации данных. Методы визуализации.
Анализ текстовой информации (text mining). Задачи анализа текстов. Извлечение ключевых понятий из текста. Классификация текстовых документов. Методы кластеризации текстовых документов. Задача аннотирования текстов. Средства анализа текстовой информации.
11-12 недели (2 часа).
Стандарты по интеллектуальному анализу данных. Стандарт CWM. Стандарт CRISP. Стандарт PMML. Библиотека Xelopes.
Распределенный анализ данных. Системы мобильных агентов. Использование мобильных агентов для анализа данных. Система анализа распределенных данных.
13-15 недели (3 часа).
Анализ данных в режиме реального времени. Идея интеллектуального анализа данных в реальном масштабе времени. Рекомендательные машины. Инструменты интеллектуального анализа данных в реальном масштабе времени.
Извлечение знаний из веб-ресурсов (web mining). Проблемы анализа информации, извлекаемой из веб-ресурсов. Методы извлечение веб-контента. Извлечение веб-структур. Исследование использования веб-ресурсов.
Средства анализа процессов (process mining). Автоматизация выполнения бизнес-процессов. Анализ процессов. Методы интеллектуального анализа процессов. Библиотеки алгоритмов анализа процессов.

Семинары

  1. Нечёткая логика. Системы нечёткого логического вывода.
  2. Нейронные сети.
  3. Генетические алгоритмы.
  4. Инструментальные программные средства поддержки интеллектуального анализа данных.
  5. Задачи классификации и кластеризации.
  6. Задачи поиска ассоциаций.
  7. Задачи анализа визуальной информации.
  8. Задачи анализа текстовой информации.
  9. Задачи распределенного анализа данных.
  10. Задачи анализа данных в реальном масштабе времени.
  11. Задачи анализа веб-ресурсов.
  12. Анализ процессов.

Литература

  1. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. – 3-е изд. – СПб.: БХВ-Петербург, 2009. – 512 с. (+CD)
  2. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. – М.: Изд. дом «Вильямс», 2011. – 528 с.
  3. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы / под ред. В.М. Курейчика. 2-е изд. – М.: Физматлит, 2010. – 368 с.