Материал подготовлен на основе учебного курса SAP Business Warehouse 380 – «Analysis Processes and Data Mining».
Работа с Data Mining начинается с транзакции TCode: RSDMWB (Инструментальные свойства – сбор данных).
- Среди возможных алгоритмов Data Mining в SAP реализованы следующие:
- Классификация
- Кластеризация
- Ассоциация
- Регрессионные модели
- Другие (SAP AG находится в процессе разработки новых методов и улучшения старых)
В каждой из этих категорий создаются соответствующие модели сбора данных, производится обучение. Далее возможно тестирование и последующее использование обученных моделей.
Нажатие правой кнопкой на выбранный тип модели сбора данных позволяет перейти к созданию модели:
Необходимо дать имя модели, описание и выбрать основу создаваемой модели. За основу могут быть выбраны предыдущие созданные модели («Использовать модель как образец» или «BW-запрос»). Если модель является первой – ее можно создать только вручную.
Среди предлагаемых операций после ввода заголовка и способа формирования модели есть возможность экспортировать модель в PMML – Predictive Model Markup Language. Очень полезная возможность, позволяющая работать с обученной в SAP моделью в других инструментах Data Mining. Создайте необходимые поля и параметры модели.
Самое основное, что здесь нужно сделать – определить тип полей. Задание типа необходимо для правильного функционирования модели сбора данных. Среди возможных значений типа поля есть следующие:
- Ключевое поле
- Дискретный тип
- Непрерывное значение
Созданную модель теперь можно использовать, предварительно обучив, то есть определив каким алгоритмом будет обучаться модель, откуда будет брать данные. Эта операция производится по нажатию кнопки «Проектировщик процессов анализа» в инструментальных средствах анализа или «Моделирование» в свойствах модели.
Процесс анализа представляет собой поток данных из различных источников в различные цели данных через определенные виды трансформаций. На скриншоте выше представлен набор инструментов, которые могут быть использованы при проектировании рабочей модели. Используя эти инструменты строится логика потока данных, начиная от обучения модели, заканчивая выдачей результатов работы обученной модели.
- Выделяются три группы инструментов:
- источники данных;
- преобразования;
- цели данных;
В качестве источников могут быть выбраны инфо-объекты, инфо-провайдеры, BEx-запросы, реляционные таблицы и плоские файлы.
Инструменты трансформации представлены значительно шире, в зависимости от формы дальнейшего использования данных выделяются две подгруппы.
-
- Цели данных общего назначения:
- CRM-системы;
- Исследовательские цели;
- Мастер-данные;
- ODS-объекты;
- Цели данных, предназначенные для обучения с помощью алгоритмов Data Mining:
- Деревья решений;
- Кластерные модели
- Скоринговые модели
- Third-party модели
- Ассоциативные модели
определение источника, вида трансформации и цели данных в продолжении статьи.









Alexander Sulimanov