Datalogy.ru

Карта сайта

Немного о SAP Data Mining

Материал подготовлен на основе учебного курса SAP Business Warehouse 380 – «Analysis Processes and Data Mining».
Работа с Data Mining начинается с транзакции TCode: RSDMWB (Инструментальные свойства – сбор данных).

    Среди возможных алгоритмов Data Mining в SAP реализованы следующие:

  • Классификация
  • Кластеризация
  • Ассоциация
  • Регрессионные модели
  • Другие (SAP AG находится в процессе разработки новых методов и улучшения старых)

В каждой из этих категорий создаются соответствующие модели сбора данных, производится обучение. Далее возможно тестирование и последующее использование обученных моделей.


Инструментальные средства Data Mining

Инструментальные средства Data Mining

Нажатие правой кнопкой на выбранный тип модели сбора данных позволяет перейти к созданию модели:

Создание модели сбора данных

Создание модели сбора данных

Необходимо дать имя модели, описание и выбрать основу создаваемой модели. За основу могут быть выбраны предыдущие созданные модели («Использовать модель как образец» или «BW-запрос»). Если модель является первой – ее можно создать только вручную.

Создание модели

Заполнение параметров создаваемой модели

Создание модели кластеризации

Заполнение параметров создаваемой модели

Среди предлагаемых операций после ввода заголовка и способа формирования модели есть возможность экспортировать модель в PMML – Predictive Model Markup Language. Очень полезная возможность, позволяющая работать с обученной в SAP моделью в других инструментах Data Mining. Создайте необходимые поля и параметры модели.

Поля и параметры модели

Поля и параметры модели

Поля и параметры модели

Поля и параметры модели

Самое основное, что здесь нужно сделать – определить тип полей. Задание типа необходимо для правильного функционирования модели сбора данных. Среди возможных значений типа поля есть следующие:

  • Ключевое поле
  • Дискретный тип
  • Непрерывное значение
Созданная модель сбора данных

Созданная модель сбора данных

Созданную модель теперь можно использовать, предварительно обучив, то есть определив каким алгоритмом будет обучаться модель, откуда будет брать данные. Эта операция производится по нажатию кнопки «Проектировщик процессов анализа» в инструментальных средствах анализа или «Моделирование» в свойствах модели.

Проектирование процессов анализа

Проектирование процессов анализа

Процесс анализа представляет собой поток данных из различных источников в различные цели данных через определенные виды трансформаций. На скриншоте выше представлен набор инструментов, которые могут быть использованы при проектировании рабочей модели. Используя эти инструменты строится логика потока данных, начиная от обучения модели, заканчивая выдачей результатов работы обученной модели.

    Выделяются три группы инструментов:

  • источники данных;
  • преобразования;
  • цели данных;

В качестве источников могут быть выбраны инфо-объекты, инфо-провайдеры, BEx-запросы, реляционные таблицы и плоские файлы.
Инструменты трансформации представлены значительно шире, в зависимости от формы дальнейшего использования данных выделяются две подгруппы.

    • Цели данных общего назначения:

    • CRM-системы;
    • Исследовательские цели;
    • Мастер-данные;
    • ODS-объекты;
  1. Цели данных, предназначенные для обучения с помощью алгоритмов Data Mining:
    • Деревья решений;
    • Кластерные модели
    • Скоринговые модели
    • Third-party модели
    • Ассоциативные модели

определение источника, вида трансформации и цели данных в продолжении статьи.

  Alexander Sulimanov