Close

Стандарт CRISP в машинном обучении

CRISP (Cross-Industry Standard Process for Data Mining) – это модель жизненного цикла исследования данных для систем машинного обучения.

Стандарт появился еще в 1996 году, разработку его вели компании: ISL, NCR Corporation, Daimler-Benz, OHRA. Первая полноценная версия() вышла в 1999 году. В 2015 корпорация IBP выпустила новую методологию которая усовершенствует и обновляет CRISP.

Методология CRISP разбивает процесс машинного обучения на 6 этапов.

1. Понимание проблемы (Business Understanding). Этот этап направлен на определение целей и требований к проекту со стороны бизнеса. Составляется план проекта.

2. Понимание данных (Data Understanding). Эта фаза включает в себя поиск источников, сбор данных, формирование гипотез о скрытых закономерностях в данных. Также в ней выявляются ошибки в данных, выбросы, пропуски, оценивается качество данных.

3. Подготовка данных (Data preparation). Здесь из общего массива данных выбираются данные нужные для модели. Производятся преобразования данных (one-hot encoding, например), перевод в нужные форматы, комбинирование с целью получения новых данных.

4. Моделирование (Modeling). В этом этапе используются разнообразные методики моделирования и алгоритмы, производятся тесты модели. Из-за смены моделей возможен частый возврат на предыдущий этап.

5. Оценка модели (Evaluation). Нужно убедиться, что модель покрывает все поставленные бизнесом цели. Вычисляются оценки ее качества, производится ревью процесса.

6. Развертывание (Deployment). Последний этап часто представляет собой простое формирование отчета. Но во многих случаях включает в себя автоматизацию какого-либо процесса анализа данных, внедрения построенной модели в какую-либо информационную систему для решения задач бизнеса.

Поделиться: