Анализ данных в промышленных компаниях в настоящее время переживает ажиотаж. Многие компании хотят использовать потенциал существующих или вновь сгенерированных данных и объединить команды аналитиков данных или исследователей данных. Это часто приводит к проблемам: определенные цели и ожидания нереальны, экономия не может быть измерена или необходимые данные не доступны. Типичная проблема - традиционно разработанные планы проектов со строго определенными целями и результатами, которые не соответствуют типичным проектам анализа данных. Далее рассказывается о том, как успешно создать команду для анализа данных и на что обратить внимание.
Подсказка к книге
Следующая статья взята из специализированной книги Data Analytics. Учебник подробно описывает на конкретных примерах, как аналитика данных может быть реализована в компании.
Команда для анализа данных нуждается:
- Аналитики данных / ученые данных
- Инженер данных / Архитекторы данных
- Бизнес-аналитики / отделы
- Разработчики программного обеспечения / системные администраторы
Что должен уметь аналитик данных / ученый данных

Аналитик данных должен иметь три основных навыков взять с собой, как показано на рисунке: навыки взлома, математики и статистики, а также знания предметной области. «Навыки взлома» означает глубокое знание языков программирования и парадигм. Это означает, что хотя специалист по обработке данных не обязан быть разработчиком программного обеспечения, он все же должен иметь опыт использования языков программирования. «Математика и статистика» составляют центральную основу любого хорошего аналитика данных. Применение этих знаний распространяется от первого взгляда на данные (например, с использованием статистических средств) до окончательного моделирования на всех этапах работы аналитика. Третий компонент, «знание предметной области», описывает знания и опыт в рабочей среде, в которой находится аналитик данных. Это знание процессов внутри компании,но прежде всего о продуктах и процессах их производства. В зависимости от области, в которой должен проводиться анализ данных, могут быть полезны знания о процессах контроля, продаж и закупок или о производстве и качестве продукции.
Роль инженера данных / архитектора данных:
Инженер данных должен получить обзор всех или, по крайней мере, ограниченной части источников данных в компании, собрать их вместе и формализовать их таким образом, чтобы для аналитиков данных было разработано своеобразное предложение «данные как услуга». Его инструментами являются карты данных, которые подробно описывают, какие данные находятся в компании, и инструменты ETL (извлечение = извлечение, преобразование = преобразование и загрузка = загрузка), которые были специально разработаны для извлечения, объединения и подготовки данных. В идеале это создает озеро данных или концентратор данных, в котором данные из всех необходимых источников данных объединяются. Это позволяет аналитикам данных собирать данные для вариантов использования.
Совет: сообщите онлайн
Благодаря онлайн-предложениям, таким как Coursera, edX или O'Reilly Safari, стало проще, чем когда-либо, разобраться с темой обработки и анализа данных и накопить ценные знания. Многие из упомянутых предложений, по крайней мере, бесплатны для просмотра, поэтому расходы возникают только в том случае, если используются упражнения или требуются сертификаты после успешного завершения. Качество таких курсов высокое, а предоставляемые ресурсы разнообразны и практичны. Это означает, что новый потенциал в компании может быть создан не только через новые умы, но и через дальнейшее обучение аффинных сотрудников.
Бизнес-аналитик / отдел в команде:
Специалисты являются спонсорами аналитических проектов. У них есть важные для бизнеса цели, которые должны поддерживаться анализом данных. Кроме того, они предоставляют знания предметной области, необходимые для успешного проектирования моделей. Более крупные компании также предоставляют бизнес-аналитикам, которые находятся в тесном контакте с департаментами. Они поддерживают связь между отделами и аналитиками и обладают подробными знаниями предметной области для разработки новых идей вместе с отделами. В дополнение к глубоким знаниям предметной области, бизнес-аналитики в идеале должны обладать достаточными знаниями в области ИТ или основами анализа данных, чтобы выполнить первоначальный предварительный выбор и приоритизацию тем при необходимости.
Роль разработчика программного обеспечения / системного администратора
Как только аналитические модели должны быть интегрированы в операционные процессы компании, необходимо привлекать разработчиков программного обеспечения и системных администраторов. Они гарантируют, что модели будут переведены на системные языки программирования в соответствии с существующей ИТ-инфраструктурой, соблюдены требования надежности и эффективности и что они не будут мешать другим критически важным для бизнеса системам.

Как может быть построена команда
Создание аналитических команд ставит перед компаниями несколько задач. Возникают вопросы относительно того, сколько или каких аналитиков данных требуется, где они должны находиться в структуре компании и должны ли и когда должны быть исполнены другие роли, такие как инженеры данных или бизнес-аналитики. В частности, возникает вопрос о первоначальном размере команды аналитиков: либо компания начинает с небольшой команды, которая может постепенно расти, либо с большой команды. Оба подхода имеют свои преимущества и недостатки, которые объясняются ниже.
Плюсы и минусы небольшой команды
Начните с небольшой команды: персонал для реализации первых вариантов использования и получения опыта.
Преимущества: Низкое начальное усилие также для вспомогательных функций (HR, менеджмент); Структуры возникают частично независимо при построении команды (высокие потенциалы)
Недостатки: необходима четкая расстановка приоритетов тем
Риски: Проблемы не решаются вовремя, что вызывает разочарование в компании
Анализ данных с большой командой
Начните с большой команды: выполняйте все соответствующие роли (включая инженеров по обработке данных и бизнес-аналитиков)
Преимущества: быстрая видимость и проникновение в компанию; Развитие и занятие структуры планируется с самого начала.
Недостатки: высокие начальные расходы также на вспомогательные функции (управление персоналом, управление); Затраты понесены с первого дня, в то время как структуры и цели все еще должны быть определены (использование риска)
Риски: Если основные технические проблемы не будут решены, многие проекты не могут быть реализованы, что означает, что ресурсы тратятся впустую, по крайней мере, на начальном этапе.
Подсказка к книге
Как найти подходящих специалистов для группы по анализу данных и советы по собеседованию можно найти в книге специалистов Data Analytics, из которой была создана эта статья.
Как аналитические проекты должны работать с использованием модели CRISP-DM

Кто занимается анализом данных и подход к анализу данных, неизбежно заканчивается в CRISP-DM, то « Кр ОСС Я ndustry S tandard Р rocess для D ата M ining». Процедурная модель для анализа данных, которая уже была разработана в 1990-х годах, была разработана в рамках европейской исследовательской инициативы совместно с такими компаниями, как Teradata, IBM и Daimler, и сегодня представляет собой своего рода стандарт де-факто. Ниже будет кратко описан каждый шаг.
1. Понимание бизнес / прецедентов
Первый шаг, понимание требований от отдела, описывает первый контакт между аналитиком данных и отделом. Целью этой встречи должно быть прояснение следующих моментов:
- Контекст: каковы цели отдела?
- Цель / ожидания: Каковы их ожидания от результатов?
- Ситуация с данными: какие данные доступны? Доступны ли данные? Кто является владельцем данных?
- Сотрудничество: как департамент хочет участвовать?
Подсказка к книге
Как анализ данных работает во времена больших данных?
2. Понимание данных
Этап понимания данных включает рассмотрение данных, предоставленных специалистами или отделами ИТ. На этом этапе данные просматриваются более подробно, например, с использованием инструментов анализа качества данных. Аналитики и инженеры данных анализируют источник базы данных по источнику и столбец за столбцом и «сопоставляют» ее содержание с двумя основными целями: рассмотрение качества / качества данных, а также взаимосвязей между различными источниками данных. Для оценки источников данных имеет смысл подготовить следующие вопросы в виде профиля, а затем запросить или проверить их стандартным образом для всех источников данных:
- Синтаксическое / семантическое качество: насколько полны и правильны данные? Насколько понятно и однозначно представление данных?
- Условие: как данные представлены в источниках данных? Может ли желаемое понимание потенциально получено из представлений?
- Удобство использования: соответствуют ли данные, их представление и частота применению?
- Связи и ссылки: Как можно связать разные точки данных? Каковы отношения между различными данными?
3. Подготовка данных
Каталог требований для этапа подготовки данных, то есть подготовки данных, частично вытекает непосредственно из этапа понимания данных и включает все этапы, необходимые для подготовки данных для этапа моделирования. Следующие шаги относятся к этапу подготовки данных:
- Выбор: Какие атрибуты и разделы требуются для варианта использования?
- Структура: Как можно преобразовать неструктурированные данные в структурированные данные?
- Корректировка: Какие точки данных и атрибуты должны быть отсортированы из-за ошибок, несоответствий или неправильных значений?
- Форматирование: как трансформируется содержимое полей данных?
- Связывание: какие данные должны быть связаны и как?
- Создание новых данных: какие новые атрибуты являются производными от существующих?
4. Моделирование
Цель ясна, данные понятны и подготовлены. Вероятно, прошло уже некоторое время, и теперь аналитик с нетерпением ожидает окончательного выпуска алгоритмов для данных. Теперь пришло время найти правильные методы, оптимизировать параметры и, таким образом, достичь наилучшего результата для отделов ожидания. На этапе моделирования представлен обзор следующих моментов:
- Определение целевых показателей: когда подход дает хорошие результаты?
- Выбор методов: какие модели подходят под вопрос?
- Оптимизация параметров: как улучшить результаты?
5. Оценка
На этапе моделирования алгоритмы объединяются в модель и оптимизируются с учетом предварительно определенных целевых показателей. Этап оценки служит целевому обмену отделами, разработчиками программного обеспечения и аналитиками данных. Хотя отдел служит только «источником информации» на этапе понимания данных и играет лишь незначительную роль на этапе подготовки и моделирования данных, теперь он должен принимать модели, основанные на целях, определенных на этапе понимания бизнеса., Разработчикам программного обеспечения, возможно, придется проверить, совместима ли реализация моделей с существующими системами.
6. Операционализация
Операционализация аналитических моделей представляет собой последний этап цикла модели CRISP-DM, дизайн которого зависит от многих влияющих факторов и ИТ-архитектуры в компании. Основная работа на этом этапе выполняется отделами ИТ и разработки, которые могут реализовывать модели на других языках программирования и интегрировать их в существующие системы. Аналитики данных играют вспомогательную роль.
В связи с появлением новых данных и фактов аналитические модели обычно имеют ограниченный срок службы, поэтому их необходимо регулярно переучивать или даже разрабатывать с нуля. Непрерывная адаптация моделей к новым данным (непрерывное обучение) рассматривается как главная цель будущих алгоритмов. Вместо однократной адаптации алгоритмов к существующей записи данных во многих случаях гораздо эффективнее создать процедуру, которая также надежно адаптируется к новым ситуациям или данным.
Подсказка к книге
В учебнике Data Analytics показано, как перечисленные шаги выполняются в конкретных терминах и на примерах. В других главах также рассматриваются методы анализа данных и варианты использования.
Подсказка к книге
Как анализ данных работает во времена больших данных?
* * Доктор Йоханнес Крёккель с середины 2018 года возглавляет отдел «Науки о данных и ИИ» в отделе дигитализации в Schaeffler.