Большие данные для современной промышленности: вызовы и тенденции [точка зрения]

Данный текст - перевод статьи "Big Data for Modern Industry: Challenges and Trends [Point of View]".

Авторы: Shen Yin (профессор Харбинского технологического института, Китай) и Okyay Kaynak (профессор Bogazici University, Стамбул, Турция).

Оригинал доступен по адресу https://doi.org/10.1109/JPROC.2015.2388958

Мы живем в эпоху информационного потока, и, как результат, выражение «большие данные» все чаще звучит в самых разных контекстах: в метеорологии и геномике, сложном моделировании физической среды, биологических и экологических исследованиях, финансовой и деловой сферах и даже в системе здравоохранения. Интересный пример из пресс-релиза компании SAP AG от 11 июня 2014 года: «Компания SAP и Немецкая футбольная ассоциация превращают большие данные в умные решения для повышения результативности игры футболистов на чемпионате мира в Бразилии». Международная корпорация данных (IDC) в своем докладе прогнозирует: «…с 2005 по 2020 год цифровая вселенная увеличится в 300 раз: от 130 до 40 000 эксабайт» и «до 2020 года будет практически удваиваться каждые два года» [1]. Уже само название указывает на то, что большие данные в буквальном смысле означают масштабный сбор совокупности данных, содержащих обширный объем информации. И все же этот термин имеет некоторые особые характеристики, отличающие его, например, от понятий «сверхбольшие данные» (very large data) и «массив данных» (massive data), подразумевающих только масштабный набор записей простого формата, обычно в виде огромных электронных таблиц. Большие данные — как правило, неструктурированные и разноплановые — чрезвычайно сложны для рассмотрения традиционными методами и требуют анализа в реальном времени или почти в реальном времени. Таким образом, если коротко, «большие данные» — это наборы данных, объем которых выходит за рамки возможностей стандартных программных инструментов в отношении сбора, хранения, управления и анализа данных. Для подробного обсуждения различных аспектов больших данных и связанных с ними задач, а также некоторых потенциальных исследовательских направлений, читателю нужно пройти по ссылке [2].

РАЗДЕЛ I

ВОЗРАСТАЮЩЕЕ ЗНАЧЕНИЕ БОЛЬШИХ ДАННЫХ В ПРОМЫШЛЕННОСТИ

Что касается современной промышленности, данные, создаваемые машинами и устройствами, облачные решения, сервисы для управления бизнесом и другие превысили совокупный объем 1000 эксабайт в год и, как ожидается, увеличатся в 20 раз в течение следующих десяти лет. Компания McKinsey & Company сообщает, что «в области производства хранится больше данных, чем в любой другой сфере (в 2010 году сохранено почти 2 эксабайта новых данных» [3]). К примеру, у производителя потребительских товаров в упаковке, а именно продукции для личной гигиены, каждые 33 мс только одна машина генерирует 5000 выборок данных, итого в год — четыре триллиона (4 тераединицы) выборок данных [4]. Подобные факты знаменуют начало эпохи больших данных, которую теперь подпитывают и такие новейшие сферы, как облачные технологии, Интернет вещей и киберфизические системы.

В ракурсе промышленности большие данные должны сыграть важную роль в четвертой промышленной революции [5]. Первая промышленная революция (конец XVIII — начало XX века) базировалась на гидроэнергии и паровой мощности; вторая (начало XX века — начало 1970-х годов) была обусловлена массовым производством на основе разделения труда и использования электроэнергии; третью (начало 1970-х годов — наши дни) определили электроника и информационные технологии с целью дальнейшей автоматизации производства. Активатором четвертой промышленной революции — индустрии 4.0, как окрестило ее правительство Германии, — станут большие данные с доступом через киберфизические системы (Cyber-Physical System, CPS). Цель — реализация проектов умных предприятий, в которых машины и ресурсы обмениваются информацией подобно общению в социальной сети. Такое умное предприятие будет производить интеллектуальные (умные) продукты, которые «знают», каким образом они были произведены, и будут собирать и передавать данные по мере их использования. Эти огромные объемы информации (большие данные) будут собираться и анализироваться в режиме реального времени. Таким образом будут генерироваться результаты аналитической обработки информации, которые далее перейдут на следующий уровень — от умных предприятий до умных процессов — и в итоге достигнут уровня, на котором будет возможно предоставление клиентам интеллектуальных услуг через интернет-сервисы.

Основной задачей использования больших данных в рамках промышленного применения является достижение безаварийного и экономически эффективного выполнения процессов при желаемых уровнях производительности, а главное — качества. Специалисты компании McKinsey предполагают, что за счет использования больших данных производители смогли бы снизить затраты на разработку и сборку продукции до 50 % и сократить оборотный капитал до 7 %. А на более высоком уровне благодаря данным, отправляемым интеллектуальными устройствами, производитель сможет точно определять предпочтения потребителей, а значит, формировать характеристики будущей продукции.

Инженеры-технологи, вместо того чтобы работать с физической моделью системы (которой может быть очень сложно, а то и невозможно управлять), предпочитают безмодельный подход и используют передовые технологии для мониторинга, управления и оптимизации производительности процесса на основе только огромного объема измерительных данных. С эффективным сбором и анализом больших данных есть шанс повысить производительность и, как результат, увеличить конкурентоспособность во многих и многих отраслях. С точки зрения инженеров-технологов, управление цепочками поставок может быть усовершенствовано за счет решений на основе больших данных [6]. Кроме того, правильная интерпретация больших данных будет способствовать созданию более эффективных систем управления рисками в целях содействия в принятии более обоснованных решений руководством компании и улучшения корпоративного управления [7]. Учитывая вышесказанное, вполне очевидно, что фундаментальное исследование, направленное на решение вопроса больших данных, является необходимым и исключительно важным шагом для нашей жизнедеятельности, особенно в отношении будущего промышленного применения.

РАЗДЕЛ II

ХАРАКТЕРИСТИКИ БОЛЬШИХ ДАННЫХ И ПОРОЖДЕННЫЕ ИМИ ВЫЗОВЫ

Специалисты по обработке данных IBM разбивают большие данные на четыре величины: объем (volume), разнообразие (variety), скорость (velocity) и точность (veracity). На это их вдохновили оригинальные рассуждения Дуга Лейни, аналитика META Group (ныне Gartner), об электронной коммерции в трех измерениях: с точки зрения объема (volume), скорости (velocity) и точности (veracity) [8]. Теперь это отражено в определении больших данных, представленном компанией Gartner на ее веб-странице: «Большие данные — это большой объем, большая скорость и большое разнообразие информационных ресурсов, которые требуют экономичных инновационных форм обработки информации для более глубокого анализа и принятия решений». К «четырем V» компании IBM может быть добавлена еще одна V (value — ценность, иногда validity — действенность, или verification — верификация), как показано на рис. 1. Постоянно растущий объем (количество данных), скорость (скорость ввода и вывода данных) и разнообразие (диапазон типов данных и их источников) больших данных составляют основу связанных с ними задач [8]. Под впечатлением широких обсуждений и соответствующих комментариев, доступных на веб-сайте Центра больших данных и аналитики (The Big Data & Analytics Hub) IBM, мы открываем дискуссию по проблематике больших данных касательно «5 V», а именно: объема (volume), разнообразия (variety), точности (veracity), скорости (velocity) и ценности (value), группируя их по трем направлениям:

Объем и разнообразие: эти параметры способствуют формированию потребности в оборудовании и программном обеспечении. Как огромный объем, так и безграничное разнообразие больших данных (от простых структурированных выборок данных до сообщений электронной почты, твитов, контента Facebook и пр.) создают проблему, связанную с потребностями в оборудовании и программном обеспечении для работы с данными. Хотя облачные технологии (например, облачные вычисления, виртуализация и хранение) оказались успешными в областях деятельности, связанных с Интернетом, все же необходимо усовершенствование в целях соответствия требованиям функциональности приложений реального времени в отраслях сложной промышленности, таких как интеллектуальное производство и энергетические системы. Вполне логично, что такие модели программирования, как MapReduce (оказавшиеся успешными в задачах групповой агрегации), и крупномасштабные структуры обработки больших наборов данных, такие как Hadoop, в ближайшие годы станут эффективными инструментами во многих проектах, основанных на больших данных.
Точность и скорость: эти параметры влекут за собой острую необходимость в способности обнаружения и обработки в режиме онлайн. Данные, определяемые или собираемые из практических процессов или систем, должны быть своевременно распознаны (до возникновения разного рода искажений, манипуляций или утраты актуальности) в целях обеспечения их надлежащей достоверности. Хотя первичные данные, получаемые из исходных источников, в большинстве случаев «промываются», то есть предварительно обрабатываются или фильтруются до непосредственного применения во избежание проникновения явно неприемлемой информации, их существенный объем может негативно влиять на достоверность больших данных, ведь чем больше объем, тем проблематичнее качественная «промывка». При условии достоверности промытых данных следующей ключевой проблемой является не их неизбежно большой объем, а возможность их онлайн-обработки. В промышленном применении это ограничивающий для скорости фактор. Преимущества продвинутых сетевых технологий последних лет отчасти способствовали решению проблемы скорости.
Ценность: этот параметр создает необходимость междисциплинарного взаимодействия. Ценность пропорциональна точности, а вместе они поднимают самые сложные вопросы промышленного использования больших данных (следует отметить, что в недавнем исследовании компании Deloitte [9] пятая буква V — это viability — жизнеспособность, а сумма «пяти V» приравнивается к параметру value — ценность). Как нам распознать полезные, надежные и точные данные из множества огромных наборов данных в Интернете? И если мы это сделаем, то как извлечь из них ценность? Кроме того, большие данные требуют междисциплинарного подхода, подразумевающего сотрудничество образовательных сообществ, промышленных организаций и предприятий. Сегодня большинство подходов к работе с большими данными грешат неминуемой нестыковкой между идеальным и фактическим. Методы и алгоритмы с ориентацией на аспекты, связанные с базами данных, такие как статистический анализ в бизнесе, менеджменте и биомедицине [10—12], мониторинг и прогнозирование процессов, управляемых через данные [13; 14], оптимизация систем и их управление [15; 16], были широко исследованы в последние годы, но остаются пока на линии старта. С другой стороны, многие предприятия рассматривают свои «большие данные» как конфиденциальную информацию, что препятствует разработке новых подходов через академические исследования. Таким образом, производственникам следует рассмотреть возможности расширения сотрудничества с исследователями и инженерами, делая общедоступными свои специально обработанные данные в целях совершенствования существующих технологий и стимуляции новых идей. Сегодня проблемы больших данных в промышленности по-прежнему имеют отношение к таким характеристикам, как измеримость, распознавание и обработка. Несмотря на это, извлечение максимальной ценности из доступных больших данных посредством их соответствующего анализа, применения и управления ими должно стать самым сильным стремлением современной промышленности.

РАЗДЕЛ III

ОЖИДАЕМЫЕ ПРЕИМУЩЕСТВА ДЛЯ ПРОМЫШЛЕННОСТИ ОТ БОЛЬШИХ ДАННЫХ

«Пять V» больших данных

Потенциальные преимущества использования больших данных, а также связанные с ними проблемы, естественно, будут различаться по отраслям. Ожидается, что значительную выгоду от больших данных получат компьютерное и электронное производство, информационная отрасль, правительственный сектор, а также сферы финансов и страхования [18]. Если говорить в общих чертах, использование больших данных может стать очень ценным вкладом в деятельность таких областей, как разработка продукции, рыночное развитие, операционная эффективность, прогнозирование спроса на рынке, принятие решений, а также опыт работы с клиентами и лояльность [19]. Фактически результаты недавнего исследования [20] показали, что функциональные цели использования больших данных респондентами были таковы:

Результаты, ориентированные на клиента, — 49 %.
Оптимизация работы — 18 %.
Управление рисками/финансами — 15 %.
Новая бизнес-модель — 14 %.
Взаимодействие персонала — 4 %.

Видно, что почти для половины респондентов наиболее важные ожидания от больших данных связаны с клиентоориентированностью. Есть стремление использовать информацию, собираемую различными способами и в разных формах, для анализа потребителей: понимания потребностей клиентов и прогнозирования их будущего поведения и, таким образом, предоставления им более качественного обслуживания. К примеру, предполагается, что датчики, встроенные в умные продукты, с помощью киберфизических систем будут отсылать обратно информацию о потребностях клиента по каждому сегменту рынка, например сведения о том, как определенный товар используется потребителем, какие функциональные возможности предпочтительны, каким новым функциям покупатель был бы рад и т. д. Кроме того, могут предлагаться инновационные послепродажные услуги, например профилактическое обслуживание, основанное на превентивных мерах, — до возникновения неисправности. Вот так большие данные могут использоваться для более интенсивного развития продуктов и услуг нового поколения.

РАЗДЕЛ IV

ДАЛЬНЕЙШИЕ ПОТЕНЦИАЛЬНЫЕ ИССЛЕДОВАНИЯ И НАПРАВЛЕНИЯ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ В ПРОМЫШЛЕННОСТИ

Системы больших данных можно разложить на четыре последовательных модуля: формирование, сбор, хранение и анализ данных [1]. Каждое звено этой цепочки процессов имеет свои проблемы, требующие глубоких исследований, в основном по причине разнородности и сложности имеющихся данных. Для глубокого анализа затронутых вопросов читателю предлагается перейти по ссылкам [1] и [21].

Как предмет междисциплинарного или пограничного характера, большие данные способны привлекать все возрастающее внимание и промышленных сообществ, и предприятий, связанных с управленческой и финансовой отраслью. Среди потенциальных направлений в области больших данных в современной промышленности есть, например, такие:

Новые приемы и усовершенствованные методы анализа и извлечения больших данных.
Облачное решение для хранения и передачи больших данных.
Решение проблем контроля и мониторинга через большие данные.
Прогнозирование и оптимизация деятельности в масштабе целого предприятия на основе больших данных.
Решение для систем управления рисками и цепочек поставок на основе больших данных.
Теория больших данных для современного промышленного применения.
Решение для интеллектуальных энергосистем и экологически чистых энергосистем на основе больших данных.

Наконец, есть основания ожидать, что концепция больших данных распространится и на другие актуальные сферы (в тесном соседстве с киберфизическими системами и умными продуктами) и мы получим новые удивительные возможности и неожиданные открытия.

Emerson Exchange 365