Данный текст - перевод статьи "Big Data for Modern Industry: Challenges and Trends [Point of View]".
Авторы: Shen Yin (профессор Харбинского технологического института, Китай) и Okyay Kaynak (профессор Bogazici University, Стамбул, Турция).
Оригинал доступен по адресу https://doi.org/10.1109/JPROC.2015.2388958
Мы живем в эпоху информационного потока, и, как результат, выражение «большие данные» все чаще звучит в самых разных контекстах: в метеорологии и геномике, сложном моделировании физической среды, биологических и экологических исследованиях, финансовой и деловой сферах и даже в системе здравоохранения. Интересный пример из пресс-релиза компании SAP AG от 11 июня 2014 года: «Компания SAP и Немецкая футбольная ассоциация превращают большие данные в умные решения для повышения результативности игры футболистов на чемпионате мира в Бразилии». Международная корпорация данных (IDC) в своем докладе прогнозирует: «…с 2005 по 2020 год цифровая вселенная увеличится в 300 раз: от 130 до 40 000 эксабайт» и «до 2020 года будет практически удваиваться каждые два года» [1]. Уже само название указывает на то, что большие данные в буквальном смысле означают масштабный сбор совокупности данных, содержащих обширный объем информации. И все же этот термин имеет некоторые особые характеристики, отличающие его, например, от понятий «сверхбольшие данные» (very large data) и «массив данных» (massive data), подразумевающих только масштабный набор записей простого формата, обычно в виде огромных электронных таблиц. Большие данные — как правило, неструктурированные и разноплановые — чрезвычайно сложны для рассмотрения традиционными методами и требуют анализа в реальном времени или почти в реальном времени. Таким образом, если коротко, «большие данные» — это наборы данных, объем которых выходит за рамки возможностей стандартных программных инструментов в отношении сбора, хранения, управления и анализа данных. Для подробного обсуждения различных аспектов больших данных и связанных с ними задач, а также некоторых потенциальных исследовательских направлений, читателю нужно пройти по ссылке [2].
Что касается современной промышленности, данные, создаваемые машинами и устройствами, облачные решения, сервисы для управления бизнесом и другие превысили совокупный объем 1000 эксабайт в год и, как ожидается, увеличатся в 20 раз в течение следующих десяти лет. Компания McKinsey & Company сообщает, что «в области производства хранится больше данных, чем в любой другой сфере (в 2010 году сохранено почти 2 эксабайта новых данных» [3]). К примеру, у производителя потребительских товаров в упаковке, а именно продукции для личной гигиены, каждые 33 мс только одна машина генерирует 5000 выборок данных, итого в год — четыре триллиона (4 тераединицы) выборок данных [4]. Подобные факты знаменуют начало эпохи больших данных, которую теперь подпитывают и такие новейшие сферы, как облачные технологии, Интернет вещей и киберфизические системы.
В ракурсе промышленности большие данные должны сыграть важную роль в четвертой промышленной революции [5]. Первая промышленная революция (конец XVIII — начало XX века) базировалась на гидроэнергии и паровой мощности; вторая (начало XX века — начало 1970-х годов) была обусловлена массовым производством на основе разделения труда и использования электроэнергии; третью (начало 1970-х годов — наши дни) определили электроника и информационные технологии с целью дальнейшей автоматизации производства. Активатором четвертой промышленной революции — индустрии 4.0, как окрестило ее правительство Германии, — станут большие данные с доступом через киберфизические системы (Cyber-Physical System, CPS). Цель — реализация проектов умных предприятий, в которых машины и ресурсы обмениваются информацией подобно общению в социальной сети. Такое умное предприятие будет производить интеллектуальные (умные) продукты, которые «знают», каким образом они были произведены, и будут собирать и передавать данные по мере их использования. Эти огромные объемы информации (большие данные) будут собираться и анализироваться в режиме реального времени. Таким образом будут генерироваться результаты аналитической обработки информации, которые далее перейдут на следующий уровень — от умных предприятий до умных процессов — и в итоге достигнут уровня, на котором будет возможно предоставление клиентам интеллектуальных услуг через интернет-сервисы.
Основной задачей использования больших данных в рамках промышленного применения является достижение безаварийного и экономически эффективного выполнения процессов при желаемых уровнях производительности, а главное — качества. Специалисты компании McKinsey предполагают, что за счет использования больших данных производители смогли бы снизить затраты на разработку и сборку продукции до 50 % и сократить оборотный капитал до 7 %. А на более высоком уровне благодаря данным, отправляемым интеллектуальными устройствами, производитель сможет точно определять предпочтения потребителей, а значит, формировать характеристики будущей продукции.
Инженеры-технологи, вместо того чтобы работать с физической моделью системы (которой может быть очень сложно, а то и невозможно управлять), предпочитают безмодельный подход и используют передовые технологии для мониторинга, управления и оптимизации производительности процесса на основе только огромного объема измерительных данных. С эффективным сбором и анализом больших данных есть шанс повысить производительность и, как результат, увеличить конкурентоспособность во многих и многих отраслях. С точки зрения инженеров-технологов, управление цепочками поставок может быть усовершенствовано за счет решений на основе больших данных [6]. Кроме того, правильная интерпретация больших данных будет способствовать созданию более эффективных систем управления рисками в целях содействия в принятии более обоснованных решений руководством компании и улучшения корпоративного управления [7]. Учитывая вышесказанное, вполне очевидно, что фундаментальное исследование, направленное на решение вопроса больших данных, является необходимым и исключительно важным шагом для нашей жизнедеятельности, особенно в отношении будущего промышленного применения.
Специалисты по обработке данных IBM разбивают большие данные на четыре величины: объем (volume), разнообразие (variety), скорость (velocity) и точность (veracity). На это их вдохновили оригинальные рассуждения Дуга Лейни, аналитика META Group (ныне Gartner), об электронной коммерции в трех измерениях: с точки зрения объема (volume), скорости (velocity) и точности (veracity) [8]. Теперь это отражено в определении больших данных, представленном компанией Gartner на ее веб-странице: «Большие данные — это большой объем, большая скорость и большое разнообразие информационных ресурсов, которые требуют экономичных инновационных форм обработки информации для более глубокого анализа и принятия решений». К «четырем V» компании IBM может быть добавлена еще одна V (value — ценность, иногда validity — действенность, или verification — верификация), как показано на рис. 1. Постоянно растущий объем (количество данных), скорость (скорость ввода и вывода данных) и разнообразие (диапазон типов данных и их источников) больших данных составляют основу связанных с ними задач [8]. Под впечатлением широких обсуждений и соответствующих комментариев, доступных на веб-сайте Центра больших данных и аналитики (The Big Data & Analytics Hub) IBM, мы открываем дискуссию по проблематике больших данных касательно «5 V», а именно: объема (volume), разнообразия (variety), точности (veracity), скорости (velocity) и ценности (value), группируя их по трем направлениям:
«Пять V» больших данных
Потенциальные преимущества использования больших данных, а также связанные с ними проблемы, естественно, будут различаться по отраслям. Ожидается, что значительную выгоду от больших данных получат компьютерное и электронное производство, информационная отрасль, правительственный сектор, а также сферы финансов и страхования [18]. Если говорить в общих чертах, использование больших данных может стать очень ценным вкладом в деятельность таких областей, как разработка продукции, рыночное развитие, операционная эффективность, прогнозирование спроса на рынке, принятие решений, а также опыт работы с клиентами и лояльность [19]. Фактически результаты недавнего исследования [20] показали, что функциональные цели использования больших данных респондентами были таковы:
Видно, что почти для половины респондентов наиболее важные ожидания от больших данных связаны с клиентоориентированностью. Есть стремление использовать информацию, собираемую различными способами и в разных формах, для анализа потребителей: понимания потребностей клиентов и прогнозирования их будущего поведения и, таким образом, предоставления им более качественного обслуживания. К примеру, предполагается, что датчики, встроенные в умные продукты, с помощью киберфизических систем будут отсылать обратно информацию о потребностях клиента по каждому сегменту рынка, например сведения о том, как определенный товар используется потребителем, какие функциональные возможности предпочтительны, каким новым функциям покупатель был бы рад и т. д. Кроме того, могут предлагаться инновационные послепродажные услуги, например профилактическое обслуживание, основанное на превентивных мерах, — до возникновения неисправности. Вот так большие данные могут использоваться для более интенсивного развития продуктов и услуг нового поколения.
РАЗДЕЛ IV
ДАЛЬНЕЙШИЕ ПОТЕНЦИАЛЬНЫЕ ИССЛЕДОВАНИЯ И НАПРАВЛЕНИЯ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ В ПРОМЫШЛЕННОСТИ
Системы больших данных можно разложить на четыре последовательных модуля: формирование, сбор, хранение и анализ данных [1]. Каждое звено этой цепочки процессов имеет свои проблемы, требующие глубоких исследований, в основном по причине разнородности и сложности имеющихся данных. Для глубокого анализа затронутых вопросов читателю предлагается перейти по ссылкам [1] и [21].
Как предмет междисциплинарного или пограничного характера, большие данные способны привлекать все возрастающее внимание и промышленных сообществ, и предприятий, связанных с управленческой и финансовой отраслью. Среди потенциальных направлений в области больших данных в современной промышленности есть, например, такие:
Наконец, есть основания ожидать, что концепция больших данных распространится и на другие актуальные сферы (в тесном соседстве с киберфизическими системами и умными продуктами) и мы получим новые удивительные возможности и неожиданные открытия.