Том Андерсен (Tom Anderson), известный маркетинговый аналитик из США (вот его твиттер и сайт и личный блог) написал интересную заметку "Forget Big Data, Think Mid Data", русские маркетологи из FDFgroup перевели статью!
Хватить гоняться за "Большими Данными" - в "Средних Данных" больше смысла
"Большие Данные", "Большие Данные", "Большие Данные". Кажется, что сегодня об этом говорят буквально все, но лишь небольшое количество исследователей, реально использует Большие Данные в своей работе. Да и надо ли это вообще?
Если вы читаете эту статью, то скорее всего вы – социолог или аналитик, работающий в области маркетинговых исследований или смежной области. Возможно, настало время немного сузить определение такого понятия как "Большие Данные" и ввести более практичный термин "Средние Данные" (MID DATA).
Если вводить этот новый термин, то имеет смысл определять все, что не относится к Большим или Средним Данным, как "Малые Данные" (надеюсь, это никого не смущает).
Малые Данные
Для простоты сопоставим размер количеству записей (или выборке, если угодно). "Малые Данные" могут включать в себя всё, в диапазоне от одного отдельного интервью в качественном исследовании, до нескольких тысяч ответов в рамках многоэтапного количественного исследования . На уровне этого объема количественное и качественное технически могут быть сгруппированы вместе, поскольку в настоящее время ни одно из них не подходит под те определения "Больших Данных", которые существуют сегодня.
Общее правило для определения того, что можно считать "Большими Данными" – это данные, которые не могут быть проанализированы с помощью обычных инструментов программного обеспечения.
Такое определение – мечта поставщиков IT оборудования, так как оно описывает ситуацию, при которой у компании нет возможностей для анализа (предположительно ценных) данных без дополнительных существенных затрат на инфраструктуру.
Средние Данные
Что же тогда "Средние Данные"? На границе области "Больших" и "Малых" данных некоторые из наборов данных, которые можно было бы назвать Малыми Данными, могут быстро превратиться в Большие Данные.
Например, 30-50 тысяч записей исследования удовлетворенности клиентов иногда можно без всяких проблем анализировать с помощью общедоступных средств аналитического программного обеспечения (SPSS, или даже Excel). Однако стоит добавить текстовые комментарии к этому же набору данных, и производительность анализа резко падает. Сегодня обработка таких наборов данных отнимает слишком много времени и может привести к сбоям в работе системы.
Если же текстовые комментарии кодируются (как это имеет место при анализе текста), то дополнительные переменные, добавленные к такому набору данных, могут существенно возрасти в размере. Это в настоящее время и рассматривается как "Большие Данные", для которых требуется более мощное программное обеспечение. Тем не менее, правильнее было бы считать такие наборы "Средними Данными", поскольку это лишь самое начало области Больших Данных, и есть много относительно доступных подходов к работе с данными такого размера.
Большие Данные
Теперь, когда отрезав кусок из "Больших Данных" и назвав это "Средними Данными", можно сформулировать новое определение для "Больших Данных", или по крайней мере договориться о том, где заканчиваются "Средние Данные" и начинаются "действительно Большие Данные".
Чтобы понять разницу между "Средними" и "Большими Данными" необходимо рассмотреть несколько размерных величин. Аналитик Гартнер Дуг Лэйни как-то назвал "Большие Данные" трехмерными. То есть это данные с большим объемом, разнообразием и скоростью (volume, variety, velocity) – модель, которую часто называют 3V.
Однако, чтобы понять разницу между "Средними Данными" и "Большими Данными", необходимо учитывать только два параметра, а именно Затраты и Ценность (Cost и Value). Затраты (будь то времени или денег) и ожидаемая ценность – это то, что и определяет коэффициент окупаемости инвестиций (ROI). В этом - практическая сторона анализа "Больших Данных".
Мы знаем, что некоторые данные по своей природе более ценны, чем другие (очевидно, что 100 жалоб клиентов, направленных к вам в офис по электронной почте, важнее тысячи случайных твитов о вашей категории), лишь одно можно сказать наверняка: данные, которые не анализируются, не имеет абсолютно никакой ценности.
В отличие от "Средних Данных", "Большие Данные" (по-настоящему "Большие Данные") – это такая точка, за которой инвестиции в анализ теряют смысл из-за затрат (которые включают в себя риск не обнаружить нужную информацию в таком количестве, который оправдал бы деньги, вложенные в эти Большие Данные). Где-то после области "Средних Данных" анализ "Больших Данных" оказывается непрактичен - как в теоретическом, так и в узко экономическом смысле.
С другой стороны, "Средние Данные" можно рассматривать как наиболее "вкусную" часть анализа "Больших Данных" – такую, с которой можно работать и с физической и экономической точки зрения.
И что из этого?
"Средние Данные" – это область, дающая большие возможности. Это область, где нас ждут вполне реальные и достижимые инсайты. С другой стороны, работа с по-настоящему Большими Данными может лежать далеко за точкой рентабельности.
Хорошая новость для имеющих отношение к маркетингу, заключается в том, что клиентов не так уж трудно понять. Уже сейчас есть много доступного и отличного программного обеспечения по Средним Данным (как для анализа данных, так и для анализа текста), которое не требует невероятных экзабайт данных или массового запуска параллельных программ, работающих на тысячах серверов. Несмотря на то, что журналы и докладчики на конференциях любят ссылаться на опыт Amazon, Google и Facebook, даже эти достаточно редкие примеры больше походят на научную фантастику в области IT продаж.
Гораздо важнее правильно анализировать часть данных (наиболее "интересных" и важных), чем обрабатывать все данные.
Сейчас некоторые из вас могут задать вопрос: если "Средние Данные" более привлекательны по сравнению с "Большими Данными", то, может быть, "Малые Данные" еще лучше?
Разница заключается в том, что при увеличении объема данных можно не только быть более уверенными в результатах, но и обнаружить связи и паттерны, которые невозможно выявить в рамках традиционных "Малых Данных". В маркетинговых исследованиях это может означать разницу между способностью и неспособностью обнаружить новые возможности для нишевого продукта или быстро отреагировать на действия конкурента. В фармацевтике это может означать обнаружение связи между менее крупной подгруппой генеральной совокупности и повышенным риском раковых заболеваний, что может спасти жизнь людей!
Для повышения эффективности использования "Средних Данных", им требуется дальнейшее уточнение определения и наработка опыта их обработки.
Погоня за "Большими Данными" не гарантирует какого-либо существенного преимущества. Те, кто обладают опытом анализа "Малых" или "Средних Данных", четко понимают, что проведение такого же анализа по разнообразным данным, как правило, оказывается безрезультатным.
Так что самая правильная область работы – это "Средние Данные".