Слишком умный билборд: Как собирать данные о людях не только в интернете. Сбор отзыва существующего клиента

Здравствуйте, уважаемые читатели блога сайт. Не так давно я опубликовал статью « ». Там мы познакомились с этой бесплатной системой аналитики как бы изнутри, т.е. узнали, как собираются данные, как они обрабатываются, хранятся, и как на их основе формируются нужные нам отчеты.

Эти знания безусловно нам пригодятся в дальнейшем. Ну, а сейчас я хочу уже непосредственно перейти к разговору об аналитике, как таковой. Для чего она нужна? Какие способы анализа сайта существуют и какие критерии эффективности при этом стоит отслеживать.

Также мы посмотрим, каким образом осуществляется сбор статистики сайта, какие методы и инструменты при этом чаще всего используются, а главное — каким образом эти самые данные снимаются. В связи с этим мы подробно остановимся на таких понятиях, как посетитель, сессия и хит, которые являются основой всей веб-аналитики. Без понимания этих вещей вам очень трудно будет дальше постигать все тонкости повышения эффективности вашего сайта, о котором мы будем говорить в статьях этой рубрики.

Что отслеживать и как ставить задачи для аналитики?

Из приведенной чуть выше статьи мы с вами узнали, что, по сути, система Google Analytics состоит из нескольких блоков, основными из которых можно считать:

  1. Инструмент сбора данных
  2. Инструменты анализа, обработки и отображения собранных статистических данных

Для чего же нам могут понадобиться подобные системы аналитики ? Давайте посмотрим:

Это в общих чертах, а вообще аналитика нужна именно для улучшения положения дел с вашим сайтом (и бизнесом). Благодаря ей вы сможете что-то измерить и отследить влияние вносимых вами изменений на какие-то важные для вас характеристики (посещаемость, конверсию и т.п.). То, что измерить нельзя, также не получится и осмысленно улучшить, поэтому так много внимания последнее время все SEO специалисты уделяют сбору статистики, ее обработке и анализу. Дело это не простое, но очень перспективное.

с помощью систем подобных Гугл Аналитикса, зависит от типа вашего сайта. В принципе, вариантов не так уж и много, поэтому давайте их просто перечислим:

  1. Продажи — актуально для онлайн-коммерции
  2. Сбор лидов — например, регистраций на сайте, подписок на новостную ленту, заполнений формы заказа и т.п. Актуально для многих видов ресурсов, которые собирают коллекции различных действий пользователей, чтобы потом их монетизировать тем или иным способом.
  3. Вовлеченность аудитории и посещаемость ресурса — актуально для информационных и новостных ресурсов
  4. Помощь пользователям в поиске информации — актуально для информационных ресурсов типа поисковых систем, каталогов, энциклопедий и т.п.
  5. Повышение узнаваемости торговой марки, а также лояльности аудитории к ней — актуально при брендировании, т.е. раскрутке бренда

Соответственно, вам нужно будет понять к какому типу относится ваш проект, и на основе этого вы уже будете выбирать те показатели его эффективности, которые следует отслеживать с помощью системы аналитики (Гугла или Яндекса — не важно). В теории процесс, выглядит довольно-таки просто:

Самое неприятно заключается в том, что все описанное выше, по-хорошему, нужно продумывать еще до того, как вы создаете сайт. Зачастую уже готовый и работающий интернет-проект очень сложно бывает привести к такому виду, что можно было бы мерить нужные показатели эффективности. Без всего этого использование мощнейших систем аналитики на вроде Google Analytics становится не более эффективным, чем забивание гвоздей микроскопом.

Основные варианты сбора статистики вашего сайта

Однако, абстрагируемся от этого и допустим, что по всем вышеозначенным пунктам у вас появились более-менее осмысленные ответы. После этого встает вопрос — а каким образом можно собирать нужные нам для анализа данные. Как я уже упоминал в статье про , технически сбор данных можно реализовать двумя способами :

  1. Собирать их непосредственно на веб-сервере , где находится ваш сайт, фиксируя все запросы к нему. Для этого используются данные журналов и логов сервера, а также специально предназначенные для этого скрипты. Данный способ имеет свои плюсы и минусы:

    В плане технической реализации такой метод представляет из себя программу, которая устанавливается непосредственно на сервер, где, собственно, ваш сайт и расположен. Самые популярные из серверных систем аналитики :

    1. — весьма популярная система, которая зачастую устанавливается хостерами на сервера по умолчанию.
    2. Piwik — очень мощный инструмент, который по возможностям ничем не уступает, например, такой популярной клиентской системе сбора статистики, как Яндекс Метрика (хотя вебвизора в пивике, конечно же, нет).
    3. Loganalyzer — чуть более продвинутая аналитика, чем у Awstat.
    4. Weblog Expert — тоже похож по сути на Awstat.
  2. Но в то же время собирать нужные данные можно и непосредственно в браузерах пользователей , которые ваш сайт посещают. Есть такой клиентоориентированный язык программирования под названием JavaScript, команды которого можно включать в Html код вебстраницы. Как раз на этом принципе и работает большинство счетчиков посещений и систем аналитики вроде Гугл Аналитикса или Яндекс Метрики.

    Вы добавляете на все страницы вашего сайта предлагаемый вам фрагмент кода, который выполняясь будет собирать все необходимые данные из браузеров посетителей вашего сайта (и потом ее передает на сервера системы аналитики, которую вы используете). У этого способа тоже имеются свои плюсы и минусы:

    1. Собранные данные будут не такими точными, как в случае серверной статистики. Степень этой неточности определить довольно сложно, и зависит она как от используемых методов, так и от случайных обстоятельств (в браузерах каких-то пользователей может быть принудительно отключено исполнение команд, записанных на ДжаваСкрипте, или же вы забыли внедрить скрипт в какие-то отдельные страницы своего сайта).
    2. Все данные будут собираться и храниться на серверах третьей стороны (системы аналитики, которую вы используете). Правда, в этом случае будет ограничен срок их хранения, да и ваш доступ к данным в исключительных случаях (утерян пароль, нарушены правила использования и т.п.) может быть ограничен. По сути, эти самые данные и являются вашей платой за бесплатность большинства из этих сервисов, которые могут использовать эту огромную статистическую базу по огромному числу сайтов как в своих целях, так и передавать, например, заинтересованным игрокам рынка поиска за деньги.
    3. То, что массивы с собранным данных не нужно будет хранить на своем сервере, является одновременно и положительным моментом, ибо это не потребует дополнительных затрат, как в случае с серверной статистикой.
    4. Возможности аналитики клиентских систем (тех, кто снимает данные в браузерах пользователей, т.е. клиентах), как правило, серьезно превосходят серверные аналоги.

    Примерами клиентских систем сбора статистики могут служить:

    1. — те ресурсы, которые разместят у себя этот счетчик, автоматически попадают в данный рейтинговый каталог (довольно-таки трастовый).
    2. — еще один счетчик статистики, на основе которой выстраивается рейтинг самых посещаемых сайтов в тематике.
    3. — самый популярный в рунете способ сбора статистики своего сайта.
    4. — довольно популярный в рунете рейтинг сайтов.
    5. — чуть более продвинутая система сбора статистики с рейтингом сайтов, которые установили их счетчик.
    6. — это уже полноценная система сбора и анализа статистических данных сайта, имеющая довольно увесистый бриллиант в своей короне — вебвизор.
    7. — самая продвинутая из всех доступных бесплатно систем аналитики. Вообще, довольно давно Аналитикс назывался немного иначе и был платной системой (несколько сотен долларов в месяц за то, чтобы узнать посещаемость и сопутствующие ей параметры), но потом его купил великий и ужасный Google, после чего сделал доступным всем желающим. Однако, несколько лет назад появилась платная версия Analytics для крупных сайтов, которая имеет расширенный функционал.
    8. Adobe SiteCatalyst — основной конкурент платной версии Гугл Аналитикса. Данный пакет тоже платный, и имеет довольно-таки высокую популярность в буржунете.
    9. WebTrends — тоже довольно мощный инструмент, широко распространенный в буржунете.

    Мы с вами в продолжении этой серии статей будем рассматривать именно клиентские системы сбора статистики, поэтому поговорим о них поподробнее.

Как работают системы аналитики при сборе статистики сайта?

Итак, на практике сбор статистики сайта в клиентской системе осуществляется с помощью внедрения во все его страницы небольшого фрагмента кода, написанного на ДжаваСкрипте. Хотя, по сути, это не сам код, а лишь способ его вызова. Сам же код сбора статистики довольно-таки объемный, и загружается он одновременно с загрузкой этой вебстраницы с серверов Гугла или Яндекса (в случае использования Аналитикса и Метрики, соответственно), если, конечно же, ранее он не был закеширован в браузере пользователя.

Браузер этот код исполняет, запуская его в своем интерпретаторе ДжаваСкрипта. В результате собираются и отправляются на сервера Яндекса или Гугла различные данные (что за страница, откуда на нее пришел посетитель, какие куки хранятся для него в браузере, какое у него разрешение экрана, какой браузер, какая ОС и многое другое). А уже далее собранная статистика хранится в базе данных той системы аналитики, которую решили использовать.

К этим данным уже обращается система аналитики, когда мы через ее веб-интерфейс пытаемся посмотреть те или иные отчеты по своему сайту. На основании этих отчетов мы можем уже проводить дальнейший анализ. Вот и все, очень просто. Если говорить о мобильных приложениях, то, как я уже упоминал в статье про , там для отслеживания используется не ДжаваСкрипт код, а так называемый пакет средств разработчика (SDK). Статистические данные, снятые в мобильных приложениях, отправляются не постоянно, а пакетами через определенное количество времени.

Все собранные кодом отслеживания статистические данные, которые прошли обработку, будут вам доступны в виде отчетов в веб-интерфейсе системы аналитики. В Google Analytics в основе всех отчетов лежат комбинации параметров (метрик) и показателей (измерений) .

Однако для того, чтобы в дальнейшем нам с вами разговаривать на одном языке, нужно будет дать определения тем основным понятиям (терминам), которые мы будем использовать. В общем-то я говорил о них в статье про Гугл Аналитикс (см. ссылку в начале этой публикации), но не мешает это повторить.

При анализе статистики сайта используются три основных понятия: хиты, сессии и пользователи . Все собранные статистические данные в любой системе аналитики организованы иерархически по трехуровневой системы. В самом низу находятся хиты, чуть выше расположены сессии, ну, а в самом верху — пользователи.

Таким образом хиты являются составляющей частью сессии (набор действий, совершенных за время визита данного пользователя на сайт), а набор сессий характеризует уже поведение пользователя на сайте (сколько раз он заходит на сайт и как долго продолжались его визиты). Давайте рассмотрим все это более подробно и досконально:

Чуть подробнее остановимся на кукисах . Это небольшие фрагменты данных в текстовом формате, которые хранятся в кеше браузера. Их довольно часто используют как механизм, позволяющий запоминать посетителя и его предпочтения — хранить сделанные им на сайте настройки, параметры авторизации и что-то еще. При повторном посещение данного сайта браузер считывает записанные для него куки и посетитель попадет в привычный ему интерфейс, ему не требуется при каждом обновлении страницы заново авторизовываться на этом сайте.

Куки можно разделить на два типа — основные (куки того сайта, куда зашел посетитель) и сторонние (они не относятся к этому сайту, но присутствуют на открытой странице). Примером источника сторонних кукисов может служить баннер, отображаемый на странице, но загружающийся со стороннего сервера. В настройках браузерах прием сторонних куков можно отключить, что, собственно, многие и делают.

Тем не менее лимит, отведенный для одной статьи, исчерпан, поэтому продолжим разговор про кукисы и все остальное, что позволит нам освоить науку осмысленного сбора статистики сайта и работы с построенными на ее основе отчетами, в последующих публикациях рубрики « ».

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

ОпенСтат - счетчик посещений и рейтинг (бывший SpyLog) , установка и работа со статистикой
Счетчик Яндекса видимый на сайте - его настройка и установка информера Новая книга Ingate: практическое пособие по комплексной веб-аналитике
HotLog - регистрация в рейтинге сайтов и получение кода счетчика посещений
Посещаемость сайта - как проверить статистику посещений своего ресурса или узнать показания счетчика чужого сайта
Как работает Google Analytics и что нового привносит в систему Universal Analytics

» маркетологи чувствуют себя настоящими детективами. И чтобы «мыслить как преступник» пытаются анализировать все возможные источники данных: опрашивают друзей и коллег, пытаясь «попасть в ЦА «, продвинутые смотрят статистику в Яндекс.Метрике и в соцсетях и изучают запросы в wordstat. Сегодня мы подробно разберем, как и откуда выжимать секретную информацию о пользователе, дадим несколько скриптов по сбору 100% достоверных данных о пользователей и покажем, как перенести эту информацию в карту персонажей .

В блоге Convert Monster есть несколько статей про исследование и подготовку карту персонажей, но по опыту двух потоков курса « » поняли, что наибольшее затруднение вызывает именно сбор информации о потенциальных клиентах. И даже если накоплена некоторая статистика и есть реальные отзывы не всегда ясно, на что обратить внимание и какие вопросы задавать пользователям.

5 источников данных о целевой аудитории, обязательных к использованию

В этой статье акцентируем внимание на анализе существующих данных, т.е. статья пригодится тем, у кого накоплена хотя бы первичная статистика об аудитории , есть группы в соцсетях и регулярный «доступ к телу» клиентов в лице действующего отдела продаж.

Ниже подробный разбор 5 источников данных о целевой аудитории и перенос полученных сведений в карту персонажей.

Ядро карты персонажей составляют ответы на следующие пункты:

  1. Поло-демографические данные;
  2. Эмоциональное состояние/Интересы;
  3. Цель покупки или проблема;
  4. Цель посещения сайта;
  5. Основные факторы принятия решения;
  6. Дополнительные факторы принятия решения;
  7. Возражения;

Рис. 1. Шаблон карты персонажей.

Как анализировать существующую аудиторию? Где собрать сведения? Как ответить на эти вопросы? Не нужно изобретать велосипед – начните с источников, которые у вас под рукой. Рассмотрим несколько методов анализа потребностей клиента:

Входящие звонки

Рис. 2. Похоже на выявление потребностей в вашем отделе продаж?

На что стоит обратить внимание при анализе входящих звонков:

  1. С какими проблемами чаще всего звонит клиент?
  2. Как он их формулирует?
  3. Какие способы решения уже пробовал?
  4. Почему не помогло?
  5. Возражения

В сборе этой информации вам поможет отдел продаж и запись телефонных разговоров, более того, вопросы выше — стандартные вопросы для выявления потребностей, ничего криминального делать не нужно. Потенциальный клиент даже не поймет, что вы собираете информацию.

Стоит проанализировать записи звонков, обращая внимание на формулировки клиента, на возражения и его опыт до покупки, чтобы проследить логику принятия решения.

Какие сведения можно вытащить из телефонных звонков: проблему/цель покупки, ключевые факторы решения и собрать список возражений, которые вы закроете на посадочной странице.

Сбор отзыва существующего клиента

Обзвоните 10 реальных клиентов и попросите ответить их на 6 коротких вопросов:

  1. Какую проблему пытался решить клиент?
  2. Какие способы решения он уже пробовал?
  3. Почему не помогло?
  4. Почему решил обратиться именно к вам?
  5. Что стало решающим фактором покупки?
  6. Какой результат получил?

Чтобы клиенты охотнее оставляли отзывы, можно сделать взаимовыгодный пост в формате кейса в блоге, где вы размещаете отзыв клиента и ставите ссылку на его проект. Вы получаете +100 к репутации, а клиент дополнительные переходы на свой сайт. Вот, как мы это реализовали для проекта .

Опрос в рассылке

Собираете базу имейлов и регулярно ее «подкармливаете» полезным контентом? Опрос в рассылке поможет вам убить сразу 2-х зайцев:

  1. сегментировать рассылку по интересам, чтобы сделать ее более адресной и повысить показатели;
  2. и получить обратную связь от клиента по качеству вашей рассылки и о компании в целом;

Как создать опрос? Есть несколько способов:

  • Использовать Google Forms и ставить ссылку на опрос в письмо;
  • Либо использовать встроенный функционал рассылочных сервисов. Getresponce предлагает создать опрос сразу внутри сервиса, без привлечения сторонних решений.

Есть общие правила, которые нужно учитывать при создании опроса: не более 10 вопросов (чем меньше и точнее сформулировано — тем лучше), последний вопрос можно оставить открытым и дать возможность ответить своими словами, варианты ответов нужно предусмотреть заранее. В обмен на прохождение опроса предложите бонус и расскажите, для чего вам этот опрос («чтобы присылать вам только то, что интересно именно вам» и т.д.).

Анализ групп в социальных сетях

Какие данные можно получить из социальных сетей? К вашим услугам полный набор сведений для составления mind-карты по персонажам, площадка, где вы задаете вопрос и получаете на него ответ. Одним словом, прямой «доступ к телу» ваших потенциальных клиентов.

ВКонтакте

В первую очередь стоит изучить статистику вашей группы. Какие очевидные данные видны в статистике:

  • Пол/Возраст;
  • География (страны и города);
  • Устройства (соотношение между просмотрами с компьютера и мобильного устройства);
  • Источники переходов;

Также полезно будет провести семантический анализ (вытащить наиболее популярные ключи, например, с помощью сервиса Адвего) и понять интересы аудитории. Для этого загружаем сохранённые аудитории в Церебро или Таргетхантер в «группы, где есть ЦА », выставляем количество участников (1000-50000), копируем названия групп, вставляем в Адвего и получаем список ключей-интересов.

Рис. 3. Пример интерфейса сервиса Церебро Таргет.

Таким образом, помимо социально-демографических данных, из ВК можно вытащить интересы аудитории, понять ключевые факторы принятия решения, узнать, на кого она ориентируется при выборе (можно даже выявить лидеров мнений).

Facebook

В Facebook к вашим услугам инструмент Audience Insights. Оттуда можно получить даже скрытую информацию, т.к. сервис показывает даже те интересы, которые не были указаны в аккаунте (на основе лайков).

Последовательность действий:

  1. Выберите нужную аудиторию: все пользователи Facebook (широкие интересы и изучение конкурентов), пользователи связанные с вашей страницей (ваша нынешняя аудитория), индивидуализированная аудитория (загружаете базу имейлов). Можно конкретизировать параметры аудитории: пол, возраст и т.д.
  2. В строке интересы вводим конкретные страницы (популярные места, названия и т.д.). Проставляем нужный регион.

Далее по выбранной группе мы сможем проанализировать подробный демографический состав аудитории, географию, посмотреть сферы деятельности, какие самые популярные категории страниц, активность пользователей и используемые устройства.

Рис. 4. Скриншот из сервиса Audience Insights: мы можем оценить половозрастной состав аудитории, увидеть наиболее массовый сегмент.

Яндекс.Метрика

Получать достаточно полные сведения о целевой аудитории сайта позволяет Яндекс.Метрика. В отчетах Метрики можно найти информацию о географии пользователей, половозрастных характеристиках, долгосрочных интересах (позволяет увидеть типичные поисковые запросы и поведение пользователей в сети.) и т.д.

Рис. 5. Интерфейс Яндекс.Метрики.

Стандартный отчет «География»

Отчеты > Стандартные отчеты > Посетители > География

Половозрастные характеристики. Отчеты «Возраст» и «Пол»

Отчеты > Стандартные отчеты > Посетители > Возраст

Отчеты > Стандартные отчеты > Посетители > Пол

Долгосрочные характеристики

Отчеты > Стандартные отчеты > Посетители > Долгосрочные интересы

Чтобы понять, какой сегмент аудитории наиболее заинтересован в вашем продукте/услуге и создать свой, кастомизированный, отчет, используем инструмент «Группировки» в любом из вышеперечисленных отчетов. Он позволяет увидеть: активность аудитории и уровень вовлеченности, конверсии, источники трафика для каждого сегмента аудитории.

Вывод

Наиболее полный объем информации о пользователе приносит живое общение: звонки, сбор отзывов и анализ активностей в социальных сетях . Именно там мы получаем подробную информацию о цели покупки (проблеме), о ключевых и дополнительных факторах принятия решения и выявляем возражения.

Социально-демографические данные, половозрастные характеристики, географию, используемые устройства, интересы лучше собирать через веб-сервисы (Яндекс.Метрика, Google Analytics) и сервисы, которые собирают статистику по социальным сетям (Церебро, Таргетхантер, Audience Insights в Facebook).

В следующей статье мы рассмотрим, как собрать информацию, если у вас еще нет реальной аудитории, а в частности:

  1. Как правильно работать с вордстатом и выжать из него максимум информации о ваших персонажах;
  2. Как анализировать блоги, форумы и посты в соцсетях. И как с помощью тщательного анализа блогосферы и соцсетей сформулировать оффер.
  3. Как провести простой конкурентый анализ и на что обратить внимание в первую очередь.

Есть вопросы по сбору информации о целевой аудитории вашей посадочной страницы — welcome в комментарии к статье!
Либо закажите лендинг у нас и мы сами всё сделаем!)

Предположим, компании или банку нужно понять, что собой представляют их клиенты, кто пользуется их продуктами. Где вы будете брать информацию?

Источников, которые могут что-то рассказать о клиенте, на самом деле, очень много. Во-первых, тексты на страницах соцсетей: примерно двухсот слов, написанных клиентом, обычно бывает достаточно, чтобы определить его психотип. Во-вторых, о многом говорят фотографии, которые люди выкладывают в соцсетях Instagram, Facebook и подписи к ним. Например, экстравертам нравятся яркие динамичные фото, изображения людей. Интровертам, наоборот, - фотографии предметов, а в оформлении они используют более спокойную цветовую гамму.

Кроме того, любой банк или крупная компания анализируют обратную связь на свои рассылки сообщений: внимательно наблюдают, на какие сообщения и как вы отреагировали, а какие проигнорировали.

Еще один источник - так называемое транзакционное поведение клиента. На что он тратит деньги? И где? Интроверты, например, много покупают в магазинах «Сад и огород», в книжных магазинах, они не скупятся на страховки. Экстраверты больше денег тратят в барах и ресторанах, покупают билеты на концерты.

Важно и то, расходует ли клиент все деньги до копейки или предпочитает делать накопления. Мы используем любую информацию, которая хоть как-то может помочь.

Мы анализируем доходы и расходы клиента примерно за полгода - этого бывает достаточно, чтобы создать его профиль

А если никаких транзакций нет? Если человек сразу после зарплаты снимает все деньги и потом расплачивается наличными?

Безусловно, есть «сложные» клиенты. Но большинство - 75-80% - мы все-таки можем «просчитать». В наше время банковские карты есть почти у всех. И далеко не все, как вы говорите, сразу снимают наличность - большинство все-таки предпочитают хранить ее на картах и расплачиваться ими.

Удобнее купить онлайн-билет на самолет, чем искать в городе представительство авиакомпании. Комфортнее купить платье в интернет-магазине, чем тратить час, чтобы добраться до торгового центра, а потом еще полдня ходить по магазинам, чтобы найти наряд, который понравится. Мы анализируем доходы и расходы клиента примерно за полгода - этого бывает достаточно, чтобы создать его профиль.

И эта информация в том числе влияет на то, даст банк кредит или нет, правильно?

Да, в том числе на это.

Но как тогда вы можете объяснить тот факт, что одному моему знакомому, который уже 4 года официально не работает и получает гонорары наличными, банк постоянно дает мелкие кредиты, а другой знакомой с официальным доходом в 1000 долларов банк отказывает в кредите 5000 долларов? В чем тут подвох?

Я не знаю, о каких банках вы говорите, поэтому мне трудно сказать о причинах.

Сформулируем вопрос иначе. Какой психотип клиента наиболее выгоден банку?

Все зависит от банка и от продуктов, которые он предлагает. Разным людям нужны разные книги, разная еда. И разные банковские продукты. Например, страховка при выезде за рубеж нужна экстравертам, потому что они часто путешествуют. С другой стороны, наша компания использует такие технологии, которые вдохновят интровертов рассмотреть возможность приобретения страховки.

На конференции вы говорили, что большие данные не приносят вреда людям.

Нет, при неправильном использовании они могут нанести серьезный ущерб. Но мы в DataSine делаем все для того, чтобы информация использовалась строго по назначению. Если компания-клиент вызывает у нас какие-то подозрения, мы не будем с ней сотрудничать или ограничим количество предоставляемой информации.

Мы с коллегами работаем над тем, чтобы люди получали только те письма с предложением продуктов, которые действительно им нужны

Собственно, почему я пришел работать в эту компанию? Потому что мне надоело получать неперсонализированные сообщения по электронной почте, мне надоел весь этот спам, который валился в ящик без учета моего типа личности, моих потребностей.

Мы с коллегами работаем над тем, чтобы объем спама сократился, чтобы люди получали только те письма с предложением продуктов, которые действительно им нужны или могут пригодиться. Всю полученную информацию мы используем только для этого - ни в коем случае не во вред клиенту.

Кстати, в Евросоюзе уже появился регламент по защите персональных данных. Думаю, что правительствам других стран нужно последовать нашему примеру.

Какие данные, на ваш взгляд, лучше не выкладывать в интернет, не делать достоянием общественности?

Совершенно точно - медицинские данные. Они не должны нигде разглашаться. Их нельзя ни публиковать, ни монетизировать. Люди сами должны решать, какая информация должна быть публичной, а какая нет.

Об эксперте

Йорган Каллебаут - член Британского психологического общества (BPS), руководитель психологического направления в компании DataSine, где исследует большие данные и их влияние на личность. Стоял у истоков использования big data для персонализации маркетинговых кампаний банков в Европе, Великобритании и России.

В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.

Собирайте всё

Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.


Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.

Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее - вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.

Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.

Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».

Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:

Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.

Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали - разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.

Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США - благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.

Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными - ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.

Приоритеты и выбор источников данных

При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?

Главная цель работы аналитиков - давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.

У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга - история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.

Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных - ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:

Список параметров для расстановки приоритетов

Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.

Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.

Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.

Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.

Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.

Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.

Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто - вперед.

Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.

Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.

Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.

Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.

Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы !


Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.

Взаимосвязь данных

Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.

Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла - поисковая выдача.

Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.

Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.

Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.

Предложение скидок за приглашение друга из соцсети даст нам доступ к ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.

Сбор и покупка данных

Сегодня существует множество способов сбора данных, один из самых распространенных - API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.

Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.

Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка », но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.

Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.

Но если есть возможность собирать сырые данные, то лучше выбрать их - они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.

Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:

Цена
Все любят бесплатные данные - и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.

Качество
Данные чисты, им можно доверять?

Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?

Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?

Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?

Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?

Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.

Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?

Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?

Документация
Если вам предоставляют документацию - хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.

Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.

Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?

Это далеко не все, но основные и несомненно важные вопросы, которыми стоит задаться перед приобретением данных у поставщиков.