Технологии обработки big data в электронной коммерции

Хочешь в ТОП? Хватит хотеть, пора действовать!

Начать продвижение

Технологии обработки big data в электронной коммерции

03 мая 2018
4.6к
Москва г. Москва, ул. Нобеля 7, п. 56 +7 (800) 700-59-30

В розничной торговле и на онлайн-площадках используются не только классические системы ERP и CRM, но также более продвинутые технологические решения. В частности для контроля торгового оборота применяется программное обеспечение для автоматизации складского учета, аналитические модели, исследующие потребительский спрос. Многие программно-аппаратные комплексы способны к масштабированию, чтобы удовлетворять потребности растущего бизнеса.

 

Среди программных решений, востребованных в сфере e-commerce:

  • рекламные платформы. Социальные сети, поисковые системы обеспечивают основной поток трафика. На их основе работают инструменты маркетинговой аналитики, изучения поведенческой стратегии покупателей. В результате продавец может провести оптимизацию затрат;
  • специализированные приложения (в том числе web-решения), обеспечивающие конверсию поступающего трафика в продажи. К таким относится система Hybris, сервисы, обслуживающие несколько каналов продаж (онлайн-площадки, партнерские программы, обычная розница, call-центры и др.); 
  • веб-приложения, улучшающие пользовательский опыт. Важна скорость работы интерфейса, продуманная подача имеющегося товарного ассортимента, правильное использование инструментов маркетинга; 
  • аналитические OLAP-системы. Интерактивная обработка поступающей информации позволяет выделить ключевые закономерности и привести бизнес-процессы в соответствие текущим условиям. Также на основе результатов анализа проводится сегментация трафика по возвратным, социальным, экономическим и другим признакам; 
  • инструменты для массовых email-рассылок, привлекающих внимание клиента; 
  • методики персонализации покупателя. 

Даже по столь схематическому описанию структуры программной платформы для e-commerce становятся очевидными масштабы поставленных задач и объем вычислительных мощностей, требующихся для их решения. Крайне важно, чтобы каждый программный компонент работал максимально быстро. Согласно данным, опубликованным в 2012 году аналитиками Amazon, секундная задержка в работе веб-приложения обходилась им в $ 1,6 млрд. Статистика компании Akamai выявляет схожие тенденции: задержка в 0,1 секунды при загрузке страницы снижает конверсию почти на 7 %.  


Малый и средний бизнес практически не сталкивается с подобного рода трудностями. Имеющегося в их распоряжении арсенала IT-систем достаточно для обслуживания относительно небольшого массива данных. Однако на уровне таких гигантов, как Amazon, Alibaba Group, Rakuten, требуется применение принципиально других решений. Также необходимость в масштабировании возникает ввиду консолидации бизнеса в сфере онлайн-ретейла. Появляются новые игроки, использующие для наращивания клиентской базы новые технологии обработки информации. Данный процесс наблюдается не только за рубежом – такие российские площадки, как M.Видео и Яндекс.Маркет, в целом выстраивают свою стратегию в общемировом тренде.  


Ключевым для крупномасштабных проектов становится понятие больших данных. И речь идет в первую очередь не об объемах информации, а о скорости их обработки, которая зависит от оптимизации каждого компонента IT-инфраструктуры. Устранение узких мест в их работе позволяет менеджменту оперативно реагировать на изменения внешней среды и принимать своевременные решения.

 

Объем или скорость?

 

База данных является единым источником информации для большого количества одновременно работающих приложений. Соответственно, от скорости работы БД зависит производительность инфраструктуры в целом. Скорость выполнения запросов к базе данных зависит от ее структуры и задействованных алгоритмов. В свою очередь оптимизация БД может проводиться по двум направлениям.

  • Увеличение пропускной способности. Возможность одновременного обслуживания большого количества клиентских программ. 
  • Уменьшение скорости отклика. Разработка ведется в тех случаях, когда критическую важность приобретает скорость получения данных. 

Для интернет-торговли время отклика – важный параметр, так как от него зависит скорость загрузки сайта в браузере пользователя. Добиться малых величин отклика непросто, ведь на него влияет не только степень оптимизации программных компонентов, но и стабильность интернет-соединения, повлиять на которое невозможно. Если покупатель столкнулся с медленно работающим сайтом онлайн-магазина, не может комфортно перемещаться по каталогу, изучая ассортимент, то с большой долей вероятности он уйдет на другую торговую площадку.

Возможные решения проблемы длительного отклика:

  • дополнительная оптимизация задействованных программных модулей, разработка новых алгоритмов; 
  • горизонтальное масштабирование вычислительной системы, распределение входящих запросов по кластеру из нескольких серверов; 
  • кеширование часто запрашиваемой информации в RAM. 

 

Персонализация пользователя

 

Пожертвовать скоростью отклика мы можем только в одном случае – для обеспечения персонализации пользователя. Если в магазине представлен большой ассортимент продукции, рассчитанной на разные категории покупателей, в алгоритм поисковой выдачи следует внести соответствующие изменения. Целью адаптации является создание условий, при которых покупатель будет видеть в рекомендациях только те товары, которые потенциально способны его заинтересовать. Согласно исследованиям McKinsey, эффект от персонализации может вылиться в дополнительные 5–15 % выручки.

Для снижения нагрузки на центральное хранилище данных целесообразно вывести логику анализа пользовательского профиля на отдельный вычислительный узел. Преимущества распределенной системы, каждый модуль которой ограничивается собственной областью задач, выглядят так:

  • снижается интенсивность сетевого взаимодействия; 
  • уменьшаются задержки при выполнении операций ввода-вывода;  
  • появляется возможность использования высокоскоростного хранилища, минимально нагруженного обслуживанием вспомогательных алгоритмов.
  •  

    Отличие гибридных решений и систем in-memory

     

В онлайн-ретейле в последние годы активно внедряются решения in-memory (такие как SAP HANA, Polymatica, Exasol, Apache Igniet). Их объединяет распределенный принцип организации и использование для хранилища данных ОЗУ – наиболее быстрой памяти. По сравнению с традиционными дисковыми хранилищами архитектура in-memory обеспечивает на порядки большую скорость обработки информации. К тому же возможность горизонтального масштабирования позволяет адаптировать систему для потребностей любого бизнеса.

Однако без минусов не обошлось. Для обслуживания подобных систем требуются квалифицированные сотрудники, обладающие опытом работы с узкоспециализированным ПО. Также не стоит забывать о высокой стоимости оперативной памяти. В целом in-memory-решения можно рекомендовать лишь в тех случаях, когда скоростные характеристики хранилища данных имеют критическое значение и от них напрямую зависит прибыль компании.

Гибридные системы, к которым относятся продукция SAP, Druid и ряда других разработчиков, позволяют переносить или дублировать часть данных с ОЗУ на жесткий диск, снижая тем самым стоимость хранения информации. Какой именно набор данных будет дублироваться, решает пользователь, что открывает возможности по гибкой настройке системы. К примеру, на медленный носитель можно перенести неактуальную информацию или историю продаж. Доступ к ним будет медленным, но это не важно, ведь наиболее частые запросы пользователя будут направляться на хранилище в ОЗУ.

 

Стоимость внедрения in-memory-систем

 

Ввиду сложности развертывания подобных систем их внедрение следует поручить вендору, специализирующемуся на том или ином программном продукте. Также он предоставит консультационные услуги, позволяющие:

  • выбрать систему, максимально соответствующую потребностям заказчика и его бизнес-процессам; 
  • снизить риски, возникающие после внедрения нового решения; обеспечить техническую поддержку в ходе эксплуатации системы. Что касается стоимости системы, при ее расчете необходимо учитывать такие расходы: покупку лицензий на программное обеспечение; стоимость комплекта оборудования, необходимого для создания IT-инфраструктуры; 
  • стоимость услуг вендора. 

Итоговая цена может варьироваться от нескольких сотен тысяч до сотен миллионов рублей. На нее влияет объем хранимой информации, сложности реализации функций для конкретных бизнес-процессов, особенности выбранного продукта, в частности легкость масштабирования.

Решение о развертывании гибридной или in-memory-системы должно приниматься по результатам анализа работоспособности существующей инфраструктуры. Данная задача может быть поручена специалисту компании или аналитику, приглашенному извне. Необходимо выяснить, компенсирует ли дополнительная выручка, полученная в результате модернизации, затраты на ее проведение. Ответ на данный вопрос может дать только специалист, разбирающийся в бизнес-части и имеющий глубокие познания в технологической области.

 


Оценить статью

6 5