Fourth – решения за данните в мащаб

*Текстът е предоставен от Fourth

В края на 2021 година публикувахме статията Точни и гъвкави прогнози: Fourth и науката за големи данни (Big Data). Това бе годината на създаване на Data Science отдела във Fourth. Година и половина по-късно екипът се разви, компанията придоби нови клиенти, a „апетитът“ към точните прогнози само нараства.

Голямата ни клиентска база с над 100,000 локации по цял свят позволява да бъдат обработвани огромни масиви от информация в мащабите на петабайти.

Предизвикателствата са в посока подбиране на правилната технология за обработка на такова количество данни и тяхното бързо действие. Добавихме analytics и real time контекст, който допълва портфолиото на Fourth, фокусирайки се не само върху точни прогнози, но и визуализирайки случващото се в момента при клиента – хотел, бар или ресторант. Това не са тривиални проблеми, а напротив – концептуални казуси, често предизвикващи мисленето и креативността. Целта ни е да направим цялостна data инфраструктура, която да се ползва за трите ни различни цели – поглед в миналото, настоящето и бъдещето. Базираме се на последно въведените Azure технологии и инструменти и автоматизираме чрез Python, комплексни обработки на данни и трансформации.

Попитахме и няколко специалисти от отдела, които разказват за техния опит в компанията.

Пресиян Тодоров, стартирал като стажант и продължил като Data Engineer, разказва:

“Ако ме попитате дали нещо ме е изненадало по време на стажа ми, това би бил моментът, в който ми се даде възможността да направя инфраструктура за получаване (през Message Bus) и обработка на данни на 100 000 ресторанта, изпращащи такива многократно през деня. Бях повече от доволен, че ми беше гласувано такова доверие от колегите ми още като стажант.
Преминаването ми в постоянна позиция като Junior Data Engineer се случи съвсем естествено. Истински ме вълнуват бъдещите проекти, които ще ми помогнат да развия още повече уменията си: Real Time data, Delta lake, Data governance.

Delta Lake е доста интересна технология, чиято основна цел е да се пази история (версия) на данните, за да можем с една команда да се върнем към стара, работеща версия. Всъщност Delta Lake представлява абстракция над Data Lake, като основната единица е таблицата, чрез която се случва писане, четене, актуализиране на данните. Връщането на версиите назад е възможно, като за всяка промяна (в дадена таблица) се пази по 1 малък json файл с всички промени (делта), между 2 версии. Тази функционалност естествено има и своите недостатъци. Пример за това е много по-големият разход за съхранение на данните (в зависимост от това колко дни история искаме да пазим назад). Хубавото обаче е, че се създава абстракция върху данните, която дава възможност да се пишат SQL заявки върху тях, тоест могат да се ползват и от Analytics за изграждане на dashboards, и от Data Science да могат бързо да правят справки с данните.

Real Time Data Ingestion е нещо, с което все още нямам опит, но със сигурност представлява голямо предизвикателство. Една от спецификите е големината на данните. Тук решението е лесно – използваме вече готова инфраструктура (например Azure Event Hub). Друго предизвикателство, което виждам, е да се избере правилен partitioning на данните, тъй като не искаме да отваряме 1 GB файл, за да запишем 3 реда.”

Днес те питаме…

Loading …

Виж всички обяви Laptop graphic

ICT Strypes

Junior C/C++ Developer

Fully Remote

Evolution Engineering Bulgaria

QA Lead, Backend team

София

NATEK

PHP Developer

Fully Remote

Виж всички обяви

Майада Хатиб, Data Scientist, сподели:

“Започнах работа във Fourth като Junior Data Engineer преди една година. Нямах много опит с cloud решенията или пък създаването на ETL-и. В продължение на шест месеца успях да развия тези умения, работейки по различни Data Engineering проекти, свързани с обработка на данни от различни източници с помощта на Azure Data Factory, Spark и Azure Synapse. След като кандидатствах вътрешно, успях да премина към Data Scientist позиция, за да продължа с кариерното си развитие в областта. Всичко това нямаше да е възможно без подкрепата на екипа и директния ми мениджър.

Знанията, които натрупах в предишната позиция, ми позволиха да прилагам добри практики и да подбирам правилни технологии за обработката на данните. Поради нарастващия обем на данните, първоначално използвахме за обработка стандартната библиотека pandas на Python, но впоследствие преминахме към Spark.

В работата си винаги следваме добрите софтуерни практики и се стараем да изградим скалиращи решения и да постигнем обработка и съхранение на големи масиви данни по оптимален начин.“

Веселин Вълчев, Senior Machine Learning Engineer, даде повече детайли:

“За мен работата във Fourth е изключително удовлетворяваща, понеже продуктите на екипа ни имат много широк и директен ефект върху дейността на десетки хиляди ресторанти, съответно десетки и стотици хиляди хора. Генерирайки милиарди прогнозни точки на ден, ние помагаме на клиентите ни да оптимизират ресурсите си за деня, месеца, а за някои и година напред. С такъв хоризонт и обхват идва сериозна отговорност, която изисква от нас да строим устойчиви и скалиращи системи, както и да осъществяваме мониторинг от множество гледни точки. Това изисква работа по различни етапи на цикъла на данните в нашите обработващи процеси. Например в Synapse при входиране на данни следим качество и количество чрез Spark. Следим и документираме моделите и Machine learning експериментите чрез MLFlow и TensorBoard.

Едно от най-големите предизвикателства е интерфейсът човек-алгоритъм. Работим по система за ‘интерпретируем изкуствен интелект’, с която да показваме защо нашите алгоритми са дали дадена прогноза, като това е важно за увеличаване на доверието на клиентите в резултатите от системата. Тук е и частта, която ми доставя най-голямо удовлетворение – деликатният въпрос дали всичко е предмет на машинно обучение и колко по-добри прогнози трябва да дава труден за интерпретиране алгоритъм, в сравнение с една лесна за разбиране евристика, за да си заслужава непрозрачността. Търсенето на баланс и намирането на компромиси е критично при интегрирането на Machine Learning система в действащ и скалирал продукт и аз се радвам, че имам възможност да се боря с такива казуси във Fourth.”

Fourth е иновативна компания, която инвестира в направата на скалируеми системи, използващи machine learning/ deep learning в сферата на хотелиерството и ресторантьорството. Платформата за данни е основа на всички бъдещи продукти на компанията. В световен мащаб ресторантьорската индустрия продължава да се сблъсква с несигурност, а предизвикателства като инфлацията на цените на стоките и енергията, както и колебливото доверие на потребителите застрашават възстановяването на сектора след пандемията. Fourth вярва, че удобната за потребителя визуализация на ключови данни за ресторантите (както на анализи за миналото, така и в почти реално време) и подобрената точност при прогнозирането на търсенето ще помогнат на мениджърите да държат разходите си под контрол, да насърчават по-интелигентното вземане на решения и да гарантират, че всяка смяна, на всеки обект, е оптимална.

Вълнуващо, нали? Присъединете се към нас – отворени позиции във Fourth.