+
Вход

Въведи своя e-mail и парола за вход, ако вече имаш създаден профил в DEV.BG/Jobs

Забравена парола?
+
Създай своя профил в DEV.BG/Jobs

За да потвърдите, че не сте робот, моля отговорете на въпроса, като попълните празното поле:

83+5 =
+
Забравена парола

Въведи своя e-mail и ще ти изпратим твоята парола

Кариерният път към Data Science — какво е нужно, за да успеете

През 2012 г. Harvard Business Review нарече Data Scientist „най-секси професията на 21-ви век“, а пет години по-късно IBM прогнозира, че до 2020 г. ще има 2 720 000 отворени позиции за специалисти, които събират, анализират и интерпретират сложни дигитални данни. С времето и IT компаниите в страната започнаха да търсят такива експерти, а днес в job board-а на DEV.BG има над 170 свободни Data Science (DS) позиции (предимно за София и fully remote), които дават възможност на точните кандидати да работят като „информационни анатоми“ в собствената си страна.

Приложенията, ролите и възможностите — неустоимите страни на Data Science

Big Data Is Big Business се превърна в мантрата на века. В резултат на скоростното технологично развитие компаниите имат достъп до огромно количество информация, а до 2025 г. ще генерираме повече от 181 ZB данни (181 с 21 нули!). Това прави DS ролята, меко казано, всесекторна: „

Георги Гуляшки, Data Scientist, Transmetrics

„Професията data scientist намира своето място в почти всяка сфера — от логистика и транспорт до образование и екология. Изкуственият интелект и статистиката днес навлизат активно дори в областта на изкуството. Чрез иновативния модел Stable Diffusion например сега всеки може лесно да материализира идеите си в автоматично генерирана картина — нещо, което малцина са си представяли, че ще бъде възможно,“ казва Георги Гуляшки, Data Scientist в Transmetrics, и добавя, че DS ще намира по-широко приложение там, където има недостиг на работна ръка и ресурси, като напр. телемедицината.

Все пак секторите, които към момента използват най-активно DS, включват електронната търговия, автомобилостроенето и аерокосмическата промишленост, здравеопазването, фармацията, финансите, телекомуникациите, онлайн залаганията и много други според наблюденията на Георги Памуков, Data Management & Data Science Practice Lead в Adastra: „Те са по-зависими от данни, инвестират в R&D, прилагат новости, използват и неструктурирани данни, залагат на customer-facing модели в реално време извън стандартните.“

Навлизането на DS във все повече бизнес и социални области ще промени и начина на работа, и самите роли: „До неотдавна един-единствен екип е бил отговорен и способен да изпълни всички аналитични задачи от край до край. С растящите обеми информация възникват нови методи и технологии и сега са се обособили отделни компоненти от т.нар. pipeline, всеки от който е поет от отделна група специалисти. Възникват нови роли и те често са свързани с владеенето на една основна технология или с дълбоки познания само в една от стъпките по извличане, начална обработка, моделиране и визуализация на данните. Това налага по-тясната специализация на всеки съвременен успешен data scientist,“ смята Георги Гуляшки.

Георги Памуков, Data Management & Data Science Practice Lead, Adastra

Георги Памуков дава повече детайли за тези специализации. Една от ролите с голям потенциал е Deep Learning (DL) Engineer като резултат от тенденциите в областта на данните и тези специалисти ще се търсят, защото компаниите вече гледат отвъд структурираните и таблични данни и работят върху различни приложения, базирани на снимкови, текстови, аудио и други данни.

Други „горещи“ позиции включват Edge DL/AI и MLOps/DLOps Engineers: „Това са само някои от ролите — потенциалът е буквално навсякъде! С възхода на AI вероятно ще се засилва търсенето на различни специалисти около етика и предубеждения (bias), а с развитието на квантовите компютри ще започнат да се появяват и релевантните еквиваленти от страна на структурите от данни. Концепции като federated learning също се развиват и вероятно ще доведат до търсене на съответните специалисти. Едно е сигурно — предстоят интересни времена.“

Според Данислав Желязков, Data Scientist в Ocado Technology, широкообхватните модели ще бъдат използвани в най-различни сценарии и ще се търсят повече Generative AI инженери: „Доста често Data Science се използва за извличане на информация от данни и анализ на изображения. Интересното обаче е, че може да се приложи и в много други случаи като оптимизации, operational research, всякакъв тип path finding, планиране и разпределение на задачи, demand forecasting и други видове прогнози. Kакто се казва, „The sky is the limit“.“

Херкулесовите изисквания на професията

Пътят към DS е постлан с добри намерения и хиляди възможности, но е и един от най-трънливите. Както казва Георги Памуков от Adastra, това е многолика дисциплина и кариерните стъпки при всеки са различни. Лично той има математико-икономическо и статистическо образование, както и реален опит като аналитик от времето, когато DS не съществува като понятие. За да стане практик обаче му липсват нужните програмни умения (SQL & ETL, R, Python и др.). Инвестира време и усилия да ги придобие, а за усвояването на правилната методология, терминология, проектната организация, начални ML умения и други, преминава през DS специализация на Johns Hopkins University. Следва придобиване на практически опит и познания в областта на ML, за което основно допринася Kaggle. Чак тогава завоюва и първата си „истинска“ DS позиция като ML инженер: „Това беше само началото на пътя, който впоследствие премина през Data Scientist, Senior Data Scientist и Data Science Lead позиции в различни компании и индустрии. Важно е да се разбере, че кариерата в тази сфера е свързана с огромна и постоянна инвестиция на усилия и време.“

Данислав Желязков, Data Scientist, Ocado Technology

Началната кариерна точка на Данислав Желязков от Ocado Technology е диаметрално противоположна, защото той започва като програмист — бакалавърска степен по компютърни науки, магистърска степен в областта на изкуствения интелект, работа като софтуерен инженер и след няколко курса става Data Scientist: „Всичко е строго индивидуално и няма универсална рецепта. Важното е да си нахъсан и да знаеш какво искаш. Сферата е доста динамична и стандарът и най-добрите технологии постоянно еволюират.“

Независимо от посоката, в която се насочва един бъдещ DS специалист, има задължителен набор от умения, които да придобие и развие, за да успее. Част от тях включват:

  • Солидни теоретични познания в областта на математиката и статистиката, вкл. и за т.нар. cognitive biases: „Неслучайно думата science присъства в словосъчетанието. Всеки ML модел има конкретна математическа формулировка и нейното разбиране е ключово за правилното му приложение и за тълкуването на резултатите,“ казва Георги Гуляшки от Transmetrics.
  • Силно развита аналитична мисъл и задълбочено разбиране на сферата и индустрията, в които работи (domain knowledge).
  • Безупречни компютърни умения — както илюстрира историята на Георги Памуков, те могат да бъдат придобити впоследствие, ако стъпят на математика и логика.
  • Развити методологични, научни и организационни умения.
Милен Чечев, Head of Data Science, Fourth.
  • Умения за работа с данни, визуализации, ML/DL: „Един млад специалист обикновено има теоретични знания за различни алгоритми, но му липсва практическата работа над изследването на данни и проблеми. С течение на времето и с натрупването на опит се очаква той да се справя с лекота с обичайните проблеми — качество и липса на данни, дефиниране и потвърждаване или отхвърляне на хипотези, визуализация на данните в подходящ вид,“ обяснява Милен Чечев, Head of Data Science във Fourth.
  • Много добри умения за работа в екип.
  • Задължителни езикови, комуникационни и презентационни умения — да може да разказва истории с данни на „прост“ език и да ги аргументира разбираемо пред IT и бизнес публика.
  • Любознателност, нагласа, желание и дисциплина постоянно да надгражда знанията си с четене на научна литература и детайлно проучване на последните тенденции.

И още. DS все по-често си сътрудничи с хуманитарните науки и това „преливане“ означава само едно — попълване на липси от знания и от двете страни: „В днешно време социологията и психологията силно се уповават на Data Science. Това е ясно отразено в учебните планове на водещи световни университети — в специалност „Експериментална психология“ в Оксфорд например единственият задължителен предмет е „Теория на вероятностите и статистика“. В този ред на мисли хората, които искат да се развиват в социалните науки, неминуемо трябва да наблегнат върху изучаване на математика и статистика. Все пак тези точни науки служат единствено като средство за добре обосновани разсъждения. Тяхното приложение в труда на социолози, психолози и икономисти изисква добро сътрудничество между отделните области за предоставяне на достатъчно контекст и познания при формирането на хипотези, научен метод и експерименти,“ смята Георги Гуляшки от Transmetrics.

Днес те питаме…

Kаква нетна месечна заплата получаваш в IT сектора?
Loading ... Loading …

Главозамайващият растеж на обемите от данни води не само до появата на нови tech роли, специализации и по-активна комуникация между отделни научни области, но на места започва да променя и пазара на труда по неочакван начин. Съвсем скоро се появи новината, че data гигантите Scale AI и Appen търсят да наемат професионални поети и писатели с познати и екзотични езици, за да подобрят литературните качества на генеративните си инструменти за писане. Явно колкото и бързо да се развиват технологиите, има елемент, който (засега?) остава запазена марка само на човека.

Мястото на креативността в масивите от данни

Днес всички говорят за дефицита на IT кадри, а в контекста на DS този дефицит влючва и недостиг на изобретателност по отношение на данните, или т.нар. креативност. За да стане наистина добър, един специалист трябва да има способността да мисли като поет (всъщност терминът е използван официално за първи път през XVII в. от полския поет Матей Сарбевски), или извън познатите технологични рамки, защото точно това търсят компаниите, за да са конкурентоспособни в днешната бизнес среда. Какво точно представлява креативността в контекста на науката за данните?

За Георги Гуляшки от Transmetrics това е качество, което помага на експертите да извлекат най-полезните данни от информационната мъгла: „В практиката данните често са „мръсни“ и недостатъчни. Точно затова една от най-предизвикателните задачи на професията е формирането на качествен масив от данни, който съдържа възможно най-ценната информация, годна за моделиране. Тук огромна роля играе креативността — с правилен статистически подход да успееш да създадеш допълнителни полезни променливи на база на вече съществуващите такива. Да извлечеш и засечеш липсващи стойности и големи отклонения от наличната информация често е работа без предварително дефинирани стъпки и понякога преобразяването на данните от първоначалния им вид може да се сравни с изстискването на вода от камък.“ Веднъж установена същината на проблема по пътя на креативността, специалистът няма да има проблем да разпознае негов аналог в друга сфера.

Данислав Желязков от Ocado Technology е на същото мнение: „Данни има много. Проблемът е, че са в суров вид и не можем да ги използваме директно. От изключително значение е да подберем разнородни данни, да са достатъчно разнообразни и еднакво разпределени спрямо случая, в който ще ги използваме. Ако нямаме достатъчно, може да пробваме да ги синтезираме с някакъв тип Data Augmentation. За да се случи това обаче малко или много трябва да разберем данните, които имаме. Тук идва на помощ статистиката. Има и много достъпни инструменти за предварителен анализ, които бързо ни дават обща представа за тях и предлагат някаква автоматична начална обработка. Много вече добре тренирани модели са публично достъпни, трябва само да проверим доколко вършат работа в нашия случай и да ги оценим с наши данни. Ако се налага, можем и допълнително да ги адаптираме.“

Според Милен Чечев от Fourth едно от най-важните умения в професията е, разглеждайки данните, да си поставяме въпроси, да правим хипотези и да експериментираме за доказване или отхвърляне на тези хипотези: „Това е времеемък процес, който изисква доста изобретателност, логика и умения за решаване на проблеми, като за различните предизвикателства може да се наложи комбиниране на различни алгоритми от машинното обучение и компютърните науки.“

И накрая — креативността не е само ключов бизнес диференциатор, но и един от основните критерии дали един Data Scientist е талант или просто изпълнител: „Креативността е едно от качествата, които са вододелът между добрите и посредствените специалисти във всяка една сфера, и тя придобива все по-голямо значение в ерата на GenAI. Докато досадните и повтаряеми задачи ще бъдат все повече поверявани на AI, то разбирането на проблема и изобретяването на подхода за решаването им ще останат при нас, хората. Това е пряко свързано с креативността и тя присъства навсякъде в Data Science домейна,“ казва Георги Памуков от Adastra. Добавя, че креативността е дете на познанията и мотивацията — желанието един проблем да бъде решен по най-добрия възможен начин и по неотъпкани пътища, и общата култура в данните — владеенето на различни подходи и множество „изходи“, което позволява да се комбинират при дешифрирането на още проблеми и дори изобретяването на нови методи.

Слабите места във веригата за доставки на Data Science таланти

Търсенето на DS експерти избухна по време на пандемията, когато дигиталната трансформация се превъртя на много бързи обороти. Недостигът им обаче продължава да е осезаем. Това, от една страна, се дължи на факта, че професията е сравнително нова на българския пазар и трудно се намират кадри с релевантни знания и опит. От друга, дори и да ги има, предизвикателствата са свързани с нивото им на експертност: „Голяма част от съответните програми в повечето български университети са насочени към теоретични, понякога недотам полезни знания. Практическият аспект не е добре застъпен и често е остарял. Това е изключително динамична дисциплина и университетите изпитват затруднения да поддържат темпото. В много случаи Data Science се преподава от хора без практически опит и истинско разбиране в областта, което води до неоптимални резултати. Положителният аспект е, че кандидатите, които завършват университет, често притежават необходимата статистическа подготовка, както и някакви програмни умения,“ споделя Георги Памуков от Adastra. Добавя, че затруднението при опитните програмисти е да се намерят по-тясно специализирани DS профили, а самият процес на подбор се утежнява от факта, че неквалифицирани кандидати масово изпращат CV-та за всяка свободна позиция, просто защото дисциплината е „гореща“.

Стиляна Канджева, Senior Recruiter, Fourth

Според Стиляна Канджева, Senior Recruiter във Fourth, засилващото се търсене на DS специалисти също се отразява на recruitment процеса: „Основното ни предизвикателство е постигането на баланс между кратък процес по подбор и същевременно достатъчно дълъг, за да добавя стойност за кандидатите. Още на първото интервю те се срещат с мениджъра на екипа, който дава поглед над ролята в дълбочина. След това на техническо интервю опознават колеги, с които биха работили пряко. Така и двете страни разбират повече една за друга и крайната цел е да могат да вземат максимално информирано решение.“ И тъй като готовите кадри не достигат, основният източник на нови таланти във Fourth си остават добре познатите препоръки на настоящи служители — над 40% от експертите са наети по този начин. Други източници за набавяне на търсените кадри са стажантската програма на компанията, редовни вътрешни сесии за развиване на знанията в data екипите, изследователски дейности и др.

Всъщност голяма част от IT компаниите следват максимата „Създай си сам Data Science талант“, вместо да чакат пазарът да им го осигури. Програмистите в Ocado Technology например имат достъп до богатите на ресурси платформи O’Reilly и DataCamp, за да надграждат знанията си: „Осигурен е и личен бюджет на всеки колега в екипа, който ползваме за външни курсове, книги и конференции, а петък е денят за учене. Имаме и редовни сесии за споделяне на знания и проблеми с останалите колеги на ниво екип, отдел и глобално ниво. Редовно се организират и хакатони за разнищване на конкретни работни казуси, а понякога отделни екипи провеждат общи и специализирани курсове за заинтересованите колеги,“ казва Данислав Желязков.

От Георги Памуков разбираме, че в Adastra има вътрешна DS програма за начинаещи и напреднали. Базовото ниво покрива целия DS цикъл и включва всички основни стъпки (дефиниране на проблема, data extraction & transformation, exploratory data analysis, feature engineering/selection, reprocessing, ML/modelling, evaluation и др.), за да създаде стабилна основа за разбиране на концепциите, методологията и правилния подход към решаването на проблемите чрез практически задачи. Нивото завършва с участие в playground състезание на DS платформата Kaggle и може да бъде надградено с обученията за напреднали, които включват специфични теми като advanced modelling & ML, DL, NLP, optimizations и MLOps. Не пропускат и нашумелия GenAI, както и други теми, които помагат да се извлече смисъл от информационните масиви.

Живеем в свят на постоянни промени и несигурности и днес всяка организация има дълъг списък от сложни проблеми, които да бъдат разрешени от таланти с необходимите умения, мотивация и обща култура в данните. Това изисква големи идеи, които отдавна се базират на прозренията, извлечени от информационните масиви, и тези идеи няма да са от полза само на IT компаниите, но и на общностите като цяло, защото само точният им анализ и креативно приложение ще ни изведат на следващото ниво.