Meetup Tech.Rocks x Limelight Networks : mieux gérer et utiliser la data

Data, data science, data engineering, data lake… ont fait parler d’eux durant le meetup Tech.Rocks du 2 juillet 2020, organisé en partenariat avec Limelight Networks. Trois tech leaders chacun expert dans leur domaine ont livré le sens qu’ils attribuent à la donnée et leur façon de l’exploiter.

Un grand merci à Limelight Networks pour avoir sponsorisé ce meetup.

 

Quelques mots sur Limelight Networks : Limelight Networks est un des leaders mondiaux dans les domaines de la diffusion de contenu numérique, de la vidéo, de la sécurité dans le cloud et des services Edge Computing.

Speakers, who’s who :

  • Marie Crappe, Head of Data Science de Veepee (ex-Vente-Privée.com)

  • Éric Pantera, CTO de Teads

  • Vincent Heuschling, CEO d’Affini-Tech et animateur du podcast Big Data Hebdo

Ce meetup a été animé par Youen Chéné, CTO de Saagie

C’est quoi pour vous la data ?

Éric Pantera : Il y a plusieurs façons d'aborder le sujet. Chez Teads, dans la publicité en ligne, la data est omniprésente. Elle l'est en termes de connaissance utilisateurs ou du CRM. La notion que nous mettons principalement derrière le mot data est le machine learning. On en utilise notamment pour délivrer notre service : le ciblage, la prédiction des clics, la qualité. On y a recours aussi pour la détection de fraudes ou pour alléger l’opérationnel. Nos premiers modèles ont maintenant 4 ou 5 ans.

Marie Crappe : Avec mon équipe chez Veepee, on gère de A à Z les projets qui intègrent du machine learning. On couvre ainsi l’exploration de la donnée, le monitoring, la maintenance des modèles en production. Nos profils sont variés, comptent des data scientists, des experts cloud, des architectes software, des développeurs. On fournit essentiellement des API aux autres équipes de l’entreprises. On assure la maintenance de tous les algorithmes que l’on produit. On fournit également des inputs auprès des différents métiers.

Quels métiers vont grimper demain dans le monde de la data ?

Marie Crappe : On a trois grandes familles d’algorithmes. La première, la personnalisation contribue à établir l’ordre des ventes sur la home page. On a aussi des équipes qui gèrent le CRM pour personnaliser les mails. Deuxième famille, la prévision des ventes intéresse en l’occurrence le business, les commerciaux et la supply chain. Un troisième type d’algo permet d’accélérer les process autour des images et des textes. Ça intéresse ceux qui gèrent le référentiel produit ou nos studios, là où le contenu numérique, les photos, les fiches techniques sont réalisés.

Éric Pantera : Le machine learning représente entre 5 et 20% de notre travail. Et pour mener ces activités, on alimente massivement la data engineering. On a fait le choix d'avoir des ingénieurs à cheval sur cette double dimension. Ceci dit, outre le fait de servir au machine learning, la data engineering permet aussi de faire de l’analytics, de facturer nos services. Elle contribue aussi à la BI. Pour ça, on a une équipe d'ingénieurs dédiés au pipeline de collecte, de traitement et de mise à disposition de la donnée, afin d’être interprétée et traitée.

Sur ces sujets, on a des problématiques de volume et de traitement qui demandent un gros travail de la data engineering, bien que BigQuery fasse des miracles. Notre data lake comporte différentes greffes. Des features teams vont faire leur dashboard de connaissance produit, d’A/B Testing, de monitoring d’usages. Se greffent aussi les activités telles que la BI, la finance, le contrôle de gestion.

Quelle est votre échelle de volume ?

Éric Pantera : Dans la pub, c'est toujours très impressionnant. On a à peu près entre 500 et 600 000 transactions entrantes par seconde. Celles-ci sont ensuite démultipliées en quelques 5 millions de requêtes par seconde. Quand on applique nos modèles de machine learning, on doit faire environ 5 millions de prédictions par seconde.

En volume de données, si on parle de stocker l'usage de notre service (les publicités vues, le parcours des internautes, les articles vus), ça représente à peu près entre 20 et 50 milliards de lignes par jour, soit à peu près un péta de données sur trois mois.

Comment vos équipes travaillent entre elles ?

Éric Pantera : D’une manière générale, on est très décentralisé. Le machine learning l’est. Ainsi, dans chaque équipe où il en est question, on trouve des data scientists. Ils fournissent à la fois des modèles aux teams et sur des use cases précis. Ça apporte de la transversalité avec des pratiques, des échanges, de la réflexion. Le business analysis aussi est décentralisé Ceci étant, on a une grosse équipe analytique qui fait la collecte, le traitement. Elle fournit les outils pour manipuler la donnée.

Marie Crappe : On est en équipe projet, avec le classico classique de l’agilité. On a des backend growing auxquels tous les profils participent. On a les sprint planning sur un rythme de deux semaines. Les daily ont lieu tous les matins, les rétrospectives toutes les deux ou quatre semaines. Le seul challenge est l’exploration. Souvent, on a besoin de faire des choses qui sont difficiles à chiffrer. On utilise pour ça la notion de time boxing. Au lieu de faire un ticket, on se demande combien de jours on se donne. On chiffre de cette manière et ça rentre dans le flux classique. Par, ailleurs, on est aussi outillé de sorte à entraîner ces modèles vers leurs stades d’industrialisation, avec de notamment de l’évaluation offline pour anticiper les performances et réduire les risques une fois le test lancé en production.

La qualité des données est-elle parfois source de problèmes ?

Marie Crappe : Qui n’a pas de problème de qualité de la donnée ? Je préfère parler de challenges. Veepee est un groupe composé de plusieurs structures. Son modèle de données à beaucoup évolué depuis sa création en 2001. On a un énorme chantier de convergences. Cela suppose d’aligner les modèles de toutes les entreprises, qui comptent des dizaines de millions de membres. Il faut s’y retrouver dans un contexte où le business change tout le temps. Et clairement, la donnée aujourd’hui n’est pas celle de 2017 et ne sera pas celle de 2021. Notre stratégie est relativement classique avec un data lake. Pour l'alimenter, on crée des data contracts avec chacun des produits de VEEPEE. Ce data lake fait ensuite un mapping de toutes les données des différents pays. Cela permet d'une part à la BI de construire des dashboards unifiés et, d’autres part, à la data science de venir s'alimenter à un même endroit.

A quoi ressemble votre stack technique ?

Marie Crappe : D’un point de vue infra, on est entièrement sur Google Cloud Platform. La data science utilise essentiellement Google pour l’entraînement et la mise en production de nos API. On a quelques serveurs GPU pour des besoins spécifiques d’entraînement de modèles. Pour les langages, on va être sur du classique : Python, Java, un peu de Scala…

Ceci étant, on adapte les techno en fonction des projets, de leur niveau de complexité et des SLA de nos API. On va utiliser des briques de GCP, de Cloud Storage, BigQuery, jusqu’à Google Kubernetes Engine, TensorFlow…

Éric Pantera : On essaie de rester le plus simple possible, de rester pragmatique, de ne pas se perdre dans la recherche, de délivrer un service le plus agile. Pour la stack de machine learning, on a développé un framework en interne. On s’est appuyé sur Spark. On y a implémenté quelques algorithmes simples comme la classification.

Pour la data engineering, on a un gros BiqQuery. À la sortie du pipeline de collecte, les événements passent par du Kafka. On a des processing en temps réel en Flink pour normaliser, filtrer et traiter les données. On stocke ça ensuite sur Amazon sur S3.

En ce qui concerne la BI, le dashboard analytics côté clients est fait sur du développement custom. On projette la donnée dans datamarts correspondant à de grands use cases spécifiques. On fait du dev web par-dessus, avec du React, de la dataviz classique. Côté interne, on utilise Chartio qui en plus de permettre de manipuler les datamarts est au centre de la vie de tout le monde dans la boîte.

Recos technologiques de Vincent Heuschling

Quelles sont les techno du secteur qui ont le plus de hype actuellement ?

Vincent Heuschling : Sans doute Dataiku et Snowflake. Tous les deux sont créés par des français. D'un côté, Dataiku permet de démocratiser les travaux de data science. Snowflake est davantage un produit de simplification du layer de stockage et d'exploitation de données. Quoi qu'il en soit, le produit magique est illusoire. Celui qui va solutionner l'ensemble des problèmes de l'entreprise, qui va la rendre data driven n'existe pas.

Quelles techno offrent de l’intérêt en matière de stockage ?

Vincent Heuschling : Jusqu’à peu, j’aurais dit “Hadoop est un bon pari”. Depuis, le 2 juillet, je ne le pense plus. Cloudera qui après avoir tué la diversité du marché en rachetant Hortonworks, a annoncé qu’il était à la recherche d’un repreneur. Il est donc probable qu’Hadoop finisse par mourir chez IBM, ou chez Oracle, ou dans un fond d’investissement. On sait que ce marché n’existe que par sa diversité d’acteurs. Les clients qui ont fait le choix d’Hadoop ont de grandes difficultés à opérer tout ça. À moins d’être un Netflix ou LinkedIn, il vaut mieux prendre un service managé. Celui-ci va permettre de découpler la capacité de stockage de données d’un côté et de processing de données de l’autre côté. Chez un cloud provider le stockage ne coûte rien. Le taux de réussite des projets et leur time to market sont bien plus intéressants. On abstrait une quantité importante de travail lié à l’administration.

Et pour le traitement de données ?

Vincent Heuschling : Par défaut, Spark est un outil de traitement qui a une grande flexibilité, une richesse fonctionnelle importante. D’ailleurs, la version 3 sortie récemment propose plein de nouveautés, dont on parle dans un de nos podcasts. Ces fonctionnalités supplémentaires vont finir par faire la jonction entre le traitement local de données et le traitement distribué. Sinon, il y a Dataflow qui n’existe quasiment que chez Google. Il a toutefois un gros problème : la portabilité de travaux réalisés sur Dataflow ailleurs que dans l’écosystème Google Cloud.

Un conseil pour visualiser au mieux sa donnée ?

Vincent Heuschling : On voit de plus en plus - dans la lignée de ce que font des Netflix - la construction de dashboards à l’intérieur d’un Notebook. En l'occurrence, il y a des offres qui, comme Voilà qui permettent de sortir des visualisations à partir d’un Notebook. Sinon, des outils comme Tableau, offrent -comme Excel- un set de fonctionnalité tellement vaste, utilisé généralement à 5% de ses capacités.

Prochain replay à venir à l’issue du meetup Tech.Rocks, du 6 juillet 2020, consacré à la culture des équipes tech dans un contexte de croissance. Sylvain Utard, VP Engineering d'Algolia, Clément Stenac, CTO de Dataiku, Emmanuel Gueidan, VP Engineering de Datadog vont en parler et répondre aux questions de Bérengère GÉNIN, CTO d'IntegraGen.

Tous Les Articles
×

Vous y êtes presque...

Nous venons de vous envoyer un e-mail. Veuillez cliquer sur le lien contenu dans l'e-mail pour confirmer votre abonnement !

OK