data scientist : profil phare des Big Data

Le métier de Data Scientist est en vogue mais si on en parle beaucoup ce n’est pas pour autant qu’on en croise un tous les jours. Et pour cause ! Il s’agit là de profils assez atypiques, mi-scientifiques, mi-business et surtout informaticiens. Alors imaginez ma satisfaction lorsque j’ai rencontré Thomas Gerbaud. Je n’ai donc pas demandé mon reste, je l’ai planté immédiatement devant la caméra afin de tout savoir de ce nouveau métier, de son profil, de sa vision du métier et des Big Data. Thomas est associé avec son frère au sein d’une startup (Mantiq) créée début mars 2015, qui propose des solutions digitales pour faire parler les données des entreprises. La jeune pousse du Sud de la France s’appuie sur une expérience de 10 années en recherches, et ses 3 associés proviennent du monde de la recherche (maths, physique, médecine). Mantiq s’occupe du design et du développement d’outils, logiciels permettant de faire parler les données de l’entreprise, de manière très générale.

Le data scientist raconté par un vrai data scientist

Il y a différentes définitions d’un data scientist. Je pense être dans l’acceptation la plus pure du data scientist : j’ai fait 10 ans de recherche en physique sur l’exploitation de données de grands instruments de recherche. Mon associé Antoine GERBAUD a fait une thèse de maths et fait de l’algorithmique depuis 6 ans. Mon autre associé Antoine NEURAZ, est médecin en santé publique et gère des données médicales depuis 4 ans.

data-scientist
Le data scientist : un profil affûté qui sort de l’ombre.

Ce sont des métiers très pointus. Qu’est qu’un data scientist en vérité ? Car nous entendons différentes versions.

Selon moi, un data scientist est quelqu’un qui va récupérer des données, quelque soit le format ou la taille, et va appliquer des outils efficaces pour afin d’en conclure quelque chose, il doit les faire parler. En résumé, il va, à partir des données, concevoir un algorithme, une méthode afin de les traiter et obtenir un résultat.

Ces outils, c’est de l’algorithmique, de la statistique ?

Nous pouvons dire que ce sont des statistiques généralisées, nous allons réussir à faire parler les données, nous allons appliquer des modèles statistiques, des modèles de mathématiques et nous allons en déduire des indicateurs, des moyennes, des tendances, des variantes. Nous allons concevoir un outil pour chaque besoin qui passera par des maths, de la data visu, de l’algorithme.

Quand nous concevons un projet, est-il obligatoire de concevoir soi-même le moteur du projet et le fameux algorithme ? Comment ça se passe ?

Il faut commence par aller voir le client et comprendre ce qu’il veut faire et ce qu’il a comme données. Ensuite, nous allons réussir à tracer un chemin entre ses données brutes et ce qu’il veut. Puis nous allons lui proposer une solution, une méthode. De manière générale, nous pouvons ramener ces problèmes à quelques cas standard tel que la segmentation, le clustering (regrouper des éléments ensemble), le profilage (trouver des comportements typiques d’utilisateurs). Tous ses algorithmes sont très génériques : il y a 4-5 grands algorithmes que nous pourrons appliquer à différents cas.


 

Même si le chemin entre la donnée brute et le résultat est spécifique à chaque cas, les instruments sont toujours les mêmes.

Nous pouvons nous ramener à des cas connus et traités par la littérature, à des algorithmes qui existent déjà afin d’éviter de repartir à zéro.Il est d’ailleurs fortement conseillé de ne pas repartir à zéro et d’opter pour l’algorithme (testé et approuvé) le plus adapté aux données. C’est à dire que si nous n’avons pas beaucoup de données, il faut prendre l’algorithme qui sera le plus efficace et qui fera une analyse complète. Si nous avons énormément de données, nous ne pourrons pas donc nous repartirons sur un algorithme avec un type de méthodes adéquat, plus intelligent et plus rapide qui aura l’idée de la solution.

Qu’y a t-il comme innovation dans le domaine du machine learning ?

L’intelligence artificielle, c’est un peu le monstre du Lochness que nous avons en informatique.

Nous sommes plus sur du machine learning, sur du système expert. C’est à dire réussir à faire de l’algorithme intelligent, qui suivra un chemin que nous lui avons déjà tracé avec une logique que nous leur avons implémentée sauf qu’ils seront auto-apprenants. En partant de données, ils déduiront des comportements et ils pourront l’appliquer à d’autres types de données.

Il y a l’apprentissage non-supervisé, et l’apprentissage supervisé. On peut prendre ces algorithmes et les appliquer à des données actuelles, ce qui est intéressant. Nous sommes dans une sorte d’intelligence artificielle.

C’est en train de progresser. Mais devons-nous nous affoler ? Les machines vont-elles nous remplacer demain ? Car Stephen Hawking nous disait que si les machines devenaient plus intelligents que nous, nous finirons au chômage.

Quand même un peu. Car nous essayons de faire en sorte d’automatiser des process. Si nous réussissons à faire un algorithme ou un programme qui est capable d’effectuer les tâches d’une dizaine de personnes, cela risque de mettre une personne au chômage. Ceci dit, je ne pense pas que cela va mettre les gens au chômage. Je pense que Stephen Hawking est légèrement paranoïaque sur le sujet.

Devenir data scientist permet-il de devenir riche ?

C’est un métier un peu sexy (NDLR : Data scientist a été élu métier le plus sexy du 21ème siècle). Si nous voulons être du côté « hard-tech », il faut passer par la science, la gestion de données. Il est impossible de devenir data scientist sans savoir coder efficacement, et sans avoir fait des erreurs. Un data scient doit aimer coder, réfléchir, résoudre des problèmes et doit passer par l’étape Recherche et Développement (R&D). L’apprentissage peut se faire en écoles d’ingénieur, ou en  faculté. pas mal de maths car ça peut servir.

Un marketeur peut il devenir data scientist, si non peuvent t-ils collaborer ?

Un marketeur ne sait pas faire de code donc il ne pourra pas être data scientist. Il peut par contre se servir des outils et ils ont grand intérêt à travailler avec les responsables IT pour mettre en place des solutions.

Le marketeur doit-il acheter un dictionnaire particulier pour apprendre à parler avec le data scientist ?

Oui, tout à fait (rires). Ca vient à la longue. Il y a toute une culture technique à apprendre. Nous pouvons aussi inverser la question : le data scientist doit t-il acheter un dictionnaire pour parler avec le marketeur ?

Les deux ont intérêt à travailler et communiquer ensemble car l’un pourra concevoir les outils que l’autre utilisera.

Comment voyez-vous l’avenir de ce métier ?

Il y aura toujours des besoins de développements spécifiques dans toutes les boites. Il n’y aura pas d’outils parfaitement adaptés à tous types de solutions. Nous allons devoir nous adapter, il y aura toujours un besoin de modifier le code et de faire des nouvelles analyses statistiques, donc le data scientist sera forcément utile.

data scientist : profil phare des Big Data was last modified: juillet 19th, 2015 by Yann Gourvennec
Yann Gourvennec
suivez moi !

Yann Gourvennec

PDG & fondateur chez Visionary Marketing
Yann Gourvennec a créé le site visionarymarketing.com en 1996. Il est intervenant et auteur de 4 ouvrages édités chez Kawa. En 2014 il est devenu entrepreneur, en créant son agence de marketing digital Visionary Marketing, en association avec Effiliation. Il est directeur de programme du Mastère Spécialisé Digital Business Strategy de Grenoble Ecole de Management depuis 2015
Yann Gourvennec
suivez moi !