Data : nerf de la guerre et source d’effervescence des Big Data

buste de Nicolas Boileau par François Girardon Source : photo cc WIKIPEDIA« Avant donc que d’écrire, apprenez à penser.
Selon que notre idée est plus ou moins obscure,
L’expression la suit, ou moins nette, ou plus pure.
Ce que l’on conçoit bien s’énonce clairement,
Et les mots pour le dire arrivent aisément. »

Nicolas Boileau (1674, l’Art poétique)

Et si on parlait simplement des Big Data ?

Et il n’avait pas complètement tort. Ma soeur – même elle ! – qui a tout à fait oublié d’être idiote, m’a encore dit qu’elle ne comprenait à peu près rien à ce que je faisais. Je vais donc essayer de lui expliquer mon projet : la #data.

data

Novlangue

Avec un peu d’habitude, d’expérience et de pratique, il est très facile de jargonner une espèce de novlangue absolument horrible et d’enchainer des mots vides de sens. Certains en font un métier, pas toujours par goût. D’autres en font un art. D’autres, encore, s’en servent pour s’inventer une crédibilité, cachant derrière des écrans de fumée la platitude de leurs propos. C’est une tendance générale, je n’invente ni ne découvre rien.

Le monde de la #data n’échappe à la règle. A se demander s’il n’y pas une volonté de confiscation du sens, d’escamotage du réel derrière ce jargon. Jargon qui se couple aisément avec celui concernant les startups, soit dit en passant. Si, entre spécialistes, il est tentant, voire pratique, de parler boutique et d’échanger par mot-clés, quand on s’adresse à des interlocuteurs qui ont fait l’habile choix de ne pas consacrer 10h/jour aux mathématiques appliquées et à l’informatique, il convient de clarifier.

Lire la suite

Data : nerf de la guerre et source d’effervescence des Big Data was last modified: avril 5th, 2017 by Thomas Gerbaud

Comment combattre la fraude bancaire avec les Big Data

[NDLR] Nous avons eu la chance de rencontrer Thomas Gerbaud l’année dernière lors d’une réunion sur les Big Data. Nous en avions d’ailleurs profité pour l’interviewer sur son métier de data scientist. Il nous arrive souvent de décrire les data sous un angle marketing dans ce blog, et celui de nos clients et partenaires. Il serait faux cependant de croire que seul le marketing est concerné par cette révolution de la donnée. On peut bien entendu et surtout les utiliser aussi à titre préventif dans le cadre de la détection de la fraude bancaire par exemple. Dans la mesure où cet aspect de la détection des fraudes, dans le domaine bancaire et dans le ecommerce, peut également être vu comme un avantage concurrentiel ou une constituante du service : nous avons donc demandé à Thomas de traiter ce sujet. Nous vous livrons donc ses réflexions sur ce sujet dans le billet suivant.

Comment combattre la fraude bancaire avec les Big Data

Par Thomas Gerbaud, CEO Ocean Data, Fondateur de Mantiq et Data Scientist

Exemple basé sur une situation réelle – bien évidemment. Je me garderai donc bien de donner toute formation d’indication chiffrée.

La banque X travaille avec Tracfin (Traitement du renseignement et action contre les circuits financiers clandestins), comme toutes les autres. En tant qu’organisme financier, elle a l’obligation légale de participer activement à la lutte contre le blanchiment d’argent. Toute entrée d’argent suspecte doit donc être notifiée au régulateur. Cela représente un coût certain, essentiellement humain et en temps. Une perte sèche, au mieux compressible. Des outils de détection existent, bien sur, souvent basés sur des filtres ad-hoc. Le souci, c’est que ces outils sont fondamentalement idiots.

A l’heure où l’intelligence artificielle titille les experts du Go, et alors qu’aucun être humain n’a battu un supercalculateur aux échecs depuis 2006 (voir ce très bon article du Monde), est-il encore nécessaire de fixer les seuils de déclenchement d’alertes à la main ? Ne pourrait-on pas injecter un peu d’intelligence dans les routines de détection de fraude ? Questions légitimes. Réponse affirmative.

fraude bancaire
les big data arriveront-ils à allumer la petite lumière de l’intelligence des outils de détection la fraude bancaire ?

Détection de fraude : pour une approche plus futée… et plus efficace

Je me propose d’illustrer, dans ce billet, les limites de la détection par filtres, et de présenter une approche plus futée. Et plus efficace !

La détection par filtre consiste à modéliser un comportement suspect, puis à le détecter ; c’est-à-dire décrire le comportement en terme d’observables (par exemple, un virement rond supérieur a 5000e, ou un dépôt de liquide atypique), et placer des filtres sur les opérations. Cette approche est efficace si le nombre de règles est suffisant, et si tous les cas sont couverts. L’intelligence réside donc dans la conception et l’ordonnancement des filtres, qui sont voués à se multiplier pour embrasser la multiplicité des situations qui seront, selon le contexte, suspectes ou non. Trop larges, ces filtres provoquent des avalanches de faux-positifs; trop restrictifs, ils ne détectent rien. Si, pratiquement parlant, cela fonctionne quand même, au prix d’une certaine complexité, cette approche n’est intellectuellement pas satisfaisante. Puisque l’approche descriptive suppose une certaine ressemblance dans les comportements suspects, ressemblance que l’on traduit par des règles simples, pourquoi ne pas pousser la démarche et laisser l’ordinateur détecter ces motifs tout seul ? Lire la suite

Comment combattre la fraude bancaire avec les Big Data was last modified: février 18th, 2016 by Thomas Gerbaud