IA et Big Data

Comment combattre la fraude bancaire avec les Big Data

[NDLR] Nous avons eu la chance de rencontrer Thomas Gerbaud l’année dernière lors d’une réunion sur les Big Data. Nous en avions d’ailleurs profité pour l’interviewer sur son métier de data scientist. Il nous arrive souvent de décrire les data sous un angle marketing dans ce blog, et celui de nos clients et partenaires. Il serait faux cependant de croire que seul le marketing est concerné par cette révolution de la donnée. On peut bien entendu et surtout les utiliser aussi à titre préventif dans le cadre de la détection de la fraude bancaire par exemple. Dans la mesure où cet aspect de la détection des fraudes, dans le domaine bancaire et dans le ecommerce, peut également être vu comme un avantage concurrentiel ou une constituante du service : nous avons donc demandé à Thomas de traiter ce sujet. Nous vous livrons donc ses réflexions sur ce sujet dans le billet suivant.

Comment combattre la fraude bancaire avec les Big Data

Par Thomas Gerbaud, CEO Ocean Data, Fondateur de Mantiq et Data Scientist

Exemple basé sur une situation réelle – bien évidemment. Je me garderai donc bien de donner toute formation d’indication chiffrée.

La banque X travaille avec Tracfin (Traitement du renseignement et action contre les circuits financiers clandestins), comme toutes les autres. En tant qu’organisme financier, elle a l’obligation légale de participer activement à la lutte contre le blanchiment d’argent. Toute entrée d’argent suspecte doit donc être notifiée au régulateur. Cela représente un coût certain, essentiellement humain et en temps. Une perte sèche, au mieux compressible. Des outils de détection existent, bien sur, souvent basés sur des filtres ad-hoc. Le souci, c’est que ces outils sont fondamentalement idiots.

A l’heure où l’intelligence artificielle titille les experts du Go, et alors qu’aucun être humain n’a battu un supercalculateur aux échecs depuis 2006 (voir ce très bon article du Monde), est-il encore nécessaire de fixer les seuils de déclenchement d’alertes à la main ? Ne pourrait-on pas injecter un peu d’intelligence dans les routines de détection de fraude ? Questions légitimes. Réponse affirmative.

fraude bancaire
les big data arriveront-ils à allumer la petite lumière de l’intelligence des outils de détection la fraude bancaire ?

Détection de fraude : pour une approche plus futée… et plus efficace

Je me propose d’illustrer, dans ce billet, les limites de la détection par filtres, et de présenter une approche plus futée. Et plus efficace !

La détection par filtre consiste à modéliser un comportement suspect, puis à le détecter ; c’est-à-dire décrire le comportement en terme d’observables (par exemple, un virement rond supérieur a 5000e, ou un dépôt de liquide atypique), et placer des filtres sur les opérations. Cette approche est efficace si le nombre de règles est suffisant, et si tous les cas sont couverts. L’intelligence réside donc dans la conception et l’ordonnancement des filtres, qui sont voués à se multiplier pour embrasser la multiplicité des situations qui seront, selon le contexte, suspectes ou non. Trop larges, ces filtres provoquent des avalanches de faux-positifs; trop restrictifs, ils ne détectent rien. Si, pratiquement parlant, cela fonctionne quand même, au prix d’une certaine complexité, cette approche n’est intellectuellement pas satisfaisante. Puisque l’approche descriptive suppose une certaine ressemblance dans les comportements suspects, ressemblance que l’on traduit par des règles simples, pourquoi ne pas pousser la démarche et laisser l’ordinateur détecter ces motifs tout seul ?

Une approche de détection de fraude basée sur l’apprentissage

C’est le principe de la seconde approche, basée sur l’apprentissage. L’homme ne donne plus une description des cas suspects ; il fixe un cadre et laisse la machine inférer des règles de comportement à partir d’exemples qualifiés (suspects ou non). Pour utiliser une image, au lieu de dire à la machine « tu sors le drapeau rouge quand tu vois ça, ça et ça », on va lui présenter une situation et lui dire « je veux que tu m’avertisses quand tu verras des cas similaires à ceux que vais te présenter ». Cette démarche laisse donc la machine décider des règles de détection, ce qui revient à dire que c’est à elle de trouver des similarités.

A partir de ce point, ami lecteur, deux choix s’offrent à moi :

  • Soit j’essaie de vous impressionner avec des détails techniques impliquant, nécessairement, de décrire une modélisation possible des opérations bancaires compatibles avec le fonctionnement d’algorithmes d’apprentissage automatique (machine learning) semi-supervisé.
  • Soit j’utilise des métaphores, vous induisant forcément en erreur, pour vous expliquer que l’on peut ramener le problème à des tableaux de chiffres que l’on injecte dans une boite noire adaptée au cas à résoudre et préalablement entraînée et enrichie de notre expérience passée (cas suspects ou légitimes). La démarche consiste à créer un outil numérique capable d’apprentissage qui essaie de quantifier le degré de suspicion que l’on peut attacher à chaque opération, en la comparant aux autres opérations.

Pour être synthétique et non technique, si les comportements suspicieux présentent des motifs identifiables et si la base d’apprentissage est pertinente, alors il sera possible d’automatiser la détection de motifs similaires. L’automate restera cependant incapable de reconnaître de nouveaux motifs. Il pourra toutefois, et ce avec une quantité non négligeable de réserves, indiquer si un comportement est « bizarre » par rapport à sa base d’exemples.

En continuant cet exemple, on peut aller plus loin. Que diriez-vous si, à partir de l’étude de votre registre d’opérations suspectes, quelqu’un était capable de vous dire que tel client, fraîchement signé, est susceptible d’effectuer des opérations suspectes avant toute opération de sa part ?Avec un indice de confiance forcément faible, et des marges d’erreur non négligeables ; mais exploitables.

L’implémentation totale de ce genre d’outil tient en quelques milliers de lignes de code, et tourne sur un ordinateur du commerce en quelques minutes, pour des millions de transactions.

Ces outils sont déjà disponibles !

Et déjà déployés en production. La nouveauté réside dans leur accessibilité : il n’est plus nécessaire d’avoir des équipes de matheux et informaticiens pour les concevoir, les développer et les faire évoluer. La puissance des outils scientifiques open-source et leur disponibilité sont aujourd’hui à la portée de tout data scientist qui se respecte …

Thomas Gerbaud,  PhD OceanData [www | blog | mail]

Thomas Gerbaud

Centralien, physicien et data scientist aguerri aux plasmas de fusion magnétique, Thomas Gerbaud livre ses réflexions d'expert et de praticien de la #data.
Bouton retour en haut de la page