Kué Gilles Gaba, PhD, Actuaire IA & Economiste

Actuariat & Risk Management, Data Science A.I., Economie

Rapprochement & Déduplication de bases de données CRM

1. Fonction

Directeur de Projet

2. Contexte et objectifs

2.1. Objectifs
- Le Client utilisateur souhaite enrichir sa base de données avec des informations provenant d'une autre base de données :
   * Recherche de nouveaux contacts et prospects
   * Recherche d'Informations marketing complémentaires sur les clients et prospects :
       ° Pour les médecins : Potentiels de prescription pour une catégorie spécifique de produits pharmaceutiques
       ° Pour les pharmacies : Potentiels de ventes pour une catégorie spécifique de produits pharmaceutiques
       ° Pour les hôpitaux : Potentiels de consommation pour une catégorie spécifique de produits pharmaceutiques

2.2. Problématique

- La jointure automatique entre bases d'adresses, ne donne pas satisfaction, car en générale le taux de réussite ne dépasse pas 70-80%
- Il est donc nécessaire de procéder à une normalisation/nettoyage préalable des champs, ainsi qu'à un traitement manuel complémentaire
- Le taux réussite obtenu avec les traitements complémentaire est alors de 90-100%.

3. Démarche et méthodologie

3.1. Critères de rapprochement de automatique et manuel de fichiers d'adresses
- Pour les médecins : Nom, prénom, adresse, CP, Commune
- Pour les pharmacies : Nom/prénom du pharmacien, Raison sociale, adresse, CP, Commune
- Pour les hôpitaux : Raison sociale, adresse, CP, Commune

3.2. Etapes de traitement :

a. Etape 1   Normalisation et Homogénéisation automatique des fichiers à rapprocher

- L’objectif de cette étape est d’homogénéiser au maximum la présentation des champs à utiliser pour rapprocher les fichiers.
- Cette homogénéisation facilite et maximise le rendement du rapprochement.

- Des algorithmes spécifiques de traitement automatique de données textuelles sont mises en œuvre :

- Nettoyage des champs à utiliser pour rapprocher les fichiers
   * Elimination de caractères et de mots inutiles pour les opérations de rapprochement.

- Normalisation des adresses
   * Caractères et casses des données textuelles (nom, prénom, adresse …)
   * Types de voie et expressions récurrentes
   * Numéros de voie

- Restructuration (si nécessaire) des champs à utiliser pour rapprocher les fichiers
   * Reformulation par recombinaison des différents composants des champs.

- Dédoublonnage des lignes identiques après normalisation et homogénéisation


b. Etape 2   Rapprochement algorithmique automatique

- Rapprochement par algorithme de traitement automatique de données textuelles :
   * Elaboration des règles de rapprochement selon les critères disponibles
   * Implémentation de l’algorithme « customisé »

- Les taux de rapprochement varie naturellement en fonction de la qualité des fichiers, de leurs tailles respectives, ainsi que de leur domaine d’intersection structurelle.
- En règle générale, cette étape automatique permet de rapprocher environ 60% à 80% des fichiers du domaine de la santé (médecins, pharmacies, établissements sanitaires).

- Pour maximiser le taux de rapprochement final, il est nécessaire de procéder à un rapprochement manuel des 40% à 20% de lignes n’ayant pas été rapprochées par la méthode automatique.

- NB. Les fourchettes de taux de rapprochement sont données ici juste à titre indicatif.

c. Etape 3     Rapprochement manuel

- Cette étape permet un rapprochement manuel assisté par ordinateur, des lignes n’ayant pu être rapprochées par la méthode automatique
- En effet, dans nombre de cas, seul un regard méthodique humain permet de rapprocher certaines données qui autrement ne le seraient pas.
     * Ce traitement manuel est réalisé par une équipe d’opérateurs à l’aide d’un logiciel interactif spécialement développé.

     * Chaque jour une équipe d’opérateurs interviendra sur la mission sous le contrôle permanent d’un superviseur.

     * Le superviseur est chargé du suivi quotidien des rapprochements. Il animera les briefings des opérateurs.

     * Le superviseur aura pour mission d’encadrer les opérateurs, de veiller au bon déroulement des rapprochements en réalisant des « accompagnements » et de veiller au respect des consignes.

4. Descriptifs des fonctions des intervenants

4.1. Superviseur :
- Formation et encadrement des Opérateurs
- Formation et encadrement de l’Inspecteur Qualité
- Planification de la mission et répartition des tâches entre les opérateurs

4.2. Ingénieur décisionnel :
- Audit & Amélioration de la Qualité des Données : Nettoyage / Restructuration / Normalisation
- Traitements informatiques d’enrichissement/constitution de fichiers
- Développement de modules ou application (Automatisation, Interfaces de pilotage)
- Respect des consignes techniques spécifiques à chaque mission
- Livraison des résultats finaux pour des contrôles qualité

4.3. Inspecteur Qualité :
- Responsable technique des procédures d’assurance qualité
- Contrôle qualité des lots de lignes traitées
- Mesure du taux de fiabilité des résultats
- Livraison des résultats finaux après succès aux contrôles qualité

4.4. Opérateurs :
- Opérations manuelles et informatiques d’enrichissement/constitution de fichiers
- Respect des consignes techniques spécifiques à chaque mission

5. Environnement technique

SAS, MS Access, VBA

6. Assurance qualité

L’assurance qualité est obtenue par des procédures strictes de contrôle qualité à tous les niveaux de production :

6.1. Trois (3) principales méthodes de contrôle qualité sont mises en œuvres :

a. Algorithmes automatiques de contrôle qualité

- Ces algorithmes vérifient la cohérence des informations (signalétiques, adresses, commune, code postal, département) issues des lignes rapprochées.
- Avec ces algorithmes, aucune erreur grossière ne passe à travers les mailles.
- 100% des lignes traitées (rapprochement automatique ou manuel) sont testées par des algorithmes automatiques de cohérence.

b. Double rapprochement manuel partiel


- Les contrôles de qualité sont réalisés par un ou plusieurs Inspecteur(s) Qualité à l’aide d’un logiciel de test spécialement développé.
- Au moins 10% des lignes rapprochées sont contrôlées en manuel par tirage aléatoire.
- Cette procédure s’applique même en cas de double rapprochement intégral
- Cette méthode de rapprochement et de contrôle garantit une fiabilité supérieure à 99,5% pour les lignes traitées.

c. Double rapprochement manuel intégral

- Cette méthode s’applique aux lignes rapprochées manuellement à l'étape du rapprochement algorithmique automatique.
- Deux équipes d’opérateurs rapprochent en parallèle les mêmes fichiers
- Les différences de rapprochement sont récupérées et rapprochées à nouveau en double
      * Le rapprochement s’arrête lorsque les deux équipes ont exactement les mêmes résultats
      * Cette méthode de rapprochement et de contrôle garantit une qualité de presque 100% pour les lignes traitées.
      * Cependant étant donnée sa lourdeur et son coût, cette procédure s’applique aux petits fichiers de quelques centaines ou milliers de lignes.

7. Livrables et formats des livrables

7.1. Livrables de la prestation (Format Excel) :

a. Le fichier résultat contenant en plus des champs du fichier initial, de nouveaux champs renseignés à l’issue du traitement

b. Le descriptif de chaque champ et la précision des sources d’information

c. Les décomptes et la liste des champs des fichiers traités


d. Les décomptes du rapprochement, selon le résultat
  - Lignes retrouvées et enrichies
  - Indicateur d’égalité parfaite d’adresse
  - Niveau de fiabilité de décision finale : sûre ou probable

e. Les décomptes du rapprochement, selon la méthode de décision
  - Lignes retrouvées et enrichies, par la méthode automatique
  - Lignes retrouvées et enrichies, par la méthode manuelle

f. Le taux de fiabilité des renseignements fournis suite aux contrôles qualité
  - Contrôles Qualité automatiques
  - Contrôles Qualité manuels
  - Taux de fiabilité finale

8. Liste des Clients utilisateurs

HAUTE AUTORITÉ DE SANTÉ (HAS), EXPANSCIENCE, 3M, ABBOTT, ABBOTT & EXPANSCIENCE, ALCON, ALLERGAN, APPLIED MOLECULAR GENETICS (AMGEN), ASTELLAS PHARMA, ASTRAZENECA, AVENTIS, SANOFI PASTEUR, SANOFI-AVENTIS, AZ BIO, BAYER SANTE, BESINS INTERNATIONAL, BEIERSDORF, BOEHRINGER INGELHEIM FRANCE, BIODERMA, BIOGEN IDEC, BOIRON, BIOTHERM, BLEDINA, BRISTOL-MYERS SQUIBB (BMS), BOOTS, BAYER SCHERING PHARMA (BSP), CAF-DCF CVBA, VICHY, CEPHALON, CHAUVIN BAUSCH & LOMB, CHIESI, COLOPLAST, CONVATEC, DAIICHI SANKYO, DARPHIN, DÉPOLABO, DISTRIBORG, EFFIK, EISAI, EUCERIN, THÉRAMEX, MERCK, FERROSAN, FORTE PHARMA, FOURNIER, GIBAUD, GRUNENTHAL, GLAXOSMITHKLINE (GSK), INNEOV, INSERT PHARMA, BEAUFOUR IPSEN PHARMA, JOHNSON & JOHNSON, JANSSEN-CILAG, KALISTERRA, LA ROCHE POSAY, LIFESCAN, LILLY, LUNDBECK, LYNAPHARM, MCNEIL, MARTIN-PRIVAT, MAYOLY SPINDLER, MEAD JOHNSON, MEDA PHARMA, MENARINI, MERCK LIPHA SANTE, MERCK SERONO, MERCK SHARP AND DOHME (MSD), MUNDIPHARMA, NEGMA, NESTLE, NORGINE PHARMA, NOVARTIS, NYCOMED, OENOBIOL, ORGANON, ARION, PROCTER & GAMBLE, PASTEUR, PFIZER, PHARMACIA, PIERRE FABRE, POLIVE, RANBAXY, RECKITT BENCKISER, ROCHE, ROCHE NICHOLAS, ROGÉ CAVAILLÈS, SANDOZ, SANOFI, SANOGYL, SCA HYGIENE PRODUCTS, SCHERING PLOUGH, SERVIER, SOLVAY PHARMA, MERCK SHARP & DOHME, SSL HEALTHCARE, SUNSTAR, TAKEDA, TEVA, THEA, THÉRABEL LUCIEN PHARMA, THÉRAPLIX, THUASNE, UCB PHARMA, UPSA, URGO, VIATRIS, LABORATOIRE DE BIOLOGIE MÉDICALE VILLES MOISAN (LBMVM), WELEDA, YAMANOUCHI, YVES SAINT LAURENT BEAUTÉ, ZAMBON, LABORATOIRE DE BIOLOGIE DE LIGNEUX (LBL), TONIPHARM, OMEGA PHARMA, PILEJE, SHIRE, PFIZER MAROC, BOUCHARA DERMATOLOGIE, MCD, EHPAD, SVR, ALK ABELLO, IMS HEALTH, IMS HEALTH ALGÉRIE, SOCIETE FRANÇAISE DE DERMATOLOGIE (SFD), BAYER SANTE FAMILIALE (BSF), GLAXOSMITHKLINE (GSK) / ROCHE, ASTRAZENECA / BRISTOL-MYERS SQUIBB (BMS), SOLVAY PHARMA / MERCK SHARP & DOHME, THÉRAMEX / MERCK, UPSA / BRISTOL-MYERS SQUIBB, SOCIÉTÉ FRANÇAISE DE DERMATOLOGIE (SFD)