Kué Gilles Gaba, PhD, Actuaire IA & Economiste

Actuariat & Risk Management, Data Science A.I., Economie

Enrichissement & Constitution de bases de données CRM, via Internet

1. Fonction

Directeur de Projet

2. Contexte et objectifs

2.1. Objectifs
Le Client utilisateur souhaite enrichir sa base de données avec des informations provenant de sources de données libres sur Internet:
- Recherche de nouveaux contacts et prospects
- Recherche d'Informations marketing complémentaires sur les clients et prospects

2.2. Problématique
- Bases de données contacts incomplètes, par rapport aux données classiques vendues par les Brokers
- Recherche d'informations laborieuses nécessitant souvent des développements informatiques et des traitements manuels

3. Démarche et méthodologie

3.1. Etape 1 - Recherche de la source d’information à utiliser pour l’enrichissement

- Généralement, un fichier de professionnels ou d’établissements de santé, peut être enrichi par les moyens suivants :
   * Rapprochement avec d’autres bases de données
   * Recherches documentaires libres (via Internet principalement)
   * Enquêtes téléphoniques ou postales


3.2. Etape 2 - Normalisation et Homogénéisation automatique du fichier à enrichir

- L’objectif de cette étape est d’homogénéiser au maximum la présentation des champs à utiliser pour les recherches.

- Cette homogénéisation facilite et maximise le rendement des recherches.

- Des algorithmes spécifiques de traitement automatique de données textuelles sont mises en œuvre :

   * Nettoyage des champs à utiliser pour rapprocher les fichiers
   * Elimination de caractères et de mots inutiles pour les opérations de recherche.
 
   * Normalisation des adresses
     ° Caractères et casses des données textuelles
     ° Types de voie et expressions récurrentes
     ° Numéros de voie
 
   * Restructuration (si nécessaire) des champs à utiliser pour rapprocher les fichiers
   * Reformulation par recombinaison des différents composants des champs.
 
   * Dédoublonnage des lignes identiques après normalisation et homogénéisation


3.3. Etape 3 - Recherche algorithmique automatique

- Lorsque les délais et les médias de support de l’information le permettent, un robot informatique de récupération automatique de données est développé et utilisé.

- Robot informatique de récupération et de traitement automatique de données textuelles :
   * Elaboration des règles de recherche selon les critères disponibles
   * Développement et Implémentation du robot de récupération de données


3.4. Etape 4 - Recherches manuelles

- Cette étape consiste à effectuer des recherches manuelles assistées par ordinateur, des lignes n’ayant pu être enrichies par la méthode automatique

- En effet, dans nombre de cas, seul un regard méthodique humain permet de rechercher et de reconstituer certaines données qui autrement ne le seraient pas.

   * Ce traitement manuel est réalisé par une équipe d’opérateurs à l’aide d’un logiciel interactif spécialement développé par Externativ.

   * Chaque jour une équipe d’opérateurs interviendra sur la mission sous le contrôle permanent d’un superviseur.

   * Le superviseur est chargé du suivi quotidien des recherches. Il animera les briefings des opérateurs.

   * Le superviseur aura pour mission d’encadrer les opérateurs, de veiller au bon déroulement des recherches en réalisant des « accompagnements » et de veiller au respect des consignes.

- Sources d’informations multiples et évolutives :
   * Création de nouveaux sites ou annuaires institutionnels, associatifs ou professionnels
   * Modifications ou enrichissements des informations disponibles sur les sites existants
   * Suppression ou arrêt de mise à jour sur certains sites anciens

- Nécessité de combiner et de recouper les informations de plusieurs sources :
   * Utilisations d’informations complémentaires, mais dispersées sur plusieurs sources
   * Validation des adresses recueillies

- Catégories de sources d’informations :
Les informations sont recueillies selon les cinq catégories de sources suivantes :
   * Organismes / Institutions
   * Ordres professionnels
   * Associations / Syndicats
   * Sites professionnels
   * Annuaires téléphoniques & professionnels

4. Descriptifs des fonctions des intervenants

4.1. Superviseur :
- Formation et encadrement des Opérateurs
- Formation et encadrement de l’Inspecteur Qualité
- Planification de la mission et répartition des tâches entre les opérateurs

4.2. Ingénieur décisionnel :
- Audit & Amélioration de la Qualité des Données : Nettoyage / Restructuration / Normalisation
- Traitements informatiques d’enrichissement/constitution de fichiers
- Développement de modules ou application (Automatisation, Interfaces de pilotage)
- Respect des consignes techniques spécifiques à chaque mission
- Livraison des résultats finaux pour des contrôles qualité

4.3. Inspecteur Qualité :
- Responsable technique des procédures d’assurance qualité
- Contrôle qualité des lots de lignes traitées
- Mesure du taux de fiabilité des résultats
- Livraison des résultats finaux après succès aux contrôles qualité

4.4. Opérateurs :
- Opérations manuelles et informatiques d’enrichissement/constitution de fichiers
- Respect des consignes techniques spécifiques à chaque mission

5. Environnement technique

SAS, Access, VBA

6. Assurance qualité

L’assurance qualité est obtenue par des procédures strictes de contrôle qualité à tous les niveaux de production :

6.1. Trois (3) principales méthodes de contrôle qualité sont mises en œuvres :

a. Algorithmes automatiques de contrôle qualité

- Ces algorithmes vérifient la cohérence des informations (signalétiques, adresses, commune, code postal, département) issues des lignes rapprochées.
- Avec ces algorithmes, aucune erreur grossière ne passe à travers les mailles.
- 100% des lignes traitées (rapprochement automatique ou manuel) sont testées par des algorithmes automatiques de cohérence.

b. Double rapprochement manuel partiel


- Les contrôles de qualité sont réalisés par un ou plusieurs Inspecteur(s) Qualité à l’aide d’un logiciel de test spécialement développé.
- Au moins 10% des lignes rapprochées sont contrôlées en manuel par tirage aléatoire.
- Cette procédure s’applique même en cas de double rapprochement intégral
- Cette méthode de rapprochement et de contrôle garantit une fiabilité supérieure à 99,5% pour les lignes traitées.

c. Double rapprochement manuel intégral

- Cette méthode s’applique aux lignes rapprochées manuellement à l'étape du rapprochement algorithmique automatique.
- Deux équipes d’opérateurs rapprochent en parallèle les mêmes fichiers
- Les différences de rapprochement sont récupérées et rapprochées à nouveau en double
       * Le rapprochement s’arrête lorsque les deux équipes ont exactement les mêmes résultats
       * Cette méthode de rapprochement et de contrôle garantit une qualité de presque 100% pour les lignes traitées.
       * Cependant étant donnée sa lourdeur et son coût, cette procédure s’applique aux petits fichiers de quelques centaines ou milliers de lignes.

7. Livrables et formats des livrables

7.1. Livrables de la prestation (Format Excel) :

a. Le fichier résultat contenant en plus des champs du fichier initial, de nouveaux champs renseignés à l’issue du traitement

b. Le descriptif de chaque champ et la précision des sources d’information

c. Les décomptes et la liste des champs des fichiers traités


d. Les décomptes du rapprochement, selon le résultat
- Lignes retrouvées et enrichies
- Indicateur d’égalité parfaite d’adresse
- Niveau de fiabilité de décision finale : sûre ou probable

e. Les décomptes du rapprochement, selon la méthode de décision
- Lignes retrouvées et enrichies, par la méthode automatique
- Lignes retrouvées et enrichies, par la méthode manuelle

f. Le taux de fiabilité des renseignements fournis suite aux contrôles qualité
- Contrôles Qualité automatiques
- Contrôles Qualité manuels
- Taux de fiabilité finale

8. Liste des Clients utilisateurs

HAUTE AUTORITÉ DE SANTÉ (HAS), IMS HEALTH, AVENTIS, GLAXOSMITHKLINE (GSK), LUNDBECK, MARTIN-PRIVAT, MERCK SHARP AND DOHME (MSD), NEGMA, SAS DENTSPLY SIRONA France