Kué Gilles Gaba

Data Science, Data Quality, Business Intelligence, CRM, SFE

  Directeur de Projets Indépendant PMO MOA/MOE

Glaxo Wellcome

1. Période

Juillet à Août 2002

2. Catégorie

Etudes Statistiques & Sondages Marketing

3. Sous-catégorie

Applications de Production & Traitements de données de Panels

4. Fonction

Directeur de Projet

5. Contexte et objectifs

5.1. Contexte et problématique


a. Utilisateur de l'application : Institut de Panels & Etudes Marketing, Industriel

b. Univers étudié :
- Panels de Médecins Généralistes libéraux
- Consultations et Prescriptions médicales

c. Contexte
- Existence de plusieurs panels de médecins généralistes libéraux


- Informations collectées sur les consultations médicales
   * Signalétique Médecin panéliste
   * Signalétique patient (après anonymisation)
   * Prescriptions : Produits, Modalités de traitement
   * Maladies diagnostiquées
   * Historique longitudinal des consultations du patient (panels informatisés uniquement)

- Dans 1 des panels France : Les Maladies collectées sont codifiées nativement en CIM9 (Classification Internationale des Maladies v9)

- Dans d’autres panels France ou Europe : Les Maladies collectées sont codifiées nativement en CIM10 (Classification Internationale des Maladies v10)

d. Problématique
- Absences de correspondances automatiques entre les codes Maladies CIM9 et CIM10
4 685 Maladies CIM9, avec les modes de correspondances suivantes :
   * Correspondances uniques : 30% des prescriptions collectées
       ° 1 CIM9 = 1 CIM10 possible identifié (1 887 Maladies)
       ° x CIM9 = 1 CIM10 possible identifié (961 Maladies)
   * Correspondances multiples : 70% des prescriptions collectées
       ° 1 CIM9 = x CIM10 possibles identifiés (1 820 Maladies)
       ° 1 CIM9 = Aucun CIM10 identifié a priori (17 maladies)

   - Impossibilité de fusionner et publier des études « Maladies » à partir de tous les panels disponibles :
   * que ce soit au niveau France
   * ou au niveau Europe

- Fiabilité non-optimale des études « Maladies » par rapport au volume des diagnostics collectées

e. Objectifs business
- Harmoniser les codes Maladies utilisées sur l’ensemble des panels de médecins
- Pouvoir publier toutes les études Maladies, dans une classification OMS unique (à savoir CIM10)
- Améliorer significativement la précision des études Maladies publiées, en fusionnant tous panels disponibles en cas de besoin.

6. Objectifs de l’application

6.1. Objectifs de l’application

a. Fonctionnalités principales
Réaliser la conversion en CIM10 des maladies collectées nativement en CIM9 :
- Cas 1 : Correspondances Uniques (30% des prescriptions collectées)
- Cas 2 : Correspondances Multiples ou Absentes en tenant compte du contexte médical (70% des prescriptions collectées)

NB. Les bases à codifier contiennent plusieurs millions de lignes.

b. Contraintes de qualité
- Résolution de 100% des cas de Correspondances Multiples ou Absentes
- Taux de bonnes décisions > 99% pour l’ensemble de la base des prescriptions collectées
- Taux de bonnes décisions > 95% pour l’ensemble prescriptions à choix Multiples ou Absentes

c. Contraintes techniques
- Compatibilité des fichiers inputs et outputs
   * Prise en charge de fichiers inputs aux formats et contenus spécifiques
   * Compatibilité des fichiers outputs avec les normes de la chaîne de production en aval
- Technologies à utiliser pour le développement de l’application : Solutions sous MS Windows
- Interface graphique
   * Conviviale : Apparence et ergonomie faciles à appréhender
   * Intuitive : Compréhensible sans références externes
   * Complète : Permettant d’effectuer tous les paramétrages et opérations prévus.

7. Démarche et méthodologie

7.1. Phase 1 du Projet : Recherche de Solutions Statistiques & Médicales de décisions

a. Objectif :
Rechercher des solutions optimales de   conversion en CIM10 des maladies collectées nativement en CIM9.

b. Cas 1 : Correspondances Uniques
Solution :
- Application simple de la table de correspondance CIM9/CIM10
- Aucun risque d’erreur en utilisant la jointure

c. Cas 2 : Correspondances Multiples en tenant compte du contexte médical (70% des prescriptions)
- Démarche :
 * Etape 1 : Modélisations statistiques
       ° Méthode de modélisation : Segmentation (après test d’autres méthodes)
       ° Choix parmi les x options CIM10 possibles identifiés par l’OMS
       ° 1 820 modèles créés (1 modèle pour chaque maladie CIM9 à choix multiples)
       ° Variables explicatives : Signalétique patient, Signalétique médecin, Produits prescrits, Modalités de prise, Co-diagnostics,….

   * Etape 2 : Décision finale en fonction de l’historique des consultations du patient
       ° Episodes
       ° Produits prescrits, co-diagnostics

d. Cas 3 : Correspondances absentes
- Solution :
   * Création de correspondances uniques CIM9/CIM10 par le médecin généraliste de l’équipe
   * Application simple de la table de correspondance CIM9/CIM10
   * Aucun risque d’erreur en utilisant la jointure


7.2. Phase 2 du Projet : Développement de l’Application

a. Gestion du projet
   - Itérations Analyse/Développement/Test : SCRUM
   - Dimensionnement équipes et vitesse de développement : LEAN


b. Analyse
   - Context diagram
   - User classes
   - Use cases
- Business rules, Définitions


c. Conception, Développement
- Interfaces
- Composants
- Intégration


d. Tests
- Test cases
- Tests d’intégration, tests de régression


e. Documentation

8. Environnement technique

- Langages : VB, VBA, SAS Macros compilées

- Base de données : Access, SAS
- Modélisation statistique, Datamining : SAS, QUESTION DATA

9. Taille de l'équipe de réalisation

9.1. Intervenants Phase 1
- Statisticiens : 2

- Médecin Généraliste : 1

9.2. Intervenants Phase 2
- Analystes : 2
- Développeurs : 2
- Testeurs (Rédaction et exécution des test-cases) : 2

10. Livrables et formats des livrables

- Application sur CD-ROM auto-exécutable

- Programmes et macros SAS auto-installés

- Guide utilisateur (Format pdf)

11. Client utilisateur

GLAXO WELLCOME

12. Secteur d'activité du Client utilisateur

Industrie

13. Respect des objectifs techniques : OUI / NON

OUI

14. Respect des délais : OUI / NON

OUI


IMS Health

1. Période

Décembre 2005 à Juin 2006

2. Catégorie

Etudes statistiques & Sondages Marketing

3. Sous-catégorie

Applications de Production & Traitements de données de Panels

4. Fonction

Directeur de Projet

5. Contexte et objectifs

5.1. Contexte et problématique

a. Utilisateur de l'application : Institut de Panels & Etudes Marketing, Industriel

b. Contexte
   - Indicateurs estimés : Sorties des pharmacies hospitalières (France et Catégories d’hôpitaux)

   - Marchés concernés : Toutes les classes thérapeutiques

   - Produits concernés : Plusieurs milliers de produits et références pharmaceutiques consommées à l’hôpital.

c. Problématique
   - Volume élevé de produits consommés dans les hôpitaux : Un contrôle visuel des estimations détaillées est impossible.

   - Participation incertaine de certains hôpitaux panélistes

   - Risques d’estimation liés aux produits à faible niveau de consommation (Petits produits, Nouveaux produits)

d. Objectifs business
   - Augmentation de la précision des estimations de ventes, quel que soit le produit ou le segment de marché concerné
   - Assurance Qualité de presque 100% des estimations issues du panel, quels que soient les fluctuations du panel
   - Renforcement de la confiance des équipes commerciales et marketing

6. Objectifs de l’application

6.1. Objectifs de l’application

a. Fonctionnalités principales
- Contrôle qualité des estimations de ventes
   * Détection des valeurs aberrantes

- Imputation statistique pour les valeurs aberrantes détectées
   * Correction des valeurs aberrantes

b. Contraintes de qualité
- Taux de bonne détection de valeurs aberrantes > 90%
- Erreur médiane d’imputation < 5 %

c. Contraintes techniques
   - Compatibilité des fichiers inputs et outputs
     * Prise en charge de fichiers inputs aux formats et contenus spécifiques
     * Compatibilité des fichiers outputs avec les normes de la chaîne de production en aval
   - Technologies à utiliser pour le développement de l’application : Solutions sous MS Windows
   - Interface graphique
     * Conviviale : Apparence et ergonomie faciles à appréhender
     * Intuitive : Compréhensible sans références externes
     * Complète : Permettant d’effectuer tous les paramétrages et opérations prévus

7. Démarche et méthodologie

 

 

 

7.1. Phase 1 du Projet : Recherche de Solutions Statistiques & Médicales de décisions

a. Objectif :
Rechercher des solutions méthodologiques optimales pour atteindre les objectifs fonctionnels et qualitatifs.

b. Solutions méthodologiques testées et validées
   - Contrôle qualité de 100% des estimations issues du Panel
     * Objectif : Détection des valeurs aberrantes de ventes (produits, segments de marchés)
     * Solution méthodologique après R&D
       ° Contrôles univariés par les séries temporelles : définition pour chaque estimation, d'une fourchette dont le dépassement est suspect
       ° Décision : Détection simultanée par plusieurs méthodes

- Corrections ad-hoc : Imputation corrective « a priori »
    * Confirmation/infirmation ad hoc du panéliste fournisseur des données brutes
     * Correction par valeur jugée probable par le panéliste lui-même
     * Intégration automatique des valeurs à imputer pour une liste de PFC (fichier input prévu)

   - Corrections Automatiques : Imputation corrective « a posteriori »
     * Recherche d’une méthode alternative d’estimation
     * Production d’un rapport
     * Intégration automatique des valeurs à imputer pour une liste de produits


7.2. Phase 2 du Projet : Développement de l’Application

a. Gestion du projet
   - Itérations Analyse/Développement/Test : SCRUM
   - Dimensionnement équipes et vitesse de développement : LEAN


b. Analyse
   - Context diagram
   - User classes
   - Use cases
   - Business rules, Définitions


c. Conception, Développement
- Interfaces
- Composants
- Intégration


d. Tests
- Test cases
- Tests d’intégration, tests de régression


e. Documentation

8. Environnement technique

- Langages : VB, VBA, SAS Macros compilées

- Base de données : Access, SAS
- Modélisation statistique, Datamining : SAS, QUESTION DATA

9. Taille de l'équipe de réalisation

9.1. Intervenants Phase 1
- Statisticiens


9.2. Intervenants Phase 2

- Analystes
- Développeurs
- Testeurs (Rédaction et exécution des test-cases)

10. Livrables et formats des livrables

- Module : Application de Pilotage Modélisation
- Guide utilisateur (Format pdf)

11. Client utilisateur

IMS HEALTH

12. Secteur d'activité du Client utilisateur

Société de Sondages & Etudes Marketing

13. Respect des objectifs techniques : OUI / NON

OUI

14. Respect des délais : OUI / NON

OUI

1. Période

Avril 2001 à Juin 2002

2. Catégorie

Etudes Statistiques & Sondages Marketing

3. Sous-catégorie

Applications de Production & Traitements de données de Panels

4. Fonction

Directeur de Projet

5. Contexte et objectifs

5.1. Contexte et problématique

a. Utilisateur de l'application : Institut de Panels & Etudes Marketing, Industriel

b. Contexte
- Existence de plusieurs panels informatisés de médecins généralistes libéraux

- Informations collectées sur les consultations médicales
 * Signalétique Médecin panéliste
 * Signalétique patient (après anonymisation)
 * Prescriptions :
     ° Produits,
     ° Texte des Modalités de traitement : Posologie, durée, renouvellements
 * Maladies diagnostiquées
 * Historique longitudinal des consultations du patient (panels informatisés)

- Modalités de traitement codifiées à partir du texte d’ordonnance rédigé par le médecin
  * la posologie
  * le nombre de prises par jour
  * le nombre de boîtes prescrites
  * la durée du traitement
  * la fréquence de prise (tous les x jours)
  * le nombre de jours de prise
  * le nombre de renouvellements du traitement

c. Problématique
   - Volume élevé de prescriptions collectées :
    * 1.300.000 lignes / Mois
    * Sachant qu’une étude peut couvrir plusieurs mois, voire des années

   - Complexité des informations à codifier (lorsque le médecin n’a pas rempli les cellules de son logiciel, en plus de la rédaction de son texte de traitement)

   - Codification partielle des lignes à traitées : Seules sont codifiées les lignes de prescriptions correspondant aux études souscrites par les Clients

   - Délais élevés de production des études : Le délai de codification s'ajoute à la durée de réalisation proprement dite de l'étude.

   - Limitation du nombre d’études réalisables (donc du chiffre d’affaires) sur une période donnée

d. Objectifs business
   - Réduire fortement (d’au moins 50%) les délais proposés aux clients, pour la réalisation des études
   - Réduire fortement les coûts de production par une automatisation des codifications des modalités de traitements prescrits
- Augmenter le chiffre d’affaires et la rentabilité des études réalisées

6. Objectifs de l’application

6.1. Objectifs de l’application

a. Fonctionnalités principales
- Automatisation de la codification des modalités des traitements prescrits
 * Codification automatique Maximale de toutes les variables de prescription
 * Réduction du nombre de lignes résiduelles à codifier manuellement

- Contrôle qualité de la codification des modalités des traitements prescrits
 * Détection et correction des valeurs aberrantes

- Imputation statistique pour les valeurs manquantes persistantes
 * Correction des valeurs aberrantes / Imputation aux valeurs manquantes

b. Contraintes de qualité
- Taux de bonnes décisions > 99% pour l’ensemble de la base des prescriptions collectées
- Codification d’au moins 95% des informations textuelles indiquées par le médecins

c. Contraintes techniques
- Compatibilité des fichiers inputs et outputs
 * Prise en charge de fichiers inputs aux formats et contenus spécifiques
 * Compatibilité des fichiers outputs avec les normes de la chaîne de production en aval
- Technologies à utiliser pour le développement de l’application : Solutions sous MS Windows
- Interface graphique
 * Conviviale : Apparence et ergonomie faciles à appréhender
 * Intuitive : Compréhensible sans références externes
 * Complète : Permettant d’effectuer tous les paramétrages et opérations prévus

7. Démarche et méthodologie

7.1. Phase 1 du Projet : Recherche de Solutions Statistiques & Médicales de décisions

a. Objectif :
Rechercher des solutions méthodologiques optimales pour atteindre les objectifs fonctionnels et qualitatifs.

b. Solutions méthodologiques testées et validées
     - Automatisation de la codification des modalités des traitements prescrits
           * Objectifs :
                  ° Codification automatique Maximale de toutes les variables de prescription
                   ° Réduction du nombre de lignes résiduelles à codifier manuellement
           * Solution méthodologique après R&D
                   ° Récupération des valeurs pré-codées par les médecins
                   ° Nettoyage et Normalisation poussée des textes de prescription
                   ° Codification automatique des variables : Analyse syntaxique des textes de prescription
                   ° Synthèse entre les valeurs pré-codées et les valeurs codées automatiquement

     - Contrôle qualité de la codification des modalités des traitements prescrits
           * Objectif : Détection et correction des valeurs aberrantes
           * Solution méthodologique après R&D
                   ° Contrôle univarié : définition pour chaque variable, d'une fourchette dont le dépassement est suspect
                   ° Contrôle multivarié : vérification de la cohérence des valeurs codifiées, pour chaque ligne de prescription

     - Imputation statistique pour les valeurs manquantes persistantes
           * Objectif : Correction des valeurs aberrantes / Imputation aux valeurs manquantes
           * Solution méthodologique après R&D
                   ° Déductions mathématiques de valeurs manquantes résiduelles à partir des variables remplies
                   ° Imputation Statistique Automatique des valeurs manquantes persistantes
                   ° Imputation selon le contexte des prescriptions :
                        • - Diagnostic
                       • - Traitement prescrit
                       • - Caractéristiques du Patient
                       • - Caractéristiques du Médecin

c. Performances statistiques des solutions méthodologiques testées et validées
     - Taux de Codification Initial : 27%
     - Taux de Codification après Analyse Syntaxique : 60%
     - Taux de Codification après Imputations Stat & Contrôle : 95% au moins

7.2. Phase 2 du Projet : Développement de l’Application

a. Gestion du projet
   - Itérations Analyse/Développement/Test : SCRUM
   - Dimensionnement équipes et vitesse de développement : LEAN


b. Analyse
   - Context diagram
   - User classes
   - Use cases
   - Business rules, Définitions


c. Conception, Développement
   - Interfaces
   - Composants
   - Intégration


d. Tests
   - Test cases
   - Tests d’intégration, tests de régression


e. Documentation

8. Environnement technique

- Langages : VB, VBA, SAS Macros compilées
- Base de données : Access, SAS
- Modélisation statistique, Datamining : SAS, QUESTION DATA

9. Taille de l'équipe de réalisation

9.1. Intervenants Phase 1
- Statisticiens : 2

- Médecin Généraliste : 1

9.2. Intervenants Phase 2
- Analystes : 2
- Développeurs : 2
- Testeurs (Rédaction et exécution des test-cases) : 2

10. Livrables et formats des livrables

10.1. Modules livrés & Articulation opérationnelle : 20 modules
a. MODULES DE NETTOYAGE ET DE NORMALISATION
   - Module1 : Normalisation du texte de prescription

b. MODULES DE RENSEIGNEMENTS AUTOMATIQUES
   - Module2 : Renseignement du nombre de prises par jour
   - Module3 : Renseignement de la fréquence de prise
   - Module4 : Renseignement de la posologie
   - Module5 : Renseignement du nombre de renouvellements
   - Module6 : Renseignement de la durée de prescription
   - Module7 : Renseignement du nombre de boites
   - Module8 : Renseignement du nombre de jours de prise

c. MODULE DE SYNTHESE DES RESULTATS DE SAISIE ET DE RENSEIGNEMENTS AUTOMATIQUES
   - Module9 : Constitution d’une table contenant les données saisies ou renseignées automatiquement

d. MODULES DU PREMIER CONTROLE STATISTIQUE
   - Module10 : Premier contrôle univarié
   - Module11 : Premier contrôle multivarié

e. MODULES D’IMPUTATIONS STATIQTIQUE ET PAR CALCUL MATHEMATIQUE
- Module12 : Imputation par calcul
- Module13 : Première application du renouvellement aux variables
- Module14 : Imputation par la moyenne
- Module15 : Imputation par la régression et par calcul mathématique
- Module16 : Deuxième application du renouvellement aux variables

f. MODULES DU DEUXIEME CONTROLE STATISTIQUE
- Module17: Second contrôle univarié
- Module18 : Second contrôle multivarié

g. MODULE DE RECUPERATION DES LIGNES CODEES A 100%
- Module19 : Récupération des lignes à 100% codifiées

h. PROGRAMME PRINCIPAL

11. Client utilisateur

IMS HEALTH

12. Secteur d'activité du Client utilisateur

Société de Sondages & Etudes Marketing

13. Respect des objectifs techniques : OUI / NON

OUI

14. Respect des délais : OUI / NON

OUI