Base C3PO

AnthonyGigerich · Janvier 18, 2023, 8:38

Base de Connaissances sur les Produits PhytoPharmaceutiques à partir de sources Ouvertes : enrichissement des données de la BNV-D par croisement avec d’autres bases de données ouvertes

Enjeux

De nombreuses substances contenues dans les produits phytopharmaceutiques (PPP) ont un impact démontré sur la santé et l’environnement.
En termes de données, la Base nationale de vente distributeurs (BNV-D) est centrale sur ce sujet mais ne renseigne pas la toxicité/écotoxicité, les usages, ou encore les fonctions des produits et des substances actives qui composent les PPP. Ces informations sont contenues dans d’autres bases telles qu’Agritox, E-phy (ANSES) et des bases de données européennes.

Comment enrichir les analyses menées sur les PPP ?
En définitive, comment croiser et faciliter la mobilisation conjointe des diverses données existantes pour enrichir les analyses menées sur les pesticides ?

Cible et solution

Cible

L’objectif de ce défi est d’enrichir les données de la BNV-D avec quelques-unes de ces autres sources de données et d’en faciliter l’accès via un point d’accès unique type API. Le croisement de ces bases et la structuration et simplification des données diffusées sera utile à toutes les structures, publiques ou privées, réalisant des études sur le sujet des PPP et du lien entre les pressions exercées par ces molécules et leurs impacts sur la santé et l’environnement.

Solution

Un socle de connaissances issu du croisement entre sources de données : il s’agira d’enrichir les données de la BNV-D avec celles d’autres sources de données.
Un point d’accès unique de type API permettant la mobilisation d’un socle enrichi de connaissances sur les PPP. L’API visera à permettre d’accéder à de nombreuses informations sur les PPP en se basant sur un ensemble de caractéristiques pour filtrer.

Envie de vous engager sur ce défi ?

Profils recherchés

data scientist
data analyst
data engineer
développeur fullstack
designer UX/UI
chef de projet / animateur

Pourquoi s’engager sur ce défi ?

Favoriser la diffusion de données essentielles pour la santé publique en élaborant un script de croisement de données et en construisant une API, ce qui aura un impact direct sur la connaissance des dangers des pesticides.

Quel impact aura ce défi ?

Livrable(s) attendu(s)

API permettant d’accéder à de nombreuses informations sur les PPP en se basant sur un ensemble de caractéristiques pour filtrer.

Résultat

Avant, chaque chercheur ou expert devait réaliser de son côté les croisements nécessaires, et chacun avait sa manière de le faire ce qui pouvait aboutir à des résultats différents selon la compréhension des données.

Après, tous les experts du sujets utilisent les données croisées de façon identique ce qui facilite leurs travaux et les rend plus reproductibles et vérifiables.

Transférabilité et pérennisation du défi

Ce défi vise à créer une interface partagée d’accès aux données liées aux PPP pour l’ensemble de la communauté des experts et chercheurs. L’API pourra s’enrichir au fur et à mesure avec de nouvelles sources de données.

getot · Mars 30, 2023, 10:56

Bonjour, Antoine et moi-même sommes à l’écoute de vos questions ! En espérant vous convaincre de participer à ce défi dont les bénéfices pour la communauté santé/environnement seront immédiats.
A vous lire
Grégoire

theo-paul.haezebrouck · Avril 4, 2023, 9:17

Bonjour,

Je suis heureux de rejoindre votre équipe !

Avez-vous déjà identifié :

des usages à venir de ces futures données (étant ingénieur agricole de formation, j’ai une forte sensibilité sur ce sujet qui peut être sujet à l’agribashing)
pourquoi une API ? avez-vous déjà en tête des valorisations ?
les sources de données (ouvertes ou pas encore ouvertes) à croiser avec la BNV-D ?

Je ne pourrai pas être là pour l’événement de lancement, mais au plaisir d’échanger prochainement,
Théo-Paul

antoine.camus · Avril 4, 2023, 2:40

Bonjour,

Merci beaucoup pour l’intérêt que vous portez à notre projet. Nous sommes également heureux de pouvoir vous compter dans l’équipe !

C’est dommage que nous ne puissions pas échanger directement lors de l’évènement de lancement mais voici déjà quelques éléments de réponses à vos questions.

Concernant les usages de cette future base de connaissance, nous sommes partis de besoins exprimés notamment par les participants au groupe de travail qualité des données de la BNV-D. De manière non exhaustive, nous avons déjà en tête :

l’ajout de ces informations qualitatives concernant les substances et produits dans les exports qui seront effectués dans une future version de BNV-D Traçabilité. Ces informations faciliteront la réutilisation des données de ventes notamment car le croisement avec d’autres bases de données apportant des informations complémentaires sur les produits phytopharmaceutiques mais absentes des données déclaratives des ventes (qui sont les données alimentant la BNV-D).
le croisement avec des données d’état de l’environnement (par exemple les données de mesures de concentrations issues des bases Naïades pour les eaux de surface, ADES pour les eaux souterraines, PhytAtmo pour l’air)
Nous avons aussi identifié un premier cas d’usage dans le cadre du Datachallenge : le défi ThinkBio qui souhaiterait s’appuyer sur BaDCoPS.

Cette liste n’est pas exhaustive, et d’autres usages sont bien entendu possibles.

Nous souhaitons développer une API notamment pour faciliter l’interrogation de cette base de connaissance « socle » sur les produits phytosanitaires et sa réutilisation par des projets nécessitant de croiser les données BNV-D avec les autres bases de données intégrées dans BaDCoPS.

Sur les sources de données, pour le Challenge GD4H nous avons sélectionné uniquement des bases de données ouvertes. Il s’agit donc ici d’intégrer les informations de tout ou partie des bases de données suivantes :

Au niveau français : les bases de données de l’ANSES E-phy (données sur les produits couverts par une AMM ou un PCP) et Agritox (identité, propriétés physico-chimiques, toxicité aiguë, valeurs toxicologiques de référence, écotoxicité, classement). Nous souhaitons aussi ajouter les informations issues du référentiel Sandre (Paramètres et Groupes de paramètres) qui permettront notamment d’améliorer l’interopérabilité entre la base BaDCoPS et les bases de données relevant du système d’information sur l’eau (SIE). Enfin notamment pour le cas d’usage du projet ThinkBio, nous aimerions aussi intégrer l’information des groupes de cultures du RPG sur lesquels les substances/produits sont autorisées.
Au niveau européen : la EU Pesticide Database (indiquant notamment l’état d’autorisation des substances actives) et le tableau d’entrées harmonisées disponible à l’annexe VI du CLP (donnant des informations complémentaires à celles d’Agritox sur la toxicité et l’écotoxicité des substances).

Pour plus de détails sur les sources de données identifiées pour la Challenge GD4H, n’hésitez pas à prendre connaissance des éléments déposés sur l’espace cloud dédié, notamment le dictionnaire de données.

A l’issue du Challenge GD4H nous souhaiterions continuer à enrichir ce socle avec d’autres sources de données ouvertes (par exemple avec l’historique des produits ayant fait l’objet de dérogations 120 jours, ou encore les normes de qualité environnementale et valeurs guides environnementales par substance, etc.). Pour le Challenge GD4H, nous nous sommes limités aux sources évoquées plus haut pour avoir quelque chose de réalisable dans les délais, et également car parmi les autres sources de données identifiées, toutes ne sont pas stabilisées/structurées pour qu’il soit pertinent de les intégrer en l’état.

Toute proposition sur d’autres sources de données potentiellement intéressantes à intégrer seront également les bienvenues !

Nous sommes impatients de pouvoir échanger avec vous autour de notre projet !

Antoine

antoine.camus · Avril 5, 2023, 5:14

Lien vers l’espace cloud : Storage Share?

antoine.camus · Avril 5, 2023, 6:07

Bonjour à tous !

Merci beaucoup à tous les participants intéressés pour participer au défi BaDCoPS ! Et un merci supplémentaire à ceux qui ont pu se rendre disponibles pour le lancement du Challenge GD4H ce mercredi soir !

La phase de pré-sprint commence maintenant. Pour rappel/info cette phase de pré-sprint a pour objectifs de :

Designer le service avec des utilisateurs finaux
Récolter les différentes bases et les documenter (notamment la clé jointure)
Définir le contenu des sprints

Nous avons mis sur l’espace de stockage du projet BaDCoPS des premiers éléments utiles (dictionnaire de données, schéma de liens entre les tables de référence et les jeux de données) à votre disposition n’hésitez pas à en prendre connaissance ! Nous continuerons à alimenter cet espace dans les prochains jours.

Enfin, last but not least, pour mener au mieux cette phase de pré-sprint, nous invitons les participants à notre défi qui peuvent se rendre disponibles sur ces créneaux à tous se retrouver en visio lors des points suivants (le premier arrivant très vite !) :

Lancement du pré-sprint ce vendredi 07/04 (16h-17h) : Launch Meeting - Zoom
Point d’étape du pré-sprint le vendredi 14/04 (16h-17h) : Launch Meeting - Zoom
Clôture du pré-sprint/lancement du sprint 1 (avec Datactivist) : Pas encore de lien de visio pour cette réunion, mais nous avons renseigné lors de la soirée de lancement le sondage : Sondage - RDV Clément - Framadate → pour l’instant nous avons retenu le créneau 15h30-16h30 du vendredi 21/04

Merci encore et bonne soirée à tous !

PS : N’hésitez pas à compléter le tableau Participants-BaDCoPS - Google Spreadsheets notamment votre Username Gitlab, votre adresse mail (si vous le souhaitez, ce peut-être plus simple pour vous envoyer les liens de visio directement par mail) et compléter ou modifier la colonne « Commentaire » si besoin !

antoine.camus · Avril 13, 2023, 2:31

Bonjour à tous,

En prévision de la fin du pré-sprint vous trouverez sur l’espace cloud le dictionnaire de données mis à jour :

Indication des clés primaires, secondaires et étrangères de chaque table « substance » et « amm »
Ajout pour la table « substance » des infos des tables Agritox (priorité 3=faible) : Toxicité / Ecotoxicité / VTR
Mise en forme de la table de référence « evolution_RPD »
Ajout des tables de référence suivantes :
- « bnvd_eupdb_corresp » : Correspondance entre les substances de la BNV-D et celles de la EU Pesticide database
- « bnvd_ephy_pheromones » : Correspondances entre les substances de la BNV-D et celles de la base de données E-phy recensées sous le nom de ‹ Straight Chain Lepidopteran Pheromones ›
- « bnvd_ephy_erreurs » : Correspondances entre substances de la BNV-D et de la base de données E-phy à ne pas prendre en compte pour l’instant (informations E-phy concernant ces substances a priori erronées).
Précision du millésime (2021) du RPG considéré pour la table de correspondance entre les cultures E-phy et les groupes de cultures du RPG « conv_ephy_rpg_2021 »

Et toujours sur l’espace Cloud, l’ensemble des référentiels répertoriés dans le dictionnaire de données au format .csv

A très bientôt !

antoine.camus · Avril 14, 2023, 10:33

Bonjour à tous,

Désolé de spammer de toute part (mails, slack, etc.) mais je vous remets ici un rappel concernant le point d’étape du pré-sprint de cet après-midi (16h-17h) accessible en visio au lien suivant : Launch Meeting - Zoom

Antoine

lounis89 · Mai 2, 2023, 9:02

Bonjour, je suis Lounis OULD BOUALI. Je suis data engineer, j’aimerais mettre à disposition mes compétences sur ce projet. Je suis actuellement en région parisienne. J’ai de l’expérience sur les thématiques suivantes : data lake, développement en python, un peu de SQL et sur le cloud AWS. Merci et à bientôt. Lounis.

matthieubrient · Mai 15, 2023, 9:40

Bonjour @AnthonyGigerich et à toute l’équipe du défi BaDCoPS/C3PO,

je vais malheureusement avoir un empêchement ce lundi en fin de journée pour l’entretien pérennisation et transférabilité avec OpenDataFrance. Est-ce qu’il serait possible de le reprogrammer plus tôt dans la journée ou sur un autre créneau ?

Très bonne semaine à vous !

antoine.camus · Mai 15, 2023, 4:10

Bonjour @matthieubrient . Nous venons juste de voir votre message, nous avons décalé au 16/05/2023 à 11h, pouvez-vous confirmer que c’est ok pour vous svp ?

matthieubrient · Mai 16, 2023, 7:07

Bonjour Antoine,

merci pour votre retour !
C’est ok pour moi ce 16/05 à 11h.

antoine.camus · Mai 26, 2023, 10:06

Bonjour @matthieubrient , pouvez-vous nous envoyer le lien vers le diagramme MIRO récap de notre point du 16 mai pour la pérennisation post-challenge svp ? Merci par avance et bonne journée.

matthieubrient · Mai 30, 2023, 9:34

C’est envoyé par email !

antoine.camus · Mai 30, 2023, 9:35

Bonjour Matthieu, je viens de voir merci beaucoup !

Bonne journée.