Construire une base de données exploitable sur les bulletins de santé des végétaux
Enjeux
Les personnes vivant près de cultures sont susceptibles d’être exposées aux produits phytopharmaceutiques (PPP) utilisés lors des traitements.
La viticulture est l’une des cultures utilisant le plus de PPP : 14% des dépenses de pesticides pour seulement 3% de surface cultivée. Pour conduire des études (comme PestiRiv) sur le lien entre la proximité de l’habitat et la surexposition aux PPP et ses conséquences, la prise en compte des usages des PPP dans les cultures devrait être effectuée.
Dans chaque région, des Bulletins de Santé des Végétaux (BSV) sont produits pour aider les agriculteurs à combattre des bioagresseurs, et sont donc un bon proxy de l’usage de PPP.
Quelle est l’exposition des personnes aux produits phytopharmaceutiques ?
Comment extraire et valoriser des données disponibles publiquement au sein des BSV pour aider à caractériser les utilisations de PPP et leur impact sur l’exposition des personnes vivant près des cultures ?
Cibles et solution
Cibles
Ce défi vise à effectuer un travail d’extraction d’informations contenues dans des fichiers PDF afin de constituer un tableur exploitable. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture.
Besoin
Il y a peu de données précises disponibles concernant l’usage des PPP.
Les données existantes contenues dans les BSV sont difficilement mobilisables: elles ne sont pas collectées, homogénéisées et consolidées à l’échelle nationale, bien que pouvant constituer un bon proxy de l’usage des PPP.
Solution
Des scripts d’extraction d’informations de fichiers PDF (texte et image) afin de constituer une base de données consolidée.
Une base de données aisément mobilisable, de type tableur, rassemblant les données homogénéisées issues des différents BSV. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture.
Une interface graphique permettrait de paramétrer la requête et le script.
Envie de vous engager sur ce défi ?
Profils recherchés
- data scientist
- data analyst
- data engineer
- chef de projet / animateur
Pourquoi s’engager sur ce défi ?
Aider des institutions publiques à collecter des données publiques sous-utilisées et pourtant nécessaires à des études de santé publique, en particulier pour mieux comprendre comment les personnes sont exposées aux produits phytopharmaceutiques pour faire des recommandations et préconisations.
Quel impact aura ce défi ?
Livrable(s) attendu(s)
Des scripts d’extraction d’informations de fichiers PDF (texte et image) afin de constituer une base de données consolidée. Une base de données aisément mobilisable, de type tableur, rassemblant les données homogénéisées issues des différents BSV. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture. Une interface graphique permettrait de paramétrer la requête et le script.
Résultat
Avant, les informations contenues dans les BSV n’étaient utilisées que par les agriculteurs de la région concernée.
Après, il sera possible d’utiliser ces informations centralisées et homogénéisées pour comprendre l’utilisation à l’échelle nationale des PPP dans le cadre d’études autour de la problématique des pesticides.
Transférabilité et pérennisation du défi
Cet outil permettra de traiter tous les fichiers BSV à condition d’adapter le script lorsque le modèle de fichier PDF change.
Grâce à cet outil, il sera possible d’utiliser les informations contenues dans les BSV pour mieux caractériser l’utilisation à l’échelle nationale des PPP dans le cadre d’études sur les pesticides.