UniBSV

Construire une base de données exploitable sur les bulletins de santé des végétaux

Enjeux

Les personnes vivant près de cultures sont susceptibles d’être exposées aux produits phytopharmaceutiques (PPP) utilisés lors des traitements.
La viticulture est l’une des cultures utilisant le plus de PPP : 14% des dépenses de pesticides pour seulement 3% de surface cultivée. Pour conduire des études (comme PestiRiv) sur le lien entre la proximité de l’habitat et la surexposition aux PPP et ses conséquences, la prise en compte des usages des PPP dans les cultures devrait être effectuée.
Dans chaque région, des Bulletins de Santé des Végétaux (BSV) sont produits pour aider les agriculteurs à combattre des bioagresseurs, et sont donc un bon proxy de l’usage de PPP.

Quelle est l’exposition des personnes aux produits phytopharmaceutiques ?
Comment extraire et valoriser des données disponibles publiquement au sein des BSV pour aider à caractériser les utilisations de PPP et leur impact sur l’exposition des personnes vivant près des cultures ?

Cibles et solution

Cibles

Ce défi vise à effectuer un travail d’extraction d’informations contenues dans des fichiers PDF afin de constituer un tableur exploitable. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture.

Besoin

Il y a peu de données précises disponibles concernant l’usage des PPP.
Les données existantes contenues dans les BSV sont difficilement mobilisables: elles ne sont pas collectées, homogénéisées et consolidées à l’échelle nationale, bien que pouvant constituer un bon proxy de l’usage des PPP.

Solution

Des scripts d’extraction d’informations de fichiers PDF (texte et image) afin de constituer une base de données consolidée.
Une base de données aisément mobilisable, de type tableur, rassemblant les données homogénéisées issues des différents BSV. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture.
Une interface graphique permettrait de paramétrer la requête et le script.

Envie de vous engager sur ce défi ?

Profils recherchés

  • data scientist
  • data analyst
  • data engineer
  • chef de projet / animateur

Pourquoi s’engager sur ce défi ?

Aider des institutions publiques à collecter des données publiques sous-utilisées et pourtant nécessaires à des études de santé publique, en particulier pour mieux comprendre comment les personnes sont exposées aux produits phytopharmaceutiques pour faire des recommandations et préconisations.

Quel impact aura ce défi ?

Livrable(s) attendu(s)

Des scripts d’extraction d’informations de fichiers PDF (texte et image) afin de constituer une base de données consolidée. Une base de données aisément mobilisable, de type tableur, rassemblant les données homogénéisées issues des différents BSV. Le jeu de données concernera 6 régions viticoles de l’étude PestiRiv pour l’année 2022. Le défi permettra de rendre ces données sous un format facilement exploitable, en vue notamment d’une combinaison avec d’autres données telles que la Base national des ventes distributeurs (BNV-D) pour approcher l’utilisation des PPP en agriculture. Une interface graphique permettrait de paramétrer la requête et le script.

Résultat

Avant, les informations contenues dans les BSV n’étaient utilisées que par les agriculteurs de la région concernée.
Après, il sera possible d’utiliser ces informations centralisées et homogénéisées pour comprendre l’utilisation à l’échelle nationale des PPP dans le cadre d’études autour de la problématique des pesticides.

Transférabilité et pérennisation du défi

Cet outil permettra de traiter tous les fichiers BSV à condition d’adapter le script lorsque le modèle de fichier PDF change.
Grâce à cet outil, il sera possible d’utiliser les informations contenues dans les BSV pour mieux caractériser l’utilisation à l’échelle nationale des PPP dans le cadre d’études sur les pesticides.

Bonjour à tous,

Merci beaucoup à tous les participants intéressés par le défi UniBSV ! Vous pouvez poser ici toutes vos questions sur ce défi.

Si vous êtes intéressés par ce défi mais que vous n’avez pas pu participer au lancement du Datachallenge mercredi, vous pouvez consulter le support Miro du défi. Vous pourrez y renseigner votre fiche profil et ajouter vos disponibilités dans le planning : Miro | Online Whiteboard for Visual Collaboration

La phase de pré-sprint commence maintenant.
Les ressources documentaires sont disponibles dans l’espace de stockage / Banque de documents : Storage Share
Vous y trouverez le cahier des charges techniques, l’ensemble des BSV par région et la liste des informations à récupérer dans chaque BSV.

Le prochain rendez-vous pour travailler sur le pré-sprint est fixé au mardi 11 avril à 20h.
L’échange se fera par Teams, n’hésitez pas à faire signe si vous souhaitez vous joindre à nous !

A bientôt !

2 « J'aime »

Bonsoir , je peux avoir le lien de teams? merci

Bonjour,
Un bref message de présentation, je suis Mehdi FEKIH et j’ai le plaisir de vous rejoindre sur le projet UniBSV.
Je suis data scientist avec une appétence pour le computer vision et le NLP mais j’ai aussi fait du web dev pendant plusieurs années.
Au plaisir de collaborer avec vous !

1 « J'aime »

Bonjour, pour rappel OpenDataFrance vous propose un entretien dédié à la pérennisation et la réappropriation post-challenge de vos défis. Cette rencontre est l’opportunité de qualifier ensemble :

  • les réseaux d’acteurs qui pourraient être impliqués dans la réutilisation de l’outil/service développé,
  • les besoins techniques, humains, financiers et les leviers pour pérenniser le défi,
  • les principaux freins et points de vigilance pour automatiser/répliquer sur un autre territoire ou dans un autre champ cet outil.

Le 16 mai dernier, sur le créneau initialement réservé à 11h30, je n’ai vu personne.
Ce n’est pas trop tard ! Seriez vous disponible mardi 6 juin en journée par exemple ou ce jeudi 1 matin
?

Merci à vous et à très bientôt,
Matthieu pour OpenDataFrance