# Le Bio : nous raconte-t-on des salades ?
*Ce projet est réalisé dans le cadre du cours de Python pour la Data Science donné par Lino Galiana à l'ENSAE Paris en 2024.*

Auteurs: *Fadi Belmahi, Imane Bayoub et Elise Fontaine.*

## Introduction et problématique 

L’agriculture biologique est souvent perçue comme une réponse incontournable aux défis environnementaux et sanitaires. Dans les supermarchés, elle occupe une place croissante dans les étalages, tandis que des films, comme *Goliath*, de Frédéric Tellier sorti en 2022, mettent en lumière les combats liés aux pesticides et à la réglementation sur le glyphosate. Pourtant, au-delà des discours et de l’émotion suscitée, la réalité de sa progression dans l’agriculture française nous interroge. En dépit de l'interdiction de certains pesticides par les réglementations européennes et françaises, la France demeure, selon un rapport d’Euractiv, le premier consommateur de pesticides en Europe avec près de 80 000 tonnes utilisées par an. Ce constat nous  invite à explorer un paradoxe : **La conversion à l’agriculture biologique en France est-elle réellement ancrée et efficace pour réduire l’usage des pesticides, ou bien reste-t-elle un phénomène principalement public et émotionnel face à une agriculture conventionnelle toujours dominante ?**

Nous débuterons par une étude du phénomène du bio en tant que sujet public et sociétal. Nous définirons ce qu’est l’agriculture biologique et analyserons sa place dans l’opinion publique, marquée par des fluctuations et des perceptions parfois contradictoires.

Ensuite, nous examinerons la réalité concrète sur le terrain en réalisant un mapping des surfaces agricoles dédiées au bio. Cela nous permettra de mieux comprendre son évolution dans le temps et sa répartition géographique. Nous serons ainsi en mesure de percevoir les inégalités territoriales dans sa diffusion, révélant les disparités dans l’adoption du bio à travers les différentes régions françaises.

Enfin, nous modéliserons l’évolution des conversions au bio à la lumière de leur impact sur l’achat des pesticides, afin d’évaluer si le bio peut réellement transformer et s'ancrer dans le paysage agricole français.

**Utilisation du notebook**: pour toutes les explications de nos codes, nous chargeons le travail fait dans d'autres notebooks grâce à la fonction `%run` et il est précisé en commentaire le temps nécessaire à l'exécution des codes, pour tous les codes avec une exécution très longue. 

In [None]:
! pip install nbformat

## 1) La perception fluctuante de l'agriculture biologique.

Nous partons du constat suivant : le bio est un phénomène public qui suscite de nombreux débats et provoque des réactions émotionnelles, car il touche à deux aspects fondamentaux de la vie des individus : l’alimentation et la santé.

Mais avant tout définissons ce qu'est exactement le bio. 

L'agence bio le définit comme un mode de production agricole et agroalimentaire 
contrôlé par la loi, une loi détaillée dans un cahier des charges 
agronomique. Parmi les grands principes de ce cahier des charges, nous retrouvons par exemple l'interdiction des pesticides et engrais de synthèse et d’OGM ou encore l'utilisation de méthodes 
agricoles écologiques comme le recyclage 
et le compostage des matières organiques ou la rotation  pluriannuelle des cultures.  

Comme nous l'avons dit précédement, ce mode de production est fait partie intégrante du débat public. Pour autant sa perception par les consommateurs varie, comme le montre son déclin actuel avec une déconversion de quelques 2 174 producteurs entre janvier et août 2022 (l’Agence Bio). 

Pour attester de cette fluctuation des opinions, nous avons choisi d'effectuer un **webscraping**, nous permettant de savoir comment le bio était présenté dans le paysage médiatique (approche qualitative), influençant et donc reflétant l'opinion public, mais aussi à quelle fréquence il est évoqué par le grand public (approche quantitative).

### 1.1) Sélection des médias à scraper

Avant de commencer notre webscraping des médias pour l'approche qualitative, nous avons utilisé une clé API de "News API" pour **déterminer les journaux les plus pertinents à inclure dans notre analyse**, en se basant sur la couverture médiatique disponible. *L'API gratuite limite l'accès aux articles du mois précédent, rendant impossible une analyse historique sans abonnement payant.*

Le code pour cette étape est disponible dans le dossier `perception_bio` dans le notebook `scraping_media.ipynb`.

In [None]:
%run 'perception_bio/scrapping_media.ipynb'

Comme seulement les résultats sont présents ici, expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

- Tout d'abord, notre code interroge l'API NewsAPI pour rechercher des articles contenant le mot-clé "bio" en français, publiés juin et juillet 2024, triés par popularité, puis affiche les détails des articles (titre, auteur, source, date, lien) si la requête réussit.
- Ensuite, nous avons fait un code pour filtrer les articles et identifier ceux qui contiennent des mots-clés liés à "agriculture bio" dans leurs données textuelles. Il affiche uniquement les titres des articles jugés pertinents après vérification.
- Enfin, nous avons compté le nombre d'articles provenant de chaque source, puis nous avons demandé à afficher les sources les plus actives et le nombre d'articles correspondants.

Voici les **résultats** que nous avons obtenus:
Les journaux les plus pertinents dans le cadre de notre analyse sont *Le Monde*, le *HuffPost* (un site d'actualités en ligne qui couvre une large gamme de sujets, souvent orientés vers les questions sociales et environnementales) et *LSA* (*La Revue des Professionnels de l'Alimentation*, un journal spécialisé dans l'alimentation, la consommation et les tendances du marché).
A ces journaux, nous ajoutons des journaux à tendance politique différente comme *Le Figaro* ou *Le Point*, des journaux à orientation de droite, afin de diversifier la perspective puisque les journaux précédents sont principalement de centre gauche. Cependant, leur scraping a échoué à cause du rechargement dynamique des pages via JavaScript, ce qui a rendu leur extraction impossible sans outils supplémentaires.

### 1.2) Scraping des journaux

Pour commencer, nous avons effectuer un scraping des différents journaux, préalablement sélectionnés. La démarches étant similaires pour tous les journaux nous allons ici expliciter seulement une seule. Les autres sont à retrouver dans le dossier `perception_bio` dans les notebooks `scrapping_[NOM_journal].ipynb`.

In [None]:
#Nous déconseillions d'exécuter ce code car la lecture du notebook de webscraping est très longue.
%run 'perception_bio/scrapping_LSA.ipynb'

Expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

Notre objectif est de créer un dataset avec des articles de *LSA* sur l'agriculture biologique (2000-2024). Les articles sont enrichis avec les informations suivantes:Titre, Résumé, URL, Date de publication et un Average_Sentiment_Score, un score moyen de sentiment (0 à 1, du plus négatif au plus positif) sur le résumé entier.

Pour cela, nous avons 
- collecté les articles présents sur la page principale de la catégorie Agriculture biologique de *LSA*. Nous avons extrait les titres, résumés, URLs et dates de publication de ces articles, en filtrant ceux contenant les mots-clés bio ou agriculture biologique dans leur titre ou résumé.
- élargi l'analyse pour couvrir l'historique complet des articles publiés depuis 2000. Pour chaque année, nous avons scrapé les pages de l'historique des articles sur l'agriculture biologique. Nous avons suivi la même approche, en extrayant les titres, résumés, URLs et dates, et en filtrant selon les mots-clés bio ou agriculture biologique.
- effectué une analyse de sentiment sur le résumé entier, calculant un score moyen de sentiment pour chaque article, allant de 0 (négatif) à 1 (positif).


Enfin, nous avons enregistré nos résultat dans un dataset final (à retrouver dans le dossier `perception_bio` sous le nom de `data_LSA.csv` et de `data_LSA_archive.csv`) qui contient les informations suivantes : Title, Summary, URL, Date, Average_Sentiment_Score.

Les résultats de nos scrapings sont enregistrés dans les fichiers csv présents dans le dossier `perception_bio` sous les noms `data_[NOM_journal].csv`.

### 1.3) Scraping de l'opinion public directement

Pour renforcer cette analyse qualitative faite sur les journaux, nous avons également fait un scraping sur Google Trend afin d'avoir un aperçu quantitatif de la perception du bio par les français directement, grâce à l'étude de l'intérêt de la population pour les thèmes liés au bio et aux pesticides, en utilisant les données de Google Trends.

Nous avons procédé en deux temps: tout d'abord nous avons étudié l'intérêt pour les thématiques de bio et des pesticides par région, puis nous avons analysé l'évolution des recherches sur le bio dans le temps (approche quantitative).

#### 1.3.1) Intérêt pour les thématiques du bio et des pesticides par régions

Nous nous intéressons en premier lieu à l'intérêt pour les thématiques du bio et des pesticides selon les différentes régions de France. Cette analyse géographique permet d'identifier les disparités régionales et d'explorer les dynamiques locales concernant ces préoccupations. 

Google Trends, qui analyse les recherches Google, fournit des données géographiques basées sur les anciennes régions françaises (avant la réforme territoriale de 2016). Par conséquent, il a été nécessaire de transformer ces données pour les adapter à la nouvelle organisation régionale actuelle.

Le code de ce premier scraping sur Google Trend est disponible dans notebook `google_trend.ipynb` présent dans le dossier `perception_bio`.

In [None]:
#Nous déconseillions d'exécuter ce code car la lecture du notebook de webscraping est très longue.
%run 'perception_bio/google_trend.ipynb'

Expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

Nous avons
- sélectionné les mots-clés sur lesquels nous centrons notre scraping.
Pour identifier les mots-clés les plus pertinents, nous avons préalablement réalisé une analyse des termes les plus fréquemment recherchés dans ces domaines. Cette démarche était nécessaire en raison de deux difficultés majeures :
    - Les termes très spécifiques, comme "agriculture biologique", sont particulièrement pertinents pour notre sujet, mais leur volume de recherche est faible.
    - À l'inverse, des mots-clés plus généraux, comme "bio", bénéficient d'un volume de recherche élevé, mais incluent des significations trop larges (e.g., biologie, cosmétiques bio), ce qui les rend peu spécifiques.
Suite à cette analyse, nous avons sélectionné les mots-clés suivants, à la fois pertinents pour notre sujet et suffisamment recherchés. Pour le bio, nous avons les termes "agriculture bio" (intérêt pour la production), "manger bio" (intérêt pour la consommation), et pour les pesticides, nous avons  "pesticides" (intérêt pour la production) et "qualité de l'eau" (intérêt pour les impacts sur la consommation). 
- récupéré les données pour chacun des mots clés sélectionnés et nous les avons stockées dans des dictionnaires.
- converti les résultats en données correspondantes aux régions mappées et ajouté les scores aux données géographiques pour chaque mot-clé
- affiché les cartes colométriques, qui attribuent une couleur en fonction des valeurs de score pour chaque région.

#### 1.3.2) Evolution des recherches sur le bio dans le temps

Nous avons ensuite étudié l'évolution des recherches sur ces mots-clés au fil du temps. Cette étape nous permet de mieux comprendre les dynamiques temporelles des recherches et leur relation entre elles.

Le code se trouve sur le même notebook, mais du fait de sa lenteur d'exécution, nous déconseillons l'exécution dans cet environnement et nous expliquons à la place la **démarche** entreprise.

Nous avons effectué deux analyses: une analyse individuelle et une analyse comparative.

Dans un premier temps, nous avons examiné, avec l'**analyse individuelle**, l'évolution de la popularité de chaque mot-clé indépendamment ("manger bio", "agriculture bio", "pesticides", "qualité de l'eau") afin de comparer les périodes de maximum de popularité. L'objectif est de voir si ces pics correspondent ou s'ils sont décalés dans le temps.

Pour ce faire, nous avons procédé comme cela: 
- nous avons tout d'abord défini la période de temps de l'analyse (du 1er janvier 2000 au 31 décembre 2024),
- nous avons ensuite récupéré les données et nous les avons stockées dans des dictionnaires,
- enfin nous avons généré des graphiques à partir de ces dictionnaires.

Ensuite, nous avons analysé l'évolution des recherches en comparant directement les mots-clés entre eux, grâce à l'**analyse comparative**.

Pour ce faire, nous avons:
- construit la requête de scraping pour tous les mots-clés en même temps et récupéré les données d'intérêt au fil du temps,
- vérifié que les données contiennent des résultats valides,
- affiché les graphiques comparatifs.

Enfin, nous avons enregistré nos résultats dans un dataset final (à retrouver dans le dossier `perception_bio` sous le nom de `data_quantitative.csv`) afin de pouvoir les réutiliser par la suite.

### 1.4) Analyse de nos résultats scrapés

Pour analyser les résultats de nos webscrapings, nous avons tout d'abord analysé séparément chacun des scrapings, puis nous avons créé un dataset global pour agréger tous nos résultats.

Tout d'abord, **pour chaque titre de presse scrapé**, grâce aux graphiques créés à partir de la variable de sentiment analysis, nous pouvons faire une première analyse, comme celle qui suit avec les données du journal *LSA*.

<div style="display: flex; justify-content: space-around; align-items: center;">
  <img src="perception_bio/Images/graphiques_scores_LSA_archives.png" alt="Graphiques de l'analyse des archives LSA" style="width: 45%;"/>
  <img src="perception_bio/Images/graphiques_scores_LSA.png" alt="Graphiques de l'analyse de LSA" style="width: 45%;"/>
</div>

Nous remarquons les tendances suivantes:
- sur la période 2000-2010, peu d'articles sur le bio, avec des scores faibles (perception globalement négative ou neutre). Le sujet était marginal.
- de 2011 à 2015, augmentation progressive de l'attention, mais la perception reste mitigée, avec des scores moyens encore faibles.
- de 2016 à 2020, explosion médiatique du bio, avec un nombre élevé d’articles et une perception majoritairement positive (scores proches de 1), reflétant un fort intérêt et engouement.
- enfin de 2021 à 2024, réduction notable du volume d’articles, bien que la perception reste globalement positive. Cela pourrait indiquer un essoufflement de l'intérêt médiatique, même si le bio conserve une bonne image.

Ensuite, pour ce qui est du **scraping de Google Trend**, nous avons d'abord l'analyse de **l'intérêt par région** grâce aux cartes produites. Prenons par exemple les deux cartes suivantes qui représentent bien la dynamique d'intérêt global.

<div style="display: flex; justify-content: space-around; align-items: center;">
  <img src="perception_bio/Images/carte_manger_BIO.png" alt="Graphiques de l'analyse des archives LSA" style="width: 45%;"/>
  <img src="perception_bio/Images/carte_pesticides.png" alt="Graphiques de l'analyse de LSA" style="width: 45%;"/>
</div>

Pour la carte sur le terme "Manger BIO", elle montre une répartition homogène des recherches sur "Manger Bio", indiquant un intérêt universel pour la consommation de produits bio. Cela s'explique par le fait que tout le monde, qu'il soit citadin ou rural, se sent concerné par l'alimentation bio. Nous remarquons cette même tendance pour la carte sur le terme "Qualité de l'eau", second terme d'intérêt pour la consommation, avec un intérêt plutôt homogène sur tout le territoire.

Pour la carte sur le terme "Pesticides", les recherches sur ce terme sont plus marquées dans certaines régions agricoles comme le sud-ouest ou la Bretagne. Cela reflète un intérêt spécifique aux zones où les pesticides sont davantage utilisés ou où leurs impacts environnementaux, comme la pollution des nappes phréatiques, sont plus visibles. Ce phénomène est lié à une sensibilité accrue dans ces régions aux débats sur l'utilisation des pesticides et leurs effets sur l'environnement.
La même tendance est remarquée pour la carte liée au terme "Agriculture BIO", l'autre terme d'intérêt pour la production, avec un même intérêt différencié selon la présence de l'activité agricole dans les régions.

Enfin, pour ce qui est du **scraping Google Trend sur l'évolution des recherches sur le bio dans le temps**, nous obtenons des graphiques comme le suivant.

![Graphique évolution des recherches](perception_bio/Images/evolutions_recherches.png)


Ce graphique nous montre une forte baisse d'intérêt pour "agriculture bio" depuis 2004, atteignant un pic en 2005 avant un déclin progressif et stabilisé depuis 2016. À l'inverse, "manger bio" gagne en popularité jusqu'à 2016, où les deux courbes convergent, indiquant un alignement des préoccupations. Depuis 2016, l'intérêt pour les deux termes diminue lentement mais reste à un niveau similaire, reflétant peut-être une saturation ou une normalisation du sujet dans les recherches. Cette tendance pourrait indiquer un passage d'un débat technique (agriculture) à des préoccupations plus personnelles (consommation).

Finalement, pour agréger nos résultats des différents scrapings et obtenir une analyse général, nous avons créé un fichier global, intitulé `data_quantitative.csv`, à partir du notebook `main.ipynb` toujours dans le même dossier `perception_bio`, qui devait contenir deux datasets, un pour les valeurs quantitatives (importance des discussions) et le second pour les valeurs qualitatives (sentiment des discussions). Seul le premier a été généré et nous donne la moyenne de la valeur entre 0 et 1 obtenue avec le scraping de Google trend par année et de la valeur du nombre d'article publié par mois, aussi entre 0 et 1.

Ainsi, à travers nos analyses, nous avons constaté une grande volatilité de l’opinion publique sur le bio au fil du temps. Nous observons des périodes d’engouement et de déclin, des perceptions contrastées entre les dimensions de production ("agriculture bio") et de consommation ("manger bio"), ainsi que des dynamiques régionales spécifiques. Ces inférences parfois contradictoires renforcent pour nous la nécessité de dépasser les impressions médiatiques ou les tendances de recherche et de s’appuyer sur une étude rigoureuse de l’état de l’agriculture biologique dans les faits. Cela nous permettra de redonner au bio sa juste place dans le paysage agricole français d’aujourd’hui, en éclairant ses réalités et ses limites.

## 2) La réalité de l'agriculture biologique en France métropolitaine

Afin d'aller au delà de redonner sa juste place à l'agriculture biologique dans le paysage agricole français, nous avons ensuite étudier l'implantation du bio en France. Pour ce faire nous avons recréé une visualisation cartographique des parcelles d'agriculture biologique sur le territoire métropolitain. 

Nous avons travaillé sur la base de données des parcelles déclarées en agriculture biologique et en conversion lors des demandes d'aides de la Politique Agricole Commune (PAC) au titre des campagnes de 2019 à 2023, des données rendues disponibles par l'Agence Bio sur le site [data.gouv](https://www.data.gouv.fr/fr/datasets/parcelles-en-agriculture-biologique-ab-declarees-a-la-pac/).

Tout le code est à retrouver dans le notebook `data.ipynb` du dossier `Mapping parcelles`.

Avant tout chose, nous avons importé les bibliothèques nécessaires, **téléchargé les données** et stocké les données dans des variables globales afin de pouvoir préparer notre base de données en **automatisant son nettoyage**. Cette automatisation ce fait grâce à une fonction de nettoyage pour une base de données donnée, qu'on applique ensuite pour nos dataframe de chaque année de 2021 à 2023.

In [None]:
!pip install chardet 
!pip install nbformat
import requests
import zipfile
import os
import pandas as pd
import geopandas as gpd

In [None]:
# L'exécution de ce code dure un peu moins de 2 minutes et est donc tout à fait faisable.
%run 'Mapping_parcelles/data.ipynb'

Une fois nos données téléchargées et nettoyées, nous les utilisons pour **créer des cartes de la distribution des parcelles biologiques** à l'échelle des départements de France métropolitaine. 

Ce code est à retrouver dans le notebook `mapping_evolutif.ipynb` du dossier `Mapping parcelles`.

In [None]:
# L'exécution de cette celulle est assez longue (plus de 10 minutes). 
# Le code et ses résultats peuvent être directement consultés dans le notebook mentionné ci dessus.
%run 'Mapping_parcelles/mapping_evolutif.ipynb'

Nous avons créé deux cartographies différentes pour montrer comment optimiser le temps d'exécution d'un code portant sur des geometry, dont voici la représentation précise pour l'année 2023.

![Carte précise des parcelles bio en 2023](Mapping_parcelles/carte_précise_parcelles_bio_2023.png)

Ces cartes, en cohérence avec notre webscraping sur l'intérêt pour le terme "pesticides", nous révèlent que les régions où cette préoccupation est la plus forte sont aussi celles où les conversions au bio sont les plus nombreuses. Alors que le bio représente près de 10 % de la surface agricole utilisée (SAU) en France (chiffre de l'INSEE disponible [ici](https://www.insee.fr/fr/statistiques/7728901?sommaire=7728903#onglet-2)), la répartition reste marquée par de fortes disparités régionales, montrant que le bio n’est pas encore totalement ancré sur tout le territoire. 

Pour aller plus loin et voir si l'agriculture bio s'installera de manière définitive dans le paysage agricole français, nous avons développé un modèle de prévision pour 2024, basé sur l’évolution des données passées et les achats de pesticides, afin d’anticiper les prochaines dynamiques du bio en France.

## 3) Prévision des dynamiques de l'agriculture biologique

Dans cette troisième partie, nous cherchons à aller au-delà de l’analyse descriptive pour anticiper les dynamiques futures de l’agriculture biologique en France. 

À cette fin, nous avons développé un modèle de prédiction permettant d’estimer l’évolution des conversions de surfaces agricoles au bio en 2024, en nous basant sur les données historiques de conversion et leur impact sur les achats de pesticides. En complément, un clustering des départements nous permet de classifier les territoires selon leur dynamique de conversion et leurs variations d’achats de pesticides, offrant ainsi une vision plus structurée des disparités régionales et des leviers d’action possibles.

### 3.1) Modèle de prédiction des conversions à l'agriculture biologique

Pour établir ce modèle de prédictions, nous avons tout d'abord téléchargé la base de données des parcelles bio de 2021 à 2023 qui nous a servie précédemment. Nous l'avons traitée, ainsi que celle des achats de pesticides (issue du site [data.gouv](https://www.data.gouv.fr/fr/datasets/achats-de-pesticides-par-code-postal/) et sur laquelle un travail préliminaire a été effectué dans le dossier `Achats pesticides`) afin de pouvoir agréger ces deux bases de données dans le même dataframe. 

Après ce travail préparatoire, nous avons exécuté notre modèle de machine learning. Nous avons choisi d'utilisé le modèle `random forest regressor` pour prédire la surface agricole biologique en fonction des départements, des parcelles des années précédentes et des variations constatées ces mêmes années sur l'achat de pesticides en France. Notre choix s'est porté vers ce type de modèle car il gère bien les relations complexes et non linéaires entre des variables telles que les conversions agricoles et les achats de pesticides. Nous l'avons ensuite entraîné, calculé les métriques d'évaluation et regardé l'importance des caractéristiques. 

Le code de cette étape est disponible dans le dossier `Modelisation` dans le notebook intitulé `previsions.ipynb`.

In [11]:
%run '/home/onyxia/work/AgricultureBio_France/Modelisation/prevision.ipynb'


Traitement de l'année 2022...
Extraction du fichier ZIP pour l'année 2022
Fichiers extraits pour 2022 :
- rpg-bio-2022-national.gpkg
- ._rpg-bio-2022-national.gpkg

Traitement de l'année 2021...
Extraction du fichier ZIP pour l'année 2021
Fichiers extraits pour 2021 :
- rpg-bio-2021-national.gpkg

Traitement de l'année 2023...
Extraction du fichier ZIP pour l'année 2023
Fichiers extraits pour 2023 :
- rpg-bio-2023-national.shx
- rpg-bio-2023-national.dbf
- rpg-bio-2023-national.prj
- rpg-bio-2023-national.shp
- rpg-bio-2023-national.cpg
- rpg-bio-2023-national.gpkg


  return ogr_read(


Aperçu des données pour 2022 (sans geometry) :
       gid  millesime code_culture  \
0  4420687       2022          PPH   
1      333       2022          PTR   
2      337       2022          BTH   
3      464       2022          BTH   
4      480       2022          BTH   

                                         lbl_culture           grp_culture  \
0  Prairie permanente - herbe prédominante (resso...  Prairies permanentes   
1         Autre prairie temporaire de 5 ans ou moins  Prairies temporaires   
2                                 Blé tendre d’hiver            Blé tendre   
3                                 Blé tendre d’hiver            Blé tendre   
4                                 Blé tendre d’hiver            Blé tendre   

   surface_ha code_commune_insee             lbl_commune    code_epci  \
0        0.38              38513                Treffort  200030658.0   
1        2.13              01188                  Illiat  200070118.0   
2        6.10              01136  Cr

  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2017 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2017.csv
--- Année 2018 : Récupération des données depuis https://data.ofb.fr/catalogue/Donnees-geographiques-OFB/api/records/a69c8e76-13e1-4f87-9f9d-1705468b7221/attachments/BNVD_TRACABILITE_20231024_ACHAT_2018.zip ---
Fichier CSV sélectionné pour 2018 : BNVD_TRACABILITE_20231023_ACHAT_DPT_SUBSTANCE_2018.csv


  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2018 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2018.csv
--- Année 2019 : Récupération des données depuis https://data.ofb.fr/catalogue/Donnees-geographiques-OFB/api/records/a69c8e76-13e1-4f87-9f9d-1705468b7221/attachments/BNVD_TRACABILITE_20231024_ACHAT_2019.zip ---
Fichier CSV sélectionné pour 2019 : BNVD_TRACABILITE_20231023_ACHAT_DPT_SUBSTANCE_2019.csv


  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2019 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2019.csv
--- Année 2020 : Récupération des données depuis https://data.ofb.fr/catalogue/Donnees-geographiques-OFB/api/records/a69c8e76-13e1-4f87-9f9d-1705468b7221/attachments/BNVD_TRACABILITE_20231024_ACHAT_2020.zip ---
Fichier CSV sélectionné pour 2020 : BNVD_TRACABILITE_20231023_ACHAT_DPT_SUBSTANCE_2020.csv


  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2020 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2020.csv
--- Année 2021 : Récupération des données depuis https://data.ofb.fr/catalogue/Donnees-geographiques-OFB/api/records/a69c8e76-13e1-4f87-9f9d-1705468b7221/attachments/BNVD_TRACABILITE_20231024_ACHAT_2021.zip ---
Fichier CSV sélectionné pour 2021 : BNVD_TRACABILITE_20231023_ACHAT_DPT_SUBSTANCE_2021.csv


  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2021 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2021.csv
--- Année 2022 : Récupération des données depuis https://data.ofb.fr/catalogue/Donnees-geographiques-OFB/api/records/a69c8e76-13e1-4f87-9f9d-1705468b7221/attachments/BNVD_TRACABILITE_20231024_ACHAT_2022.zip ---
Fichier CSV sélectionné pour 2022 : BNVD_TRACABILITE_20231023_ACHAT_DPT_SUBSTANCE_2022.csv


  df = pd.read_csv(f, sep=";", encoding="utf-8", on_bad_lines="skip")


Fichier pour 2022 sauvegardé : dossier_Achats_pesticides_selected/achats_pesticides_2022.csv

--- Traitement terminé. Tous les fichiers CSV sont dans le dossier : dossier_Achats_pesticides_selected ---
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2017.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2017 chargée avec succès. Nombre de lignes : 127088
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2018.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2018 chargée avec succès. Nombre de lignes : 127328
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2019.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2019 chargée avec succès. Nombre de lignes : 112807
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2020.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2020 chargée avec succès. Nombre de lignes : 111224
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2021.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2021 chargée avec succès. Nombre de lignes : 109573
Lecture du fichier : /home/onyxia/work/AgricultureBio_France/Achats pesticides/dossier_Achats_pesticides_selected/achats_pesticides_2022.csv


  df = pd.read_csv(file_path, sep=";", encoding="utf-8", on_bad_lines="skip")


Année 2022 chargée avec succès. Nombre de lignes : 106661

Aperçu des données de 2017 :
Traitement des données pour l'année 2017
Traitement des données pour l'année 2018
Traitement des données pour l'année 2019
Traitement des données pour l'année 2020
Traitement des données pour l'année 2021
Traitement des données pour l'année 2022

Toutes les valeurs uniques de 'code_departement' :
['0', '00', '01', '02', '03', '04', '05', '06', '07', '08', '09', '1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '21', '22', '23', '24', '25', '26', '27', '28', '29', '2A', '2B', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44', '45', '46', '47', '48', '49', '50', '51', '52', '53', '54', '55', '56', '57', '58', '59', '60', '61', '62', '63', '64', '65', '66', '67', '68', '69', '70', '71', '72', '73', '74', '75', '76', '77', '78', '79', '80', '81', '82', '83', '84', '85', '86', '87', '88', '89', '90', '91', '92', '93', '94', '95', '971', '972', '9

KeyError: "['2018_x', '2019_x', '2020_x', '2021_x', '2022_x'] not in index"

KeyError: "['2018_x', '2019_x', '2020_x', '2021_x', '2022_x'] not in index"

Essayons maintenant d'analyser les résultats que nous avons obtenus. 

Pour les résultats obtenus, 
- le mean squared error (MSE) s'élève à 33.66 ce qui signifie que la moyenne des écarts quadratiques entre les prédictions du modèle et les valeurs réelles est de 33.66. C'est une mesure d'erreur absolue : plus elle est faible, mieux le modèle performe. Le modèle n'est donc ici pas très performant. 
- le R² est de 0.02, il est donc très proche de 0, ce qui indique que le modèle n'explique presque pas la variance des données cibles. Cela suggère que les caractéristiques utilisées ne sont pas suffisantes ou pertinentes pour prédire la variable cible.

Les résultats montrent donc que le modèle Random Forest a du mal à généraliser les prédictions pour la cible actuelle. Cela peut être dû à plusieurs facteurs comme la pertinence des données  ou leur manque de complexité. Les variables explicatives utilisées pourraient ne pas être fortement corrélées avec la variable cible. Par exemple, les anciennes variations de pesticides (2019 et antérieures) ont un impact limité.

Notre travail met donc en évidence les limitations du modèle actuel et ouvre des perspectives pour améliorer les prédictions à travers des données mieux ciblées et des modèles adaptés.

### 3.2) Modèle de clustering avec la méthode des k-means 

Suite aux limites que rencontre notre premier modèle de prédiction, nous avons essayé d'opté pour un **modèle de clustering** avec la méthode des **k-means**. Ce modèle est adapté à notre projet pour analyser les départements français en fonction de plusieurs critères : la surface des parcelles bio, l'évolution des ventes de pesticides entre 2018 et 2022, le types de cultures (grp_culture) et la proportion de parcelles bio par département.

Le code de cette modélisation se trouve à la suite de la modélisation précédente, dans le même notebook, et est donc exécuté avec la commande ci dessus.

Pour cela nous avons au préalable retravaillé les données des départements, des cultures par départements et établi des fréquences de culture. Nous avons ensuite agrégé nos données et effectué la méthode d’Elbow pour déterminer le nombre optimal de clusters (k) dans notre algorithme de K-Means. Malheureusement la méthode du score de silhouette combinée à celle d'Elbow prend beaucoup de temps à s'exécuter. Nous avons donc décidé de prendre arbitrairement le nombre 7 pour k et voir avec la visualisation graphique si c'est un nombre satisfaisant dans notre approche. 

Nous avons ensuite appliqué notre modèle et nous l'avons mis en forme grâce à une colormap dynamique. Enfin, pour plus de lisibilité nous avons dessiné la carte de la visualisation des clusters par départements.

Ainsi les résultats de ce clustering nous révèlent une forte hétérogénéité régionale, avec des spécificités locales marquées par les types de cultures et les pratiques agricoles. Par exemple, le cluster 0 regroupe des départements avec une faible proportion de surfaces bio et des variations modérées dans les ventes de pesticides, tandis que le cluster 6 correspond à des cas extrêmes, avec des surfaces bio très élevées et des fluctuations importantes dans l’usage des pesticides. Cette **carte des clusters ce superpose très bien à notre cartographie des parcelles bio**, puisque nous avons constaté que des départements de l’ouest (notamment en Bretagne) et du sud-est (Rhône-Alpes, Provence-Alpes-Côte d’Azur) affichaient des ratios de parcelles bio nettement supérieurs, correspondant à des clusters caractérisés par une forte transition bio.

L’analyse des composantes principales (PCA) a confirmé que la surface bio et les variations des ventes de pesticides étaient les variables explicatives majeures, tandis que certains types de cultures (prairies permanentes, blé tendre, oléagineux) jouaient un rôle différenciant dans les dynamiques locales. En superposant ces clusters à une cartographie, nous avons constaté que des départements de l’ouest (notamment en Bretagne) et du sud-est (Rhône-Alpes, Provence-Alpes-Côte d’Azur) affichaient des ratios de parcelles bio nettement supérieurs, correspondant à des clusters caractérisés par une forte transition bio.

Ces résultats soulignent des trajectoires agricoles contrastées, nous offrant des pistes d’optimisation pour des politiques ciblées, mais aussi des perspectives sur la manière dont les pratiques biologiques et conventionnelles coexistent et influencent l’avenir de l’agriculture française.


## Conclusion

Nos analyses ont révélé que l’agriculture biologique, bien qu’en progression, reste marquée par des disparités régionales et des trajectoires contrastées, tant dans les conversions au bio que dans l’impact sur l’usage des pesticides. Si certaines régions affichent une forte transition, le bio n’est pas encore totalement ancré dans le paysage agricole français. Loin des perceptions médiatiques et des dynamiques émotionnelles, il apparaît que le développement du bio dépendra de la capacité à soutenir des pratiques régionales adaptées et à répondre aux enjeux des cohabitations entre agriculture biologique et conventionnelle