# Le Bio : nous raconte-t-on des salades ?
*Ce projet est réalisé dans le cadre du cours de Python pour la Data Science donné par Lino Galiana à l'ENSAE Paris en 2024.*

Auteurs: *Fadi Belmahi, Imane Bayoub et Elise Fontaine.*

## 0) Introduction et problématique 

L’agriculture biologique est souvent perçue comme une réponse incontournable aux défis environnementaux et sanitaires. Dans les supermarchés, elle occupe une place croissante dans les étalages, tandis que des films, comme *Goliath*, de Frédéric Tellier sorti en 2022, mettent en lumière les combats liés aux pesticides et à la réglementation sur le glyphosate. Pourtant, au-delà des discours et de l’émotion suscitée, la réalité de sa progression dans l’agriculture française nous interroge. En dépit de l'interdiction de certains pesticides par les réglementations européennes et françaises, la France demeure, selon un rapport d’Euractiv, le premier consommateur de pesticides en Europe avec près de 80 000 tonnes utilisées par an. Ce constat nous  invite à explorer un paradoxe : **La conversion à l’agriculture biologique en France est-elle réellement ancrée et efficace pour réduire l’usage des pesticides, ou bien reste-t-elle un phénomène principalement public et émotionnel face à une agriculture conventionnelle toujours dominante ?**

Nous débuterons par une étude du phénomène du bio en tant que sujet public et sociétal. Nous définirons ce qu’est l’agriculture biologique et analyserons sa place dans l’opinion publique, marquée par des fluctuations et des perceptions parfois contradictoires.

Ensuite, nous examinerons la réalité concrète sur le terrain en réalisant un mapping des surfaces agricoles dédiées au bio. Cela nous permettra de mieux comprendre son évolution dans le temps et sa répartition géographique. Nous serons ainsi en mesure de percevoir les inégalités territoriales dans sa diffusion, révélant les disparités dans l’adoption du bio à travers les différentes régions françaises.

---Enfin, nous évaluerons l’efficacité du bio à travers une comparaison des surfaces cultivées avec les données sur l’achat et l’utilisation des pesticides. Nous chercherons à déterminer si l’agriculture biologique contribue réellement à réduire l’usage des pesticides ou si son impact reste limité face aux pratiques agricoles conventionnelles.---

**Utilisation du notebook**: pour toutes les explications de nos codes, nous chargeons le travail fait dans d'autres notebooks grâce à la fonction `%run` et il est précisé en commentaire le temps nécessaire à l'exécution des codes, pour tous les codes avec une exécution très longue. 

In [1]:
! pip install nbformat

Collecting nbformat
  Downloading nbformat-5.10.4-py3-none-any.whl.metadata (3.6 kB)
Collecting fastjsonschema>=2.15 (from nbformat)
  Downloading fastjsonschema-2.21.1-py3-none-any.whl.metadata (2.2 kB)
Collecting jsonschema>=2.6 (from nbformat)
  Downloading jsonschema-4.23.0-py3-none-any.whl.metadata (7.9 kB)
Collecting jsonschema-specifications>=2023.03.6 (from jsonschema>=2.6->nbformat)
  Downloading jsonschema_specifications-2024.10.1-py3-none-any.whl.metadata (3.0 kB)
Collecting referencing>=0.28.4 (from jsonschema>=2.6->nbformat)
  Downloading referencing-0.35.1-py3-none-any.whl.metadata (2.8 kB)
Collecting rpds-py>=0.7.1 (from jsonschema>=2.6->nbformat)
  Downloading rpds_py-0.22.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.2 kB)
Downloading nbformat-5.10.4-py3-none-any.whl (78 kB)
Downloading fastjsonschema-2.21.1-py3-none-any.whl (23 kB)
Downloading jsonschema-4.23.0-py3-none-any.whl (88 kB)
Downloading jsonschema_specifications-2024.10.1-py3-none

## 1) La perception fluctuante de l'agriculture biologique.

Nous partons du constat suivant : le bio est un phénomène public qui suscite de nombreux débats et provoque des réactions émotionnelles, car il touche à deux aspects fondamentaux de la vie des individus : l’alimentation et la santé.

Mais avant tout définissons ce qu'est exactement le bio. 

L'agence bio le définit comme un mode de production agricole et agroalimentaire 
contrôlé par la loi, une loi détaillée dans un cahier des charges 
agronomique. Parmi les grands principes de ce cahier des charges, nous retrouvons par exemple l'interdiction des pesticides et engrais de synthèse et d’OGM ou encore l'utilisation de méthodes 
agricoles écologiques comme le recyclage 
et le compostage des matières organiques ou la rotation  pluriannuelle des cultures.  

Comme nous l'avons dit précédement, ce mode de production est fait partie intégrante du débat public. Pour autant sa perception par les consommateurs varie, comme le montre son déclin actuel avec une déconversion de quelques 2 174 producteurs entre janvier et août 2022 (l’Agence Bio). 

Pour attester de cette fluctuation des opinions, nous avons choisi d'effectuer un **webscraping**, nous permettant de savoir comment le bio était présenté dans le paysage médiatique (approche qualitative), influençant et donc reflétant l'opinion public, mais aussi à quelle fréquence il est évoqué par le grand public (approche quantitative).

### 1.1) Sélection des médias à scraper

Avant de commencer notre webscraping des médias pour l'approche qualitative, nous avons utilisé une clé API de "News API" pour **déterminer les journaux les plus pertinents à inclure dans notre analyse**, en se basant sur la couverture médiatique disponible. *L'API gratuite limite l'accès aux articles du mois précédent, rendant impossible une analyse historique sans abonnement payant.*

Le code pour cette étape est disponible dans le dossier `perception_bio` dans le notebook `scraping_media.ipynb`.

In [None]:
%run 'perception_bio/scrapping_media.ipynb'

Comme seulement les résultats sont présents ici, expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

- Tout d'abord, notre code interroge l'API NewsAPI pour rechercher des articles contenant le mot-clé "bio" en français, publiés juin et juillet 2024, triés par popularité, puis affiche les détails des articles (titre, auteur, source, date, lien) si la requête réussit.
- Ensuite, nous avons fait un code pour filtrer les articles et identifier ceux qui contiennent des mots-clés liés à "agriculture bio" dans leurs données textuelles. Il affiche uniquement les titres des articles jugés pertinents après vérification.
- Enfin, nous avons compté le nombre d'articles provenant de chaque source, puis nous avons demandé à afficher les sources les plus actives et le nombre d'articles correspondants.

Voici les **résultats** que nous avons obtenus:
Les journaux les plus pertinents dans le cadre de notre analyse sont *Le Monde*, le *HuffPost* (un site d'actualités en ligne qui couvre une large gamme de sujets, souvent orientés vers les questions sociales et environnementales) et *LSA* (*La Revue des Professionnels de l'Alimentation*, un journal spécialisé dans l'alimentation, la consommation et les tendances du marché).
A ces journaux, nous ajoutons des journaux à tendance politique différente comme *Le Figaro* ou *Le Point*, des journaux à orientation de droite, afin de diversifier la perspective puisque les journaux précédents sont principalement de centre gauche. Cependant, leur scraping a échoué à cause du rechargement dynamique des pages via JavaScript, ce qui a rendu leur extraction impossible sans outils supplémentaires.

### 1.2) Scraping des journaux

Pour commencer, nous avons effectuer un scraping des différents journaux, préalablement sélectionnés. La démarches étant similaires pour tous les journaux nous allons ici expliciter seulement une seule. Les autres sont à retrouver dans le dossier `perception_bio` dans les notebooks `scrapping_[NOM_journal].ipynb`.

In [None]:
#Nous déconseillions d'exécuter ce code car la lecture du notebook de webscraping est très longue.
%run 'perception_bio/scrapping_LSA.ipynb'

Expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

Notre objectif est de créer un dataset avec des articles de *LSA* sur l'agriculture biologique (2000-2024). Les articles sont enrichis avec les informations suivantes:Titre, Résumé, URL, Date de publication et un Average_Sentiment_Score, un score moyen de sentiment (0 à 1, du plus négatif au plus positif) sur le résumé entier.

Pour cela, nous avons 
- collecté les articles présents sur la page principale de la catégorie Agriculture biologique de *LSA*. Nous avons extrait les titres, résumés, URLs et dates de publication de ces articles, en filtrant ceux contenant les mots-clés bio ou agriculture biologique dans leur titre ou résumé.
- élargi l'analyse pour couvrir l'historique complet des articles publiés depuis 2000. Pour chaque année, nous avons scrapé les pages de l'historique des articles sur l'agriculture biologique. Nous avons suivi la même approche, en extrayant les titres, résumés, URLs et dates, et en filtrant selon les mots-clés bio ou agriculture biologique.
- effectué une analyse de sentiment sur le résumé entier, calculant un score moyen de sentiment pour chaque article, allant de 0 (négatif) à 1 (positif).


Enfin, nous avons enregistré nos résultat dans un dataset final (à retrouver dans le dossier `perception_bio` sous le nom de `data_LSA.csv` et de `data_LSA_archive.csv`) qui contient les informations suivantes : Title, Summary, URL, Date, Average_Sentiment_Score.

Les résultats de nos scrapings sont enregistrés dans les fichiers csv présents dans le dossier `perception_bio` sous les noms `data_[NOM_journal].csv`.

In [None]:
# maintenant analyse sur Google trend
# 
# data_main.ipynp pour les indicateurs globaux et téléchargement dans data_quantitative (journaux + google trend)

# insérer les graphes (LSA + google trend pour analyser ): analyse perception du bio qualitative (grâce au webscrapping des journaux) et quantitative (Google trend) >> intérêt volatile et aussi effet de mode (pèriode avec beaucoup de popularité)

### 1.3) Scraping de l'opinion public directement

Pour renforcer cette analyse qualitative faite sur les journaux, nous avons également fait un scraping sur Google Trend afin d'avoir un aperçu quantitatif de la perception du bio par les français directement, grâce à l'étude de l'intérêt de la population pour les thèmes liés au bio et aux pesticides, en utilisant les données de Google Trends.

Nous avons procédé en deux temps: tout d'abord nous avons étudié l'intérêt pour les thématiques de bio et des pesticides par région, puis nous avons analysé l'évolution des recherches sur le bio dans le temps (approche quantitative).

#### 1.3.1) Intérêt pour les thématiques du bio et des pesticides par régions

Nous nous intéressons en premier lieu à l'intérêt pour les thématiques du bio et des pesticides selon les différentes régions de France. Cette analyse géographique permet d'identifier les disparités régionales et d'explorer les dynamiques locales concernant ces préoccupations. 
Google Trends fournit des données géographiques basées sur les anciennes régions françaises (avant la réforme territoriale de 2016). Par conséquent, il a été nécessaire de transformer ces données pour les adapter à la nouvelle organisation régionale actuelle.
Les valeurs fournies par Google Trends sont déjà pondérées par la population et d'autres facteurs. En effet, Google Trends analyse un échantillon des recherches effectuées sur Google et présente les données sur une échelle de 0 à 100, où chaque point est calculé en fonction du point le plus élevé, soit 100. Les données sont normalisées pour refléter la popularité relative d'un terme de recherche par rapport au nombre total de recherches effectuées sur Google pendant une période donnée.

Le code de ce premier scraping sur Google Trend est disponible dans notebook `google_trend.ipynb` présent dans le dossier `perception_bio`.

In [None]:
#Nous déconseillions d'exécuter ce code car la lecture du notebook de webscraping est très longue.
%run 'perception_bio/google_trend.ipynb'

Expliquons la **démarche** qui a été entreprise (démarche a retrouver dans le notebook indiqué ci-dessus).

Nous avons
- sélectionné les mots-clés sur lesquels nous centrons notre scraping.
Pour identifier les mots-clés les plus pertinents, nous avons préalablement réalisé une analyse des termes les plus fréquemment recherchés dans ces domaines. Cette démarche était nécessaire en raison de deux difficultés majeures :
    - Les termes très spécifiques, comme "agriculture biologique", sont particulièrement pertinents pour notre sujet, mais leur volume de recherche est faible.
    - À l'inverse, des mots-clés plus généraux, comme "bio", bénéficient d'un volume de recherche élevé, mais incluent des significations trop larges (e.g., biologie, cosmétiques bio), ce qui les rend peu spécifiques.
Suite à cette analyse, nous avons sélectionné les mots-clés suivants, à la fois pertinents pour notre sujet et suffisamment recherchés. Pour le bio, nous avons les termes "agriculture bio" (intérêt pour la production), "manger bio" (intérêt pour la consommation), et pour les pesticides, nous avons  "pesticides" (intérêt pour la production) et "qualité de l'eau" (intérêt pour les impacts sur la consommation). 
- récupéré les données pour chacun des mots clés sélectionnés et nous les avons stockées dans des dictionnaires.
- converti les résultats en données correspondantes aux régions mappées et ajouté les scores aux données géographiques pour chaque mot-clé
- affiché les cartes colométriques, qui attribuent une couleur en fonction des valeurs de score pour chaque région.

#### 1.3.2) Evolution des recherches sur le bio dans le temps

Nous avons ensuite étudié l'évolution des recherches sur ces mots-clés au fil du temps. Cette étape nous permet de mieux comprendre les dynamiques temporelles des recherches et leur relation entre elles.

Le code se trouve sur le même notebook, mais du fait de sa lenteur d'exécution, nous déconseillons l'exécution dans cet environnement et nous expliquons à la place la **démarche** entreprise.

Nous avons effectué deux analyses: une analyse individuelle et une analyse comparative.

Dans un premier temps, nous avons examiné, avec l'**analyse individuelle**, l'évolution de la popularité de chaque mot-clé indépendamment ("manger bio", "agriculture bio", "pesticides", "qualité de l'eau") afin de comparer les périodes de maximum de popularité. L'objectif est de voir si ces pics correspondent ou s'ils sont décalés dans le temps.

Pour ce faire, nous avons procédé comme cela: 
- nous avons tout d'abord défini la période de temps de l'analyse (du 1er janvier 2000 au 31 décembre 2024),
- nous avons ensuite récupéré les données et nous les avons stockées dans des dictionnaires,
- enfin nous avons généré des graphiques à partir de ces dictionnaires.

Ensuite, nous avons analysé l'évolution des recherches en comparant directement les mots-clés entre eux, grâce à l'**analyse comparative**. Pour cela, nous avons utilisé Google Trends en entrant deux mots-clés simultanément, ce qui change la manière dont les valeurs sont calculées. Contrairement à une analyse séparée, où les scores sont normalisés par rapport au maximum de chaque mot-clé, une analyse conjointe normalise les résultats des deux mots-clés l'un par rapport à l'autre. Cela permet d'observer leur popularité relative sur la même échelle.

Pour ce faire, nous avons:
- construit la requête de scraping pour tous les mots-clés en même temps et récupéré les données d'intérêt au fil du temps,
- vérifié que les données contiennent des résultats valides,
- affiché les graphiques comparatifs.

Enfin, nous avons enregistré nos résultats dans un dataset final (à retrouver dans le dossier `perception_bio` sous le nom de `data_quantitative.csv`) afin de pouvoir les réutiliser par la suite.

### 1.4) Analyse de nos résultats scrapés

Pour analyser les résultats de nos webscrapings, nous avons tout d'abord analysé séparément chacun des scrapings, puis nous avons créé un dataset global pour agréger tous nos résultats.

Tout d'abord, **pour chaque titre de presse scrapé**, grâce aux graphiques créés à partir de la variable de sentiment analysis, nous pouvons faire une première analyse, comme celle qui suit avec les données du journal *LSA*.

<div style="display: flex; justify-content: space-around; align-items: center;">
  <img src="perception_bio/Images/graphiques_scores_LSA_archives.png" alt="Graphiques de l'analyse des archives LSA" style="width: 45%;"/>
  <img src="perception_bio/Images/graphiques_scores_LSA.png" alt="Graphiques de l'analyse de LSA" style="width: 45%;"/>
</div>

Nous remarquons les tendances suivantes:
- sur la période 2000-2010, peu d'articles sur le bio, avec des scores faibles (perception globalement négative ou neutre). Le sujet était marginal.
- de 2011 à 2015, augmentation progressive de l'attention, mais la perception reste mitigée, avec des scores moyens encore faibles.
- de 2016 à 2020, explosion médiatique du bio, avec un nombre élevé d’articles et une perception majoritairement positive (scores proches de 1), reflétant un fort intérêt et engouement.
- enfin de 2021 à 2024, réduction notable du volume d’articles, bien que la perception reste globalement positive. Cela pourrait indiquer un essoufflement de l'intérêt médiatique, même si le bio conserve une bonne image.

Ensuite, pour ce qui est du **scraping de Google Trend**, nous avons d'abord l'analyse de **l'intérêt par région** grâce aux cartes produites. Prenons par exemple les deux cartes suivantes qui représentent bien la dynamique d'intérêt global.

<div style="display: flex; justify-content: space-around; align-items: center;">
  <img src="perception_bio/Images/carte_manger_BIO.png" alt="Graphiques de l'analyse des archives LSA" style="width: 45%;"/>
  <img src="perception_bio/Images/carte_pesticides.png" alt="Graphiques de l'analyse de LSA" style="width: 45%;"/>
</div>

Pour la carte sur le terme "Manger BIO", elle montre une répartition homogène des recherches sur "Manger Bio", indiquant un intérêt universel pour la consommation de produits bio. Cela s'explique par le fait que tout le monde, qu'il soit citadin ou rural, se sent concerné par l'alimentation bio. Nous remarquons cette même tendance pour la carte sur le terme "Qualité de l'eau", second terme d'intérêt pour la consommation, avec un intérêt plutôt homogène sur tout le territoire.

Pour la carte sur le terme "Pesticides", les recherches sur ce terme sont plus marquées dans certaines régions agricoles comme le sud-ouest ou la Bretagne. Cela reflète un intérêt spécifique aux zones où les pesticides sont davantage utilisés ou où leurs impacts environnementaux, comme la pollution des nappes phréatiques, sont plus visibles. Ce phénomène est lié à une sensibilité accrue dans ces régions aux débats sur l'utilisation des pesticides et leurs effets sur l'environnement.
La même tendance est remarquée pour la carte liée au terme "Agriculture BIO", l'autre terme d'intérêt pour la production, avec un même intérêt différencié selon la présence de l'activité agricole dans les régions.

Enfin, pour ce qui est du **scraping Google Trend sur l'évolution des recherches sur le bio dans le temps**, nous obtenons des graphiques comme le suivant.

![Graphique évolution des recherches](perception_bio/Images/evolutions_recherches.png)


Ce graphique nous montre une forte baisse d'intérêt pour "agriculture bio" depuis 2004, atteignant un pic en 2005 avant un déclin progressif et stabilisé depuis 2016. À l'inverse, "manger bio" gagne en popularité jusqu'à 2016, où les deux courbes convergent, indiquant un alignement des préoccupations. Depuis 2016, l'intérêt pour les deux termes diminue lentement mais reste à un niveau similaire, reflétant peut-être une saturation ou une normalisation du sujet dans les recherches. Cette tendance pourrait indiquer un passage d'un débat technique (agriculture) à des préoccupations plus personnelles (consommation).

Finalement, pour agréger nos résultats des différents scrapings et obtenir une analyse général, nous avons créé un fichier global, intitulé `data_quantitative.csv`, à partir du notebook `main.ipynb` toujours dans le même dossier `perception_bio`, qui devait contenir deux datasets, un pour les valeurs quantitatives (importance des discussions) et le second pour les valeurs qualitatives (sentiment des discussions). Seul le premier a été généré et nous donne la moyenne, pour chaque mois entre les années 2000 et 2024, de la valeur entre 0 et 1 qu'on a attribué à chaque article des différents journaux, qu'on interprète comme un indicateur de la perception du bio dans les journaux.

Ainsi, à travers nos analyses, nous avons constaté une grande volatilité de l’opinion publique sur le bio au fil du temps. Nous observons des périodes d’engouement et de déclin, des perceptions contrastées entre les dimensions de production ("agriculture bio") et de consommation ("manger bio"), ainsi que des dynamiques régionales spécifiques. Ces inférences parfois contradictoires renforcent pour nous la nécessité de dépasser les impressions médiatiques ou les tendances de recherche et de s’appuyer sur une étude rigoureuse de l’état de l’agriculture biologique dans les faits. Cela nous permettra de redonner au bio sa juste place dans le paysage agricole français d’aujourd’hui, en éclairant ses réalités et ses limites.