# 📰 Analyse des actualités agricoles de l'Agence Ecofin

Ce notebook a pour objectif de scraper des articles liés à la régulation des exportations agricoles dans les pays d’Afrique de l’Ouest, extraits du site [agenceecofin.com](https://www.agenceecofin.com/actualites-agro), puis d'extraire les données pertinentes et les sauvegarder dans un fichier Excel.

In [None]:
import requests
from bs4 import BeautifulSoup
import re
import time
import pandas as pd
import spacy

In [None]:
# Charger le modèle de langue français de spaCy
nlp = spacy.load("fr_core_news_sm")

In [None]:
# Initialisation des variables
mois_francais = {
    'janvier': '01', 'février': '02', 'fevrier': '02', 'mars': '03',
    'avril': '04', 'mai': '05', 'juin': '06',
    'juillet': '07', 'août': '08', 'aout': '08', 'septembre': '09',
    'octobre': '10', 'novembre': '11', 'décembre': '12', 'decembre': '12'
}

countries = ["Bénin", "Burkina Faso", "Cap-Vert", "Côte d'Ivoire", "Gambie", "Ghana", "Guinée",
             "Guinée-Bissau", "Libéria", "Mali", "Niger", "Nigéria", "Sénégal", "Sierra Leone", "Togo"]

keywords = [
    "interdiction des exportations agricoles", "licences d'exportation",
    "embargo sur les exportations agricoles", "limitation des exportations agricole",
    "exportation produits vivriers", "régulation", "suspension des exportations agricoles",
    "gouvernement suspend ", "restriction des exportations agricoles",
    "interdiction des exportations", "blocage", "plafonnement", "mesures protectionnistes",
    "interdiction exportation arachides", "produits agricoles exportés", "céréales",
    "blé", "riz", "maïs", "acajou", "amande karité", "fruits et légumes", "produits vivriers",
    "produits de rente", "pénurie", "tubercules", "niébé", "sorgho", "soja"
]

produits = ["maïs", "riz", "blé", "niébé", "sorgho", "soja", "cajou", "karité", "arachide", "mil", "tubercules"]

In [None]:
# Lemmatisation des mots-clés
keywords_lemmatized = []
for phrase in keywords:
    doc = nlp(phrase.lower())
    keywords_lemmatized.append(" ".join([token.lemma_ for token in doc]))

In [None]:
# Fonction de normalisation de texte
def normalize(text):
    return text.lower().strip()

In [None]:
# Scraping (test sur 1 page pour commencer)
base_url = 'https://www.agenceecofin.com/actualites-agro'
data = []

for page in range(0, 10, 10):
    url = f'{base_url}?limitstart={page}'
    html_text = requests.get(url, timeout=50).text
    soup = BeautifulSoup(html_text, 'lxml')

    articles = soup.find_all('div', class_='catItemHeader')
    for article in articles:
        title_tag = article.find('div', class_='catItemTitle')
        if title_tag:
            title = title_tag.text.strip()
            if (any(country.lower() in title.lower() for country in countries) and
                any(keyword.lower() in title.lower() for keyword in keywords)):

                countrie = next((country for country in countries if country.lower() in title.lower()), "Inconnu")

                more_info = article.a['href']
                url_article = f'https://www.agenceecofin.com{more_info}'
                html_text2 = requests.get(url_article).text
                soup2 = BeautifulSoup(html_text2, 'lxml')
                read = soup2.find_all('div', class_='itemIntroText')

                published_date = soup2.find('span', class_='itemDateCreated').text.strip()
                match = re.search(r'(\d{1,2})\s+(\w+)\s+(\d{4})', published_date.lower())
                if match:
                    mois_nom = match.group(2)
                    annee = match.group(3)
                    mois_num = mois_francais.get(mois_nom)
                    published_date = f'{mois_num}-{annee}' if mois_num else "Date inconnue"
                else:
                    published_date = "Date inconnue"

                texte_complet = " ".join([normalize(p.text.strip()) for p in read])
                texte_final = re.split(r"lire\s+aussi[:\s]*", texte_complet, flags=re.IGNORECASE)[0].strip()
                texte_final = re.sub(r"\bmillions?\b|\bmilliards?\b|\bmilliers?\b|\bmilieu?\b", "", texte_final, flags=re.IGNORECASE)
                texte_final = re.sub(r"\s{2,}", " ", texte_final).strip()

                produits_trouves = [produit for produit in produits if normalize(produit) in texte_final]
                produits_uniques = list(set(produits_trouves))

                data.append({
                    "pays": countrie,
                    "title": title,
                    "date": published_date,
                    "article": texte_final,
                    "produits": ", ".join(produits_uniques)
                })

                time.sleep(10)

In [None]:
# Conversion en DataFrame et aperçu
df = pd.DataFrame(data)
df.head()

In [None]:
# Export en Excel
df.to_excel("articles_ecofin.xlsx", index=False)

## 📊 Visualisation des données collectées

Voyons maintenant quelques statistiques de base sur les articles collectés :

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as mtick

# Configuration de style
sns.set(style="whitegrid")

### Nombre d'articles par pays

In [None]:
plt.figure(figsize=(12,6))
article_counts = df['pays'].value_counts().sort_values(ascending=False)
sns.barplot(x=article_counts.values, y=article_counts.index, palette="viridis")
plt.title("Nombre d'articles par pays")
plt.xlabel("Nombre d'articles")
plt.ylabel("Pays")
plt.tight_layout()
plt.show()

### Répartition des produits agricoles mentionnés

In [None]:
from collections import Counter
produit_list = ",".join(df['produits'].dropna()).split(", ")
produit_counts = Counter(produit_list)
produit_df = pd.DataFrame.from_dict(produit_counts, orient='index', columns=['count'])
produit_df = produit_df.sort_values(by='count', ascending=False)

plt.figure(figsize=(12,6))
sns.barplot(x=produit_df['count'], y=produit_df.index, palette="mako")
plt.title("Fréquence des produits agricoles mentionnés")
plt.xlabel("Occurrences")
plt.ylabel("Produits agricoles")
plt.tight_layout()
plt.show()

### Nombre d'articles par année

In [None]:
# Extraire l'année de la colonne 'date' au format MM-YYYY
df['année'] = df['date'].apply(lambda x: x.split('-')[1] if '-' in x else None)
year_counts = df['année'].value_counts().sort_index()

plt.figure(figsize=(8,5))
sns.barplot(x=year_counts.index, y=year_counts.values, palette="crest")
plt.title("Nombre d'articles par année")
plt.xlabel("Année")
plt.ylabel("Nombre d'articles")
plt.tight_layout()
plt.show()

## 🤖 Classification NLP des articles par type d’action

Nous allons entraîner un modèle de machine learning pour prédire le type d’action (ex : interdiction, embargo, régulation) à partir du contenu des articles.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

### Création des labels à partir des mots-clés dans l'article

On cherche dans l'article les termes typiques comme `interdiction`, `suspension`, `embargo`, etc., et on les utilise comme étiquette principale.

In [None]:
# Fonction simple d'assignation de label
def assign_action_label(text):
    text = text.lower()
    if "interdiction" in text:
        return "interdiction"
    elif "embargo" in text:
        return "embargo"
    elif "suspension" in text:
        return "suspension"
    elif "régulation" in text or "regulation" in text:
        return "regulation"
    elif "restriction" in text:
        return "restriction"
    else:
        return "autre"

# Appliquer aux articles
df['action_label'] = df['article'].apply(assign_action_label)
df['action_label'].value_counts()

### Vectorisation TF-IDF et entraînement du modèle

In [None]:
# Filtrer les classes les plus fréquentes
df_filtered = df[df['action_label'] != 'autre']

X = df_filtered['article']
y = df_filtered['action_label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
vectorizer = TfidfVectorizer(max_features=3000, ngram_range=(1,2), stop_words='french')
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

model = LogisticRegression(max_iter=1000)
model.fit(X_train_vec, y_train)

### Évaluation du modèle

In [None]:
y_pred = model.predict(X_test_vec)
print(classification_report(y_test, y_pred))

cm = confusion_matrix(y_test, y_pred, labels=model.classes_)
sns.heatmap(cm, annot=True, fmt='d', xticklabels=model.classes_, yticklabels=model.classes_, cmap="Blues")
plt.xlabel("Prédiction")
plt.ylabel("Vérité réelle")
plt.title("Matrice de confusion du modèle")
plt.show()