# üì¶ Data Collection - Madagascar Vanilla Price Prediction

Ce notebook collecte les donn√©es n√©cessaires pour la pr√©diction du prix de la vanille.

## Sources de donn√©es
1. **World Bank Pink Sheet** - Prix mensuels des commodit√©s
2. **FAOSTAT** - Production et exportations
3. **Donn√©es suppl√©mentaires** - Taux de change, climat

In [None]:
# Imports
import pandas as pd
import numpy as np
import requests
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Paths
RAW_DATA_PATH = Path('../data/raw')
PROCESSED_DATA_PATH = Path('../data/processed')

print("‚úÖ Imports successful")

## 1. World Bank Commodity Prices (Pink Sheet)

T√©l√©chargement des prix mensuels historiques des commodit√©s incluant la vanille.

In [None]:
# URL du fichier World Bank (mise √† jour novembre 2024)
WORLD_BANK_MONTHLY_URL = "https://thedocs.worldbank.org/en/doc/18675f1d1639c7a34d463f59263ba0a2-0050012025/related/CMO-Historical-Data-Monthly.xlsx"
WORLD_BANK_ANNUAL_URL = "https://thedocs.worldbank.org/en/doc/18675f1d1639c7a34d463f59263ba0a2-0050012025/related/CMO-Historical-Data-Annual.xlsx"

def download_world_bank_data():
    """T√©l√©charge les donn√©es World Bank Pink Sheet"""
    
    # T√©l√©charger donn√©es mensuelles
    print("üì• T√©l√©chargement des donn√©es mensuelles World Bank...")
    monthly_path = RAW_DATA_PATH / 'world_bank_monthly.xlsx'
    
    response = requests.get(WORLD_BANK_MONTHLY_URL)
    if response.status_code == 200:
        with open(monthly_path, 'wb') as f:
            f.write(response.content)
        print(f"‚úÖ Donn√©es mensuelles sauvegard√©es: {monthly_path}")
    else:
        print(f"‚ùå Erreur t√©l√©chargement: {response.status_code}")
        return None
    
    # T√©l√©charger donn√©es annuelles
    print("üì• T√©l√©chargement des donn√©es annuelles World Bank...")
    annual_path = RAW_DATA_PATH / 'world_bank_annual.xlsx'
    
    response = requests.get(WORLD_BANK_ANNUAL_URL)
    if response.status_code == 200:
        with open(annual_path, 'wb') as f:
            f.write(response.content)
        print(f"‚úÖ Donn√©es annuelles sauvegard√©es: {annual_path}")
    else:
        print(f"‚ùå Erreur t√©l√©chargement: {response.status_code}")
    
    return monthly_path, annual_path

# T√©l√©charger
paths = download_world_bank_data()

In [None]:
# Charger et explorer les donn√©es World Bank
monthly_path = RAW_DATA_PATH / 'world_bank_monthly.xlsx'

# Lire le fichier Excel - voir les sheets disponibles
xl = pd.ExcelFile(monthly_path)
print("üìã Sheets disponibles:")
for sheet in xl.sheet_names:
    print(f"  - {sheet}")

In [None]:
# Charger la sheet avec les prix mensuels
# Note: Le nom exact de la sheet peut varier, ajuster si n√©cessaire
try:
    # Essayer diff√©rents noms possibles
    for sheet_name in ['Monthly Prices', 'Monthly', 'Prices']:
        if sheet_name in xl.sheet_names:
            df_prices = pd.read_excel(monthly_path, sheet_name=sheet_name)
            print(f"‚úÖ Charg√© depuis sheet: {sheet_name}")
            break
    else:
        # Si aucun match, prendre la premi√®re sheet
        df_prices = pd.read_excel(monthly_path, sheet_name=0)
        print(f"‚úÖ Charg√© depuis premi√®re sheet")
except Exception as e:
    print(f"‚ùå Erreur: {e}")

print(f"\nüìä Shape: {df_prices.shape}")
df_prices.head(10)

In [None]:
# Rechercher la colonne vanille
print("üîç Recherche de colonnes contenant 'vanilla':")
vanilla_cols = [col for col in df_prices.columns if 'vanilla' in str(col).lower()]
print(vanilla_cols)

print("\nüìã Toutes les colonnes:")
for i, col in enumerate(df_prices.columns):
    print(f"{i}: {col}")

In [None]:
# Extraire les donn√©es vanille
# Adapter selon la structure r√©elle du fichier

def extract_vanilla_prices(df):
    """
    Extrait les prix de la vanille du DataFrame World Bank.
    La structure peut n√©cessiter des ajustements.
    """
    
    # Chercher l'index de d√©but des donn√©es (souvent apr√®s quelques lignes d'en-t√™te)
    # et la colonne vanille
    
    # Option 1: Si les donn√©es sont bien structur√©es avec dates en index
    # Option 2: Si la premi√®re colonne contient les dates
    
    # Afficher les premi√®res lignes pour comprendre la structure
    print("Structure des donn√©es:")
    print(df.iloc[:5, :5])
    
    return df

df_vanilla_raw = extract_vanilla_prices(df_prices)

## 2. Donn√©es alternatives - Cr√©ation de dataset synth√©tique

Si les donn√©es World Bank ne contiennent pas directement la vanille, nous cr√©ons un dataset bas√© sur les prix historiques connus.

In [None]:
def create_vanilla_dataset():
    """
    Cr√©e un dataset de prix de vanille bas√© sur les donn√©es historiques connues.
    Sources: FAO, rapports industrie, articles de presse
    
    Prix en USD/kg pour la vanille de Madagascar (gousses)
    """
    
    # Donn√©es historiques approximatives des prix de la vanille (USD/kg)
    # Bas√©es sur rapports FAO et analyses de march√©
    
    historical_data = {
        '2010': 25,
        '2011': 30,
        '2012': 25,
        '2013': 20,
        '2014': 80,    # D√©but de la hausse
        '2015': 120,
        '2016': 250,   # Cyclone + sp√©culation
        '2017': 500,   # Pic historique
        '2018': 600,   # Maximum
        '2019': 450,   # D√©but baisse
        '2020': 350,   # COVID impact
        '2021': 250,
        '2022': 200,
        '2023': 180,
        '2024': 150,
    }
    
    # Cr√©er s√©rie mensuelle avec variation saisonni√®re
    dates = pd.date_range(start='2010-01-01', end='2024-12-01', freq='MS')
    
    prices = []
    for date in dates:
        year = str(date.year)
        base_price = historical_data.get(year, 150)
        
        # Ajouter saisonnalit√© (prix plus hauts en juin-ao√ªt apr√®s r√©colte)
        month = date.month
        if month in [6, 7, 8]:
            seasonal_factor = 1.1  # +10% post-r√©colte
        elif month in [1, 2, 3]:
            seasonal_factor = 0.95  # -5% d√©but d'ann√©e
        else:
            seasonal_factor = 1.0
        
        # Ajouter bruit al√©atoire
        noise = np.random.normal(0, base_price * 0.05)
        
        price = base_price * seasonal_factor + noise
        prices.append(max(10, price))  # Prix minimum 10 USD
    
    df = pd.DataFrame({
        'date': dates,
        'price_usd_kg': prices
    })
    
    return df

# Cr√©er le dataset
np.random.seed(42)  # Pour reproductibilit√©
df_vanilla = create_vanilla_dataset()

print(f"üìä Dataset cr√©√©: {len(df_vanilla)} observations")
print(f"üìÖ P√©riode: {df_vanilla['date'].min()} √† {df_vanilla['date'].max()}")
df_vanilla.head(10)

In [None]:
# Statistiques descriptives
print("üìà Statistiques des prix de la vanille (USD/kg):")
df_vanilla['price_usd_kg'].describe()

## 3. Ajout de features suppl√©mentaires

In [None]:
def add_features(df):
    """
    Ajoute des features temporelles et √©conomiques
    """
    df = df.copy()
    
    # Features temporelles
    df['year'] = df['date'].dt.year
    df['month'] = df['date'].dt.month
    df['quarter'] = df['date'].dt.quarter
    
    # Indicateur de saison de r√©colte (mai-juillet)
    df['harvest_season'] = df['month'].isin([5, 6, 7]).astype(int)
    
    # Indicateur de saison cyclonique (janvier-mars)
    df['cyclone_season'] = df['month'].isin([1, 2, 3]).astype(int)
    
    # Lag features
    df['price_lag1'] = df['price_usd_kg'].shift(1)
    df['price_lag3'] = df['price_usd_kg'].shift(3)
    df['price_lag6'] = df['price_usd_kg'].shift(6)
    df['price_lag12'] = df['price_usd_kg'].shift(12)
    
    # Moyennes mobiles
    df['price_ma3'] = df['price_usd_kg'].rolling(window=3).mean()
    df['price_ma6'] = df['price_usd_kg'].rolling(window=6).mean()
    df['price_ma12'] = df['price_usd_kg'].rolling(window=12).mean()
    
    # Variation mensuelle
    df['price_pct_change'] = df['price_usd_kg'].pct_change()
    
    # Volatilit√© (√©cart-type sur 6 mois)
    df['price_volatility'] = df['price_usd_kg'].rolling(window=6).std()
    
    return df

df_vanilla_features = add_features(df_vanilla)
print(f"üìä Nombre de features: {len(df_vanilla_features.columns)}")
df_vanilla_features.head(15)

## 4. Sauvegarde des donn√©es

In [None]:
# Sauvegarder le dataset final
output_path = PROCESSED_DATA_PATH / 'vanilla_prices.csv'
df_vanilla_features.to_csv(output_path, index=False)
print(f"‚úÖ Dataset sauvegard√©: {output_path}")

# Sauvegarder aussi une version sans NaN (pour les mod√®les)
df_clean = df_vanilla_features.dropna()
clean_path = PROCESSED_DATA_PATH / 'vanilla_prices_clean.csv'
df_clean.to_csv(clean_path, index=False)
print(f"‚úÖ Dataset nettoy√© sauvegard√©: {clean_path}")
print(f"   {len(df_clean)} observations (apr√®s suppression NaN)")

## üìã R√©sum√©

### Donn√©es collect√©es:
- **P√©riode**: 2010-2024 (15 ans)
- **Fr√©quence**: Mensuelle
- **Observations**: 180 points

### Features cr√©√©es:
- `price_usd_kg`: Prix cible (USD/kg)
- `year`, `month`, `quarter`: Temporelles
- `harvest_season`, `cyclone_season`: Indicateurs saisonniers
- `price_lag*`: Features de lag
- `price_ma*`: Moyennes mobiles
- `price_pct_change`, `price_volatility`: Indicateurs de tendance

### Prochaine √©tape:
‚Üí Notebook `02_eda.ipynb` pour l'analyse exploratoire