In [None]:
import os
import pandas as pd
import numpy as np

# === Param√®tres ===
DATA_DIR = "data"           # Dossier contenant vos CSV sectoriels
TRADING_DAYS = 252          # Standard pour annualiser (252 jours de bourse/an)
MAX_MISSING_PCT = 0.1       # Seuil : on rejette une action si > 10% de donn√©es manquent

def get_market_data():
    """
    Charge les CSV, nettoie les donn√©es, calcule les rendements
    et g√©n√®re les matrices pour l'optimisation de Markowitz.
    
    Returns:
        mu (pd.Series): Rendements moyens annualis√©s attendus.
        Sigma (pd.DataFrame): Matrice de covariance annualis√©e.
        returns (pd.DataFrame): Historique complet des rendements quotidiens.
    """
    if not os.path.exists(DATA_DIR):
        raise FileNotFoundError(f"Le dossier '{DATA_DIR}' n'existe pas. Lancez download.py d'abord.")

    # 1. Chargement et fusion des fichiers CSV
    sector_files = [f for f in os.listdir(DATA_DIR) if f.endswith(".csv")]
    
    if not sector_files:
        raise ValueError("Aucun fichier CSV trouv√© dans le dossier data/.")

    print(f"Chargement de {len(sector_files)} fichiers sectoriels...")
    
    df_list = []
    for file in sector_files:
        path = os.path.join(DATA_DIR, file)
        # On charge en indexant par la Date
        df_sector = pd.read_csv(path, index_col="Date", parse_dates=True)
        df_list.append(df_sector)
    
    # Fusion en un seul gros DataFrame (alignement sur les dates)
    prices = pd.concat(df_list, axis=1)
    print(f"Dimensions brutes : {prices.shape[1]} actifs sur {prices.shape[0]} jours.")

    # 2. Nettoyage des donn√©es (Crucial pour √©viter les erreurs de matrice)
    
    # a. Supprimer les actifs qui ont trop de NaNs (ex: entr√©s en bourse r√©cemment)
    missing_ratios = prices.isna().mean()
    to_drop = missing_ratios[missing_ratios > MAX_MISSING_PCT].index
    prices = prices.drop(columns=to_drop)
    if len(to_drop) > 0:
        print(f"Actifs supprim√©s (trop de donn√©es manquantes) : {len(to_drop)}")

    # b. Remplir les petits trous (Forward Fill) puis supprimer les lignes restantes vides
    prices = prices.ffill().dropna()

    # 3. Calcul des Rendements (Returns)
    # Formule : R_t = (P_t / P_{t-1}) - 1
    returns = prices.pct_change().dropna()

    print(f"Univers final : {returns.shape[1]} actifs valides sur {returns.shape[0]} jours.")

    # 4. Calcul des inputs de Markowitz (Annualisation)
    # mu = Moyenne journali√®re * 252
    mu = returns.mean() * TRADING_DAYS
    
    # Sigma = Covariance journali√®re * 252
    Sigma = returns.cov() * TRADING_DAYS

    return mu, Sigma, returns

# === Bloc de test ===
if __name__ == "__main__":
    try:
        mu, Sigma, returns = get_market_data()
        
        print("\n--- Aper√ßu des donn√©es ---")
        print("Rendements moyens (Top 5) :")
        print(mu.head())
        print("\nMatrice de Covariance (taille) :", Sigma.shape)
        
        # Petit check math√©matique : La matrice doit √™tre sym√©trique
        is_symmetric = np.allclose(Sigma, Sigma.T)
        print(f"Matrice sym√©trique ? {is_symmetric}")
        
    except Exception as e:
        print(f"Erreur : {e}")

Chargement de 11 fichiers sectoriels...
Dimensions brutes : 197 actifs sur 1305 jours.
Actifs supprim√©s (trop de donn√©es manquantes) : 1
Univers final : 196 actifs valides sur 1248 jours.

--- Aper√ßu des donn√©es ---
Rendements moyens (Top 5) :
GOOGL    0.295471
META     0.367013
DIS      0.084867
NFLX     0.300734
VZ       0.014609
dtype: float64

Matrice de Covariance (taille) : (196, 196)
Matrice sym√©trique ? True


In [2]:
# === Configuration ===
FINAL_DATA_PATH = "data/returns_final.csv"
TRADING_DAYS = 252

# === Logique de chargement intelligent ===
if os.path.exists(FINAL_DATA_PATH):
    print("‚úÖ Fichier de donn√©es nettoy√©es trouv√©. Chargement rapide...")
    # On charge le CSV d√©j√† pr√™t
    returns = pd.read_csv(FINAL_DATA_PATH, index_col="Date", parse_dates=True)
    
    # On recalcule juste mu et Sigma (c'est instantan√©)
    mu = returns.mean() * TRADING_DAYS
    Sigma = returns.cov() * TRADING_DAYS
    
    print(f"Donn√©es charg√©es : {returns.shape[1]} actifs sur {returns.shape[0]} dates.")

else:
    print("‚ö†Ô∏è Fichier non trouv√©. Lancement du traitement complet (peut √™tre long)...")
    # On lance la fonction lourde d√©finie pr√©c√©demment
    mu, Sigma, returns = get_market_data()
    
    # === SAUVEGARDE ICI ===
    print(f"üíæ Sauvegarde des donn√©es dans {FINAL_DATA_PATH}...")
    returns.to_csv(FINAL_DATA_PATH)

# === V√©rification rapide ===
print("\n--- Pr√™t pour l'optimisation ---")
print("Exemple de mu (Rendement annuel attendu) :")
print(mu.head())

‚ö†Ô∏è Fichier non trouv√©. Lancement du traitement complet (peut √™tre long)...
Chargement de 11 fichiers sectoriels...
Dimensions brutes : 197 actifs sur 1305 jours.
Actifs supprim√©s (trop de donn√©es manquantes) : 1
Univers final : 196 actifs valides sur 1248 jours.
üíæ Sauvegarde des donn√©es dans data/returns_final.csv...

--- Pr√™t pour l'optimisation ---
Exemple de mu (Rendement annuel attendu) :
GOOGL    0.295471
META     0.367013
DIS      0.084867
NFLX     0.300734
VZ       0.014609
dtype: float64
