# üìä Analyse de Corr√©lation Dynamique des Cryptomonnaies

## üéØ Objectif du Projet

Ce notebook pr√©sente une **analyse compl√®te des corr√©lations dynamiques** entre cryptomonnaies majeures pour :
- üìà **Identifier des groupes** d'actifs avec comportements similaires
- üîÑ **Analyser l'√©volution temporelle** des corr√©lations sur 2 ans
- üé™ **D√©tecter les changements de r√©gime** dans les march√©s crypto
- üéØ **Fournir des insights** pour l'optimisation de portefeuille

## üìã Structure du Notebook
1. Configuration et imports
2. Collecte des donn√©es
3. Pr√©traitement des donn√©es
4. Analyse de corr√©lation dynamique
5. Clustering hi√©rarchique
6. Visualisation en r√©seau des corr√©lations
7. Clustering temporel avec K-Means
8. D√©tection automatique des changements de r√©gime
9. Clustering spectral optimis√©
10. Rapport final et conclusion

In [None]:
# ================================================================================================
# üì¶ 1. CONFIGURATION ET IMPORTS
# ================================================================================================

# Suppression des warnings pour une sortie plus propre
import warnings
warnings.filterwarnings('ignore')

# === IMPORTS PRINCIPAUX ===
import datetime
import pandas as pd
import numpy as np

# === VISUALISATION ===
import matplotlib.pyplot as plt
import seaborn as sns

# === DONN√âES FINANCI√àRES ===
import yfinance as yf

# === MACHINE LEARNING & CLUSTERING ===
from sklearn.cluster import KMeans, SpectralClustering
from sklearn.metrics import silhouette_score

# === ANALYSE STATISTIQUE ===
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
from scipy.spatial.distance import squareform
from scipy.signal import find_peaks

# === ANALYSE DE R√âSEAUX ===
import networkx as nx
from itertools import combinations

# === CONFIGURATION GRAPHIQUES ===
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams.update({
    'figure.figsize': (14, 8),
    'font.size': 11,
    'axes.grid': True,
    'grid.alpha': 0.3,
    'figure.facecolor': 'white'
})

print("‚úÖ Tous les modules import√©s avec succ√®s")
print(f"üìÖ Date d'ex√©cution : {datetime.datetime.now().strftime('%d/%m/%Y %H:%M')}")

# üì¶ 2. COLLECTE DES DONN√âES

T√©l√©chargement des donn√©es historiques sur **2 ans** pour les 9 cryptomonnaies s√©lectionn√©es:

| Crypto | Symbole | Description |
|--------|---------|-------------|
| **Ethereum** | ETH-USD | Plateforme smart contracts |
| **Binance Coin** | BNB-USD | Token exchange Binance |
| **Ripple** | XRP-USD | R√©seau de paiements |
| **Solana** | SOL-USD | Blockchain haute performance |
| **Cardano** | ADA-USD | Blockchain acad√©mique |
| **Polkadot** | DOT-USD | Interop√©rabilit√© blockchain |
| **Shiba Inu** | SHIB-USD | Meme coin populaire |
| **Litecoin** | LTC-USD | "L'argent num√©rique" |
| **Avalanche** | AVAX-USD | Plateforme DeFi |

In [None]:
def collect_crypto_data(symbols, num_days=730):
    """
    Collecte les donn√©es historiques des cryptomonnaies
    
    Args:
        symbols: Liste des symboles de cryptomonnaies
        num_days: Nombre de jours d'historique (d√©faut: 730 = 2 ans)
    
    Returns:
        DataFrame avec les prix de cl√¥ture quotidiens
    """
    print("üìà Collecte des donn√©es en cours...")
    
    # Configuration des dates
    start = datetime.date.today() - datetime.timedelta(days=num_days)
    end = datetime.date.today()
    
    print(f"üìÖ P√©riode : {start} ‚Üí {end} ({num_days} jours)")
    
    # T√©l√©chargement des donn√©es
    data_close = pd.DataFrame()
    success_count = 0
    
    for i, symbol in enumerate(symbols, 1):
        try:
            print(f"   [{i:2d}/{len(symbols)}] {symbol:<10} ... ", end="")
            data = yf.download(symbol, start=start, end=end, interval="1d", progress=False)
            
            if not data.empty:
                data_close[symbol] = data["Close"]
                success_count += 1
                print("‚úÖ")
            else:
                print("‚ùå (Donn√©es vides)")
                
        except Exception as e:
            print(f"‚ùå ({str(e)[:30]}...)")
    
    # Nettoyage des donn√©es
    initial_length = len(data_close)
    data_close.dropna(inplace=True)
    final_length = len(data_close)
    
    print(f"\nüìä R√©sum√© :")
    print(f"   ‚Ä¢ Cryptos collect√©es : {success_count}/{len(symbols)}")
    print(f"   ‚Ä¢ Donn√©es brutes : {initial_length:,} jours")
    print(f"   ‚Ä¢ Donn√©es nettoy√©es : {final_length:,} jours")
    print(f"   ‚Ä¢ Donn√©es supprim√©es : {initial_length - final_length:,} jours")
    
    return data_close

# === CONFIGURATION DES CRYPTOMONNAIES ===
crypto_symbols = [
    "ETH-USD",   # Ethereum
    "BNB-USD",   # Binance Coin
    "XRP-USD",   # Ripple
    "SOL-USD",   # Solana
    "ADA-USD",   # Cardano
    "DOT-USD",   # Polkadot
    "SHIB-USD",  # Shiba Inu
    "LTC-USD",   # Litecoin
    "AVAX-USD"   # Avalanche
]

# === COLLECTE DES DONN√âES ===
data_close = collect_crypto_data(crypto_symbols, num_days=730)

# Aper√ßu des donn√©es
print(f"\nüìã Aper√ßu des donn√©es collect√©es :")
print(data_close.tail())
print(f"\nüìè Dimensions finales : {data_close.shape}")

# üßÆ 3. PR√âTRAITEMENT DES DONN√âES

Calcul des rendements logarithmiques pour normaliser les donn√©es et faciliter l'analyse statistique.
Permet √©galement de stabiliser la variance et de r√©duire l'asym√©trie des distributions.

In [None]:
def calculate_log_returns(price_data):
    """
    Calcule les rendements logarithmiques √† partir des prix
    
    Args:
        price_data: DataFrame avec les prix de cl√¥ture
    
    Returns:
        DataFrame avec les rendements logarithmiques
    """
    print("üî¢ Calcul des rendements logarithmiques...")
    
    # Calcul des rendements logarithmiques
    log_returns = np.log(price_data / price_data.shift(1))
    log_returns.dropna(inplace=True)
    
    print(f"Rendements calcul√©s pour {len(log_returns)} jours")
    
    # Statistiques descriptives
    print("\nüìà Statistiques des rendements:")
    print(f"Rendement moyen : {log_returns.mean().mean():.4f}")
    print(f"Volatilit√© moyenne : {log_returns.std().mean():.4f}")
    
    return log_returns

# Calcul des rendements
log_returns = calculate_log_returns(data_close)

# Visualisation des rendements
fig, axes = plt.subplots(2, 1, figsize=(15, 12))

# Graphique des prix
data_close.plot(ax=axes[0], title="√âvolution des Prix des Cryptomonnaies", 
                legend=True, alpha=0.8)
axes[0].set_ylabel("Prix (USD)")
axes[0].grid(True, alpha=0.3)

# Graphique des rendements
log_returns.plot(ax=axes[1], title="Rendements Logarithmiques", 
                 legend=True, alpha=0.7)
axes[1].set_ylabel("Rendements")
axes[1].grid(True, alpha=0.3)
axes[1].axhline(y=0, color='black', linestyle='-', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Pr√©traitement des donn√©es termin√©")

# üìä 4. ANALYSE DE CORR√âLATION DYNAMIQUE

Calcul des matrices de corr√©lation glissantes avec une fen√™tre de 30 jours pour capturer l'√©volution 
temporelle des relations entre cryptomonnaies.

In [None]:
def calculate_rolling_correlations(returns_data, window=30):
    """
    Calcule les corr√©lations glissantes pour analyser l'√©volution temporelle
    
    Args:
        returns_data: DataFrame des rendements
        window: Taille de la fen√™tre glissante (jours)
    
    Returns:
        Liste des matrices de corr√©lation, dates correspondantes
    """
    print(f"üîÑ Calcul des corr√©lations glissantes (fen√™tre: {window} jours)...")
    
    rolling_corrs = []
    
    # Calcul des corr√©lations glissantes avec barre de progression
    for i in range(window, len(returns_data) + 1):
        if i % 50 == 0:  # Affichage du progr√®s
            progress = (i - window + 1) / (len(returns_data) - window + 1) * 100
            print(f"  Progression: {progress:.1f}%")
        
        corr_matrix = returns_data.iloc[i-window:i].corr()
        rolling_corrs.append(corr_matrix)
    
    # Dates correspondantes
    dates = returns_data.index[window-1:]
    
    print(f"‚úÖ {len(rolling_corrs)} matrices de corr√©lation calcul√©es")
    print(f"P√©riode couverte: {dates[0].date()} √† {dates[-1].date()}")
    
    return rolling_corrs, dates

# Calcul des corr√©lations glissantes
window_size = 30
rolling_correlations, correlation_dates = calculate_rolling_correlations(log_returns, window_size)

# Sauvegarde des donn√©es pour usage ult√©rieur
latest_correlation = rolling_correlations[-1]
latest_correlation.to_csv('last_correlation_matrix.csv')
print(f"\nüíæ Derni√®re matrice de corr√©lation sauvegard√©e: last_correlation_matrix.csv")

In [None]:
def visualize_correlation_evolution(rolling_corrs, dates):
    """
    Visualise l'√©volution des corr√©lations dans le temps
    
    Args:
        rolling_corrs: Liste des matrices de corr√©lation
        dates: Dates correspondantes
    """
    print("üìä Cr√©ation des visualisations de corr√©lation...")
    
    # Configuration de la figure
    fig, axes = plt.subplots(1, 3, figsize=(24, 8))
    
    # Indices pour d√©but, milieu, fin
    indices = [0, len(rolling_corrs)//2, -1]
    labels = ["D√©but", "Milieu", "Fin"]
    
    for i, (idx, label) in enumerate(zip(indices, labels)):
        correlation_matrix = rolling_corrs[idx]
        date = dates[idx] if idx != -1 else dates[idx]
        
        # Cr√©ation de la heatmap
        sns.heatmap(correlation_matrix, 
                   annot=True, 
                   cmap="RdBu_r", 
                   center=0,
                   vmin=-1, 
                   vmax=1,
                   ax=axes[i],
                   fmt='.2f',
                   square=True,
                   cbar_kws={'label': 'Corr√©lation'})
        
        axes[i].set_title(f"Corr√©lations {label}\n({date.date()})", 
                         fontsize=14, fontweight='bold')
        
        # Rotation des labels pour meilleure lisibilit√©
        axes[i].set_xticklabels(axes[i].get_xticklabels(), rotation=45, ha='right')
        axes[i].set_yticklabels(axes[i].get_yticklabels(), rotation=0)
    
    plt.suptitle("√âvolution des Corr√©lations entre Cryptomonnaies", 
                 fontsize=16, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.show()
    
    return fig

# Cr√©ation des visualisations
correlation_figure = visualize_correlation_evolution(rolling_correlations, correlation_dates)

# Analyse comparative d√©but vs fin
print("\nüîç Analyse comparative des corr√©lations:")
start_corr = rolling_correlations[0]
end_corr = rolling_correlations[-1]
correlation_change = end_corr - start_corr

print(f"Corr√©lation moyenne d√©but: {start_corr.mean().mean():.3f}")
print(f"Corr√©lation moyenne fin: {end_corr.mean().mean():.3f}")
print(f"Changement moyen: {correlation_change.mean().mean():.3f}")

# üå≥ 5. CLUSTERING HI√âRARCHIQUE

Application d'un clustering hi√©rarchique sur la matrice de corr√©lation la plus r√©cente pour 
identifier des groupes de cryptomonnaies ayant un comportement similaire.

In [None]:
def perform_hierarchical_clustering(correlation_matrix, method='ward', threshold=1.5):
    """
    Effectue un clustering hi√©rarchique sur la matrice de corr√©lation
    
    Args:
        correlation_matrix: Matrice de corr√©lation
        method: M√©thode de linkage
        threshold: Seuil pour former les clusters
    
    Returns:
        Clusters, matrice de linkage, dictionnaire des clusters
    """
    print("üå≥ Clustering hi√©rarchique en cours...")
    
    # Calcul de la matrice de distance adapt√©e (pour corr√©lations n√©gatives)
    distance_matrix = np.sqrt(0.5 * (1 - correlation_matrix))
    
    # Conversion en matrice condens√©e pour linkage
    condensed_distances = squareform(distance_matrix)
    
    # Clustering hi√©rarchique
    linkage_matrix = linkage(condensed_distances, method=method)
    
    # Visualisation du dendrogramme
    plt.figure(figsize=(14, 8))
    dendrogram(linkage_matrix, 
               labels=correlation_matrix.columns, 
               leaf_rotation=90,
               leaf_font_size=12)
    plt.title(f"Dendrogramme - Clustering Hi√©rarchique ({method.title()})", 
              fontsize=14, fontweight='bold')
    plt.xlabel("Cryptomonnaies", fontsize=12)
    plt.ylabel("Distance", fontsize=12)
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    # Attribution des clusters
    clusters = fcluster(linkage_matrix, t=threshold, criterion='distance')
    
    # Affichage des r√©sultats
    print(f"\nüìä R√©sultats du clustering (seuil: {threshold}):")
    cluster_dict = {}
    for crypto, cluster in zip(correlation_matrix.columns, clusters):
        if cluster not in cluster_dict:
            cluster_dict[cluster] = []
        cluster_dict[cluster].append(crypto)
    
    for cluster_id, cryptos in cluster_dict.items():
        print(f"  Cluster {cluster_id}: {', '.join(cryptos)}")
    
    return clusters, linkage_matrix, cluster_dict

# Application du clustering hi√©rarchique
hierarchical_clusters, linkage_matrix, cluster_groups = perform_hierarchical_clustering(
    latest_correlation, method='ward', threshold=1.5
)

# üï∏Ô∏è 6. VISUALISATION EN R√âSEAU DES CORR√âLATIONS

Cr√©ation d'un graphe pour visualiser les corr√©lations fortes entre cryptomonnaies (seuil > 0.6).
Cette repr√©sentation permet de mieux comprendre les relations entre les actifs.

In [None]:
def create_correlation_network(correlation_matrix, threshold=0.6, layout_seed=42):
    """
    Cr√©e un graphe des corr√©lations fortes entre cryptomonnaies
    
    Args:
        correlation_matrix: Matrice de corr√©lation
        threshold: Seuil de corr√©lation pour cr√©er une ar√™te
        layout_seed: Graine pour la disposition du graphe
    
    Returns:
        Graphe NetworkX
    """
    print(f"üï∏Ô∏è Cr√©ation du graphe de corr√©lations (seuil: {threshold})...")
    
    # Cr√©ation du graphe
    G = nx.Graph()
    
    # Ajout des ar√™tes pour corr√©lations > seuil
    edges_added = 0
    for i, j in combinations(correlation_matrix.columns, 2):
        correlation_value = correlation_matrix.loc[i, j]
        if correlation_value > threshold:
            G.add_edge(i, j, weight=correlation_value)
            edges_added += 1
    
    print(f"  {edges_added} connexions fortes d√©tect√©es")
    
    if edges_added == 0:
        print(f"  ‚ö†Ô∏è Aucune corr√©lation > {threshold} trouv√©e. R√©duction du seuil...")
        threshold = 0.4
        for i, j in combinations(correlation_matrix.columns, 2):
            correlation_value = correlation_matrix.loc[i, j]
            if correlation_value > threshold:
                G.add_edge(i, j, weight=correlation_value)
                edges_added += 1
        print(f"  {edges_added} connexions d√©tect√©es avec seuil r√©duit √† {threshold}")
    
    # Calcul de la disposition
    pos = nx.spring_layout(G, seed=layout_seed, k=3, iterations=50)
    
    # Visualisation
    plt.figure(figsize=(12, 10))
    
    # Calcul des poids des ar√™tes pour la visualisation
    edge_weights = [G[u][v]['weight'] * 8 for u, v in G.edges()]
    edge_colors = [G[u][v]['weight'] for u, v in G.edges()]
    
    # Dessin du graphe
    nx.draw_networkx_nodes(G, pos, 
                          node_color='lightblue', 
                          node_size=2000, 
                          alpha=0.8)
    
    nx.draw_networkx_edges(G, pos, 
                          width=edge_weights, 
                          edge_color=edge_colors,
                          edge_cmap=plt.cm.Reds,
                          alpha=0.7)
    
    nx.draw_networkx_labels(G, pos, 
                           font_size=12, 
                           font_weight='bold')
    
    # Ajout des poids sur les ar√™tes
    edge_labels = {(u, v): f"{G[u][v]['weight']:.2f}" for u, v in G.edges()}
    nx.draw_networkx_edge_labels(G, pos, edge_labels, font_size=10)
    
    plt.title(f"R√©seau des Corr√©lations Fortes (> {threshold})", 
              fontsize=14, fontweight='bold')
    plt.axis('off')
    plt.tight_layout()
    plt.show()
    
    # Statistiques du r√©seau
    print(f"\nüìà Statistiques du r√©seau:")
    print(f"  N≈ìuds: {G.number_of_nodes()}")
    print(f"  Ar√™tes: {G.number_of_edges()}")
    print(f"  Densit√©: {nx.density(G):.3f}")
    
    return G

# Cr√©ation du graphe de corr√©lations
correlation_network = create_correlation_network(latest_correlation, threshold=0.6)

# ‚è∞ 7. CLUSTERING TEMPOREL AVEC K-MEANS

Application de K-Means sur les matrices de corr√©lation aplaties pour identifier des r√©gimes 
temporels distincts dans les relations entre cryptomonnaies.

In [None]:
def perform_temporal_kmeans_clustering(rolling_correlations, n_clusters=3):
    """
    Effectue un clustering K-Means temporel sur les matrices de corr√©lation
    
    Args:
        rolling_correlations: Liste des matrices de corr√©lation
        n_clusters: Nombre de clusters
    
    Returns:
        Labels des clusters, mod√®le K-Means, donn√©es aplaties
    """
    print(f"‚è∞ Clustering temporel K-Means ({n_clusters} clusters)...")
    
    # Fonction pour aplatir la matrice de corr√©lation (sans diagonale)
    def flatten_correlation_matrix(correlation_matrix):
        mask = ~np.eye(correlation_matrix.shape[0], dtype=bool)
        return correlation_matrix.values[mask]
    
    # Aplatissement de toutes les matrices
    flattened_data = np.array([
        flatten_correlation_matrix(corr_matrix) 
        for corr_matrix in rolling_correlations
    ])
    
    print(f"  Donn√©es pr√©par√©es: {flattened_data.shape}")
    
    # Application du K-Means
    kmeans_model = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
    cluster_labels = kmeans_model.fit_predict(flattened_data)
    
    # Calcul des statistiques
    unique_labels, counts = np.unique(cluster_labels, return_counts=True)
    print(f"  R√©partition des clusters:")
    for label, count in zip(unique_labels, counts):
        percentage = count / len(cluster_labels) * 100
        print(f"    Cluster {label+1}: {count} jours ({percentage:.1f}%)")
    
    return cluster_labels, kmeans_model, flattened_data

def visualize_temporal_clusters(dates, cluster_labels, n_clusters=3):
    """
    Visualise l'√©volution temporelle des clusters
    
    Args:
        dates: Dates correspondantes
        cluster_labels: Labels des clusters
        n_clusters: Nombre de clusters
    """
    plt.figure(figsize=(15, 6))
    
    # Couleurs pour chaque cluster
    colors = plt.cm.Set1(np.linspace(0, 1, n_clusters))
    
    # Graphique principal
    for i in range(n_clusters):
        mask = cluster_labels == i
        plt.scatter(dates[mask], cluster_labels[mask] + 1, 
                   c=[colors[i]], label=f'R√©gime {i+1}', 
                   alpha=0.7, s=30)
    
    plt.ylabel("R√©gime de Corr√©lation", fontsize=12)
    plt.xlabel("Date", fontsize=12)
    plt.title("√âvolution des R√©gimes de Corr√©lation (K-Means Temporel)", 
              fontsize=14, fontweight='bold')
    plt.yticks(range(1, n_clusters+1), [f'R√©gime {i+1}' for i in range(n_clusters)])
    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.grid(True, alpha=0.3)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

# Application du clustering temporel
temporal_labels, kmeans_model, correlation_data = perform_temporal_kmeans_clustering(
    rolling_correlations, n_clusters=3
)

# Visualisation
visualize_temporal_clusters(correlation_dates, temporal_labels, n_clusters=3)

# üîç 8. D√âTECTION AUTOMATIQUE DES CHANGEMENTS DE R√âGIME

Utilisation de l'analyse de variance et de la d√©tection de pics pour identifier 
automatiquement les p√©riodes de changement structurel dans les corr√©lations.

In [None]:
def detect_regime_changes(rolling_correlations, dates):
    """
    D√©tecte automatiquement les changements de r√©gime bas√©s sur la variance des corr√©lations
    
    Args:
        rolling_correlations: Liste des matrices de corr√©lation
        dates: Dates correspondantes
    
    Returns:
        Indices des changements de r√©gime, variance temporelle
    """
    print("üîç D√©tection automatique des changements de r√©gime...")
    
    # Calcul de la variance moyenne des corr√©lations dans le temps
    variance_timeline = []
    
    for correlation_matrix in rolling_correlations:
        # Extraction de la partie sup√©rieure de la matrice (sans diagonale)
        upper_triangle = correlation_matrix.where(
            np.triu(np.ones(correlation_matrix.shape), k=1).astype(bool)
        )
        variance = np.nanvar(upper_triangle.values.flatten())
        variance_timeline.append(variance)
    
    variance_timeline = np.array(variance_timeline)
    
    # D√©tection des pics de variance (changements de r√©gime potentiels)
    threshold_height = np.mean(variance_timeline) + 1.5 * np.std(variance_timeline)
    regime_change_indices, properties = find_peaks(
        variance_timeline, 
        height=threshold_height,
        distance=10  # Distance minimale entre pics
    )
    
    # Visualisation
    plt.figure(figsize=(16, 8))
    
    # Graphique principal
    plt.plot(dates, variance_timeline, 
             label='Variance des Corr√©lations', 
             linewidth=2, color='blue', alpha=0.7)
    
    # Ligne de seuil
    plt.axhline(y=threshold_height, color='red', linestyle='--', 
                label=f'Seuil de d√©tection ({threshold_height:.4f})', alpha=0.7)
    
    # Points de changement de r√©gime
    if len(regime_change_indices) > 0:
        plt.scatter(dates[regime_change_indices], 
                   variance_timeline[regime_change_indices],
                   color='red', s=100, marker='v', 
                   label='Changements de R√©gime D√©tect√©s', 
                   zorder=5)
        
        # Annotations
        for idx in regime_change_indices:
            plt.annotate(f'{dates[idx].strftime("%Y-%m-%d")}',
                        (dates[idx], variance_timeline[idx]),
                        xytext=(10, 10), textcoords='offset points',
                        bbox=dict(boxstyle='round,pad=0.3', fc='yellow', alpha=0.7),
                        fontsize=10)
    
    plt.xlabel('Date', fontsize=12)
    plt.ylabel('Variance des Corr√©lations', fontsize=12)
    plt.title('D√©tection Automatique des Changements de R√©gime', 
              fontsize=14, fontweight='bold')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
    
    # R√©sultats
    print(f"\nüìä R√©sultats de la d√©tection:")
    print(f"  Changements de r√©gime d√©tect√©s: {len(regime_change_indices)}")
    print(f"  Variance moyenne: {np.mean(variance_timeline):.4f}")
    print(f"  Variance maximale: {np.max(variance_timeline):.4f}")
    
    if len(regime_change_indices) > 0:
        print(f"\nüìÖ Dates des changements d√©tect√©s:")
        for idx in regime_change_indices:
            date_str = dates[idx].strftime("%Y-%m-%d")
            variance_val = variance_timeline[idx]
            print(f"    {date_str} (variance: {variance_val:.4f})")
    else:
        print(f"  ‚ÑπÔ∏è Aucun changement de r√©gime significatif d√©tect√©")
    
    return regime_change_indices, variance_timeline

# D√©tection des changements de r√©gime
regime_changes, variance_data = detect_regime_changes(rolling_correlations, correlation_dates)

# üåü 9. CLUSTERING SPECTRAL OPTIMIS√â

Application du clustering spectral avec optimisation du nombre de clusters par analyse du score silhouette.
Cette m√©thode est particuli√®rement adapt√©e aux donn√©es non-convexes et aux structures complexes.

In [None]:
def perform_spectral_clustering(correlation_matrix, max_clusters=6):
    """
    Effectue un clustering spectral optimis√© sur la matrice de corr√©lation
    
    Args:
        correlation_matrix: Matrice de corr√©lation
        max_clusters: Nombre maximum de clusters √† tester
    
    Returns:
        Labels des clusters, nombre optimal de clusters, scores silhouette
    """
    print("üåü Clustering spectral avec optimisation...")
    
    # Conversion de la matrice de corr√©lation en matrice de similarit√©
    similarity_matrix = (correlation_matrix + 1) / 2  # Normalisation entre 0 et 1
    
    # Test de diff√©rents nombres de clusters
    n_clusters_range = range(2, min(max_clusters+1, len(correlation_matrix.columns)))
    silhouette_scores = []
    all_labels = []
    
    for n_clusters in n_clusters_range:
        spectral = SpectralClustering(
            n_clusters=n_clusters, 
            affinity='precomputed', 
            random_state=42
        )
        labels = spectral.fit_predict(similarity_matrix)
        score = silhouette_score(similarity_matrix, labels, metric='precomputed')
        silhouette_scores.append(score)
        all_labels.append(labels)
        
        print(f"  {n_clusters} clusters ‚Üí Score silhouette: {score:.3f}")
    
    # Visualisation des scores
    plt.figure(figsize=(10, 6))
    plt.plot(n_clusters_range, silhouette_scores, marker='o', linewidth=2, markersize=8)
    plt.grid(True, alpha=0.3)
    plt.xlabel('Nombre de clusters', fontsize=12)
    plt.ylabel('Score silhouette', fontsize=12)
    plt.title('Optimisation du nombre de clusters (Spectral Clustering)', 
              fontsize=14, fontweight='bold')
    plt.xticks(list(n_clusters_range))
    plt.tight_layout()
    plt.show()
    
    # S√©lection du meilleur nombre de clusters
    best_idx = np.argmax(silhouette_scores)
    optimal_n_clusters = list(n_clusters_range)[best_idx]
    optimal_labels = all_labels[best_idx]
    
    # Affichage des r√©sultats
    print(f"\nüéØ Nombre optimal de clusters: {optimal_n_clusters} (score: {silhouette_scores[best_idx]:.3f})")
    
    # Organisation des r√©sultats par groupe
    spectral_groups = {}
    for i, crypto in enumerate(correlation_matrix.columns):
        cluster_id = optimal_labels[i]
        if cluster_id not in spectral_groups:
            spectral_groups[cluster_id] = []
        spectral_groups[cluster_id].append(crypto)
    
    for cluster_id, cryptos in spectral_groups.items():
        print(f"  Groupe {cluster_id + 1}: {', '.join(cryptos)}")
    
    return optimal_labels, optimal_n_clusters, silhouette_scores, spectral_groups

# Application du clustering spectral optimis√©
spectral_labels, optimal_n_clusters, silhouette_scores, spectral_groups = perform_spectral_clustering(
    latest_correlation, max_clusters=6
)

# üìã 10. RAPPORT FINAL ET CONCLUSION

Synth√®se des analyses effectu√©es et des r√©sultats obtenus.

In [None]:
def generate_final_report():
    """
    G√©n√®re un rapport final avec tous les r√©sultats de l'analyse
    """
    print("\n" + "="*65)
    print("üìã RAPPORT FINAL - ANALYSE DE CORR√âLATION DES CRYPTOMONNAIES")
    print("="*65)
    
    # 1. R√©sum√© des donn√©es
    print(f"\nüìä DONN√âES ANALYS√âES:")
    print(f"  ‚Ä¢ Cryptomonnaies: {len(crypto_symbols)}")
    print(f"  ‚Ä¢ P√©riode d'analyse: {correlation_dates[0].date()} √† {correlation_dates[-1].date()}")
    print(f"  ‚Ä¢ Nombre de jours: {len(data_close)}")
    print(f"  ‚Ä¢ Matrices de corr√©lation calcul√©es: {len(rolling_correlations)}")
    
    # 2. R√©sultats du clustering hi√©rarchique
    print(f"\nüå≥ CLUSTERING HI√âRARCHIQUE:")
    for cluster_id, cryptos in cluster_groups.items():
        print(f"    Groupe {cluster_id}: {', '.join(cryptos)}")
    
    # 3. R√©sultats du clustering spectral
    print(f"\nüåü CLUSTERING SPECTRAL OPTIMAL ({optimal_n_clusters} clusters):")
    for cluster_id, cryptos in spectral_groups.items():
        print(f"    Groupe {cluster_id + 1}: {', '.join(cryptos)}")
    
    # 4. Changements de r√©gime
    print(f"\nüîç D√âTECTION DE R√âGIMES:")
    print(f"  ‚Ä¢ Changements de r√©gime d√©tect√©s: {len(regime_changes)}")
    if len(regime_changes) > 0:
        for idx in regime_changes:
            print(f"    - {correlation_dates[idx].strftime('%Y-%m-%d')}")
    
    # 5. Statistiques temporelles
    temporal_counts = np.bincount(temporal_labels)
    print(f"\n‚è∞ R√âGIMES TEMPORELS (K-Means):")
    for i, count in enumerate(temporal_counts):
        percentage = count / len(temporal_labels) * 100
        print(f"    R√©gime {i+1}: {count} jours ({percentage:.1f}%)")
    
    # 6. M√©triques de qualit√©
    correlation_mean = latest_correlation.mean().mean()
    correlation_std = np.std([corr.mean().mean() for corr in rolling_correlations])
    
    print(f"\nüìä M√âTRIQUES DE QUALIT√â:")
    print(f"  ‚Ä¢ Corr√©lation moyenne actuelle: {correlation_mean:.3f}")
    print(f"  ‚Ä¢ Volatilit√© des corr√©lations: {correlation_std:.3f}")
    print(f"  ‚Ä¢ Score silhouette spectral: {silhouette_scores[optimal_n_clusters-2]:.3f}")
    
    # 7. Recommandations
    print(f"\nüí° RECOMMANDATIONS:")
    print(f"  ‚Ä¢ Diversification: Investir dans diff√©rents clusters pour r√©duire le risque")
    print(f"  ‚Ä¢ Surveillance: Monitorer les changements de r√©gime pour ajuster la strat√©gie")
    print(f"  ‚Ä¢ Gestion des risques: Vigilance accrue en p√©riode de forte corr√©lation")
    
    print(f"\n‚úÖ ANALYSE TERMIN√âE AVEC SUCC√àS")
    print("="*65)

# Sauvegarde des r√©sultats
def save_all_results():
    """
    Sauvegarde tous les r√©sultats dans des fichiers CSV
    """
    print("\nüíæ Sauvegarde des r√©sultats finaux...")
    
    try:
        # 1. Rendements logarithmiques
        log_returns.to_csv('log_returns_final.csv')
        print("  ‚úÖ log_returns_final.csv")
        
        # 2. R√©sultats du clustering
        clustering_results = pd.DataFrame({
            'cryptocurrency': latest_correlation.columns,
            'hierarchical_cluster': hierarchical_clusters,
            'spectral_cluster': spectral_labels + 1,  # +1 pour commencer √† 1
            'temporal_cluster_final': temporal_labels[-1] + 1
        })
        clustering_results.to_csv('clustering_results_final.csv', index=False)
        print("  ‚úÖ clustering_results_final.csv")
        
        # 3. D√©tection de r√©gimes
        regime_data = pd.DataFrame({
            'date': correlation_dates,
            'variance': variance_data,
            'temporal_cluster': temporal_labels + 1
        })
        regime_data.to_csv('regime_detection_results.csv', index=False)
        print("  ‚úÖ regime_detection_results.csv")
        
        print(f"\nüéØ Tous les fichiers sauvegard√©s avec succ√®s!")
        
    except Exception as e:
        print(f"  ‚ùå Erreur lors de la sauvegarde: {e}")

# G√©n√©ration du rapport final
generate_final_report()

# Sauvegarde des r√©sultats
save_all_results()

# üí° CONCLUSION ET RECOMMANDATIONS

## üéØ Principaux R√©sultats

L'analyse de corr√©lation dynamique des cryptomonnaies a r√©v√©l√© plusieurs insights importants :

1. **Groupes de Cryptomonnaies** : Le clustering a identifi√© des groupes distincts avec des comportements corr√©l√©s
2. **√âvolution Temporelle** : Les corr√©lations ne sont pas statiques et √©voluent significativement 
3. **Changements de R√©gime** : Des p√©riodes distinctes avec des structures de corr√©lation diff√©rentes
4. **Diversification** : Possibilit√©s d'optimisation de portefeuille bas√©es sur les groupes identifi√©s

## üíº Recommandations pour les Investisseurs

- **Diversification** : R√©partir les investissements entre diff√©rents clusters
- **Surveillance** : Monitorer les changements de r√©gime pour ajuster la strat√©gie
- **Gestion des Risques** : √ätre vigilant pendant les p√©riodes de forte corr√©lation
- **Opportunit√©s** : Exploiter les d√©corr√©lations temporaires pour des strat√©gies de trading

## üîÆ Am√©liorations Futures

- Int√©gration de donn√©es macro√©conomiques
- Mod√®les pr√©dictifs pour anticiper les changements
- Analyse en temps r√©el avec APIs
- Extension √† d'autres classes d'actifs

---

**Projet r√©alis√© dans le cadre de l'analyse de donn√©es financi√®res - Data Mining**

*Date de finalisation : Mai 2025*