# üìà Analyse Statistique / Ratings / Long-Terme

**Objectif**: Analyser les tendances √† long terme des ratings et d√©tecter les √©volutions comportementales.

## üîç Questions exploratoires:
- Les utilisateurs deviennent-ils plus/moins s√©v√®res dans le temps ?
- Quand la plateforme a-t-elle connu ses pics/creux d'activit√© ?
- Les power users changent-ils leurs habitudes ?
- Y a-t-il eu des √©v√©nements perturbateurs ?
- La croissance rapide nuit-elle √† la qualit√© ?

In [1]:
# Import minimal n√©cessaire pour l'analyse long-term
from pathlib import Path
import sys
import sys
sys.path.append('../../')

# fonctions de chargement de data (internes)
from _data_utils.data_utils_ratings import load_ratings_for_longterm_analysis

# librairies de base
import pandas as pd
import numpy as np

# visualisation minimale utilis√©e ici (matplotlib suffit)
import matplotlib.pyplot as plt

# statistiques (utilis√©es pour tests et r√©gression)
from scipy import stats
from scipy.stats import kendalltau, linregress, spearmanr

# Suppression des warnings inutiles
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Imports minimaux termin√©s")

# Chargement optimis√© des statistiques mensuelles (fonction sp√©cialis√©e)
print("üîÑ Chargement des donn√©es avec filtrage robuste optimis√©...")
monthly_stats, metadata = load_ratings_for_longterm_analysis(
    min_interactions=100, 
    return_metadata=True, 
    verbose=False
)

print(f"‚úÖ Donn√©es long-term charg√©es: {len(monthly_stats)} mois")
print(f"üìä Mois exclus: {metadata['mois_exclus']} ({metadata['pct_exclus']:.1f}%)")
print(f"üìÖ P√©riode: {metadata['periode_apres']}")
print(f"üìà Volume moyen: {metadata['volume_moyen_apres']:.0f} interactions/mois")

# M√©tadonn√©es disponibles pour analyses ult√©rieures
print(f"\nüí° M√©tadonn√©es disponibles: {list(metadata.keys())}")


‚úÖ _data_utils module charg√© (common + ratings + recipes)
‚úÖ Imports minimaux termin√©s
üîÑ Chargement des donn√©es avec filtrage robuste optimis√©...
‚úÖ Interactions charg√©es depuis S3 : 681,944 lignes √ó 6 colonnes
‚úÖ Donn√©es long-term charg√©es: 207 mois
üìä Mois exclus: 17 (7.6%)
üìÖ P√©riode: 2001-09 ‚Üí 2018-11
üìà Volume moyen: 3293 interactions/mois

üí° M√©tadonn√©es disponibles: ['seuil_applique', 'mois_total', 'mois_exclus', 'mois_conserves', 'pct_exclus', 'periode_avant', 'periode_apres', 'gaps_temporels', 'volume_moyen_avant', 'volume_moyen_apres']


## üìä Analyse 1: Tendance temporelle des ratings

Analyse de l'√©volution des ratings dans le temps pour d√©tecter les tendances monotones et quantifier les changements comportementaux.

### Visualisation

In [None]:
# Visualisation compl√®te des tendances temporelles
print("üìä Cr√©ation des visualisations temporelles...")

# Pr√©paration des donn√©es pour la visualisation
X = np.arange(len(monthly_stats))

# Calcul de la r√©gression lin√©aire pour la ligne de tendance
from scipy.stats import linregress
trend_slope, intercept, r_value, p_value_reg, std_err = linregress(X, monthly_stats['mean_rating'].values)

# Visualisation en 4 graphiques
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# 1. Tendance des ratings avec ligne de tendance
ax1.plot(monthly_stats['date'], monthly_stats['mean_rating'], 'bo-', linewidth=2, markersize=4, label='Rating moyen')
trend_line = intercept + trend_slope * X
ax1.plot(monthly_stats['date'], trend_line, 'r--', linewidth=2, label=f'Tendance ({trend_slope:.4f}/mois)')
ax1.set_title("√âvolution des ratings temporelle", fontsize=14, fontweight='bold')
ax1.set_ylabel("Rating moyen")
ax1.grid(True, alpha=0.3)
ax1.legend()

# 2. Volume d'interactions
ax2.plot(monthly_stats['date'], monthly_stats['n_interactions'], 'go-', linewidth=2, markersize=4)
ax2.set_title("Volume d'interactions", fontsize=14, fontweight='bold')
ax2.set_ylabel("Nombre d'interactions")
ax2.grid(True, alpha=0.3)

# 3. Stabilit√© (√©cart-type)
ax3.plot(monthly_stats['date'], monthly_stats['std_rating'], 'o-', color='orange', linewidth=2, markersize=4)
ax3.set_title("Stabilit√© (√©cart-type)", fontsize=14, fontweight='bold')
ax3.set_ylabel("√âcart-type des ratings")
ax3.set_xlabel("Date")
ax3.grid(True, alpha=0.3)

# 4. Scatter volume vs qualit√©
ax4.scatter(monthly_stats['n_interactions'], monthly_stats['mean_rating'], 
           color='purple', alpha=0.7, s=50)
ax4.set_title("Corr√©lation volume-qualit√©", fontsize=14, fontweight='bold')
ax4.set_xlabel("Nombre d'interactions")
ax4.set_ylabel("Rating moyen")
ax4.grid(True, alpha=0.3)

# Ligne de corr√©lation sur le scatter
z = np.polyfit(monthly_stats['n_interactions'], monthly_stats['mean_rating'], 1)
p = np.poly1d(z)
ax4.plot(monthly_stats['n_interactions'], p(monthly_stats['n_interactions']), 
         "r--", alpha=0.8, linewidth=2)

plt.suptitle(f"Analyse Temporelle - Pente: {trend_slope:+.4f}/mois", 
             fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("‚úÖ Visualisations cr√©√©es")

### Tests statistiques

In [None]:
# Tests statistiques pour d√©tecter les tendances temporelles
print("=" * 60)
print("üìà TESTS STATISTIQUES - TENDANCE TEMPORELLE")
print("=" * 60)

# Test de Mann-Kendall pour d√©tecter tendance monotone
def mann_kendall_test(data):
    """Impl√©mentation du test de Mann-Kendall pour d√©tecter les tendances"""
    n = len(data)
    s = 0
    
    for i in range(n-1):
        for j in range(i+1, n):
            if data[j] > data[i]:
                s += 1
            elif data[j] < data[i]:
                s -= 1
    
    # Variance
    var_s = n * (n-1) * (2*n+5) / 18
    
    # Statistique de test
    if s > 0:
        z = (s - 1) / np.sqrt(var_s)
    elif s < 0:
        z = (s + 1) / np.sqrt(var_s)
    else:
        z = 0
    
    # P-value (bilat√©ral)
    p_value = 2 * (1 - stats.norm.cdf(abs(z)))
    
    return z, p_value, s

# Application du test de Mann-Kendall
z_mk, p_mk, s_mk = mann_kendall_test(monthly_stats['mean_rating'].values)

print(f"üîç Test de Mann-Kendall:")
print(f"   Statistique S: {s_mk}")
print(f"   Z-score: {z_mk:.4f}")
print(f"   P-value: {p_mk:.4f}")

interpretation = "TENDANCE SIGNIFICATIVE" if p_mk < 0.05 else "PAS DE TENDANCE CLAIRE"
direction = "HAUSSE" if s_mk > 0 else "BAISSE" if s_mk < 0 else "STABLE"
print(f"   üéØ R√©sultat: {interpretation} - Direction: {direction}")

# R√©gression lin√©aire pour quantifier la tendance
X = np.arange(len(monthly_stats))
y = monthly_stats['mean_rating'].values
trend_slope, intercept, r_value, p_value_reg, std_err = linregress(X, y)
trend_r2 = r_value ** 2

print(f"\nüìä R√©gression lin√©aire:")
print(f"   Pente: {trend_slope:.6f} points/mois")
print(f"   R¬≤: {trend_r2:.4f}")
print(f"   P-value: {p_value_reg:.4f}")
print(f"   √âvolution annuelle: {trend_slope * 12:.4f} points/an")

# Corr√©lation volume vs qualit√©
from scipy.stats import spearmanr
corr_vol_qual, p_corr = spearmanr(monthly_stats['n_interactions'], monthly_stats['mean_rating'])
print(f"\nüîó Corr√©lation Volume-Qualit√©:")
print(f"   œÅ de Spearman: {corr_vol_qual:.3f}")
print(f"   P-value: {p_corr:.4f}")

print("\n" + "=" * 60)

### Interpr√©tation

> **üí° Interpr√©tation statistique:**
>
> Les **tests de Mann-Kendall** et la **r√©gression lin√©aire** r√©v√®lent la pr√©sence (ou l'absence) d'une **tendance temporelle significative** dans l'√©volution des ratings. 
>
> La **pente de r√©gression** quantifie l'ampleur du changement mensuel, tandis que le **R¬≤** indique la fiabilit√© de cette tendance. La **corr√©lation volume-qualit√©** permet d'identifier si l'activit√© de la plateforme influence la s√©v√©rit√© des utilisateurs.

> **üí° Interpr√©tation op√©rationnelle:**
>
> Ces r√©sultats permettent de **comprendre l'√©volution comportementale** des utilisateurs dans le temps. Une **tendance n√©gative** sugg√©rerait que les utilisateurs deviennent plus s√©v√®res, tandis qu'une **tendance positive** indiquerait une indulgence croissante.
>
> La **corr√©lation volume-qualit√©** r√©v√®le si les **pics d'activit√©** co√Øncident avec une **d√©gradation** ou **am√©lioration** de la qualit√© per√ßue, informant sur l'impact de la croissance sur l'exp√©rience utilisateur.

## üìä Analyse 2: √âvolution d√©taill√©e et corr√©lations

Analyse approfondie de l'√©volution des ratings avec bandes de confiance et corr√©lations volume-qualit√© pour identifier les patterns comportementaux.

### Visualisation

In [None]:
# Pr√©paration des donn√©es pour l'analyse d√©taill√©e
import matplotlib.dates as mdates

# Pr√©paration robuste du DataFrame
monthly_df = monthly_stats.copy()
monthly_df['date'] = pd.to_datetime(monthly_df['date'])
monthly_df = monthly_df.sort_values('date')
monthly_df['mean_rating'] = pd.to_numeric(monthly_df['mean_rating'], errors='coerce')
monthly_df['std_rating'] = pd.to_numeric(monthly_df.get('std_rating', 0), errors='coerce').fillna(0)
monthly_df['n_interactions'] = pd.to_numeric(monthly_df['n_interactions'], errors='coerce').fillna(0)
monthly_df = monthly_df.dropna(subset=['mean_rating'])

# 1. √âvolution avec bandes de confiance
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(16, 12))

# Graphique 1: Rating avec bandes de confiance
ax1.plot(monthly_df['date'], monthly_df['mean_rating'], 'o-', 
        color='#1f77b4', linewidth=2, markersize=4, label='Rating moyen')

# Bandes de confiance (¬±1 std)
ax1.fill_between(monthly_df['date'].values, 
                (monthly_df['mean_rating'] - monthly_df['std_rating']).values,
                (monthly_df['mean_rating'] + monthly_df['std_rating']).values,
                alpha=0.2, color='#1f77b4', label='¬±1 √©cart-type')

ax1.set_title('√âvolution des ratings avec bandes de confiance', fontsize=16, fontweight='bold')
ax1.set_ylabel('Rating moyen', fontsize=12)
ax1.grid(True, alpha=0.3)
ax1.legend()

# Graphique 2: Volume des interactions
ax2.plot(monthly_df['date'], monthly_df['n_interactions'], color='green', linewidth=2, label='Volume mensuel')
ax2.set_title('Volume mensuel d\'interactions', fontsize=16, fontweight='bold')
ax2.set_ylabel('Nombre d\'interactions', fontsize=12)
ax2.set_xlabel('Date', fontsize=12)
ax2.grid(True, alpha=0.3)
ax2.legend()

# Formatage des dates
for ax in [ax1, ax2]:
    ax.xaxis.set_major_locator(mdates.AutoDateLocator())
    ax.xaxis.set_major_formatter(mdates.ConciseDateFormatter(ax.xaxis.get_major_locator()))

plt.tight_layout()
plt.show()

print("‚úÖ Visualisations d√©taill√©es cr√©√©es")

### Tests statistiques

In [None]:
# Tests statistiques avanc√©s pour corr√©lations et tendances
print("=" * 60)
print("üìà TESTS STATISTIQUES - CORR√âLATIONS AVANC√âES")
print("=" * 60)

# Pr√©paration des donn√©es pour tests
monthly_sorted = monthly_df.sort_values('date')
time_index = range(len(monthly_sorted))
ratings = monthly_sorted['mean_rating'].values
volumes = monthly_sorted['n_interactions'].values

# Test de Kendall pour tendance temporelle
from scipy.stats import kendalltau
tau, p_value_kendall = kendalltau(time_index, ratings)

print(f"üîç Test de tendance temporelle (Kendall):")
print(f"   Tau de Kendall: {tau:.4f}")
print(f"   P-value: {p_value_kendall:.4f}")

if p_value_kendall < 0.05:
    direction = "croissante" if tau > 0 else "d√©croissante"
    print(f"   ‚úÖ Tendance {direction} significative")
else:
    print(f"   ‚ùå Pas de tendance temporelle significative")

# Corr√©lation volume-rating
correlation = monthly_df[['n_interactions', 'mean_rating']].corr().iloc[0, 1] if len(monthly_df) > 1 else float('nan')
corr_spearman, p_corr_spearman = spearmanr(volumes, ratings)

print(f"\nüîó Corr√©lation Volume-Rating:")
print(f"   Corr√©lation de Pearson: {correlation:.3f}")
print(f"   Corr√©lation de Spearman: {corr_spearman:.3f}")
print(f"   P-value (Spearman): {p_corr_spearman:.4f}")

# Interpr√©tation automatique de la corr√©lation
if not pd.isna(correlation):
    if p_corr_spearman < 0.05:
        if abs(corr_spearman) > 0.3:
            print(f"   ‚ö†Ô∏è Corr√©lation {'positive' if corr_spearman > 0 else 'n√©gative'} notable et significative")
        else:
            print(f"   ‚úÖ Corr√©lation {'positive' if corr_spearman > 0 else 'n√©gative'} faible mais significative")
    else:
        print(f"   ‚ÑπÔ∏è Pas de corr√©lation significative volume-qualit√©")
else:
    print(f"   ‚ö†Ô∏è Donn√©es insuffisantes pour calculer la corr√©lation")

# R√©gression lin√©aire d√©taill√©e
slope, intercept, r_value, p_value_reg, std_err = linregress(time_index, ratings)
annual_slope = slope * 12

print(f"\nüìä R√©gression temporelle d√©taill√©e:")
print(f"   Pente: {slope:.6f} points/mois")
print(f"   R¬≤: {r_value**2:.4f}")
print(f"   P-value: {p_value_reg:.4f}")
print(f"   Erreur standard: {std_err:.6f}")
print(f"   üìÖ √âvolution annuelle estim√©e: {annual_slope:.4f} points/an")

print("\n" + "=" * 60)

### Interpr√©tation

> **üí° Interpr√©tation statistique:**
>
> L'analyse des **corr√©lations volume-qualit√©** et des **tendances temporelles** avec les tests de **Kendall** et la **r√©gression lin√©aire** r√©v√®le les **dynamiques comportementales** de la plateforme.
>
> Les **bandes de confiance** (¬±1 √©cart-type) permettent d'identifier les **p√©riodes de volatilit√©** versus les **phases de stabilit√©** dans les ratings, informant sur la **coh√©rence** des √©valuations utilisateurs.

> **üí° Interpr√©tation op√©rationnelle:**
>
> Ces r√©sultats permettent d'identifier si les **pics d'activit√©** de la plateforme co√Øncident avec une **am√©lioration** ou **d√©gradation** de la satisfaction utilisateur.
>
> Une **corr√©lation positive volume-qualit√©** sugg√®re que l'**engagement** am√©liore l'exp√©rience, tandis qu'une **corr√©lation n√©gative** pourrait indiquer des probl√®mes de **scalabilit√©** ou d'**inflation** des attentes lors des pics d'usage.