# Setup et imports

In [None]:
import sys
sys.path.append('../src')  # Ajoute le dossier src au path
import pandas as pd
from sqlalchemy import create_engine
import matplotlib.pyplot as plt
import seaborn as sns
from config import DB_PARAMS, logger

# Connexion √† la base de donn√©es

In [None]:
# Connexion DB via SQLAlchemy
DB_URL = f"postgresql://{DB_PARAMS['user']}:{DB_PARAMS['password']}@{DB_PARAMS['host']}/{DB_PARAMS['dbname']}"
engine = create_engine(DB_URL)
logger.info("Environnement pr√™t et connect√© √† la base de donn√©es.")

# Chargement des Donn√©es

In [None]:
# Charger les animes (Vue 1)
df_anime = pd.read_sql("SELECT * FROM view_anime_basic", engine)
logger.info(f"üìö Animes charg√©s : {df_anime.shape[0]} lignes, {df_anime.shape[1]} colonnes")

# Convertir en types "nullable"
df_anime['score'] = df_anime['score'].astype('Int64')
df_anime['episodes'] = df_anime['episodes'].astype('Int64')
df_anime['start_year'] = df_anime['start_year'].astype('Int64')

# Charger les genres (Vue 2)
df_genres = pd.read_sql("SELECT * FROM view_anime_genres", engine)
logger.info(f"üè∑Ô∏è Genres charg√©s : {df_genres.shape[0]} lignes")

# Audit Rapide (Data Quality)

In [None]:
# Afficher les premi√®res lignes pour v√©rifier
display(df_anime.head(3))

# V√©rifier les types de donn√©es et les valeurs manquantes
print("\n--- Infos Dataframe Anime ---")
df_anime.info()

# V√©rifier s'il y a des doublons d'ID (ne devrait pas arriver avec notre ELT, mais on v√©rifie)
doublons = df_anime['anime_id'].duplicated().sum()
print(f"\nNombre de doublons d'ID : {doublons}")

# Premi√®re Analyse - Distribution des Scores

In [None]:
# Histogramme des scores
plt.figure(figsize=(10, 6))
# On enl√®ve les NaN pour le graphique
df_anime['score'].dropna().hist(bins=20, edgecolor='black')
plt.title('Distribution des Scores des Animes')
plt.xlabel('Score (sur 100)')
plt.ylabel("Nombre d'animes")
plt.grid(False) # Pour un look plus propre parfois
plt.show()

# Top 10 des Genres les plus populaires

In [None]:
# Compter le nombre d'occurrences de chaque genre
top_genres = df_genres['genre'].value_counts().head(15)

# Graphique en barres
plt.figure(figsize=(10, 6))
top_genres.plot(kind='bar', color='skyblue')
plt.title('Top 10 des Genres les plus fr√©quents')
plt.ylabel("Nombre d'animes")
plt.xticks(rotation=45)
plt.show()

# Quels sont les studios les plus prolifiques ?

In [None]:
# Charger les studios
df_studios = pd.read_sql("SELECT * FROM view_anime_studios", engine)

# Compter les animes par studio
top_studios = df_studios['studio_name'].value_counts().head(10)

# Visualiser
plt.figure(figsize=(10, 6))
top_studios.sort_values().plot(kind='barh', color='lightgreen') # barh pour des barres horizontales
plt.title('Top 10 Studios par nombre d\'animes produits')
plt.xlabel("Nombre d'animes")
plt.show()

# Analyse : Studio vs Score

In [None]:
# Nouvelle cellule : Matrice de corr√©lation Studio vs Popularit√©

# Charger les donn√©es n√©cessaires
df_studios = pd.read_sql("SELECT * FROM view_anime_studios", engine)

# Merger avec les infos des animes (pour avoir le score)
df_studio_score = pd.merge(df_studios, df_anime[['anime_id', 'score']], on='anime_id')

# Filtrer les scores non nuls
df_studio_score = df_studio_score[df_studio_score['score'].notna()]

# Calculer le score moyen de tous les studios
all_studio_stats = df_studio_score.groupby('studio_name').agg({
    'score': 'mean',
    'anime_id': 'count'
}).round(1)
all_studio_stats.columns = ['Score Moyen', 'Nombre d\'animes']

# Filtrer : au moins 5 animes pour √©viter les studios avec 1 seul anime √† 90
studios_qualified = all_studio_stats[all_studio_stats['Nombre d\'animes'] >= 9]

# Top 15 par score moyen
studio_stats = studios_qualified.sort_values('Score Moyen', ascending=False).head(30)

print(studio_stats)

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 10))

# Graphique 1 : Score moyen par studio
studio_stats['Score Moyen'].sort_values().plot(kind='barh', ax=ax1, color='coral')
ax1.set_title('Score moyen par studio (Top 30)', fontsize=12, fontweight='bold')
ax1.set_xlabel('Score moyen', fontsize=10)
ax1.grid(axis='x', alpha=0.3)

# Graphique 2 : Nombre d'animes vs Score moyen (scatter)
ax2.scatter(studio_stats['Nombre d\'animes'], studio_stats['Score Moyen'], 
            s=100, alpha=0.6, color='steelblue')
ax2.set_title('Productivit√© vs Qualit√©', fontsize=12, fontweight='bold')
ax2.set_xlabel('Nombre d\'animes produits', fontsize=10)
ax2.set_ylabel('Score moyen', fontsize=10)
ax2.grid(alpha=0.3)

# Annoter les points
for studio, row in studio_stats.iterrows():
    ax2.annotate(studio, (row['Nombre d\'animes'], row['Score Moyen']), 
                 fontsize=8, alpha=0.7)

plt.tight_layout()
plt.show()

In [None]:
# MAPPA average score and number of animes produced
mappa_score = df_studio_score[df_studio_score['studio_name'] == 'MAPPA']['score'].mean()
mappa_studio = df_studio_score[df_studio_score['studio_name'] == 'MAPPA']['anime_id'].count()

print(f"MAPPA a un score moyen de {mappa_score:.2f}.")
print(f"MAPPA a produit {mappa_studio} animes dans la base de donn√©es.")

# Heatmap : Genre vs D√©cennie

In [None]:
# On pr√©pare les donn√©es : on joint animes et genres
df_merged = pd.merge(df_anime, df_genres, on='anime_id')

# On cr√©e la d√©cennie si ce n'est pas d√©j√† fait
df_merged['decade'] = (df_merged['start_year'] // 10 * 10).astype('Int64')

# On filtre pour ne garder que les d√©cennies √† partir de 1960
df_merged = df_merged[df_merged['decade'] >= 1960]

# On cr√©e une table pivot : Lignes = Genres, Colonnes = D√©cennies, Valeurs = Nombre d'animes
# On ne garde que les genres principaux pour que ce soit lisible
top_genres_list = df_genres['genre'].value_counts().head(10).index
df_heatmap = df_merged[df_merged['genre'].isin(top_genres_list)]

pivot_table = df_heatmap.pivot_table(
    index='genre', columns='decade', values='anime_id', aggfunc='count', fill_value=0
)

# Calculer les totaux par d√©cennie (animes uniques)
total_per_decade = df_merged.groupby('decade')['anime_id'].nunique()

# Normalisation par colonne (par ann√©e)
pivot_normalized = pivot_table.div(pivot_table.sum(axis=0), axis=1)



#  Cr√©er 2 sous-graphiques
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10), gridspec_kw={'height_ratios': [1, 4]})

# Barplot identique
ax1.bar(total_per_decade.index, total_per_decade.values, color='steelblue', edgecolor='black', alpha=0.8)
ax1.set_title("Nombre total d'animes produits par d√©cennie", fontsize=12, fontweight='bold')
ax1.set_ylabel("Nombre d'animes", fontsize=10)
ax1.set_xticks(total_per_decade.index)
ax1.grid(axis='y', alpha=0.3)
for decade, count in total_per_decade.items():
    ax1.text(decade, count + 50, str(count), ha='center', va='bottom', fontweight='bold')

# Heatmap en %
sns.heatmap(
    pivot_normalized,
    annot=True,
    fmt='.2f',
    cmap='YlOrRd',
    linewidths=0.5,
    cbar_kws={'label': 'Part de march√©'},
    ax=ax2
)
ax2.set_title('Part de march√© des genres par d√©cennie', fontsize=12, fontweight='bold')
ax2.set_xlabel('D√©cennie', fontsize=11)
ax2.set_ylabel('Genre', fontsize=11)

plt.tight_layout()
plt.show()

plt.tight_layout()
plt.show()