# üìä Analyse et Visualisation des Donn√©es des Cours

Ce notebook pr√©sente une analyse compl√®te et interactive du dataset des cours (`final_data.csv`).
Nous utiliserons **Plotly** pour des visualisations dynamiques et esth√©tiques afin de mieux comprendre la distribution des donn√©es pour notre syst√®me de recommandation.

### Objectifs de l'analyse :
1. Distribution des cours par cat√©gorie
2. Analyse des notes (Ratings)
3. Relation entre popularit√© et notes
4. Top 10 des partenaires (institutions)
5. Distribution des niveaux de difficult√©
6. Dur√©e des cours par cat√©gorie
7. R√©partition par domaine source

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings

warnings.filterwarnings('ignore')

# Configuration du th√®me Plotly
px.defaults.template = "plotly_dark"
px.defaults.color_continuous_scale = px.colors.sequential.Viridis

## 1. Chargement et Aper√ßu des Donn√©es

In [None]:
# Chargement du fichier CSV
try:
    # Chemin relatif depuis le dossier notebooks/
    df = pd.read_csv('../final_data/final_data.csv')
    print("‚úÖ Donn√©es charg√©es avec succ√®s !")
except FileNotFoundError:
    try:
        # Fallback 1: Si ex√©cut√© depuis la racine
        df = pd.read_csv('final_data/final_data.csv')
        print("‚úÖ Donn√©es charg√©es avec succ√®s (chemin racine) !")
    except FileNotFoundError:
        # Fallback 2: Chemin absolu ou autre structure
        print("‚ùå Fichier non trouv√©. V√©rifiez le chemin.")
        # df = pd.read_csv('chemin/vers/final_data.csv')

# Conversion des colonnes si n√©cessaire
if 'scraped_at' in df.columns:
    df['scraped_at'] = pd.to_datetime(df['scraped_at'])

# Affichage des premi√®res lignes
df.head()

In [None]:
# Informations g√©n√©rales
df.info()

## 2. Distribution des Cat√©gories
Quelles sont les th√©matiques les plus repr√©sent√©es dans notre catalogue ?

In [None]:
category_counts = df['category'].value_counts().reset_index()
category_counts.columns = ['Category', 'Count']

fig = px.bar(category_counts, 
             x='Count', 
             y='Category', 
             orientation='h',
             title='<b>Distribution des Cours par Cat√©gorie</b>',
             text='Count',
             color='Count', 
             color_continuous_scale='Viridis')

fig.update_layout(yaxis={'categoryorder':'total ascending'}, showlegend=False)
fig.show()

## 3. Analyse des Notes (Ratings)
Analyse de la distribution des notes attribu√©es aux cours.

In [None]:
fig = px.histogram(df, 
                   x='rating', 
                   nbins=20, 
                   title='<b>Distribution des Notes des Cours</b>',
                   color_discrete_sequence=['#00CC96'],
                   marginals='box', 
                   hover_data=df.columns)

fig.update_layout(bargap=0.1)
fig.show()

## 4. Relation Popularit√© vs Notes
Y a-t-il une corr√©lation entre la note d'un cours et son score de popularit√© ?

In [None]:
fig = px.scatter(df, 
                 x='rating', 
                 y='popularity_score', 
                 color='category',
                 size='num_ratings', 
                 hover_name='title',
                 title='<b>Popularit√© vs Notes</b>',
                 log_y=True, 
                 template='plotly_dark')

fig.show()

## 5. Top 10 des Partenaires
Quelles institutions proposent le plus de cours ?

In [None]:
partner_counts = df['partner'].value_counts().nlargest(10).reset_index()
partner_counts.columns = ['Partner', 'Count']

fig = px.bar(partner_counts, 
             x='Partner', 
             y='Count', 
             title='<b>Top 10 des Institutions Partenaires</b>',
             color='Count',
             text='Count')

fig.update_layout(xaxis_tickangle=-45)
fig.show()

## 6. Distribution des Niveaux
R√©partition des niveaux de difficult√© des cours.

In [None]:
level_counts = df['level_enc'].value_counts().reset_index()
level_counts.columns = ['Level Code', 'Count']

fig = px.pie(level_counts, 
             values='Count', 
             names='Level Code',
             title='<b>Distribution des Niveaux de Cours</b>',
             hole=0.4)

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

## 7. Dur√©e des Cours par Cat√©gorie
Quelle est la dur√©e typique des cours selon leur th√©matique ?

In [None]:
fig = px.box(df, 
             x='category', 
             y='duration_hours', 
             color='category',
             title='<b>Distribution de la Dur√©e des Cours par Cat√©gorie</b>',
             points='outliers')

fig.update_layout(xaxis_tickangle=-45, showlegend=False)
fig.show()

## 8. R√©partition par Domaine Source
D'o√π proviennent les donn√©es ?

In [None]:
source_counts = df['source_domain'].value_counts().reset_index()
source_counts.columns = ['Source', 'Count']

fig = px.pie(source_counts, 
             values='Count', 
             names='Source',
             title='<b>R√©partition des Cours par Source</b>',
             color_discrete_sequence=px.colors.qualitative.Pastel)

fig.show()

## Conclusion et Insights

Cette analyse nous permet de d√©gager plusieurs points cl√©s pour notre syst√®me de recommandation :
1. **Dominance des cat√©gories** : Certaines cat√©gories sont tr√®s repr√©sent√©es, ce qui n√©cessitera peut-√™tre un √©quilibrage lors des recommandations.
2. **Qualit√© des donn√©es** : La distribution des notes montre la tendance g√©n√©rale de satisfaction.
3. **Engagement** : La relation popularit√©/notes aide √† identifier les "p√©pites" (cours tr√®s not√©s et populaires) √† mettre en avant.

Ces visualisations serviront de base pour affiner nos algorithmes de filtrage et de ranking.