# Imports

In [32]:
!pip install streamlit
!pip install gradio
!pip install squarify



In [33]:
from google.colab import drive
import matplotlib.pyplot as plt
import os
import pandas as pd
import gradio as gr
import io
import seaborn as sns
import squarify
import plotly.express as px


# Connexion au drive

In [34]:
drive.mount("/content/drive", force_remount=True)
chemin_donnees = "/content/drive/MyDrive/PIP2025/Donnees"

Mounted at /content/drive


# Chargement des données

In [35]:
path = os.path.join(chemin_donnees, "Classement thématique des sujets de journeaux télévisés", "ina-barometre-jt-tv-donnees-quotidiennes-2000-2020-nbre-sujets-durees-202410.csv")
df = pd.read_csv(
    path,
    encoding='latin-1',
    sep=';',
    header=None,
    names=["Date", "Chaine", "Vide", "Theme", "NbEmissions", "Temps"]
)
df.dropna(axis=1, how='all', inplace=True)
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')
df['Annee'] = df['Date'].dt.year.astype(int)
df

Unnamed: 0,Date,Chaine,Theme,NbEmissions,Temps,Annee
0,2000-01-02,France 3,Catastrophes,2,235,2000
1,2000-01-02,France 3,Culture-loisirs,1,138,2000
2,2000-01-02,France 3,Environnement,3,306,2000
3,2000-01-02,France 3,International,2,241,2000
4,2000-01-02,France 3,Société,2,160,2000
...,...,...,...,...,...,...
268419,2020-12-31,M6,Histoire-hommages,1,109,2020
268420,2020-12-31,M6,International,3,123,2020
268421,2020-12-31,M6,Politique France,1,46,2020
268422,2020-12-31,M6,Santé,3,96,2020


On génère le pourcentage de temps

In [36]:
# Calculer le temps total par chaîne
df['Temps_Total_Chaine_Journee'] = df.groupby(['Date', 'Chaine'])['Temps'].transform('sum')

# Calculer le pourcentage du temps pour chaque thème par chaîne
df['Temps_Pourcentage'] = (df['Temps'] / df['Temps_Total_Chaine_Journee']) * 100

# Optionnel : Arrondir les pourcentages à deux décimales
df['Temps_Pourcentage'] = df['Temps_Pourcentage'].round(2)

df.head(50)

Unnamed: 0,Date,Chaine,Theme,NbEmissions,Temps,Annee,Temps_Total_Chaine_Journee,Temps_Pourcentage
0,2000-01-02,France 3,Catastrophes,2,235,2000,1254,18.74
1,2000-01-02,France 3,Culture-loisirs,1,138,2000,1254,11.0
2,2000-01-02,France 3,Environnement,3,306,2000,1254,24.4
3,2000-01-02,France 3,International,2,241,2000,1254,19.22
4,2000-01-02,France 3,Société,2,160,2000,1254,12.76
5,2000-01-02,France 3,Sport,2,174,2000,1254,13.88
6,2000-01-03,France 3,Catastrophes,3,329,2000,1190,27.65
7,2000-01-03,France 3,Culture-loisirs,1,38,2000,1190,3.19
8,2000-01-03,France 3,Economie,2,191,2000,1190,16.05
9,2000-01-03,France 3,Education,2,224,2000,1190,18.82


In [37]:
# Calculer le temps moyen en pourcentage par thème et par chaîne
df_moyenne = df.groupby(['Chaine', 'Theme'])['Temps_Pourcentage'].mean().reset_index()

# Optionnel : Arrondir les moyennes à deux décimales pour une meilleure lisibilité
df_moyenne['Temps_Pourcentage_Moyen'] = df_moyenne['Temps_Pourcentage'].round(2)

# Afficher les premières lignes pour vérifier
df_moyenne.head(50)

Unnamed: 0,Chaine,Theme,Temps_Pourcentage,Temps_Pourcentage_Moyen
0,Arte,Catastrophes,10.262847,10.26
1,Arte,Culture-loisirs,19.274748,19.27
2,Arte,Economie,15.867537,15.87
3,Arte,Education,14.661704,14.66
4,Arte,Environnement,13.680477,13.68
5,Arte,Faits divers,9.389227,9.39
6,Arte,Histoire-hommages,13.215509,13.22
7,Arte,International,45.6445,45.64
8,Arte,Justice,11.647704,11.65
9,Arte,Politique France,14.62003,14.62


# Dashboard

In [38]:
def generer_histogramme(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et chaîne et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Chaine"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Chaine", values="Temps_heures").fillna(0)

        # Tracer le bar plot
        df_pivot.plot(kind='bar', ax=ax, colormap='tab10')

        ax.set_title("Temps total d'émission (heures) par année et par chaîne")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Chaîne", bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()

    return fig

In [39]:
def generer_graphique_themes(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et thème et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Theme"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Theme", values="Temps_heures").fillna(0)

        # Tracer le line plot
        df_pivot.plot(kind='line', marker='o', ax=ax)

        ax.set_title("Évolution du temps d'émission (heures) par thème et par année")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Thème", bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()

    return fig

In [40]:
def generer_camembert(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Grouper par chaîne et sommer le temps d'émission
    grouped = df_filtered.groupby("Chaine")["Temps"].sum().reset_index()
    grouped["Temps_heures"] = grouped["Temps"] / 3600.0

    # Créer le diagramme en camembert avec Plotly
    fig = px.pie(
        grouped,
        names="Chaine",
        values="Temps_heures",
        title="Répartition du temps d'émission (heures) par chaîne",
        hole=0.3,  # Pour créer un "donut chart"
        color="Chaine",
        color_discrete_sequence=px.colors.qualitative.Set3
    )

    fig.update_traces(
        hoverinfo="label+percent",
        textinfo="percent+value",
        texttemplate="%{value:.0f} heures",  # Arrondir à l'entier le plus proche
        textfont_size=12
    )

    return fig

In [41]:
# Obtenir les listes uniques de chaînes et de thèmes
liste_chaines = df["Chaine"].unique().tolist()
liste_themes = df["Theme"].unique().tolist()

with gr.Blocks() as demo:
    gr.Markdown("## Dashboard d'Analyse du Temps d'Émission des Journaux Télévisés")

    with gr.Row():
        chaine_input = gr.CheckboxGroup(
            label="Sélectionnez la/les chaîne(s) :",
            choices=liste_chaines,
            value=liste_chaines  # sélection par défaut = toutes
        )

    with gr.Row():
        theme_input = gr.CheckboxGroup(
            label="Sélectionnez le/les thème(s) :",
            choices=liste_themes,
            value=liste_themes  # sélection par défaut = tous
        )

    with gr.Row():
        btn = gr.Button("Générer les graphiques")

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Répartition du Temps d'Émission par Chaîne (Camembert)")
            output_pie = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Année et par Chaîne")
            output_histogram = gr.Plot()
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Thème et par Année")
            output_line = gr.Plot()

    # Définir les actions lors du clic sur le bouton
    def generer_graphiques(chaine_selection, theme_selection):
        fig_pie = generer_camembert(chaine_selection, theme_selection)
        fig_hist = generer_histogramme(chaine_selection, theme_selection)
        fig_line = generer_graphique_themes(chaine_selection, theme_selection)

        return fig_pie, fig_hist, fig_line

    # Lier le bouton à la génération des graphiques
    btn.click(
        fn=generer_graphiques,
        inputs=[chaine_input, theme_input],
        outputs=[output_pie, output_histogram, output_line]
    )

    # Initialiser les graphiques avec les sélections par défaut
    def initialiser_graphiques():
        return generer_graphiques(liste_chaines, liste_themes)

    demo.load(
        fn=initialiser_graphiques,
        inputs=[],
        outputs=[output_pie, output_histogram, output_line]
    )

# Lancer le dashboard
demo.launch()


Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://fd572fd69548bc200a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [42]:
# Convertir la colonne 'Date' en datetime et extraire l'année
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')
df['Annee'] = df['Date'].dt.year.astype(int)

# Afficher les premières lignes du DataFrame
print(df.head())

# Définir les fonctions de génération des graphiques
def generer_histogramme(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et chaîne et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Chaine"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Chaine", values="Temps_heures").fillna(0)

        # Tracer le bar plot
        df_pivot.plot(kind='bar', ax=ax, colormap='tab10')

        ax.set_title("Temps total d'émission (heures) par année et par chaîne")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Chaîne", bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()

    return fig

def generer_graphique_themes(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et thème et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Theme"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Theme", values="Temps_heures").fillna(0)

        # Tracer le line plot
        df_pivot.plot(kind='line', marker='o', ax=ax)

        ax.set_title("Évolution du temps d'émission (heures) par thème et par année")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Thème", bbox_to_anchor=(1.05, 1), loc="upper left")



        plt.tight_layout()

    return fig

def generer_camembert(chaine_selection, theme_selection):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection))
    ]

    # Grouper par chaîne et sommer le temps d'émission
    grouped = df_filtered.groupby("Chaine")["Temps"].sum().reset_index()
    grouped["Temps_heures"] = grouped["Temps"] / 3600.0

    # Créer le diagramme en camembert avec Plotly
    fig = px.pie(
        grouped,
        names="Chaine",
        values="Temps_heures",
        title="Répartition du temps d'émission (heures) par chaîne",
        hole=0.3,  # Pour créer un "donut chart"
        color="Chaine",
        color_discrete_sequence=px.colors.qualitative.Set3
    )

    fig.update_traces(
        hoverinfo="label+percent",
        textinfo="percent+value",
        texttemplate="%{value:.0f} heures",  # Arrondir à l'entier le plus proche
        textfont_size=12
    )

    return fig

# Obtenir les listes uniques de chaînes et de thèmes
liste_chaines = df["Chaine"].unique().tolist()
liste_themes = df["Theme"].unique().tolist()

with gr.Blocks() as demo:
    gr.Markdown("## Dashboard d'Analyse du Temps d'Émission des Journaux Télévisés")

    with gr.Row():
        chaine_input = gr.CheckboxGroup(
            label="Sélectionnez la/les chaîne(s) :",
            choices=liste_chaines,
            value=liste_chaines  # sélection par défaut = toutes
        )

    with gr.Row():
        theme_input = gr.CheckboxGroup(
            label="Sélectionnez le/les thème(s) :",
            choices=liste_themes,
            value=liste_themes  # sélection par défaut = tous
        )

    with gr.Row():
        btn = gr.Button("Générer les graphiques")

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Répartition du Temps d'Émission par Chaîne (Camembert)")
            output_pie = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Année et par Chaîne")
            output_histogram = gr.Plot()
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Thème et par Année")
            output_line = gr.Plot()

    # Définir les actions lors du clic sur le bouton
    def generer_graphiques(chaine_selection, theme_selection):
        fig_pie = generer_camembert(chaine_selection, theme_selection)
        fig_hist = generer_histogramme(chaine_selection, theme_selection)
        fig_line = generer_graphique_themes(chaine_selection, theme_selection)

        return fig_pie, fig_hist, fig_line

    # Lier le bouton à la génération des graphiques
    btn.click(
        fn=generer_graphiques,
        inputs=[chaine_input, theme_input],
        outputs=[output_pie, output_histogram, output_line]
    )

    # Initialiser les graphiques avec les sélections par défaut
    def initialiser_graphiques():
        chaine_selection = liste_chaines
        theme_selection = liste_themes
        fig_pie = generer_camembert(chaine_selection, theme_selection)
        fig_hist = generer_histogramme(chaine_selection, theme_selection)
        fig_line = generer_graphique_themes(chaine_selection, theme_selection)
        return fig_pie, fig_hist, fig_line

    demo.load(
        fn=initialiser_graphiques,
        inputs=[],
        outputs=[output_pie, output_histogram, output_line]
    )

# Lancer le dashboard
demo.launch(debug=True)


        Date    Chaine            Theme  NbEmissions  Temps  Annee  \
0 2000-01-02  France 3     Catastrophes            2    235   2000   
1 2000-01-02  France 3  Culture-loisirs            1    138   2000   
2 2000-01-02  France 3    Environnement            3    306   2000   
3 2000-01-02  France 3    International            2    241   2000   
4 2000-01-02  France 3          Société            2    160   2000   

   Temps_Total_Chaine_Journee  Temps_Pourcentage  
0                        1254              18.74  
1                        1254              11.00  
2                        1254              24.40  
3                        1254              19.22  
4                        1254              12.76  
Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn

Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://64dfee2face18dee60.gradio.live
Killing tunnel 127.0.0.1:7861 <> https://fed08cbe4898d831f4.gradio.live
Killing tunnel 127.0.0.1:7861 <> https://4a2fc6a0c9819222ab.gradio.live
Killing tunnel 127.0.0.1:7862 <> https://8303d9ab45ce00ac1f.gradio.live
Killing tunnel 127.0.0.1:7863 <> https://62c1c0fbeb6c1b2cae.gradio.live
Killing tunnel 127.0.0.1:7864 <> https://fd572fd69548bc200a.gradio.live
Killing tunnel 127.0.0.1:7865 <> https://223f685c84681cfb24.gradio.live




# Moyenne des pourcentages

In [43]:
# Définir les fonctions de génération des graphiques
def generer_histogramme(chaine_selection, theme_selection, annee_min, annee_max):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection)) &
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et chaîne et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Chaine"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Chaine", values="Temps_heures").fillna(0)

        # Tracer le bar plot
        df_pivot.plot(kind='bar', ax=ax, colormap='tab10')

        ax.set_title("Temps total d'émission (heures) par année et par chaîne")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Chaîne", bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()

    return fig

def generer_graphique_themes(chaine_selection, theme_selection, annee_min, annee_max):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection)) &
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par année et thème et sommer le temps d'émission
        grouped = df_filtered.groupby(["Annee", "Theme"])["Temps"].sum().reset_index()
        grouped["Temps_heures"] = grouped["Temps"] / 3600.0

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Annee", columns="Theme", values="Temps_heures").fillna(0)

        # Tracer le line plot
        df_pivot.plot(kind='line', marker='o', ax=ax)

        ax.set_title("Évolution du temps d'émission (heures) par thème et par année")
        ax.set_xlabel("Année")
        ax.set_ylabel("Temps d'émission (heures)")
        ax.legend(title="Thème", bbox_to_anchor=(1.05, 1), loc="upper left")

        # Ajouter un locator pour forcer les années à être des entiers
        ax.xaxis.set_major_locator(MaxNLocator(integer=True))

        plt.tight_layout()

    return fig

def generer_camembert(chaine_selection, theme_selection, annee_min, annee_max):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection)) &
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Grouper par chaîne et sommer le temps d'émission
    grouped = df_filtered.groupby("Chaine")["Temps"].sum().reset_index()
    grouped["Temps_heures"] = grouped["Temps"] / 3600.0

    # Créer le diagramme en camembert avec Plotly
    fig = px.pie(
        grouped,
        names="Chaine",
        values="Temps_heures",
        title="Répartition du temps d'émission (heures) par chaîne",
        hole=0.3,  # Pour créer un "donut chart"
        color="Chaine",
        color_discrete_sequence=px.colors.qualitative.Set3
    )

    fig.update_traces(
        hoverinfo="label+percent",
        textinfo="percent+value",
        texttemplate="%{value:.0f} heures",  # Arrondir à l'entier le plus proche
        textfont_size=12
    )

    return fig

def generer_graphique_pourcentage(chaine_selection, theme_selection, annee_min, annee_max):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Theme"].isin(theme_selection)) &
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Créer la figure
    fig, ax = plt.subplots(figsize=(10, 6))

    if df_filtered.empty:
        ax.text(0.5, 0.5, 'Aucune donnée après filtrage',
                horizontalalignment='center',
                verticalalignment='center',
                fontsize=16,
                color='red', transform=ax.transAxes)
        ax.axis('off')
    else:
        # Grouper par chaîne et thème et sommer le pourcentage
        grouped = df_filtered.groupby(["Chaine", "Theme"])["Temps_Pourcentage"].sum().reset_index()

        # Pivot pour le tracé
        df_pivot = grouped.pivot(index="Chaine", columns="Theme", values="Temps_Pourcentage").fillna(0)

        # Tracer le bar plot empilé
        df_pivot.plot(kind='bar', stacked=True, ax=ax, colormap='tab20')

        ax.set_title("Répartition du temps d'émission (%) par thème et par chaîne")
        ax.set_xlabel("Chaîne")
        ax.set_ylabel("Temps d'émission (%)")
        ax.legend(title="Thème", bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()

    return fig

def generer_graphique_journee(annee_min, annee_max):
    # Filtrer le DataFrame en fonction des années sélectionnées
    df_filtered = df[
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Grouper par Date et sommer le Temps
    df_journee = df_filtered.groupby('Date')['Temps'].sum().reset_index()
    df_journee['Temps_heures'] = (df_journee['Temps'] / 3600).round(2)  # Convertir en heures

    # Créer le graphique en ligne avec Plotly
    fig = px.line(
        df_journee,
        x='Date',
        y='Temps_heures',
        title='Temps Total d\'Émission par Journée',
        labels={'Date': 'Date', 'Temps_heures': 'Temps d\'Émission (heures)'},
        markers=True
    )

    fig.update_layout(
        xaxis_title='Date',
        yaxis_title='Temps d\'Émission (heures)',
        xaxis_rangeslider_visible=True
    )

    return fig

def generer_graphique_chaine_journee(chaine_selection, annee_min, annee_max):
    # Filtrer le DataFrame en fonction des sélections
    df_filtered = df[
        (df["Chaine"].isin(chaine_selection)) &
        (df["Annee"] >= annee_min) &
        (df["Annee"] <= annee_max)
    ]

    # Grouper par Date et Chaine et sommer le Temps
    grouped = df_filtered.groupby(['Date', 'Chaine'])['Temps'].sum().reset_index()
    grouped['Temps_heures'] = (grouped['Temps'] / 3600).round(2)  # Optionnel: convertir en heures

    # Pivot pour le tracé
    df_pivot = grouped.pivot(index='Date', columns='Chaine', values='Temps_heures').fillna(0)

    # Créer la figure
    fig, ax = plt.subplots(figsize=(15, 8))

    # Tracer le bar plot empilé
    df_pivot.plot(kind='bar', stacked=True, ax=ax, colormap='tab20', width=1.0)

    ax.set_title("Temps Total d'Émission (heures) par Chaîne et par Journée")
    ax.set_xlabel("Date")
    ax.set_ylabel("Temps d'Émission (heures)")
    ax.legend(title="Chaîne", bbox_to_anchor=(1.05, 1), loc="upper left")

    # Optimiser l'affichage des dates
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()

    return fig

def generer_graphique_temps_moyen(df_moyenne, chaine_selection=None):
    # Filtrer le DataFrame en fonction des chaînes sélectionnées
    if chaine_selection:
        df_filtered = df_moyenne[df_moyenne['Chaine'].isin(chaine_selection)]
    else:
        df_filtered = df_moyenne.copy()

    # Pivot pour le tracé
    df_pivot = df_filtered.pivot(index='Theme', columns='Chaine', values='Temps_Pourcentage_Moyen').fillna(0)

    # Créer la figure
    fig, ax = plt.subplots(figsize=(12, 8))

    # Tracer le bar plot empilé
    df_pivot.plot(kind='bar', stacked=True, ax=ax, colormap='tab20')

    ax.set_title("Temps Moyen Alloué (%) par Thème et par Chaîne")
    ax.set_xlabel("Thème")
    ax.set_ylabel("Temps Moyen d'Émission (%)")
    ax.legend(title="Chaîne", bbox_to_anchor=(1.05, 1), loc="upper left")

    # Optimiser l'affichage des thèmes
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()

    return fig

# Obtenir les listes uniques de chaînes et de thèmes
liste_chaines = df["Chaine"].unique().tolist()
liste_themes = df["Theme"].unique().tolist()

# Déterminer les années min et max dans les données
annee_min_total = df['Annee'].min()
annee_max_total = df['Annee'].max()

with gr.Blocks() as demo:
    gr.Markdown("## Dashboard d'Analyse du Temps d'Émission des Journaux Télévisés")

    with gr.Row():
        with gr.Column(scale=1):
            gr.Markdown("### Sélection de la Période")
            annee_min_slider = gr.Slider(
                label="Année minimale :",
                minimum=annee_min_total,
                maximum=annee_max_total,
                step=1,
                value=annee_min_total,
                interactive=True
            )
            annee_max_slider = gr.Slider(
                label="Année maximale :",
                minimum=annee_min_total,
                maximum=annee_max_total,
                step=1,
                value=annee_max_total,
                interactive=True
            )

    with gr.Row():
        with gr.Column(scale=1):
            gr.Markdown("### Sélection des Chaînes")
            chaine_input = gr.CheckboxGroup(
                label="Sélectionnez la/les chaîne(s) :",
                choices=liste_chaines,
                value=liste_chaines  # sélection par défaut = toutes
            )

    with gr.Row():
        with gr.Column(scale=1):
            gr.Markdown("### Sélection des Thèmes")
            theme_input = gr.CheckboxGroup(
                label="Sélectionnez le/les thème(s) :",
                choices=liste_themes,
                value=liste_themes  # sélection par défaut = tous
            )

    with gr.Row():
        btn = gr.Button("Générer les graphiques")

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Répartition du Temps d'Émission par Chaîne (Camembert)")
            output_pie = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Année et par Chaîne")
            output_histogram = gr.Plot()
        with gr.Column():
            gr.Markdown("### Évolution du Temps d'Émission par Thème et par Année")
            output_line = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Répartition du Temps d'Émission (%) par Thème et par Chaîne")
            output_pourcentage = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Temps Total d'Émission par Journée")
            output_journee = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Temps Total d'Émission par Chaîne et par Journée")
            output_chaine_journee = gr.Plot()

    with gr.Row():
        with gr.Column():
            gr.Markdown("### Temps Moyen Alloué à Chaque Thème en Pourcentage par Chaîne")
            output_temps_moyen = gr.Plot()

    # Définir les actions lors du clic sur le bouton
    def generer_graphiques(chaine_selection, theme_selection, annee_min, annee_max):
        # Assurer que annee_min <= annee_max
        if annee_min > annee_max:
            annee_min, annee_max = annee_max, annee_min

        fig_pie = generer_camembert(chaine_selection, theme_selection, annee_min, annee_max)
        fig_hist = generer_histogramme(chaine_selection, theme_selection, annee_min, annee_max)
        fig_line = generer_graphique_themes(chaine_selection, theme_selection, annee_min, annee_max)
        fig_pourcentage = generer_graphique_pourcentage(chaine_selection, theme_selection, annee_min, annee_max)
        fig_journee = generer_graphique_journee(annee_min, annee_max)
        fig_chaine_journee = generer_graphique_chaine_journee(chaine_selection, annee_min, annee_max)
        fig_temps_moyen = generer_graphique_temps_moyen(df_moyenne, chaine_selection)

        return fig_pie, fig_hist, fig_line, fig_pourcentage, fig_journee, fig_chaine_journee, fig_temps_moyen

    # Lier le bouton à la génération des graphiques
    btn.click(
        fn=generer_graphiques,
        inputs=[chaine_input, theme_input, annee_min_slider, annee_max_slider],
        outputs=[output_pie, output_histogram, output_line, output_pourcentage, output_journee, output_chaine_journee, output_temps_moyen]
    )

    # Initialiser les graphiques avec les sélections par défaut
    def initialiser_graphiques():
        chaine_selection = liste_chaines
        theme_selection = liste_themes
        annee_min = annee_min_total
        annee_max = annee_max_total
        fig_pie = generer_camembert(chaine_selection, theme_selection, annee_min, annee_max)
        fig_hist = generer_histogramme(chaine_selection, theme_selection, annee_min, annee_max)
        fig_line = generer_graphique_themes(chaine_selection, theme_selection, annee_min, annee_max)
        fig_pourcentage = generer_graphique_pourcentage(chaine_selection, theme_selection, annee_min, annee_max)
        fig_journee = generer_graphique_journee(annee_min, annee_max)
        fig_chaine_journee = generer_graphique_chaine_journee(chaine_selection, annee_min, annee_max)
        fig_temps_moyen = generer_graphique_temps_moyen(df_moyenne, chaine_selection)
        return fig_pie, fig_hist, fig_line, fig_pourcentage, fig_journee, fig_chaine_journee, fig_temps_moyen

    demo.load(
        fn=initialiser_graphiques,
        inputs=[],
        outputs=[output_pie, output_histogram, output_line, output_pourcentage, output_journee, output_chaine_journee, output_temps_moyen]
    )

# Lancer le dashboard
demo.launch(debug=True)


Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().


KeyboardInterrupt: 

# Dashboard V1

In [44]:
df['Date'] = pd.to_datetime(df['Date'])
df['Date_ordinal'] = df['Date'].map(pd.Timestamp.toordinal)


# Calculer le temps total en heures par chaîne
df_total = df.groupby('Chaine')['Temps'].sum().reset_index()
df_total['Temps_heures'] = (df_total['Temps'] / 3600).round(2)  # Convertir en heures et arrondir

chaines = df['Chaine'].unique().tolist()
themes = df['Theme'].unique().tolist()

# Préparer les données pour le graphique en ligne
df_line = df.groupby(['Annee', 'Theme'])['Temps'].sum().reset_index()
df_line['Temps_heures'] = (df_line['Temps'] / 3600).round(2)  # Convertir en heures et arrondir


In [45]:
# Fonction pour générer le diagramme camembert avec filtrage par année
def create_pie(selected_chaines, start_year, end_year):
    # Filtrer les données en fonction des années sélectionnées
    mask = (df['Annee'] >= start_year) & (df['Annee'] <= end_year)
    df_filtered = df[mask]

    # Calculer le temps total en heures par chaîne
    df_total = df_filtered.groupby('Chaine')['Temps'].sum().reset_index()
    df_total['Temps_heures'] = (df_total['Temps'] / 3600).round(2)  # Convertir en heures et arrondir

    if not selected_chaines:
        # Si aucune chaîne n'est sélectionnée, afficher toutes
        filtered_df = df_total
    else:
        filtered_df = df_total[df_total['Chaine'].isin(selected_chaines)]

    # Créer le diagramme camembert
    fig = px.pie(
        filtered_df,
        names='Chaine',
        values='Temps_heures',
        title="Temps d'émission par chaîne (en heures)",
        hole=0.3
    )

    fig.update_traces(textposition='inside', textinfo='percent+label')
    return fig


In [46]:
# Fonction pour générer le graphique en ligne avec filtrage par année
def create_line_chart(selected_themes, start_year, end_year):
    # Filtrer les données en fonction des années sélectionnées
    mask = (df['Annee'] >= start_year) & (df['Annee'] <= end_year)
    df_filtered = df[mask]

    # Préparer les données pour le graphique en ligne
    df_line = df_filtered.groupby(['Annee', 'Theme'])['Temps'].sum().reset_index()
    df_line['Temps_heures'] = (df_line['Temps'] / 3600).round(2)  # Convertir en heures et arrondir

    if not selected_themes:
        # Si aucun thème n'est sélectionné, afficher tous les thèmes
        filtered_df = df_line
    else:
        filtered_df = df_line[df_line['Theme'].isin(selected_themes)]

    # Créer le graphique en ligne
    fig = px.line(
        filtered_df,
        x='Annee',
        y='Temps_heures',
        color='Theme',
        markers=True,
        title="Évolution des Thèmes Traités par Année (en heures)"
    )

    fig.update_layout(xaxis_title='Année', yaxis_title='Temps Total d\'Émission (heures)')
    return fig


In [47]:
# Fonction pour générer le graphique en bulles avec filtrage par année
def create_bubble_chart(selected_chaines, selected_themes, start_year, end_year):
    # Filtrer les données en fonction des années sélectionnées
    mask = (df['Annee'] >= start_year) & (df['Annee'] <= end_year)
    df_filtered = df[mask]

    # Calculer le temps moyen en pourcentage par thème et par chaîne
    df_moyenne = df_filtered.groupby(['Chaine', 'Theme'])['Temps_Pourcentage'].mean().reset_index()
    df_moyenne['Temps_Pourcentage_Moyen'] = df_moyenne['Temps_Pourcentage'].round(2)

    # Filtrer les données en fonction des chaînes sélectionnées
    if not selected_chaines:
        filtered_df = df_moyenne
    else:
        filtered_df = df_moyenne[df_moyenne['Chaine'].isin(selected_chaines)]

    # Filtrer les données en fonction des thèmes sélectionnés
    if not selected_themes:
        # Si aucun thème n'est sélectionné, afficher tous les thèmes
        pass  # Aucun filtrage supplémentaire nécessaire
    else:
        filtered_df = filtered_df[filtered_df['Theme'].isin(selected_themes)]

    # Créer le graphique en bulles
    fig = px.scatter(
        filtered_df,
        x='Chaine',
        y='Theme',
        size='Temps_Pourcentage_Moyen',
        color='Theme',
        hover_name='Theme',
        size_max=60,
        title="Thèmes les Plus Abordés par Chaîne (Temps Moyen d'Émission)"
    )

    # Ajustements de la mise en page pour espacer les thèmes et agrandir le visuel
    fig.update_layout(
        height=800,  # Augmenter la hauteur du graphique
        xaxis_title='Chaîne',
        yaxis_title='Thème',
        legend_title='Thème',
        title_x=0.5,  # Centrer le titre
        yaxis=dict(
            automargin=True,
            tickmode='array',
            tickfont=dict(size=12),  # Augmenter la taille de la police des ticks
        ),
        margin=dict(l=100, r=100, t=100, b=100),  # Ajouter des marges pour éviter le chevauchement
    )

    # Optionnel : Ajuster l'espacement entre les catégories sur l'axe Y
    unique_themes = sorted(filtered_df['Theme'].unique())
    fig.update_yaxes(categoryorder='array', categoryarray=unique_themes)

    return fig


In [48]:
import itertools
from sklearn.metrics.pairwise import cosine_similarity

def create_top5_similarity(selected_chaines, selected_themes, start_year, end_year):
    # Filtrer les données en fonction des années sélectionnées
    df_filtered = df[(df['Annee'] >= start_year) & (df['Annee'] <= end_year)]

    # Filtrer par chaînes sélectionnées, si des chaînes sont choisies
    if selected_chaines:
        df_filtered = df_filtered[df_filtered['Chaine'].isin(selected_chaines)]

    # Filtrer par thèmes sélectionnés, si des thèmes sont choisis
    if selected_themes:
        df_filtered = df_filtered[df_filtered['Theme'].isin(selected_themes)]

    # Vérifier qu'il y a suffisamment de données après le filtrage
    if df_filtered.empty:
        return pd.DataFrame(columns=["Chaîne 1", "Chaîne 2", "Cosine Similarity"])

    # Calculer les proportions d'émissions par thème pour chaque chaîne
    proportions = df_filtered.groupby(['Chaine', 'Theme'])['Temps_Pourcentage'].sum().reset_index()
    proportions_total = proportions.groupby('Chaine')['Temps_Pourcentage'].sum().reset_index().rename(columns={'Temps_Pourcentage': 'Total_Temps_Pourcentage'})
    proportions = proportions.merge(proportions_total, on='Chaine')
    proportions['Proportion'] = proportions['Temps_Pourcentage'] / proportions['Total_Temps_Pourcentage']

    # Créer un pivot table pour avoir les proportions par thème en colonnes
    pivot = proportions.pivot(index='Chaine', columns='Theme', values='Proportion').fillna(0)

    # Calculer la Cosine Similarity entre chaque paire de chaînes
    similarity_matrix = cosine_similarity(pivot)
    similarity_df = pd.DataFrame(similarity_matrix, index=pivot.index, columns=pivot.index)

    # Générer toutes les paires de chaînes sans duplication
    pairs = list(itertools.combinations(pivot.index, 2))
    similarity_list = []

    for chain1, chain2 in pairs:
        similarity = similarity_df.loc[chain1, chain2]
        similarity_list.append({
            'Chaîne 1': chain1,
            'Chaîne 2': chain2,
            'Cosine Similarity': round(similarity, 4)
        })

    similarity_df_final = pd.DataFrame(similarity_list)

    # Trier par Cosine Similarity décroissante et prendre le top 5
    top5 = similarity_df_final.sort_values(by='Cosine Similarity', ascending=False).head(5).reset_index(drop=True)

    return top5


In [49]:
# Définir l'interface Gradio
with gr.Blocks() as demo:
    gr.Markdown("## Dashboard des Temps d'Émission par Chaîne et par Thème")

    # Première ligne : Sliders de sélection des années
    with gr.Row():
        start_year_slider = gr.Slider(
            minimum=df['Annee'].min(),
            maximum=df['Annee'].max(),
            step=1,
            label="Année de début",
            value=df['Annee'].min()
        )
        end_year_slider = gr.Slider(
            minimum=df['Annee'].min(),
            maximum=df['Annee'].max(),
            step=1,
            label="Année de fin",
            value=df['Annee'].max()
        )

    # Deuxième ligne : Filtre des chaînes
    with gr.Row():
        chaine_selection = gr.CheckboxGroup(
            label="Sélectionnez les chaînes",
            choices=chaines,
            value=chaines  # Par défaut, toutes les chaînes sont sélectionnées
        )

    # Troisième ligne : Filtre des thèmes
    with gr.Row():
        theme_selection = gr.CheckboxGroup(
            label="Sélectionnez les thèmes",
            choices=themes,
            value=themes  # Par défaut, tous les thèmes sont sélectionnés
        )

    # Quatrième ligne : Les deux visuels côte à côte
    with gr.Row():
        pie_chart = gr.Plot(value=create_pie(chaines, start_year_slider.value, end_year_slider.value))
        line_chart = gr.Plot(value=create_line_chart(themes, start_year_slider.value, end_year_slider.value))

    # Cinquième ligne : Bubble Chart
    with gr.Row():
        bubble_chart = gr.Plot(value=create_bubble_chart(chaines, themes, start_year_slider.value, end_year_slider.value))

    # **Ajout : Sixième ligne - Top 5 des Ressemblances entre Chaînes**
    with gr.Row():
        top5_table = gr.Dataframe(
            headers=["Chaîne 1", "Chaîne 2", "MSE"],
            label="Top 5 des Ressemblances entre Chaînes",
            interactive=False,
            value=create_top5_similarity(chaines, themes, start_year_slider.value, end_year_slider.value)
        )

    # Lier les filtres et les sliders aux visuels existants
    # Liaison pour le diagramme camembert
    chaine_selection.change(
        fn=create_pie,
        inputs=[chaine_selection, start_year_slider, end_year_slider],
        outputs=pie_chart
    )

    start_year_slider.change(
        fn=create_pie,
        inputs=[chaine_selection, start_year_slider, end_year_slider],
        outputs=pie_chart
    )

    end_year_slider.change(
        fn=create_pie,
        inputs=[chaine_selection, start_year_slider, end_year_slider],
        outputs=pie_chart
    )

    # Liaison pour le graphique en ligne
    theme_selection.change(
        fn=create_line_chart,
        inputs=[theme_selection, start_year_slider, end_year_slider],
        outputs=line_chart
    )

    start_year_slider.change(
        fn=create_line_chart,
        inputs=[theme_selection, start_year_slider, end_year_slider],
        outputs=line_chart
    )

    end_year_slider.change(
        fn=create_line_chart,
        inputs=[theme_selection, start_year_slider, end_year_slider],
        outputs=line_chart
    )

    # Liaison pour le Bubble Chart
    chaine_selection.change(
        fn=create_bubble_chart,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=bubble_chart
    )

    theme_selection.change(
        fn=create_bubble_chart,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=bubble_chart
    )

    start_year_slider.change(
        fn=create_bubble_chart,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=bubble_chart
    )

    end_year_slider.change(
        fn=create_bubble_chart,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=bubble_chart
    )

    # **Nouvelle Liaison : Top 5 des Ressemblances entre Chaînes**
    chaine_selection.change(
        fn=create_top5_similarity,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=top5_table
    )

    theme_selection.change(
        fn=create_top5_similarity,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=top5_table
    )

    start_year_slider.change(
        fn=create_top5_similarity,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=top5_table
    )

    end_year_slider.change(
        fn=create_top5_similarity,
        inputs=[chaine_selection, theme_selection, start_year_slider, end_year_slider],
        outputs=top5_table
    )

    # Optionnel : Ajouter des instructions ou des informations supplémentaires
    gr.Markdown("""
    **Instructions :**
    - Utilisez les sliders de sélection des années ci-dessus pour définir la plage de dates des données à visualiser.
    - Utilisez les cases à cocher suivantes pour filtrer les chaînes et les thèmes que vous souhaitez visualiser.
    - Le diagramme camembert affiche le temps d'émission par chaîne sélectionnée dans la plage de dates définie.
    - Le graphique en ligne montre l'évolution des thèmes sélectionnés au fil des années en termes de temps total d'émission dans la plage de dates définie.
    - Le graphique en bulles représente les thèmes les plus abordés par chaîne avec le temps moyen d'émissions dans la plage de dates définie.
    - Le tableau "Top 5 des Ressemblances entre Chaînes" affiche les paires de chaînes les plus similaires basées sur la MSE de leurs proportions d'émissions par thème.
    """)

# Lancer l'interface
demo.launch(share=True, inline=True)

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://b7c152126a0f22baa3.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


