In [None]:
from datetime import datetime
import locale

# Définir la locale en français
locale.setlocale(locale.LC_TIME, "fr_FR.UTF-8")

DATE_FORMAT = "%d %b %Y"

In [None]:
from mongo_episode import Episodes
import pandas as pd


def get_episodes():
    episodes = Episodes()
    all_episodes = episodes.episodes
    episodes_df = pd.DataFrame([episode.to_dict() for episode in all_episodes])
    # episodes_df["date"] = episodes_df["date"].dt.strftime("%Y/%m/%d")
    episodes_df["duree (min)"] = (episodes_df["duree"] / 60).round(1)
    episodes_df.drop(
        columns=["url_telechargement", "audio_rel_filename", "type", "duree"],
        inplace=True,
    )
    return episodes_df


def print_episodes_info(episodes_df):
    print("### Informations sur les épisodes")
    print(f"{episodes_df.shape[0]} épisodes")
    print(f"{episodes_df['date'].min()} - {episodes_df['date'].max()}")
    # Compter les transcriptions disponibles et manquantes
    transcriptions_ok = episodes_df["transcription"].notna().sum()
    transcriptions_missing = episodes_df["transcription"].isna().sum()

    print(f"Transcriptions OK : {transcriptions_ok}")
    print(f"Transcriptions manquantes : {transcriptions_missing}")


def afficher_episodes(episodes_df):
    print("### Épisodes")
    print("Liste des épisodes du Masque et la Plume.")
    print_episodes_info(episodes_df)

    episodes_df = episodes_df.copy()
    episodes_df["date"] = episodes_df["date"].apply(lambda x: x.strftime(DATE_FORMAT))
    # Ajoutez ici le code pour afficher les épisodes
    return episodes_df

In [None]:
episodes_df = get_episodes()

# afficher episodes

In [None]:
afficher_episodes(episodes_df)

### Épisodes
Liste des épisodes du Masque et la Plume.
### Informations sur les épisodes
206 épisodes
1958-12-18 00:00:00 - 2025-01-26 10:59:39
Transcriptions OK : 206
Transcriptions manquantes : 0


Unnamed: 0,date,titre,description,transcription,duree (min)
0,26 janv. 2025,"Les nouveaux romans de Leïla Slimani, Pierre L...",durée : 00:47:56 - Le Masque et la Plume - par...,France Inter Le masque et la plume Le sommair...,47.9
1,12 janv. 2025,"Les nouvelles pages de Vanessa Springora, Haru...",durée : 00:48:41 - Le Masque et la Plume - par...,France Inter Le masque et la plume Premier ma...,48.7
2,22 déc. 2024,"Les nouvelles pages de Marc Dugain, Emmanuelle...",durée : 00:47:52 - Le Masque et la Plume - par...,France Inter Le masque et la plume Cinq roman...,47.9
3,01 déc. 2024,"Les nouvelles pages de James Ellroy, Yasmina R...",durée : 00:47:17 - Le Masque et la Plume - par...,France Inter Le masque et la plume Les nouvea...,47.3
4,10 nov. 2024,La foire du livre de Brive : les romans de Dan...,durée : 00:46:03 - Le Masque et la Plume - par...,France Inter Le masque et la plume Bienvenue ...,46.0
...,...,...,...,...,...
201,16 nov. 1961,"Le Masque et les Goncourt : ""La Pitié de Dieu""...",Le\n journaliste et écrivain Jean Cau répond a...,France Inter Ça a été votre disparition il y ...,9.0
202,16 nov. 1961,"Le Masque et les Goncourt : ""L'Etat sauvage"" d...","En\n 1964, les critiques du ""Masque et la plum...",France Inter en effet il y a plusieurs mois e...,5.0
203,15 déc. 1960,"Le Masque et les Goncourt : ""Dieu est né en ex...","En\n 1960, le prix Goncourt est attribué à Vin...",France Inter Qu'il s'agit encore une fois de ...,1.0
204,19 nov. 1959,"Le Masque et les Goncourt : ""Le Dernier des ju...","Un\n livre extraordinairement émouvant, ""Le De...",France Inter Commençons par le grand cours qu...,8.0


In [None]:
episodes[0].to_dict().get("date").strftime(DATE_FORMAT)

'26 janv. 2025'

In [None]:
selected_date = "2025/01/26"
# convert to datetime
selected_date_dt = datetime.strptime(selected_date, "%Y/%m/%d")
# convert to string
selected_date_str = selected_date_dt.strftime(DATE_FORMAT)

selected_date_str

'26 janv. 2025'

# nb mots transcription

In [None]:
import plotly.express as px


def nb_mots_transcription(episodes_df):
    print("### Nombre de mots par transcription")
    # Compter le nombre de mots dans chaque transcription

    episodes_df = episodes_df.copy()
    episodes_df["date"] = episodes_df["date"].apply(lambda x: x.strftime(DATE_FORMAT))
    # Calculer le nombre de mots par minute
    episodes_df["mots_par_minute"] = (
        episodes_df["transcription"].apply(lambda x: len(x.split()))
        / episodes_df["duree (min)"]
    )

    # Créer le graphique interactif
    fig = px.bar(
        episodes_df,
        x="date",
        y="mots_par_minute",
        custom_data=["date", "titre", "mots_par_minute", "duree (min)"],
        labels={"mots_par_minute": "Mots par Minute"},
        title="Nombre de Mots par Minute par Épisode",
    )

    # # Mettre à jour les informations de survol
    fig.update_traces(
        hovertemplate="<b>Date:</b> %{customdata[0]}<br><b>Titre:</b> %{customdata[1]}<br><b>Mots par Minute:</b> %{customdata[2]:.1f}<br><b>Duree en Minute:</b> %{customdata[3]:.1f}"
    )

    # Afficher le graphique
    fig.show()

In [None]:
nb_mots_transcription(episodes_df)

### Nombre de mots par transcription


# doublons

In [None]:
episodes_df

Unnamed: 0,date,titre,description,transcription,duree (min)
0,2025-01-26 10:59:39,"Les nouveaux romans de Leïla Slimani, Pierre L...",durée : 00:47:56 - Le Masque et la Plume - par...,France Inter Le masque et la plume Le sommair...,47.9
1,2025-01-12 10:59:39,"Les nouvelles pages de Vanessa Springora, Haru...",durée : 00:48:41 - Le Masque et la Plume - par...,France Inter Le masque et la plume Premier ma...,48.7
2,2024-12-22 09:59:39,"Les nouvelles pages de Marc Dugain, Emmanuelle...",durée : 00:47:52 - Le Masque et la Plume - par...,France Inter Le masque et la plume Cinq roman...,47.9
3,2024-12-01 09:59:39,"Les nouvelles pages de James Ellroy, Yasmina R...",durée : 00:47:17 - Le Masque et la Plume - par...,France Inter Le masque et la plume Les nouvea...,47.3
4,2024-11-10 09:59:39,La foire du livre de Brive : les romans de Dan...,durée : 00:46:03 - Le Masque et la Plume - par...,France Inter Le masque et la plume Bienvenue ...,46.0
...,...,...,...,...,...
201,1961-11-16 00:00:00,"Le Masque et les Goncourt : ""La Pitié de Dieu""...",Le\n journaliste et écrivain Jean Cau répond a...,France Inter Ça a été votre disparition il y ...,9.0
202,1961-11-16 00:00:00,"Le Masque et les Goncourt : ""L'Etat sauvage"" d...","En\n 1964, les critiques du ""Masque et la plum...",France Inter en effet il y a plusieurs mois e...,5.0
203,1960-12-15 00:00:00,"Le Masque et les Goncourt : ""Dieu est né en ex...","En\n 1960, le prix Goncourt est attribué à Vin...",France Inter Qu'il s'agit encore une fois de ...,1.0
204,1959-11-19 00:00:00,"Le Masque et les Goncourt : ""Le Dernier des ju...","Un\n livre extraordinairement émouvant, ""Le De...",France Inter Commençons par le grand cours qu...,8.0


In [None]:
# Calculer le nombre d'occurrences de chaque date
date_counts = episodes_df["date"].value_counts()

# Filtrer les dates qui apparaissent plus d'une fois
dates_with_multiple_episodes = date_counts[date_counts > 1]
dates_with_multiple_episodes

date
2022-10-02    3
2021-11-28    2
2018-11-25    2
2019-09-15    2
2020-11-01    2
2017-07-02    2
2016-09-11    2
1961-11-16    2
Name: count, dtype: int64