<div style="
    font-family: 'Arial', sans-serif; 
    line-height: 1.6; 
    color: #333; 
    border-left: 4px solid rgb(236, 143, 229); 
    padding: 10px 15px; 
    background-color:rgb(235, 199, 230); 
    border-radius: 5px;
">
    <h2 style="margin-top: 0; color:rgb(235, 0, 109);">IMPORTS</h2>
    <p>Cette section regroupe les bibliothèques nécessaires pour ce notebook. Assurez-vous que toutes sont bien installées avant de continuer :</p>
    <ul>
        <li><code>pandas</code> : Manipulation et analyse des données</li>
        <li><code>requests</code> : Récupération de données à partir d'une API ou d'une page web.</li>
        <li><code>BeautifulSoup</code> : Analyse et extraction des données de documents HTML et XML</li>
        <li><code>re</code> : Recherche et manipulation des motifs dans des chaînes de caractères</li>
        <li><code>time</code> : Fonctions liées au temps</li>
        <li><code>numpy</code> : Bibliothèque pour le calcul numérique</li>
        <li><code>youtube-transcript-api</code> : Bibliothèque pour avoir accès aux sous-titres des vidéos youtube</li> 
        <li><code>matplotlib</code> : Visualisation des données</li>
</ul>
    <p>Si des bibliothèques manquent, vous pouvez les installer avec <code>!pip install nom_bibliothèque</code>. Si cela ne marche toujours pas, pensez à redémarrer le kernel.</p>
</div>

In [68]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
from bs4 import BeautifulSoup as soup
import re
import time
import numpy as np
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import SRTFormatter
import matplotlib.pyplot as plt

La première étape de notre travail a été de récupérer les diverses données dont nous avions besoin afin d'essayer d'estimer l'impact des influenceurs de Youtube mais aussi des prix sur les livres les plus lus.

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>PARTIE 0: Base du gouvernement</strong>
</div>
<p>On veut importer cette base afin d'avoir un indicatif du nombre de livre déposés chaque année pour comparer les chiffres de la représentation des livres primés ou bien notés par les internautes entre l'ensemble des livres et les livres populaires.</p>

In [56]:
# on récupère les données de l'API du gouvernement sur le marché du livre
response = requests.get("https://www.data.gouv.fr/fr/datasets/r/1103c9d1-fc05-497d-968a-0fa2e0cb5bb1")

# Afficher le type de contenu et le texte brut de la réponse
print("Type de contenu :", response.headers.get("Content-Type"))

Type de contenu : application/json; charset=utf-8


In [57]:
wb = response.json()  # Utilisation de .json() sur l'objet réponse
print("Structure du JSON :")
print(wb)

Structure du JSON :
[{'annee': '2003', 'nombre_de_livres_deposes': 55302.0, 'nombre_de_titres_disponibles_titres_imprimes': None, 'nombre_de_titres_disponibles_titres_numeriques': None, 'production_commercialisee_nouveautes_et_nouvelles_editions_hors_auto_edition_edition_a_compte_d_aute': 44145.0, 'tirage_moyen': 7792.0, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_anglais': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_espagnol': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_germanique': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_italien': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_japonais': None, 'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_scandinave': None, 'part_des_traductions_dans_la_pro

On visualise la base de donnée et ses variables afin d'avoir une idée de ce qu'on pourrait exploiter. Ici, on s'intéressera surtout au nombre de livres déposés.

In [65]:
df_government = pd.json_normalize(wb) #on utilise la clé qu'on a observé dans le json
print(df_government)

   annee  nombre_de_livres_deposes  \
0   2003                   55302.0   
1   2007                   63761.0   
2   2008                   69658.0   
3   2016                   77986.0   
4   2021                   88016.0   
5   2023                       NaN   
6   2001                       NaN   
7   2005                   61761.0   
8   2011                   70109.0   
9   2012                   72139.0   
10  2000                       NaN   
11  2002                   53155.0   
12  2004                   60972.0   
13  2006                   62527.0   
14  2009                   66595.0   
15  2014                   80255.0   
16  2015                   76287.0   
17  2017                   81263.0   
18  2018                   82313.0   
19  2019                   79581.0   
20  2020                   64121.0   
21  2022                   81909.0   
22  2010                   67278.0   
23  2013                   74818.0   

    nombre_de_titres_disponibles_titres_imprimes 

In [66]:
print(df_government.columns)

Index(['annee', 'nombre_de_livres_deposes',
       'nombre_de_titres_disponibles_titres_imprimes',
       'nombre_de_titres_disponibles_titres_numeriques',
       'production_commercialisee_nouveautes_et_nouvelles_editions_hors_auto_edition_edition_a_compte_d_aute',
       'tirage_moyen',
       'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes',
       'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_anglais',
       'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_espagnol',
       'nombre_de_traductions_dans_la_production_commercialisee_de_livres_imprimes_germanique',
       ...
       'prets_dans_les_bibliotheques_municipales_et_intercommunales_tous_supports_en_millions',
       'achat_de_livres_imprimes_en_euros',
       'livres_entrees_de_documents_volumes_ou_unites_materielles',
       'livres_etrangers_entrees_de_documents_volumes_ou_unites_materielles',
       'livres_francais_entrees_de_documents_

On garde que les données entre 2019 et 2023: on prédit la popularité des livres en 2023 selon les prix sortis pendant les cinq années précédentes.

In [67]:
df_government = df_government[df_government["annee"].isin(['2019','2020','2021','2022','2023'])]

In [68]:
print(df_government)

   annee  nombre_de_livres_deposes  \
4   2021                   88016.0   
5   2023                       NaN   
19  2019                   79581.0   
20  2020                   64121.0   
21  2022                   81909.0   

    nombre_de_titres_disponibles_titres_imprimes  \
4                                       801987.0   
5                                       856210.0   
19                                      810130.0   
20                                      792201.0   
21                                      818558.0   

    nombre_de_titres_disponibles_titres_numeriques  \
4                                         336469.0   
5                                         391267.0   
19                                        308120.0   
20                                        323881.0   
21                                        354789.0   

    production_commercialisee_nouveautes_et_nouvelles_editions_hors_auto_edition_edition_a_compte_d_aute  \
4                        

Il n'y a pas de chiffre indiqué pour le nombre de livres déposés en 2021, toutefois, on peut calculer un taux de croissance moyen et ainsi l'estimer.

In [70]:
# d'abord on trie la base par ordre croissant en fonction des années
df_government = df_government.sort_values(by="annee")
df_government = df_government.reset_index(drop=True)

In [80]:
# on traite le NaN pour pouvoir faire notre opération sans problème et on convertit notre colonne en int
df_government['nombre_de_livres_deposes'] = df_government['nombre_de_livres_deposes'].fillna(0)
df_government['nombre_de_livres_deposes'] = df_government['nombre_de_livres_deposes'].fillna(0).astype(int)

In [86]:
print(df_government['nombre_de_livres_deposes'].dtype)

int64


In [87]:
df_government['nombre_de_livres_deposes'] = pd.to_numeric(df_government['nombre_de_livres_deposes'], errors='coerce')

In [90]:
non_numeric_values = df_government[~df_government['nombre_de_livres_deposes'].apply(pd.to_numeric, errors='coerce').notna()]
print(non_numeric_values[['nombre_de_livres_deposes']])

Empty DataFrame
Columns: [nombre_de_livres_deposes]
Index: []


In [94]:
# introduisons d'abord une variable taux de croissance dans la base
def croissance(row):
    global df_government
    if row["annee"]== "2019":
        taux = 0
    elif row["annee"]== "2023":
        taux = 0
    else: 
        index = row.name
        before_row = df_government.loc[index - 1]
        if pd.isna(row["nombre_de_livres_deposes"]) or pd.isna(before_row["nombre_de_livres_deposes"]):
            taux = None
        else:
            taux = (row["nombre_de_livres_deposes"] - before_row["nombre_de_livres_deposes"])/before_row["nombre_de_livres_deposes"]
    return taux

In [95]:
df_government['taux_de_croissance'] = df_government.apply(croissance, axis=1)

In [97]:
taux = df_government.loc[[1, 2, 3], 'taux_de_croissance']
print(taux)

1   -0.194267
2    0.372655
3   -0.069385
Name: taux_de_croissance, dtype: float64


In [102]:
# on fait la moyenne des taux pour importer une valeur dans la base de 2023
moy_taux = taux.mean()
df_government.loc[4, 'nombre_de_livres_deposes'] = int(df_government.loc[3, 'nombre_de_livres_deposes']*(1+moy_taux))

In [103]:
print(df_government)

  annee  nombre_de_livres_deposes  \
0  2019                   79581.0   
1  2020                   64121.0   
2  2021                   88016.0   
3  2022                   81909.0   
4  2023                   84885.0   

   nombre_de_titres_disponibles_titres_imprimes  \
0                                      810130.0   
1                                      792201.0   
2                                      801987.0   
3                                      818558.0   
4                                      856210.0   

   nombre_de_titres_disponibles_titres_numeriques  \
0                                        308120.0   
1                                        323881.0   
2                                        336469.0   
3                                        354789.0   
4                                        391267.0   

   production_commercialisee_nouveautes_et_nouvelles_editions_hors_auto_edition_edition_a_compte_d_aute  \
0                                           

On peut donc maintenant en faire un dossier csv pour ne pas avoir à refaire tourner le code à chaque fois.

In [104]:
df_government.to_csv("base_du_gouvernement.csv", index=False, encoding="utf-8")

#

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>PARTIE 1: Récupérer des données sur les livres les plus lus, de différente manière</strong>
</div>

##Récupération de l'API des bibliothèques de Paris afin d'estimer les cent livres les plus empruntés

Tout d'abord, formulons notre requête à l'API. On met comme limite 100 ouvrages car il s'agit de la limite de collecte possible au sein de l'API

In [70]:
response = requests.get("https://opendata.paris.fr/api/explore/v2.1/catalog/datasets/les-1000-titres-les-plus-reserves-dans-les-bibliotheques-de-pret/records?limit=100")

# Afficher le type de contenu et le texte brut de la réponse
print("Type de contenu :", response.headers.get("Content-Type"))

Type de contenu : application/json; charset=utf-8


Une fois l'API récupérée, on observe la structure du jeu de données pour savoir comment s'appelle la variable 'résultat' ( ici 'results') à appeler afin de créer notre dataframe panda.
On observe que tous les rangs ne sont pas dans la base. Notre hypothèse optimiste est qu'il y a peut-être des types d'ouvrage non classés dans cette base ( et ne nous intéressant pas puisque nous nous intéressons seulement aux livres, dont la catégorie existe dans la base). C'est une hypothèse qui nous semble probable étant donné que nous avons par la suite créé nous-même des trous dans le classement en enlevant les DVDs de ce dernier. Cependant, nous ne pouvons pas en être sûrs.

In [71]:
wb_bibli = response.json()  # Utilisation de .json() sur l'objet réponse
print("Structure du JSON :")
print(wb_bibli)

Structure du JSON :
{'total_count': 1000, 'results': [{'rang': 12, 'type_de_document': 'Livre adulte', 'reservations': 522.0, 'titre': "Réinventer l'amour : comment le patriarcat sabote les relations hétérosexuelles", 'auteur': 'Chollet,  Mona'}, {'rang': 13, 'type_de_document': 'Bande dessinée adulte', 'reservations': 521.0, 'titre': 'Le jeune acteur', 'auteur': 'Sattouf,  Riad'}, {'rang': 14, 'type_de_document': 'Bande dessinée adulte', 'reservations': 510.0, 'titre': 'Une jeunesse au Moyen-Orient, 1992-1994', 'auteur': 'Sattouf,  Riad'}, {'rang': 37, 'type_de_document': 'DVD tous publics', 'reservations': 337.0, 'titre': 'Dune', 'auteur': None}, {'rang': 58, 'type_de_document': 'DVD tous publics', 'reservations': 266.0, 'titre': 'Onoda. 10 000 nuits dans la jungle', 'auteur': None}, {'rang': 73, 'type_de_document': 'Nouveauté', 'reservations': 241.0, 'titre': 'Chien 51 : roman', 'auteur': 'Gaudé,  Laurent'}, {'rang': 87, 'type_de_document': 'Livre adulte', 'reservations': 225.0, 'ti

Création du dataframe.
On remarque qu'il y a parfois des catégories qui ne donnent pas assez d'information sur le type d'ouvrage, à l'image de "Nouveauté", ou encore de "None". Nous pensons qu'il peut être pertinent d'étudier l'impact différé des prix et de l'exposition sur Youtube selon le genre d'ouvrage , dans la limite du possible. Ainsi, nous avons décidé d'utiliser des méthodes de scraping pour compléter la base. Avant de faire cela, nous avons décidé d'enlever de la base tous les ouvrages de type DVDs, ces derniers ne nous intéressant pas dans le cadre de notre projet.

In [72]:
df_bibli= pd.json_normalize(wb_bibli['results'])
df_bibli.head(12)

Unnamed: 0,rang,type_de_document,reservations,titre,auteur
0,12,Livre adulte,522.0,Réinventer l'amour : comment le patriarcat sab...,"Chollet, Mona"
1,13,Bande dessinée adulte,521.0,Le jeune acteur,"Sattouf, Riad"
2,14,Bande dessinée adulte,510.0,"Une jeunesse au Moyen-Orient, 1992-1994","Sattouf, Riad"
3,37,DVD tous publics,337.0,Dune,
4,58,DVD tous publics,266.0,Onoda. 10 000 nuits dans la jungle,
5,73,Nouveauté,241.0,Chien 51 : roman,"Gaudé, Laurent"
6,87,Livre adulte,225.0,Le gosse : roman,"Olmi, Véronique"
7,109,Bande dessinée jeunesse,196.0,Attaque au clair de lune,"Oda, Eiichiro"
8,125,DVD nouveautés tous publics,177.0,West Side Story,
9,136,,170.0,Etés anglais,"Howard, Elizabeth Jane"


Tout d'abord, il est nécessaire de prendre connaissance de toutes les catégories pour savoir lesquelles remplacer, desquelles se débarasser...

In [73]:
print(df_bibli["type_de_document"].unique())

['Livre adulte' 'Bande dessinée adulte' 'DVD tous publics' 'Nouveauté'
 'Bande dessinée jeunesse' 'DVD nouveautés tous publics' None
 'Nouveauté jeunesse' 'Bande dessinée ado' 'Livre ado' 'Livre jeunesse']


Comme annoncé, on ne garde que les catégories qui nous intéresse ci-dessous.

In [74]:
doc = ["Livre adulte", "Bande dessinée adulte", "Nouveauté", "Bande dessinée jeunesse", "Nouveauté jeunesse",
 "Bande dessinée ado", "Livre ado", "Livre jeunesse", None]
df_bibli= df_bibli[df_bibli["type_de_document"].isin(doc)]

In [75]:
df_bibli.head(5)

Unnamed: 0,rang,type_de_document,reservations,titre,auteur
0,12,Livre adulte,522.0,Réinventer l'amour : comment le patriarcat sab...,"Chollet, Mona"
1,13,Bande dessinée adulte,521.0,Le jeune acteur,"Sattouf, Riad"
2,14,Bande dessinée adulte,510.0,"Une jeunesse au Moyen-Orient, 1992-1994","Sattouf, Riad"
5,73,Nouveauté,241.0,Chien 51 : roman,"Gaudé, Laurent"
6,87,Livre adulte,225.0,Le gosse : roman,"Olmi, Véronique"


On voit qu'il y a beaucoup de livres dans notre base dont le type n'est pas renseigné.

In [76]:
nouveau = ["Nouveauté", "Nouveauté jeunesse", None]
df_bibli_nouveau =  df_bibli[df_bibli["type_de_document"].isin(nouveau)]
print(df_bibli_nouveau)

    rang    type_de_document  reservations  \
5     73           Nouveauté         241.0   
9    136                None         170.0   
16   360                None         100.0   
19   394  Nouveauté jeunesse          95.0   
20   399           Nouveauté          95.0   
22   425  Nouveauté jeunesse          91.0   
29   501                None          84.0   
34   672           Nouveauté          71.0   
39   718                None          69.0   
40   720  Nouveauté jeunesse          68.0   
45   840                None          62.0   
46   860                None          61.0   
49   910           Nouveauté          60.0   
51   945           Nouveauté          58.0   
52   949           Nouveauté          58.0   
60    61                None         261.0   
66   217           Nouveauté         132.0   
69   233           Nouveauté         127.0   
71   275           Nouveauté         114.0   
74   333                None         103.0   
83   572                None      

Pour le scrapping, nous avons choisi de le faire sur livraddict puisqu'il s'agit d'un site où tous les titres sont en français, avec un type de fonction recherche pratique pour scrapper. Sur ce site sont de plus décrits tous les livres connus avec des catégorie toujours indiquées avec un code similaire.

Pour ce faire, nous avons d'abord générer une URL de recherche sur livraddict. On scrappe la page pour récupérer l'URL du premier résultat de la recherche

In [77]:
# Fonction pour rechercher un livre sur Babelio et accéder à la page du premier résultat
def search_livraddict(book_title):
    # URL de recherche sur Livraddict
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    search_url = f'https://www.livraddict.com/search.php?t={book_title}]'

    # Faire une requête pour récupérer la page des résultats de recherche
    response = requests.get(search_url, headers=headers).content
    # Trouver le premier élément correspondant au lien d'un résultat
    page = BeautifulSoup(response, "html.parser")
    first_result = page.select_one('.listing_recherche li .item_photo a')
    if first_result is not None:
        url = first_result['href']
        full_url = f"https://www.livraddict.com{url}"
        return full_url
    else:
        return None

On scrappe cette fois la page du premier résultat de la recherche précédente pour trouver les informations du livre.

In [78]:
def type_livre(info):
    if info is None:
        type_livre="Nom du livre pas trouvé sur Livraddict"
    else:
        # Normaliser les chaînes (supprimer les espaces et convertir en minuscules)
        info_0_normalized = info[0].strip().lower()
        info_1_normalized = info[1].strip().lower()

        if info_0_normalized in ["album", "artbook/beau livre", "bande-dessinée", "comics", "manga"] and info_1_normalized in ["petite enfance", "enfance"]:
            type_livre = "Bande dessinée jeunesse"

        elif info_0_normalized in ["album", "artbook/beau livre", "bande-dessinée", "comics", "manga"] and info_1_normalized in ["adolescence"]:
            type_livre = "Bande dessinée ado"

        elif info_0_normalized in ["album", "artbook/beau livre", "bande-dessinée", "comics", "manga"] and info_1_normalized in ["young adult", "adulte"]:
            type_livre = "Bande dessinée ado"

        elif info_0_normalized in ["correspondance", "documentaire", "essai", "livre pratique", "nouvelle(s)", "poésie", "roman", "théâtre"] and info_1_normalized in ["petite enfance", "enfance"]:
            type_livre = "Livre jeunesse"

        elif info_0_normalized in ["correspondance", "documentaire", "essai", "livre pratique", "nouvelle(s)", "poésie", "roman", "théâtre"] and info_1_normalized in ["adolescence"]:
            type_livre = "Livre ado"

        elif info_0_normalized in ["correspondance", "documentaire", "essai", "livre pratique", "nouvelle(s)", "poésie", "roman", "théâtre"] and info_1_normalized in ["young adult", "adulte"]:
            type_livre = "Livre adulte"

        else: type_livre= "Introuvable"
    return type_livre


In [79]:
def obtain_type(url):
    if url is not None:
        headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
        response = requests.get(url, headers=headers).content
        page = BeautifulSoup(response, "html.parser")
        c_format= page.find("div", class_= "book_classif book_format mr1")
        c_lectorat= page.find("div", class_="book_classif book_lectorat mr1")
        if c_format:
            a_format = c_format.find("a")
            format_livre = a_format.text
        else:
            format_livre = "Non renseigné"
        if c_lectorat:
            a_lectorat = c_lectorat.find("a")
            lectorat = a_lectorat.text
        else: 
            lectorat = "Non renseigné"
        info = [format_livre, lectorat]
        return info
    else:
        return None

Création d'une fonction qui assemble ces deux fonctions pour qu'à partir seulement d'un titre, on obtienne le type du livre.

In [80]:
def search_type_livre(titre):
    livre = titre.split()
    titre_livre = ""
    for i in range(0, len(livre) - 1):
        titre_livre = titre_livre + livre[i] + "+"
    titre_livre = titre_livre + livre[len(livre)-1]
    url = search_livraddict(titre_livre)
    infos = obtain_type(url)
    type_de_livre = type_livre(infos)
    return type_de_livre

Maintenant, on définit pour quel type de titre quelle fonction s'applique et pour quels livres on va chercher leur type.

In [81]:
def apply_search(row):
    nouveau = ["Nouveauté", "Nouveauté jeunesse", None]
    if row["type_de_document"] in nouveau:
        parties = row["titre"].split(".")
        parties_bis = row["titre"].split(":")

        #pour les séries avec nom de série, numéro tome, nom du tome
        if len(parties)==3:
            saga = parties[0].strip()
            tome = parties[1].strip()
            nom = parties[2].strip()
            if int(tome) < 10:
                type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+"0"+tome)
                if type_de_livre == "Nom du livre pas trouvé sur Livraddict":
                    type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+tome)
            elif int(tome)>= 10:
                type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+tome)
        
        #pour les séries avec que nom de série et numéro de tome
        elif len(parties)==2:
            saga = parties[0].strip()
            tome = parties[1].strip()
            if int(tome) < 10:
                type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+"0"+tome)
                if type_de_livre == "Nom du livre pas trouvé sur Livraddict":
                    type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+tome)
            elif int(tome)>= 10:
                type_de_livre = search_type_livre(saga+"+"+"tome"+"+"+tome)
        
        #pour les livre où il y a écrit le genre après le titre
        elif len(parties_bis) == 2:
            type_de_livre = search_type_livre(row["titre"])
            if type_de_livre == "Nom du livre pas trouvé sur Livraddict":
                nom = parties_bis[0].strip()
                type_de_livre = search_type_livre(nom)

        else:
            type_de_livre = search_type_livre(row["titre"])
        return type_de_livre


    else:
        return row["type_de_document"]

On applique enfin la fonction à notre dataframe. La fonction prend environ 2 minutes.

In [82]:
df_bibli['type_de_document'] = df_bibli.apply(apply_search, axis=1)

On regarde si des livres n'ont pas été trouvés. On remarque que tous les types de livre ont bien été trouvé ! Hourra

In [83]:
erreur_recherche = ["Nom du livre pas trouvé sur Livraddict"]
df_bibli_erreur =  df_bibli[df_bibli["type_de_document"].isin(erreur_recherche)]
print(df_bibli_erreur)

Empty DataFrame
Columns: [rang, type_de_document, reservations, titre, auteur]
Index: []


In [15]:
autre_erreur = ["Introuvable"]
df_bibli_int =  df_bibli[df_bibli["type_de_document"].isin(erreur_recherche)]
print(df_bibli_int)

Empty DataFrame
Columns: [rang, type_de_document, reservations, titre, auteur]
Index: []


Maintenant, on veut réordonner la base de manière à pouvoir mettre des rangs sans trous dans les numéros sur cette dernière. On commence pour ce faire par l'ordonner selon le rang, afin ensuite de numéroter les lignes dans l'ordre d'affichage.

In [16]:
df_bibli = df_bibli.sort_values(by="rang")
df_bibli = df_bibli.reset_index(drop=True)

In [17]:
nb_books = df_bibli[df_bibli['titre'].notna()].shape[0]
print(nb_books)

86


In [18]:
df_bibli['Classement_bibliothèque'] = None  # Initialiser avec None
df_bibli['Top_bibliothèque'] = None

# Remplir `classement` uniquement jusqu'à l'index 85
max_index = 85  # Exemple d'index limite
df_bibli.loc[df_bibli.index <= max_index, 'Classement_bibliothèque'] = range(1, min(len(df_bibli), max_index + 1) + 1)
df_bibli.loc[df_bibli.index <= max_index, 'Top_bibliothèque'] = 1

On vérifie pour finir le début de notre base pour s'assurer que notre variable marche bien.

In [19]:
df_bibli.head(5)

Unnamed: 0,rang,type_de_document,reservations,titre,auteur,Classement_bibliothèque,Top_bibliothèque
0,5,Livre adulte,755.0,La décision : roman,"Tuil, Karine",1,1
1,12,Livre adulte,522.0,Réinventer l'amour : comment le patriarcat sab...,"Chollet, Mona",2,1
2,13,Bande dessinée adulte,521.0,Le jeune acteur,"Sattouf, Riad",3,1
3,14,Bande dessinée adulte,510.0,"Une jeunesse au Moyen-Orient, 1992-1994","Sattouf, Riad",4,1
4,25,Livre adulte,398.0,Dans les brumes de Capelans,"Norek, Olivier",5,1


Enfin, nous avons jugé nécessaire d'harmoniser la syntaxe des titres dans les cas où il y a plusieurs tomes ( dans chaque base, il pouvait y avoir des façons différente de mettre en forme le titre d'un tomme de série, ce qui peut conduire à ne pas reconnaître que c'est le même ouvrage). Il y a aussi parfois précisé "roman" après le titre d'un ouvrage. Nous voulons enlever cette précision.

In [20]:
def harmonisation_tomes(row):
    parties = row["titre"].split(".")
    parties_bis = row["titre"].split(":")
    if len(parties)==3:
        saga = parties[0].strip()
        tome = parties[1].strip()
        nom = parties[2].strip()
        titre = saga + ', tome ' + tome + ' : ' + nom
    elif len(parties)==2:
        saga = parties[0].strip()
        tome = parties[1].strip()
        titre = saga + ', tome ' + tome
    elif len(parties_bis)==2:
        added = parties_bis[1].strip()
        if added == "roman":
            titre = parties_bis[0]
        else:
            titre = row["titre"]
    else:
        titre = row["titre"]
    return titre
    

In [21]:
df_bibli['titre'] = df_bibli.apply(harmonisation_tomes, axis=1)

Création d'un fichier csv pour plus tard fusionner les bases

In [22]:
df_bibli.to_csv("livres_les_plus_empruntes_a_paris.csv", index=False, encoding="utf-8")

##Récupération des tops des livres populaires de plusieurs sites

Les 23 livres les plus populaires en 2023 sur Babelio, on ajoute une colonne indicatrice pour qu'il y ait un 1 lors du merge de toutes les tables pour les livres qui sont dans le top Babelio.

In [23]:
# URL de la page à scrapper
babelio_top_2023 = "https://www.babelio.com/article/2543/Les-23-livres-les-plus-populaires-de-2023"

# on fait la requête HTTP vers la page
response = requests.get(babelio_top_2023)

# On utilise l'encodage détecté par requests
response.encoding = response.apparent_encoding

if response.status_code == 200:  # Vérifie que le site autorise le scraping
    soup = BeautifulSoup(response.text, 'html.parser')

    # Liste pour stocker les données extraites
    babelio_data = []

    # On trouve toutes les sections contenant les livres
    titles_sections = soup.find_all('span', class_='titre_global')
    for section in titles_sections:
        # On extrait le titre
        title_tag = section.find('a')
        title = title_tag.text.strip() if title_tag else None

        # On extrait l'auteur
        author_text = section.text.split("de")[-1].strip() if "de" in section.text else None
        author = author_text.split("\n")[0] if author_text else None

        # Ajouter aux données si titre et auteur sont présents
        if title and author:
            babelio_data.append([title, author])

    # On convertie les données en DataFrame
    df_babelio_data = pd.DataFrame(babelio_data, columns=['Titre', 'Auteur'])

    # Ajout de la colonne indicatrice "top_babelio"
    df_babelio_data['top_babelio'] = 1
else:
    print("Erreur dans la requête")

On regarde si tout va bien avec notre dataframe.

In [24]:
print(df_babelio_data)

                                                Titre                 Auteur  \
0                                  Les Aiguilles dor       Michael McDowell   
1                                        Triste tigre            Neige Sinno   
2                                     La Petite-Fille       Bernhard Schlink   
3       La prochaine fois que tu mordras la poussière       Panayotis Pascot   
4                                       Conte de fées           Stephen King   
5                                 Un il dans la nuit         Bernard Minier   
6                                  Un abri de fortune  fortune d'Agnès Ledig   
7                              Trois vies par semaine           Michel Bussi   
8   Im not your soulmate, tome 1 : The Perfect Match              Lyla Mars   
9                                        Sur la dalle            Fred Vargas   
10            Le Bureau d'éclaircissement des destins          Gaëlle Nohant   
11  Les Sept Surs, tome 8 : Atlas, l'hi

On voit qu'il y a quelques problèmes, mais c'est rapide à corriger à la main

In [25]:
df_babelio_data.loc[df_babelio_data['Titre'] == "Un il dans la nuit",'Titre'] = 'Un oeil dans la nuit'
df_babelio_data.loc[df_babelio_data['Auteur'] == "fortune d'Agnès Ledig",'Auteur'] = 'Agnès Ledig'
df_babelio_data.loc[df_babelio_data['Titre'] == "La Femme de ménage",'Auteur'] = 'Freida McFadden'
df_babelio_data.loc[df_babelio_data['Titre'] == "La Femme de ménage",'Titre'] = 'La Femme de ménage, tome 1'
df_babelio_data.loc[df_babelio_data['Titre'] == "Les Sept Surs, tome 8 : Atlas, l'histoire de Pa Salt",'Titre'] = "Les Sept Soeurs, tome 8 : Atlas, l'histoire de Pa Salt"

In [26]:
print(df_babelio_data)

                                                Titre                Auteur  \
0                                  Les Aiguilles dor      Michael McDowell   
1                                        Triste tigre           Neige Sinno   
2                                     La Petite-Fille      Bernhard Schlink   
3       La prochaine fois que tu mordras la poussière      Panayotis Pascot   
4                                       Conte de fées          Stephen King   
5                                Un oeil dans la nuit        Bernard Minier   
6                                  Un abri de fortune           Agnès Ledig   
7                              Trois vies par semaine          Michel Bussi   
8   Im not your soulmate, tome 1 : The Perfect Match             Lyla Mars   
9                                        Sur la dalle           Fred Vargas   
10            Le Bureau d'éclaircissement des destins         Gaëlle Nohant   
11  Les Sept Soeurs, tome 8 : Atlas, l'histoire de..

Pour la partie de l'analyse descriptive, il peut être intéressant d'avoir le rang au sein du top des différents ouvrages. Nous l'ajoutons. Pour ce faire, il faut numéroter à l'inverse la base puisque sur la page de Babelio, le classement est décroissant ( le moins populaire du top donné au début et le plus populaire donné à la toute fin).

In [27]:
df_babelio_data = df_babelio_data.iloc[::-1]
df_babelio_data = df_babelio_data.reset_index(drop=True)

In [29]:
#on introduit la variable indiquant le classement
df_babelio_data['classement_babelio'] = None  # Initialiser avec None
df_babelio_data.loc[df_babelio_data.index <= len(df_babelio_data), 'classement_babelio'] = range(1, len(df_babelio_data) + 1)

In [30]:
print(df_babelio_data)

                                                Titre                Auteur  \
0                         Les Femmes du bout du monde      Mélissa Da Costa   
1                                    Veiller sur elle  Jean-Baptiste Andrea   
2                                       À tout jamais        Colleen Hoover   
3                             Le Silence et la Colère       Pierre Lemaitre   
4                                       Une belle vie     Virginie Grimaldi   
5                                     Captive, tome 2          Sarah Rivens   
6                                           La Faille       Franck Thilliez   
7                          La Femme de ménage, tome 1       Freida McFadden   
8                       Ceci n'est pas un fait divers       Philippe Besson   
9                                            L'Enragé        Sorj Chalandon   
10     Seasons, tome 1 : Un automne pour te pardonner     Morgane Moncomble   
11  Les Sept Soeurs, tome 8 : Atlas, l'histoire de..

Création du fichier csv pour plus tard merge les bases.

In [31]:
df_babelio_data.to_csv("23_livres_les_plus_lus_babelio.csv", index=False, encoding="utf-8")

Récupération des livres les plus vendus à la Fnac entre janvier et décembre 2023. Nous avons pensé que ce serait pertinent de récupérer les Best sellers afin de diminuer le biais des autres données dont nous possédons ( les personnes fréquentant les bibliothèques de Paris ou inscrivant leurs lectures sur Babelio étant un échantillon très biaisé).

In [29]:
def scrape_titles_and_authors(url, month): # cette fonction prend pour argument l'url et le mois
    response = requests.get(url)
    response.encoding = "utf-8"  # pour garantir le bon encodage
    data = [] #on crée une liste vide où on va mettre les données scrappées

    if response.status_code == 200:  # On vérifie si la requête est un succès
        soup = BeautifulSoup(response.text, 'html.parser') #on précie la manière de parcourir le code

        # On recherche toutes les balises <h2> avec la classe "title-part"
        titles = soup.find_all('h2', class_='title-part')
        for title in titles:
            raw_text = title.text.strip()  # Texte brut pour manipulation

            # Debugging : Afficher le texte brut
            print(f"Texte brut extrait : {raw_text}")

            # On fait un regex pour extraire les informations
            match = re.match(r'^(\d+)\s[–—]\s(.+?)\s[–—]\s(.+?)(?:[,/]\s(.+?))?\s\((.+?)\)$', raw_text)
            if match:
                classement = match.group(1).strip()  # Classement
                titre = match.group(2).strip()  # Titre
                auteur_principal = match.group(3).strip()  # Auteur principal
                co_auteur_raw = match.group(4).strip() if match.group(4) else None  # Co-auteur brut (facultatif)
                maison_edition = match.group(5).strip()  # Maison d'édition

                # Traitement des co-auteurs pour les séparer en liste
                co_auteurs = []
                if co_auteur_raw:
                    co_auteurs = re.split(r',\s|/\s', co_auteur_raw)  # Diviser par virgule ou slash

                # Ajouter les informations dans la liste (sans maison d'édition)
                data.append([month, classement, titre, auteur_principal] + co_auteurs[:2])  # Max 2 co-auteurs
    else:
        print(f"Erreur lors du scraping de {month}: Status code {response.status_code}")

    return data

Liste des URL à scrapper pour récupérer tous les bestsellers de 2023.

In [30]:
urls_months = [
    ("https://leclaireur.fnac.com/selection/cp50350-top-10-les-best-sellers-du-mois-de-janvier-2023/", "Janvier"),
    ("https://leclaireur.fnac.com/selection/cp50709-top-10-les-best-sellers-du-mois-de-fevrier-2023/", "Février"),
    ("https://leclaireur.fnac.com/selection/cp43551-top-10-les-best-sellers-de-mars-2023/", "Mars"),
    ("https://leclaireur.fnac.com/selection/cp44047-top-10-les-best-sellers-davril-2023/", "Avril"),
    ("https://leclaireur.fnac.com/selection/cp48182-top-10-les-best-sellers-de-mai-2023/", "Mai"),
    ("https://leclaireur.fnac.com/selection/cp48395-top-10-les-best-sellers-de-juin-2023/", "Juin"),
    ("https://leclaireur.fnac.com/selection/cp40500-top-10-les-best-sellers-de-juillet-2023/", "Juillet"),
    ("https://leclaireur.fnac.com/selection/cp48936-top-10-les-best-sellers-du-mois-daout-2023/", "Août"),
    ("https://leclaireur.fnac.com/selection/cp49107-top-10-les-best-sellers-du-mois-de-septembre-2023/", "Septembre"),
    ("https://leclaireur.fnac.com/selection/cp49482-top-10-les-best-sellers-du-mois-doctobre-2023/", "Octobre"),
    ("https://leclaireur.fnac.com/selection/cp53758-top-10-les-best-sellers-du-mois-de-novembre-2023/", "Novembre"),
    ("https://leclaireur.fnac.com/selection/cp49831-top-10-les-best-sellers-du-mois-de-decembre-2023/", "Décembre"),
]

On construit notre base de données: 

In [31]:
# On initialise la liste pour toutes les données
top_data_2023 = []

# On scrape chaque URL
for url, month in urls_months:
    print(f"Scraping pour le mois de {month}...")
    month_data = scrape_titles_and_authors(url, month)
    top_data_2023.extend(month_data)

# Conversion des données en DataFrame pandas
df_top_books_2023 = pd.DataFrame(top_data_2023, columns=["Mois", "Classement", "Titre", "Auteur", "Co_auteur1", "Co_auteur2"])

# Création de la variable indicatrice "top_fnac_1" (tous les livres ont un classement)
df_top_books_2023['top_fnac_1'] = 1

# Comptage des occurrences des livres pour créer "top_fnac_2_plus"
counts = df_top_books_2023['Titre'].value_counts()
df_top_books_2023['top_fnac_2_plus'] = df_top_books_2023['Titre'].apply(lambda x: 1 if counts[x] > 1 else 0)

# Suppression des colonnes "Mois" et "Classement", et suppression des doublons
df_top_books_2023 = df_top_books_2023.drop(columns=["Mois", "Classement"]).drop_duplicates(subset=['Titre'])

Scraping pour le mois de Janvier...
Texte brut extrait : 1 – Captive, Tome 2 – Sarah Rivens (BMR)
Texte brut extrait : 2 – Le Suppléant – Prince Harry (Fayard)
Texte brut extrait : 3 – À tout jamais – Colleen Hoover (Hugo Roman)
Texte brut extrait : 4 – Le Silence et la colère – Pierre Lemaitre (Calmann Lévy)
Texte brut extrait : 5 – Le Monde sans fin, miracle énergétique et dérive climatique – Christophe Blain, Jean-Marc Jancovici (Dargaud)
Texte brut extrait : 6 – Captive, Tome 1 – Sarah Rivens (BMR)
Texte brut extrait : 7 – Plus jamais sans moi – Maud Ankaoua (Eyrolles)
Texte brut extrait : 8 – Captive, Tome 1.5 : Perfectly Wrong – Sarah Rivens (BMR)
Texte brut extrait : 9 – Le Mage du Kremlin – Giuliano Da Empoli (Gallimard)
Texte brut extrait : 10 – Kaamelott, Tome 10, Karadoc Et L’Icosaèdre – Steven Dupré, Alexandre Astier (Casterman)
Texte brut extrait : Partagez vos coups de cœur sur le Forum des Lecteurs
Scraping pour le mois de Février...


Texte brut extrait : 1 – À tout jamais – Colleen Hoover (Hugo Roman)
Texte brut extrait : 2 – Astérix, Hors collection : L’Empire du milieu – Fabrice Tarrin / Olivier Gay (Albert René)
Texte brut extrait : 3 – Captive, Tome 2 – Sarah Rivens (BMR)
Texte brut extrait : 4 – Le Monde sans fin, miracle énergétique et dérive climatique – Christophe Blain / Jean-Marc Jancovici (Dargaud)
Texte brut extrait : 5 – Connaissance illimitée – Mohamed Boclet (Robert Laffont)
Texte brut extrait : 6 – Le Silence et la colère – Pierre Lemaitre (Calmann Lévy)
Texte brut extrait : 7 – Le Mage du Kremlin – Giuliano Da Empoli (Gallimard)
Texte brut extrait : 8 – La Nuit où les étoiles ses sont éteintes, Tome 1 – Nine Gorman / Marie Alhinho (Albin Michel jeunesse)
Texte brut extrait : 9 – Le Suppléant – Prince Harry (Fayard)
Texte brut extrait : 10 – Plus jamais sans moi – Maud Ankaoua (Eyrolles)
Texte brut extrait : Partagez vos coups de cœur sur le Forum des Lecteurs
Scraping pour le mois de Mars...
Texte 

On affiche le dataframe pour vérifier qu'il n'y a pas de problèmes

In [32]:
print(df_top_books_2023)

                                                 Titre            Auteur  \
0                                      Captive, Tome 2      Sarah Rivens   
1                                         Le Suppléant      Prince Harry   
2                                        À tout jamais    Colleen Hoover   
3                              Le Silence et la colère   Pierre Lemaitre   
4    Le Monde sans fin, miracle énergétique et déri...  Christophe Blain   
..                                                 ...               ...   
105             Largo Winch, Tome 24 : Le Centile d’or        Giacometti   
107                               Lou, Tome 2 : Sonata       Julien Neel   
108                                Ma vie sans gravité    Thomas Pesquet   
114  Mortelle Adèle et les reliques du chat lune, T...            Mr Tan   
117                               Lou ! Sonata, Tome 2       Julien Neel   

              Co_auteur1 Co_auteur2  top_fnac_1  top_fnac_2_plus  
0                   

On corrige les quelques incohérences à la main

In [33]:
df_top_books_2023.loc[df_top_books_2023['Auteur'] == "Hors collection : L’Empire du milieu – Fabrice Tarrin",['Titre', 'Auteur']] = ['Astérix, Hors collection : L’Empire du milieu', "Fabrice Tarrin"]
df_top_books_2023.loc[df_top_books_2023['Auteur'] == "Blake et Mortimer,Avant Blake et Mortimer T2 : La Flèche ardente – Van Hamme",['Titre', 'Auteur']] = ['Blake et Mortimer, Avant Blake et Mortimer, Tome 2 : La Flèche ardente', "Van Hamme"]
df_top_books_2023.loc[df_top_books_2023['Auteur'] == "Avant Blake et Mortimer T2 : La Flèche ardente – Van Hamme",['Titre', 'Auteur']] = ['Blake et Mortimer, Avant Blake et Mortimer, Tome 2 : La Flèche ardente', "Van Hamme"]
df_top_books_2023.loc[df_top_books_2023['Titre'] == "Bleak",['Titre', 'Auteur', 'Co_auteur1']] = ['Bleak,3 histoires d’horreur,Volume 2', "Squeezie", None]
df_top_books_2023.loc[df_top_books_2023['Titre'] == "La Nuit où les étoiles ses sont éteintes",'Titre'] = 'La Nuit où les étoiles se sont éteintes'
df_top_books_2023.loc[df_top_books_2023['Titre'] == "Un œil dans la nuit",'Titre'] = 'Un oeil dans la nuit'

Maintenant, pour harmoniser cette base et rendre plus simple le merge, nous avons voulu mettre tous les auteurs dans la colonne Auteur et enlever les colonnes de co-auteurs

In [34]:
def column_author(row):
    if row['Co_auteur1'] is not None and row['Co_auteur2'] is not None:
        author= row['Auteur'] + ', '+ row['Co_auteur1'] + ', '+ row['Co_auteur2']
    elif row['Co_auteur1'] is not None and row['Co_auteur2'] is None:
        author= row['Auteur'] + ', '+ row['Co_auteur1']
    else:
        author = row['Auteur']
    return author

In [35]:
df_top_books_2023['Auteur'] = df_top_books_2023.apply(column_author, axis=1)

On vérifie que cela a bien marché

In [36]:
df_top_books_2023.head(10)

Unnamed: 0,Titre,Auteur,Co_auteur1,Co_auteur2,top_fnac_1,top_fnac_2_plus
0,"Captive, Tome 2",Sarah Rivens,,,1,1
1,Le Suppléant,Prince Harry,,,1,1
2,À tout jamais,Colleen Hoover,,,1,1
3,Le Silence et la colère,Pierre Lemaitre,,,1,1
4,"Le Monde sans fin, miracle énergétique et déri...","Christophe Blain, Jean-Marc Jancovici",Jean-Marc Jancovici,,1,1
5,"Captive, Tome 1",Sarah Rivens,,,1,1
6,Plus jamais sans moi,Maud Ankaoua,,,1,1
7,"Captive, Tome 1.5 : Perfectly Wrong",Sarah Rivens,,,1,0
8,Le Mage du Kremlin,Giuliano Da Empoli,,,1,1
9,"Kaamelott, Tome 10, Karadoc Et L’Icosaèdre","Steven Dupré, Alexandre Astier",Alexandre Astier,,1,0


On peut donc maintenant enlever les colonnes indésirables.

In [37]:
df_top_books_2023 = df_top_books_2023.drop(columns=['Co_auteur1', 'Co_auteur2'])

In [38]:
df_top_books_2023.head(5)

Unnamed: 0,Titre,Auteur,top_fnac_1,top_fnac_2_plus
0,"Captive, Tome 2",Sarah Rivens,1,1
1,Le Suppléant,Prince Harry,1,1
2,À tout jamais,Colleen Hoover,1,1
3,Le Silence et la colère,Pierre Lemaitre,1,1
4,"Le Monde sans fin, miracle énergétique et déri...","Christophe Blain, Jean-Marc Jancovici",1,1


Enfin, on enlève désormais les doublons.

In [39]:
df_top_books_2023 = df_top_books_2023.drop_duplicates(subset=['Titre'])

Certains titres ne sont pas enregistrés avec la même syntaxe ce qui crée des doublons d'une part et risque de gêner la fusion de tables par la suite. Nous allons rétablir la bonne syntaxe Titre, tome numéro: titre. Dans le cas ou le titre est présent deux fois on supprime la mauvais syntaxe et on s'assure que la variable binaire top_fnac_2_plus vaux 1. 

In [40]:
# On supprime les lignes où "Titre" correspond à certaines valeurs pour ceux qui sont des doublons
valeurs_a_supprimer = [
    "Captive T1",
    "Astérix",
    "Astérix Tome 40 : L’Iris blanc",
    "Lou, Tome 2 : Sonata",
    "La Nuit où les étoiles ses sont éteintes T1",
    "Bleak, 3 histoires d’horreur Volume 2",
    "Elles, Tome 3 : Plurielle(s)","Kid Toussaint, Aveline Stokart"
]

# On  sélectionne toutes les lignes du DataFrame où la colonne 'Titre' ne correspond pas à l'une des valeurs de valeurs_a_supprimer 
df_top_books_2023 = df_top_books_2023[~df_top_books_2023['Titre'].isin(valeurs_a_supprimer)] # '~' permet d'inverser la condition, et 'isin' vérifie si une valeur se trouve dans la liste valeurs_a_supprimer


# On met la variable top_fnac_2_plus à 1 pour les titres qu'on a supprimé car ils étaient bien présent deux fois
valeurs_a_mettre_a_1 = [
    "Captive, Tome 1",
    "Astérix, Hors collection : L’Empire du milieu",
    "Astérix, Tome 40 : L’Iris blanc",
    "Lou ! Sonata, Tome 2",
    "La Nuit où les étoiles ses sont éteintes, Tome 1",
    "Bleak, 3 histoires d’horreur,Volume 2",
    "Elles, Tome 3 : Plurielle(s)","Kid Toussaint, Aveline Stokart"
]

df_top_books_2023.loc[
    df_top_books_2023['Titre'].isin(valeurs_a_mettre_a_1), 'top_fnac_2_plus'
] = 1

# On corrige à la main les autres syntaxes incorrectes qui ne sont pas des doublons
df_top_books_2023['Titre'] = df_top_books_2023['Titre'].str.replace(
    r'(Tome 10),', r'\1 :', regex=True
)
df_top_books_2023.loc[df_top_books_2023['Titre'] == 'Blake et Mortimer, Avant Blake et Mortimer, Tome 2 : La Flèche ardente', 'Titre'] = 'Avant Blake et Mortimer, Tome 2 : La Flèche ardente'
df_top_books_2023.loc[df_top_books_2023['Titre'] == 'Les Cahiers d’Esther, Tome8 : Histoires de mes 17 ans', 'Titre'] = 'Les Cahiers d’Esther, Tome 8 : Histoires de mes 17 ans'
df_top_books_2023.loc[df_top_books_2023['Titre'] == 'Bleak, 3 histoires d’horreur,Volume 2', 'Titre'] = 'Bleak, 3 histoires d’horreur, Tome 2'
df_top_books_2023.loc[df_top_books_2023['Titre'] == 'Les sept sœurs : Atlas, l’histoire de Pa Salt', 'Titre'] = "Les Sept Seurs, tome 8 : Atlas, l'histoire de Pa Salt"
df_top_books_2023.loc[df_top_books_2023['Titre'] == 'Les 4 Saisons, Tome 1 : Un automne pour te pardonner', 'Titre'] = "Seasons, tome 1 : Un automne pour te pardonner"

On modifie le fichier CSV pour merge plus tard les bases.

In [41]:
df_top_books_2023.to_csv("best_sellers_fnac_2023_cleaned.csv", index=False, encoding="utf-8")

#

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>Partie 2: Récupérer des données sur des systèmes permettant de juger de la qualité des livres.</strong>
</div>
<p>Le but est d'essayer de comprendre s'il y a une corrélation entre les livres lus et les livres jugés de qualité, mais aussi entre les livres jugés de qualité et les livres présentés dans des vidéos Youtube.</p>

Tout d'abord, on s'intéresse aux livres les mieux notés par les internautes sur livraddict qui est un réseau social littéraire. Le classement a été publié en 2024 mais porte sur les lectures et votes de 2023 sur les livres publiés en 2023. On en importe les titres et les auteurs.

In [42]:
# URL de la page à scrapper
livraddict_top_2023 = "https://www.livraddict.com/prix-livraddict/2024/"

# Requête HTTP vers la page
response = requests.get(livraddict_top_2023)
response.encoding = 'utf-8'

# On vérfie que le site autorise le scraping et on scrap si oui
if response.status_code == 200:  
    soup = BeautifulSoup(response.text, 'html.parser')

    # Liste pour stocker les données extraites
    livraddict_data = []

    # On parcourt toutes les catégories
    categories = soup.find_all('div', class_='categorie_prix portlet light')
    for category in categories:
        # On extrait le nom de la catégorie et supprime "catégorie" devant si présent
        category_name = category.find('h2').text.strip()
        if "catégorie" in category_name.lower():
            category_name = category_name.lower().replace("catégorie", "").strip().capitalize()

        # On parcourt les livres de la catégorie
        books = category.find_all('div', style=lambda x: x and "margin-bottom:10px" in x)
        for book in books:
            # On extrait le titre du livre
            title_tag = book.find('h3').find('a')
            title = title_tag.find('strong').text.strip() if title_tag else None

            # On extrait l'auteur du livre
            author = title_tag.contents[-1].strip() if title_tag else None

            # On ajoute les informations à la liste créée
            if title and author:
                livraddict_data.append([category_name, title, author])

    # On convertit les données en DataFrame
    df_livraddict_data = pd.DataFrame(livraddict_data, columns=['Catégorie', 'Titre', 'Auteur'])

    # On ajoute une colonne indicatrice "top_livraddict"
    df_livraddict_data['top_livraddict'] = 1
else:
    print("Erreur {response.status_code} lors de la requête.")

On regarde la base pour s'assurer qu'il n'y ait pas d'incohérence et pour se familiariser avec

In [43]:
df_livraddict_data.head(10)

Unnamed: 0,Catégorie,Titre,Auteur,top_livraddict
0,Young adult,"Engélion, tome 1 : Illuminer les Cieux",Justine Tiphagne,1
1,Young adult,Tant que fleuriront les citronniers (As Long a...,Zoulfa Katouh,1
2,Young adult,L'effet Boule de neige,Clara Héraut,1
3,Young adult,"Écarlate sous la cendre, tome 1",Élisabeth Koshava,1
4,Young adult,Le sirénien,Capucine Sergent,1
5,Jeunesse,Wonka,Sibéal Pounder,1
6,Jeunesse,L'étoile du soir,Siècle Vaëlban,1
7,Jeunesse,"Les clans du ciel, tome 1 : La quête d'Ellie (...",Jessica Khoury,1
8,Jeunesse,"Crook Haven, tome 1 : L'école des voleurs (Cr...",J. J. Arcanjo,1
9,Jeunesse,"Sentinelles du Royaume Sauvage, tome 1",Alexandra Ott,1


Nous remarquons qu'il y a parfois des parenthèses à la fin du titre précisant le genre du livre ou le titre en anglais. Pour faciliter le futur merge des bases, on enlève ça.

In [44]:
df_livraddict_data['Titre'] = df_livraddict_data['Titre'].str.replace(r'\(.*\)', '', regex=True)

Correction d'une petite erreur de format: il y a un espace alors qu'il ne devrait pas y en avoir

In [45]:
df_livraddict_data.loc[df_livraddict_data['Titre'] == 'Lies , tome 1 : Only Lies', 'Titre'] = 'Lies, tome 1 : Only Lies'

Création du fichier csv

In [46]:
df_livraddict_data.to_csv('livraddict_prix_2024.csv', index=False, encoding='utf-8')

Récupération de tous les prix littéraires français connus de Wikipédia entre 2019 et 2023

Création d'un dataframe vide pour ensuite entrer les donner scrappées.

In [47]:
colonnes = ['Année', 'Prix', 'Auteur', 'Titre']

# Créer un DataFrame vide avec ces colonnes
df_wikipedia = pd.DataFrame(columns=colonnes)

print(df_wikipedia)

Empty DataFrame
Columns: [Année, Prix, Auteur, Titre]
Index: []


Scrapping sur wikipedia

In [48]:
def scrape_wikipedia_page_france(year):
    global df_wikipedia
    url = f"https://fr.wikipedia.org/wiki/Prix_litt%C3%A9raires_{year}"
    response = requests.get(url)
    response.encoding = "utf-8"  # On garantit le bon encodage

    if response.status_code == 200:  # On vérifie si la requête est un succès
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')

        # On recherche la section France
        france_section = soup.find('h2', string="France")
        if france_section:
            # La liste <ul> qui suit contient les prix pour la France
            france_list = france_section.find_next('ul')

            if france_list:
                # On recherche tous les <li> dans la liste
                prizes = france_list.find_all('li')

                # On extrait les données
                for prize in prizes:
                    # Nom du prix
                    prize_name = prize.find('a')
                    prize_name = prize_name.text.strip() if prize_name else None

                    # Auteur
                    author = prize.find_all('a')
                    author = author[1].text.strip() if len(author) > 1 else None

                    # Titre
                    title = prize.find('i')
                    title = title.text.strip() if title else None

                    # On ajoute les résultats si les données sont complètes
                    if prize_name and author and title:
                        new_row = {'Année': year, 'Prix': prize_name, 'Auteur': author, 'Titre': title}
                        df_wikipedia = pd.concat([df_wikipedia, pd.DataFrame([new_row])], ignore_index=True)
        else:
            print(f"Section 'France' non trouvée pour l'année {year}")
    else:
        print(f"Erreur lors du scraping de l'année {year}: Status code {response.status_code}")

    return df_wikipedia

In [49]:
for year in range(2019, 2024):
    scrape_wikipedia_page_france(year)

Quand on regarde les données, on voit bien qu'il y a de gros problèmes. En regardant le fichier csv, c'est d'autant plus flagrant. Nous avons identifiés plusieurs types de problèmes, que nous avons étudié puis corrigé soit manuellement quand il ne concernait que quelques lignes, soit automatiquement, en scrappant sur un autre site

In [50]:
df_wikipedia.head(5)

Unnamed: 0,Année,Prix,Auteur,Titre
0,2019,Prix Femina,Par les routes,Par les routes
1,2019,Prix Femina étranger,Ordesa,Ordesa
2,2019,Prix Femina essai,Emmanuelle Lambert,Giono furioso
3,2019,Prix Femina des lycéens,La Chaleur,La Chaleur
4,2019,Prix Goncourt,Tous les hommes n'habitent pas le monde de la ...,Tous les hommes n'habitent pas le monde de la ...


Premier type d'incohérence ( aussi le plus important): il y a eu une erreur dans le scrapping de nombreux ouvrages sur Wikipédia qui a fait qu'on a deux fois le Titre des livres au lieu d'en avoir l'auteur ou les auteurs. Ce problème concerne 81 ligne, ce qui est un nombre considérable

In [51]:
df_double = df_wikipedia[df_wikipedia['Auteur']==df_wikipedia['Titre']]
print(df_double)

    Année                                         Prix  \
0    2019                                  Prix Femina   
1    2019                         Prix Femina étranger   
3    2019                      Prix Femina des lycéens   
4    2019                                Prix Goncourt   
5    2019               Prix Goncourt du premier roman   
..    ...                                          ...   
189  2022  Grand prix du roman de l'Académie française   
218  2022                          Grand prix RTL-Lire   
223  2022                    Grand Prix Roman de l'été   
290  2023                    Grand Prix Roman de l'été   
292  2023                                   Ada Palmer   

                                                Auteur  \
0                                       Par les routes   
1                                               Ordesa   
3                                           La Chaleur   
4    Tous les hommes n'habitent pas le monde de la ...   
5            

Le deuxième grand problème que nous avons rencontré est le remplacement des noms d'auteurs par des chiffres entre crochets pour 13 lignes.

In [52]:
df_ch = df_wikipedia[df_wikipedia['Auteur'].str.contains(r'^\[\d+\]$')]
print(df_ch)

    Année                                  Prix Auteur  \
104  2020              Prix littéraire du Monde    [4]   
150  2021                   Prix Première Plume    [3]   
157  2021  Prix Eugène-Dabit du roman populiste    [5]   
180  2022        Prix Goncourt de la biographie   [10]   
209  2022                           Anne Berest   [33]   
210  2022      Prix littéraire ENS Paris-Saclay   [34]   
214  2022             Prix du Quai des Orfèvres   [38]   
217  2022  Prix Eugène-Dabit du roman populiste   [41]   
222  2022      Grand prix des lectrices de Elle   [45]   
225  2022       Grand Prix de Poésie de la SGDL   [46]   
227  2022                           Prix Wepler   [47]   
247  2023        Prix Goncourt de la biographie   [45]   
297  2023   Prix littéraire de la Ville de Caen   [70]   

                              Titre  
104                           Monde  
150  Avant que le monde ne se ferme  
157              Des gens comme eux  
180           Léopold Sédar Senghor

Il y a parfois eu des incohérences dans les lignes correspondant à des prix en particulier.

cas 1: le prix François Mauriac. Le nom complet du prix est "Prix François Mauriac de l'Académie française". La deuxième partie de son nom a remplacé tous les noms d'auteurs sensés être récoltés lors du scrapping.

In [53]:
df_mauriac = df_wikipedia[df_wikipedia['Prix']=='Prix François-Mauriac']
print(df_mauriac)

    Année                   Prix              Auteur  \
53   2019  Prix François-Mauriac  Académie française   
90   2020  Prix François-Mauriac  Académie française   
199  2022  Prix François-Mauriac  Académie française   
267  2023  Prix François-Mauriac  Académie française   

                                  Titre  
53   Là-bas, août est un mois d'automne  
90               Un automne de Flaubert  
199                                Zita  
267   À l’abri des hommes et des choses  


Cas 2: Le prix Telerama. Tous les noms de livre ont été remplacés par la chaîne de caractère "Télérama". Les noms d'auteurs ne sont pour autant pas tout le temps juste puisqu'il y a parfois dans la colonne "Auteur" le titre apparent du livre au lieu d'y avoir le nom de la personne l'ayant écrit. Du fait du manque d'uniformité de ces incohérences, nous avons décidé de les corriger manuellement. 

In [54]:
df_telerama = df_wikipedia[df_wikipedia['Prix']=='Prix France Culture-Télérama']
print(df_telerama)

    Année                          Prix           Auteur     Titre
28   2019  Prix France Culture-Télérama        La Maison  Télérama
97   2020  Prix France Culture-Télérama         Chavirer  Télérama
208  2022  Prix France Culture-Télérama   Kaouther Adimi  Télérama
276  2023  Prix France Culture-Télérama  Salma El Moumni  Télérama


Correction manuelle: nous avons aussi rajouté une ligne pusiqu'il manquait l'année 2021.

In [55]:
df_wikipedia.loc[(df_wikipedia["Prix"] == "Prix France Culture-Télérama") & (df_wikipedia["Année"] == 2019), ["Auteur", "Titre"]] = ["Emma Becker", "La Maison"]
df_wikipedia.loc[(df_wikipedia["Prix"] == "Prix France Culture-Télérama") & (df_wikipedia["Année"] == 2020), ["Auteur", "Titre"]] = ["Lola Lafon", "Chavirer"]
df_wikipedia.loc[(df_wikipedia["Prix"] == "Prix France Culture-Télérama") & (df_wikipedia["Année"] == 2022), "Titre"] = "Au vent mauvais"
df_wikipedia.loc[(df_wikipedia["Prix"] == "Prix France Culture-Télérama") & (df_wikipedia["Année"] == 2023), "Titre"] = "Adieu Tanger"
nouvelle_ligne = pd.DataFrame({'Année': [2021], 'Prix': ["Prix France Culture-Télérama"], 'Auteur':['Mathieu Palain'], 'Titre':["Ne t'arrête pas de courir "]})
df_wikipedia = pd.concat([df_wikipedia, nouvelle_ligne], ignore_index=True)

cas 3: le prix Maya. Ici, ce sont les noms d'auteur qui ont été remplacés par "animaliste", un peu comme pour le prix François Mauriac. Il est donc possible d'automatiser le traitement de cette incohérence.

In [56]:
df_maya = df_wikipedia[df_wikipedia['Prix']=='Prix Maya']
print(df_maya)

    Année       Prix      Auteur                       Titre
61   2019  Prix Maya  animaliste  Les Paupières des poissons
124  2020  Prix Maya  animaliste            Insolente Veggie


cas 4: le prix Femme Actuelle. Ici, il n'y a ni titre ni auteur: les deux colonnes ont été remplacé par "Femme actuelle". De ce fait, il sera ici aussi nécessaire de corriger manuellement les erreur.

In [57]:
df_femme_a = df_wikipedia[df_wikipedia['Titre']=='Femme Actuelle']
print(df_femme_a)

    Année                       Prix          Auteur           Titre
46   2019  Grand Prix Roman de l'été  Femme Actuelle  Femme Actuelle
109  2020  Grand Prix Roman de l'été  Femme Actuelle  Femme Actuelle
162  2021  Grand Prix Roman de l'été  Femme Actuelle  Femme Actuelle
223  2022  Grand Prix Roman de l'été  Femme Actuelle  Femme Actuelle
290  2023  Grand Prix Roman de l'été  Femme Actuelle  Femme Actuelle


Correction manuelle

In [58]:
df_wikipedia.loc[df_wikipedia["Titre"] == "Femme Actuelle", "Prix"] = "Grand prix Roman de l'été de Femme Actuelle"

In [59]:
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Femme Actuelle') & (df_wikipedia['Année'] == 2019), ['Titre', 'Auteur']] = ['Au bout de la nuit', 'Bruno Bouzounie']
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Femme Actuelle') & (df_wikipedia['Année'] == 2020), ['Titre', 'Auteur']] = ['La Conjonction dorée', 'Benoît Sagaro']
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Femme Actuelle') & (df_wikipedia['Année'] == 2021), ['Titre', 'Auteur']] = ['Pour exister encore', 'Martine Duchesne']
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Femme Actuelle') & (df_wikipedia['Année'] == 2022), ['Titre', 'Auteur']] = ["Le journal de Betty Swan", 'Cindy Valt']
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Femme Actuelle') & (df_wikipedia['Année'] == 2023), ['Titre', 'Auteur']] = ['Hauteclaire', 'Dominique Delplace']

cas 5: Il y a aussi un problème avec les prix du journal le Monde, que nous avons corrigé manuellement.

In [60]:
df_monde = df_wikipedia[df_wikipedia['Titre']=='Monde']
print(df_monde)

    Année                      Prix               Auteur  Titre
42   2019  Prix littéraire du Monde  Une bête au paradis  Monde
104  2020  Prix littéraire du Monde                  [4]  Monde
221  2022  Prix littéraire du Monde       Mathieu Belezi  Monde
288  2023  Prix littéraire du Monde          Neige Sinno  Monde


In [61]:
df_wikipedia.loc[(df_wikipedia['Auteur'] == "Une bête au paradis") & (df_wikipedia['Titre'] == "Monde"),['Auteur','Titre']] = ['Cécile Coulon','Une bête au paradis']
df_wikipedia.loc[(df_wikipedia['Auteur'] == "Mathieu Belezi") & (df_wikipedia['Titre'] == "Monde"),'Titre'] = ['Attaquer la terre et le soleil']
df_wikipedia.loc[(df_wikipedia['Auteur'] == "Neige Sinno") & (df_wikipedia['Titre'] == "Monde"),'Titre'] = ['Triste tigre']
df_wikipedia.loc[(df_wikipedia['Année'] == "2020") & (df_wikipedia['Titre'] == "Monde"), ['Titre','Auteur']] = ['Elle a menti pour les ailes', 'Francesca Serra']

Enfin, nous avons fait la remarque plus de l'ordre de la mise en page qu'il y a parfois dans les cases des précisions entre parenthèses ou crochets sur l'auteur ou le titre, précisions qui ne font pas partie du nom ni du titre de l'ouvrage. Ainsi, pour faciliter la future opération merge, nous avons décidé d'enlever ces choses de trop.

In [62]:
df_wikipedia['Auteur'] = df_wikipedia['Auteur'].str.replace(r'\(.*\)', '', regex=True) #on enlève les parenthèses après les noms d'auteur
df_wikipedia['Auteur'] = df_wikipedia['Auteur'].str.replace(r'\[.*\]', '', regex=True) # on enlève aussi les éventuels crochets
df_wikipedia['Titre'] = df_wikipedia['Titre'].str.replace(r'\[.*\]', '', regex=True)

Il y a aussi des prix dont le nom nous a paru bizarre, mais étant donné que nous n'utilisons pas les noms des prix et construisons seulement une indicatrice indiquant si le livre a reçu un prix ou pas, nous n'en avons pas tenu compte

Nous avons commencé par compléter la base en scrappant Gallimard qui est un site fiable et bien codé. Le problème étant qu'il n'y a que les livres édités chez Gallimard sur ce site et donc qu'il faudra scrapper autre part pour compléter la base.

In [65]:
def search_gallimard(book_title, year):
    #reformulation du titre en différente partie
    parts = re.findall(r'\w+|[^\w\s]', book_title)
    book_title_gen = book_title.lower().strip()

    # URL de recherche sur Livraddict
    search_title = '+'.join(parts)
    lower_search_title = '%20'.join(parts).lower()
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:118.0) Gecko/20100101 Firefox/118.0'}
    search_url = f'https://www.gallimard.fr/catalogue?search_api_fulltext={search_title}&field_date_de_parution_1%5Bdate%5D={year}-01-01&field_date_de_parution_2%5Bdate%5D={year}-12-31&field_prix%5Bmin%5D=&field_prix%5Bmax%5D=&title_3=&items_per_page=20&sort_bef_combine=field_identifiant_catalogue_ASC'
    time.sleep(5)

    # Faire une requête pour récupérer la page des résultats de recherche
    response = requests.get(search_url, headers=headers).content
    response_text = response.decode('utf-8')
    # Trouver le premier élément correspondant au lien d'un résultat
    page = soup(response_text, "html.parser")
    results = page.find_all("div", class_ = "card--ouvrage")
    author = ''
    for i in range(len(results)):
        result = results[i]
        div_title = result.find("div", class_ = "title")
        title = div_title.text
        title_gen = title.lower().strip()
        if book_title_gen == title_gen:
            div_author = result.find('div', class_='paragraph paragraph--type--auteur paragraph--view-mode--links')
            a_author = div_author.find("a")
            author = a_author.text
    if author == '':
        author = "Pas trouvé sur Gallimard"
    return author

In [64]:
def search_author(row):
    if row["Auteur"] == row["Titre"] or re.match(r'^\[\d+\]$', row['Auteur']) or row['Prix']=='Prix François-Mauriac' or row['Prix']=='Prix Maya':
        author = search_gallimard(row["Titre"], row["Année"])
        if author == None:
            author = "Problème dans la fonction?"
        return author
    else:
        return row["Auteur"]

L'opération prend entre 7 et 8 minutes.

In [65]:
df_wikipedia['Auteur'] = df_wikipedia.apply(search_author, axis=1)

Comme nous l'avons indiqué plus haut, pour compléter ces données, nous avons scrapper sur le site de la Maison du Livre.

In [66]:
def search_maison_du_livre(book_title, year):
    #reformulation du titre en différente partie
    parts = re.findall(r'\w+|[^\w\s]', book_title)
    book_title_gen = book_title.lower().strip()

    # URL de recherche sur Livraddict
    search_title = '+'.join(parts)
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:118.0) Gecko/20100101 Firefox/118.0'}
    search_url = f'https://www.maisondulivre.com/listeliv.php?base=paper&mots_recherche={search_title}+{year}'
    time.sleep(5)

    # Faire une requête pour récupérer la page des résultats de recherche
    response = requests.get(search_url, headers=headers).content
    response_text = response.decode('utf-8')

    # Trouver le premier élément correspondant au lien d'un résultat
    page = soup(response_text, "html.parser")
    liste_livres = page.find('ul', {'id': 'liste_livres'})
    livres = liste_livres.find_all("li")
    author = ''
    for i in range(len(livres)):
        livre = livres[i]
        h2_titre = livre.find("h2", class_="livre_titre")
        if h2_titre:
            a_titre = h2_titre.find("a")
            titre = a_titre.get_text(strip=True)
            title_adapted = re.sub(r'\s?\(.*?\)', '', titre)
            title_gen = title_adapted.lower().strip()
            if title_gen == book_title_gen:
                h2_auteur = livre.find("h2", class_ = "livre_auteur")
                if h2_auteur == None:
                    auteur = "Auteur non renseigné"
                else:
                    a_auteur = h2_auteur.find("a")
                    author = a_auteur.get_text(strip=True)
    if author == '':
        author = "Livre pas trouvé"
    return author

In [67]:
def complete_author(row):
    if row["Auteur"] == "Pas trouvé sur Gallimard":
        author = search_maison_du_livre(row["Titre"], row["Année"])
        if author == None:
            author = "Problème dans la fonction?"
        return author
    else:
        return row["Auteur"]

L'opération ci-dessous prend à peu près 7 minutes.

In [68]:
df_wikipedia['Auteur'] = df_wikipedia.apply(complete_author, axis=1)

Regardons la base de données pour vérifier qu'il n'y a plus d'incohérence et éventuellement les corriger

In [69]:
df_wikipedia.head(10)

Unnamed: 0,Année,Prix,Auteur,Titre
0,2019,Prix Femina,Sylvain Prudhomme,Par les routes
1,2019,Prix Femina étranger,Manuel Vilas,Ordesa
2,2019,Prix Femina essai,Emmanuelle Lambert,Giono furioso
3,2019,Prix Femina des lycéens,Victor Jestin,La Chaleur
4,2019,Prix Goncourt,Jean-Paul Dubois,Tous les hommes n'habitent pas le monde de la ...
5,2019,Prix Goncourt du premier roman,Marie Gauthier,Court vêtue
6,2019,Prix Goncourt des lycéens,Karine Tuil,Les Choses humaines
7,2019,Prix Goncourt de la nouvelle,Caroline Lamarche,Nous sommes à la lisière
8,2019,Prix Goncourt de la biographie,Emily Dickinson,"Manifeste incertain, volume 7 : Emily Dickinso..."
9,2019,Choix Goncourt de la Pologne,Louis-philippe Dalembert,Mur Méditerranée


Comme on le voit ci-dessous, il reste encore quelques livres qui n'ont pas été trouvés. Comme il n'y en a pas beaucoup, on corrige manuellement la base.

In [70]:
erreur_recherche = ["Livre pas trouvé", ""]
df_verif =  df_wikipedia[df_wikipedia["Auteur"].isin(erreur_recherche)]
print(df_verif)

    Année                                  Prix            Auteur  \
14   2019                    Prix Médicis essai  Livre pas trouvé   
17   2019       Prix Renaudot du livre de poche  Livre pas trouvé   
24   2019                         Prix Décembre  Livre pas trouvé   
48   2019                        Jacques Collin  Livre pas trouvé   
61   2019                             Prix Maya  Livre pas trouvé   
75   2020                          Prix Médicis  Livre pas trouvé   
78   2020                         Prix Renaudot  Livre pas trouvé   
88   2020                 Prix du premier roman  Livre pas trouvé   
95   2020                         Prix de Flore  Livre pas trouvé   
104  2020              Prix littéraire du Monde                     
107  2020                           Tess Sharpe                     
124  2020                             Prix Maya  Livre pas trouvé   
150  2021                   Prix Première Plume                     
152  2021                         

Corrections manuelles

In [71]:
df_wikipedia.loc[df_wikipedia['Titre'] == "J'ai oublié", 'Auteur'] = 'Bulle Ogier'
df_wikipedia.loc[df_wikipedia['Titre'] == "Une vieille histoire. Nouvelle version", 'Auteur'] = 'Jonathan Littell'
df_wikipedia.loc[df_wikipedia['Titre'] == "Les Grands Cerfs", 'Auteur'] = 'Claudie Hunzinger'
df_wikipedia.loc[df_wikipedia['Titre'] == "Anatèm", 'Auteur'] = 'Neal Stephenson'
df_wikipedia.loc[df_wikipedia['Titre'] == "Le Cœur synthétique", 'Auteur'] = 'Chloé Delaume'
df_wikipedia.loc[df_wikipedia['Titre'] == "Terra Ignota", 'Auteur'] = 'Ada Palmer'
df_wikipedia.loc[df_wikipedia['Titre'] == "Histoire du fils", 'Auteur'] = 'Marie-Hélène Lafon'
df_wikipedia.loc[df_wikipedia['Titre'] == "Adios Cow Boy", 'Auteur'] = 'Olja Savičević Ivančević'
df_wikipedia.loc[df_wikipedia['Titre'] == "La Grâce", 'Auteur'] = 'Thibault de Montaigu'
df_wikipedia.loc[df_wikipedia['Titre'] == "Le Voyant d'Étampes", 'Auteur'] = 'Abel Quentin'
df_wikipedia.loc[df_wikipedia['Titre'] == "Héritage", 'Auteur'] = 'Miguel Bonnefoy'
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Les Paupières des poissons'), 'Auteur'] = 'Fanny Vaucher, Sébastien Moro'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Insolente Veggie', 'Auteur'] = 'Rosa B.'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Zita', 'Auteur'] = 'Olivier Hercend'
df_wikipedia.loc[df_wikipedia['Titre'] == "À l’abri des hommes et des choses", 'Auteur'] = 'Stéphanie Boulay'

In [72]:
df_wikipedia.loc[(df_wikipedia['Prix'] == 'Prix littéraire du Monde') & (df_wikipedia['Année'] == 2020), ['Titre', 'Auteur']] = ['Elle a menti pour les ailes', 'Francesca Serra']
df_wikipedia.loc[(df_wikipedia['Prix'] == 'Prix Eugène-Dabit du roman populiste') & (df_wikipedia['Année'] == 2021), 'Auteur'] =  'Samira Sedira'
df_wikipedia.loc[(df_wikipedia['Titre'] == 'Mon territoire') & (df_wikipedia['Année'] == 2020), ['Prix', 'Auteur']] = ['Grand prix des lectrices (Elle)', 'Tess Sharpe']
df_wikipedia.loc[df_wikipedia['Titre'] == 'Avant que le monde ne se ferme','Auteur'] = 'Alain Mascaro'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Léopold Sédar Senghor','Auteur'] = ' Jean-Pierre Langellier'
df_wikipedia.loc[df_wikipedia['Titre'] == 'La Carte postale','Auteur'] = 'Anne Berest'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Le Passeur','Auteur'] = 'Lois Lowry'
df_wikipedia.loc[df_wikipedia['Titre'] == 'La Muse rouge','Auteur'] = 'Véronique de Haas'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Les Garçons de la cité-jardin','Auteur'] = 'Dan Nisand'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Réacteur 3 ','Auteur'] = 'Ludovic Bernhardt'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Les Enfants endormis','Auteur'] = 'Anthony Passeron'
df_wikipedia.loc[df_wikipedia['Titre'] == 'Georges Perec','Auteur'] = 'Claude Burgelin'
df_wikipedia.loc[df_wikipedia['Titre'] == "Mourir avant que d'apparaître",'Auteur'] = 'Rémi David'

On vérifie qu'il n'y a plus de problème

In [73]:
erreur_recherche = ["Livre pas trouvé", ""]
df_verif =  df_wikipedia[df_wikipedia["Auteur"].isin(erreur_recherche)]
print(df_verif)

Empty DataFrame
Columns: [Année, Prix, Auteur, Titre]
Index: []


Maintenant, on rajoute une colonne de 1, indiquant que le livre a obtenu un prix.

In [74]:
# on ajoute une colonne indicatrice "prix" 
df_wikipedia['prix_19_23'] = 1
print("Colonnes avant sauvegarde :", df_wikipedia.columns)

Colonnes avant sauvegarde : Index(['Année', 'Prix', 'Auteur', 'Titre', 'prix_19_23'], dtype='object')


Désormais, on essaye de simplifier la base afin de n'avoir plus de doublons de livre pour plus de simplicité.

Maintenant, on s'attelle aux doublons.

In [75]:
df_wikifinal = df_wikipedia.drop_duplicates(subset=['Titre'])

Vérifions que cela a bien marché.

In [76]:
df_wikifinal.loc[:, 'Doublons'] = df_wikifinal['Titre'].duplicated(keep=False)  # Repère tous les doublons

# Afficher uniquement les lignes dupliquées
doublons = df_wikifinal[df_wikifinal['Doublons']]
print(doublons)

Empty DataFrame
Columns: [Année, Prix, Auteur, Titre, prix_19_23, Doublons]
Index: []


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_wikifinal.loc[:, 'Doublons'] = df_wikifinal['Titre'].duplicated(keep=False)  # Repère tous les doublons


Pour rendre la base propre, on enlève la colonne "Doublons".

In [77]:
df_wikifinal = df_wikifinal.drop(columns=['Doublons'])

Maintenant, on peut modifier le fichier CSV avec les modifications afin de le fusionner plus tard.

In [78]:
df_wikifinal.to_csv("prix_litteraires.csv", index=False)

#

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>Partie 3: on merge les différentes bases pour simplifier l'analyse</strong>
</div>

On commence par charger les dataframe à partir des CSV. Cette étape nous permet à l'échelle d'une journée de pouvoir ne pas recharger toutes les bases à chaque fois. Toutefois, nous n'effectuons pas forcément cette ligne de code à chaque fois. Si nous venons de refaire tourner tout le code, on peut skipper cette partie.

In [33]:
df_fnac = pd.read_csv("best_sellers_fnac_2023_cleaned.csv")
df_babelio = pd.read_csv("23_livres_les_plus_lus_babelio.csv")
df_livraddict = pd.read_csv("livraddict_prix_2024.csv")
df_wiki_data = pd.read_csv("prix_litteraires.csv")
df_bibli_data = pd.read_csv("livres_les_plus_empruntes_a_paris.csv")

Il est nécessaire de renommer certaines colonnes pour standardiser le tout. Pour le moment, nous gardons les variables type_de_document et Catégorie respectivement des bases de bibliothèque et de Livraddict. Peut-être pourra-t-on s'intéresser très rapidement dans nos statistiques descriptives aux notes des ouvrages selon le genre.

In [34]:
df_bibli_data = df_bibli_data.rename(columns={'titre': 'Titre'})
df_bibli_formerge = df_bibli_data.rename(columns={'reservations': 'Nb_réservations_bibli'})
df_bibli_formerge = df_bibli_formerge.rename(columns={'auteur': 'Auteur'})
df_bibli_formerge = df_bibli_formerge.drop(columns=['rang'])

Ensuite, on normalise les titres en mettant tout en majuscule et en enlevant les espaces qui peuvent se créer avant le début ou après la fin de la chaîne de caractères. Le but est qu'il n'y ait pas d'erreur au moment du merge, ou le moins possible.

In [35]:
df_fnac['Titre'] = df_fnac['Titre'].str.lower().str.strip()
df_babelio['Titre'] = df_babelio['Titre'].str.lower().str.strip()
df_livraddict['Titre'] = df_livraddict['Titre'].str.lower().str.strip()
df_wiki_data['Titre'] = df_wiki_data['Titre'].str.lower().str.strip()
df_bibli_formerge['Titre'] = df_bibli_formerge['Titre'].str.lower().str.strip()

Enfin, on fait notre opération merge. On merge les bases mes unes avec les autre l'une après l'autre.
On doit également retravailler à chaque fois la colonne "Auteur". L'idée c'est de créer une colonne unique "Auteur" pour réunir toutes les information d'auteur dans une seule variable on donne un ordre de priorité: Auteur, Auteur_x, Auteur_y
si une colonne contient une valeur manquante (NaN), elle est remplit par la valeur de la colonne suivante.
La méthode .combine_first() remplit les valeurs manquantes (NaN) de la colonne de gauche (merged_df['Auteur']) 
avec les valeurs correspondantes de la colonne de droite (merged_df['Auteur_x']).

In [36]:
merged_df = df_fnac.merge(df_babelio, on="Titre", how="outer")
merged_df['Auteur']= None
merged_df['Auteur'] = merged_df['Auteur'].combine_first(merged_df['Auteur_x']).combine_first(merged_df['Auteur_y'])
merged_df.drop(columns=['Auteur_x', 'Auteur_y'], inplace=True)

In [37]:
merged_df = merged_df.merge(df_livraddict, on="Titre", how="outer")
merged_df['Auteur']= None
merged_df['Auteur'] = merged_df['Auteur'].combine_first(merged_df['Auteur_x']).combine_first(merged_df['Auteur_y'])
merged_df.drop(columns=['Auteur_x', 'Auteur_y'], inplace=True)

In [38]:
merged_df = merged_df.merge(df_wiki_data, on="Titre", how="outer")
merged_df['Auteur']= None
merged_df['Auteur'] = merged_df['Auteur'].combine_first(merged_df['Auteur_x']).combine_first(merged_df['Auteur_y'])
merged_df.drop(columns=['Auteur_x', 'Auteur_y'], inplace=True)

In [39]:
merged_df = merged_df.merge(df_bibli_formerge, on="Titre", how="outer")
merged_df['Auteur']= None
merged_df['Auteur'] = merged_df['Auteur'].combine_first(merged_df['Auteur_x']).combine_first(merged_df['Auteur_y'])
merged_df.drop(columns=['Auteur_x', 'Auteur_y'], inplace=True)

In [40]:
merged_df.head(15)

Unnamed: 0,Titre,top_fnac_1,top_fnac_2_plus,top_babelio,classement_babelio,Catégorie,top_livraddict,Année,Prix,prix_19_23,type_de_document,Nb_réservations_bibli,Classement_bibliothèque,Top_bibliothèque,Auteur
0,(très) cher cinéma français,,,,,,,2019.0,Prix Renaudot essai,1.0,,,,,Éric Neuhoff
1,555,,,,,,,2022.0,Grand prix RTL-Lire,1.0,,,,,Hélène Gestern
2,adieu birkenau,1.0,0.0,,,Bd,1.0,,,,,,,,Ginette Kolinka
3,adieu tanger,,,,,,,2023.0,Prix France Culture-Télérama,1.0,,,,,Salma El Moumni
4,adios cow boy,,,,,,,2020.0,Prix du premier roman,1.0,,,,,Olja Savičević Ivančević
5,anatèm,,,,,,,2019.0,Jacques Collin,1.0,,,,,Neal Stephenson
6,apeirogon,,,,,,,2021.0,Grand prix des lectrices de Elle,1.0,,,,,Colum McCann
7,arcadie,,,,,,,2019.0,Prix du Livre Inter,1.0,,,,,Emmanuelle Bayamack-Tam
8,argonne,,,,,,,2022.0,Prix Terre de France - Ouest-France,1.0,,,,,Stéphane Emond
9,"astérix, hors collection : l’empire du milieu",1.0,1.0,,,,,,,,,,,,"Fabrice Tarrin, Olivier Gay"


Désormais, on remplace toutes les valeurs None par des 0 afin d'avoir une base propre

In [41]:
def place0(row):
    global column
    if np.isnan(row[column]):
        value = 0
    else:
        value = row[column]
    return value

In [45]:
columns = ['top_fnac_1', 'top_fnac_2_plus', 'top_babelio', 'top_livraddict', 'prix_19_23', 'Top_bibliothèque']
for i in range(0,len(columns)):
    column = columns[i]
    merged_df[column] = merged_df.apply(place0, axis=1)

In [46]:
merged_df.head(8)

Unnamed: 0,Titre,top_fnac_1,top_fnac_2_plus,top_babelio,classement_babelio,Catégorie,top_livraddict,Année,Prix,prix_19_23,type_de_document,Nb_réservations_bibli,Classement_bibliothèque,Top_bibliothèque,Auteur
0,(très) cher cinéma français,0.0,0.0,0.0,,,0.0,2019.0,Prix Renaudot essai,1.0,,,,0.0,Éric Neuhoff
1,555,0.0,0.0,0.0,,,0.0,2022.0,Grand prix RTL-Lire,1.0,,,,0.0,Hélène Gestern
2,adieu birkenau,1.0,0.0,0.0,,Bd,1.0,,,0.0,,,,0.0,Ginette Kolinka
3,adieu tanger,0.0,0.0,0.0,,,0.0,2023.0,Prix France Culture-Télérama,1.0,,,,0.0,Salma El Moumni
4,adios cow boy,0.0,0.0,0.0,,,0.0,2020.0,Prix du premier roman,1.0,,,,0.0,Olja Savičević Ivančević
5,anatèm,0.0,0.0,0.0,,,0.0,2019.0,Jacques Collin,1.0,,,,0.0,Neal Stephenson
6,apeirogon,0.0,0.0,0.0,,,0.0,2021.0,Grand prix des lectrices de Elle,1.0,,,,0.0,Colum McCann
7,arcadie,0.0,0.0,0.0,,,0.0,2019.0,Prix du Livre Inter,1.0,,,,0.0,Emmanuelle Bayamack-Tam


On remarque qu'il reste quelques doubles que nous allons donc corriger à la main. C'est très pratique de les détecter comme la base est maintenant triée dans l'ordre alphabétique

In [47]:
merged_df = merged_df.drop(index=[195, 203, 205,215, 263, 353, 356,441])
merged_df.loc[merged_df['Titre'] == "ton absence n'est que ténèbres", 'prix_19_23'] = 1

In [48]:
merged_df.to_csv('Base_finale.csv', index=False)

# IV-

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>Partie 4: Utilisation de l'API Youtube pour rechercher des vidéos</strong>
</div>

## Création d'un projet sur Google Cloud Console

**Pour utiliser, la YouTube Data API v3 qui nous servira par la suite, il est nécessaire de créer un projet sur Google Cloud Console.**

Etape 1 : Créer un projet sur Google Cloud Console
-Aller sur [la Google Cloud Console](https://console.cloud.google.com).
-Créer un nouveau projet en cliquant sur "Select a project" puis "New Project".
-Donner un nom à votre projet et cliquer sur "Create".

Etape 2 : Activer l'API YouTube Data
-Aller dans le "API & Services" > "Library" dans la Google Cloud Console.
-Chercher YouTube Data API v3 et cliquez dessus.
-Cliquer sur "Enable" pour activer l'API.

Etape 3 : Créer des identifiants pour l'API
- Aller dans "API & Services" > "Credentials".
- Cliquer sur "Create Credentials" et choisir "API key".
- L'API key générée apparaîtra. Copier cette clé, vous en aurez besoin pour effectuer des requêtes.

## Création de bases de vidéos youtube

*NB : voir api_Youtube.ipynb pour plus de détails*

**On cherche à obtenir les dates de publications, titres et descriptions des vidéos youtube sur des livres publiés en 2023**

In [None]:
# Remplacez key par sa propre clé API (voir ## 0 Creation d'un projet sur Google Cloud Console)

# Fonction pour récupérer les vidéos
def get_videos(query,key, max_results=50):
    url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&key={key}'
    response = requests.get(url)  # Requête pour rechercher des vidéos
    data = response.json()

    videos = []
    for video in data['items']:
        video_info = {
            'video_id': video['id']['videoId'],
            'title': video['snippet']['title'],
            'description': video['snippet']['description'],
            'published_at': video['snippet']['publishedAt'],
            'channel_title': video['snippet']['channelTitle']
        }
        videos.append(video_info)

    # Récupérer les pages suivantes si nécessaire
    next_page_token = data.get('nextPageToken')
    while next_page_token:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&pageToken={next_page_token}&key={key}'
        response = requests.get(url)
        data = response.json()
        for video in data['items']:
            video_info = {
                'video_id': video['id']['videoId'],
                'title': video['snippet']['title'],
                'description': video['snippet']['description'],
                'published_at': video['snippet']['publishedAt'],
                'channel_title': video['snippet']['channelTitle']
            }
            videos.append(video_info)
        next_page_token = data.get('nextPageToken')

    return videos

# Appel de la fonction pour récupérer les vidéos
query = "nouveauté livre 2023"
videos = get_videos(query, key à remplir , max_results=50,)

# Convertir les données en DataFrame
df = pd.DataFrame(videos)

# Sauvegarder le DataFrame sous forme de fichier CSV
df.to_csv('youtube_nouveauté_livre_2023.csv', index=False)

print("Le fichier CSV a été créé avec succès !")

Le fichier CSV a été créé avec succès !


**On cherche à obtenir les dates de publication, titres et descriptions des vidéos youtube publiées entre 2019 et 2023 sur des livres**

In [None]:
# Remplacez key par sa propre clé API

# Fonction pour récupérer les vidéos avec des dates spécifiques
def get_videos(query, key,start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50):
    url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&publishedAfter={start_date}&publishedBefore={end_date}&key={key}'
    response = requests.get(url)  # Requête pour rechercher des vidéos
    data = response.json()

    videos = []
    for video in data['items']:
        video_info = {
            'video_id': video['id']['videoId'],
            'title': video['snippet']['title'],
            'description': video['snippet']['description'],
            'published_at': video['snippet']['publishedAt'],
            'channel_title': video['snippet']['channelTitle']
        }	
        videos.append(video_info)

    # Récupérer les pages suivantes si nécessaire
    next_page_token = data.get('nextPageToken')
    while next_page_token:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&pageToken={next_page_token}&publishedAfter={start_date}&publishedBefore={end_date}&key={key}'
        response = requests.get(url)
        data = response.json()
        for video in data['items']:
            video_info = {
                'video_id': video['id']['videoId'],
                'title': video['snippet']['title'],
                'description': video['snippet']['description'],
                'published_at': video['snippet']['publishedAt'],
                'channel_title': video['snippet']['channelTitle']
            }
            videos.append(video_info)
        next_page_token = data.get('nextPageToken')

    return videos

# Appel de la fonction pour récupérer les vidéos entre 2019 et 2023
query = "livre"
videos = get_videos(query, key à remplir , start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50)

# Convertir les données en DataFrame
df = pd.DataFrame(videos)

# Sauvegarder le DataFrame sous forme de fichier CSV
df.to_csv('youtube_livre_2019_2023.csv', index=False)

print("Le fichier CSV a été créé avec succès !")

Le fichier CSV a été créé avec succès !


### Recherche des sous-titres de vidéos youtube

*NB : voir Sous_titres_youtube.ipynb pour plus de détails*

Tout d'abord, on doit installer la bibliothèques youtube_transcript_api nécessaire pour récupérer les sous-titres.
il faut entrer dans le terminal : **pip install requests youtube-transcript-api pandas** 

**On cherche à obtenir les sous-titres, dates de publication, titres et descriptions des vidéos youtube sur des livres publiés en 2023**

*On ne gardera que les vidéos qui ont des sous-titres car ce sont celles qui nous intéressent.*

In [15]:
# Fonction pour rechercher des vidéos sur YouTube avec des mots-clés
def get_videos(query, api_key, max_results=50):
    video_ids = []
    next_page_token = None

    while True:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&key={api_key}'
        
        if next_page_token:
            url += f'&pageToken={next_page_token}'
        
        response = requests.get(url)
        
        if response.status_code == 200:
            video_data = response.json()
            video_ids.extend([item['id']['videoId'] for item in video_data['items']])
            next_page_token = video_data.get('nextPageToken')

            if not next_page_token:
                break
        else:
            print(f"Erreur lors de la recherche des vidéos: {response.status_code}")
            break

    return video_ids

# Fonction pour obtenir les informations de la vidéo à partir de l'API YouTube
def get_video_info(video_id, api_key):
    url = f"https://www.googleapis.com/youtube/v3/videos"
    params = {
        'part': 'snippet',  # Récupère les informations de base de la vidéo (titre, description, date)
        'id': video_id,  # ID de la vidéo
        'key': api_key   # clé API
    }
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        video_data = response.json()
        if 'items' in video_data and len(video_data['items']) > 0:
            snippet = video_data['items'][0]['snippet']
            title = snippet['title']
            description = snippet['description']
            published_at = snippet['publishedAt']
            return title, description, published_at
    else:
        print(f"Erreur lors de la récupération des infos vidéo: {response.status_code}")
    return None, None, None

# Fonction pour obtenir les sous-titres d'une vidéo
def get_video_subtitles(video_id, languages=['fr']):
    try:
        # Tente de récupérer les sous-titres dans les langues spécifiées
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=languages)
        
        # Utiliser un formateur pour convertir les sous-titres en format SRT
        formatter = SRTFormatter()
        formatted_transcript = formatter.format_transcript(transcript)
        
        return formatted_transcript
    except Exception as e:
        print(f"Erreur lors de l'extraction des sous-titres pour {video_id}: {e}")
        return None

# Fonction principale pour récupérer les données et les stocker dans un DataFrame
def collect_video_data(query, api_key):
    # Étape 1: Recherche des vidéos en utilisant la fonction get_videos
    video_ids = get_videos(query, api_key)
    
    video_data = []
    
    for video_id in video_ids:
        print(f"Récupération des données pour la vidéo {video_id}...")
        
        # Étape 2: Récupérer les informations de chaque vidéo
        title, description, published_at = get_video_info(video_id, api_key)
        
        if title and description and published_at:
            # Étape 3: Récupérer les sous-titres si disponibles
            subtitles = get_video_subtitles(video_id)
            
            # Étape 4: Stocker les données dans une liste
            video_data.append({
                'Video ID': video_id,
                'Title': title,
                'Description': description,
                'Published At': published_at,
                'Subtitles': subtitles
            })
    
    # Convertir les données collectées en DataFrame
    df = pd.DataFrame(video_data)
    return df

# Exemple d'utilisation
api_key = "XXXXXXXX"  # Remplacez par sa clé API (# Remplacez par sa clé API (voir ## 0 Creation d'un projet sur Google Cloud Console dans api_Youtube.ipynb))
query = "nouveauté livre 2023"

# Collecter les données et créer un DataFrame
df = collect_video_data(query, api_key)

# Filtrer les vidéos qui ont des sous-titres
df_with_subtitles = df[df['Subtitles'].notna() & (df['Subtitles'] != '')]

# Sauvegarder dans un fichier CSV
df_with_subtitles.to_csv("ss_youtube_nouveauté_livre_2023.csv", index=False)

# Afficher les résultats par pages de 100 lignes
page_size = 100
for start in range(0, len(df_with_subtitles), page_size):
    print(df_with_subtitles.iloc[start:start + page_size])
    input("Appuyez sur Entrée pour afficher la page suivante...")

Récupération des données pour la vidéo BncNbKVxOWc...
Récupération des données pour la vidéo -AvmeDNI8XE...
Erreur lors de l'extraction des sous-titres pour -AvmeDNI8XE: 
Could not retrieve a transcript for the video https://www.youtube.com/watch?v=-AvmeDNI8XE! This is most likely caused by:

Subtitles are disabled for this video

If you are sure that the described cause is not responsible for this error and that a transcript should be retrievable, please create an issue at https://github.com/jdepoix/youtube-transcript-api/issues. Please add which version of youtube_transcript_api you are using and provide the information needed to replicate the error. Also make sure that there are no open issues which already describe your problem!
Récupération des données pour la vidéo DDLMKQfXJKc...
Erreur lors de l'extraction des sous-titres pour DDLMKQfXJKc: 
Could not retrieve a transcript for the video https://www.youtube.com/watch?v=DDLMKQfXJKc! This is most likely caused by:

Subtitles are dis

**On cherche à obtenir les sous-titres, dates de publication, titres et descriptions des vidéos youtube publiées entre 2019 et 2023 sur des livres**

In [17]:
# Fonction pour rechercher des vidéos sur YouTube avec des mots-clés
def get_videos(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50):
    video_ids = []
    next_page_token = None

    while True:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&publishedAfter={start_date}&publishedBefore={end_date}&key={api_key}'
        
        if next_page_token:
            url += f'&pageToken={next_page_token}'
        
        response = requests.get(url)
        
        if response.status_code == 200:
            video_data = response.json()
            video_ids.extend([item['id']['videoId'] for item in video_data['items']])
            next_page_token = video_data.get('nextPageToken')

            if not next_page_token:
                break
        else:
            print(f"Erreur lors de la recherche des vidéos: {response.status_code}")
            break

    return video_ids

# Fonction pour obtenir les informations de la vidéo à partir de l'API YouTube
def get_video_info(video_id, api_key):
    url = f"https://www.googleapis.com/youtube/v3/videos"
    params = {
        'part': 'snippet',  # Récupère les informations de base de la vidéo (titre, description, date)
        'id': video_id,  # ID de la vidéo
        'key': api_key   # clé API
    }
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        video_data = response.json()
        if 'items' in video_data and len(video_data['items']) > 0:
            snippet = video_data['items'][0]['snippet']
            title = snippet['title']
            description = snippet['description']
            published_at = snippet['publishedAt']
            return title, description, published_at
    else:
        print(f"Erreur lors de la récupération des infos vidéo: {response.status_code}")
    return None, None, None

# Fonction pour obtenir les sous-titres d'une vidéo
def get_video_subtitles(video_id, languages=['fr']):
    try:
        # Tente de récupérer les sous-titres dans les langues spécifiées
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=languages)
        
        # Utiliser un formateur pour convertir les sous-titres en format SRT
        formatter = SRTFormatter()
        formatted_transcript = formatter.format_transcript(transcript)
        
        return formatted_transcript
    except Exception as e:
        print(f"Erreur lors de l'extraction des sous-titres pour {video_id}: {e}")
        return None

# Fonction principale pour récupérer les données et les stocker dans un DataFrame
def collect_video_data(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50):
    # Étape 1: Recherche des vidéos en utilisant la fonction get_videos
    video_ids = get_videos(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50)
    
    video_data = []
    
    for video_id in video_ids:
        print(f"Récupération des données pour la vidéo {video_id}...")
        
        # Étape 2: Récupérer les informations de chaque vidéo
        title, description, published_at = get_video_info(video_id, api_key)
        
        if title and description and published_at:
            # Étape 3: Récupérer les sous-titres si disponibles
            subtitles = get_video_subtitles(video_id)
            
            # Étape 4: Stocker les données dans une liste
            video_data.append({
                'Video ID': video_id,
                'Title': title,
                'Description': description,
                'Published At': published_at,
                'Subtitles': subtitles
            })
    
    # Convertir les données collectées en DataFrame
    df = pd.DataFrame(video_data)
    return df

# Exemple d'utilisation
api_key = "AIzaSyDLdhsrsdiGzz7h7UBiI0VPQuRnqVEU7YQ"  # Remplacez par sa clé API (voir ## 0 Creation d'un projet sur Google Cloud Console dans api_Youtube.ipynb)
query = "livre"

# Collecter les données et créer un DataFrame
df = collect_video_data(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50)

# Filtrer les vidéos qui ont des sous-titres
df_with_subtitles = df[df['Subtitles'].notna() & (df['Subtitles'] != '')]

# Sauvegarder dans un fichier CSV
df_with_subtitles.to_csv("ss_youtube_livre_2019_2023.csv", index=False)

# Afficher les résultats par pages de 100 lignes
page_size = 100
for start in range(0, len(df_with_subtitles), page_size):
    print(df_with_subtitles.iloc[start:start + page_size])
    input("Appuyez sur Entrée pour afficher la page suivante...")

Récupération des données pour la vidéo __VbURm5_ec...
Récupération des données pour la vidéo DZwO5KwuRIE...
Récupération des données pour la vidéo o-VNlbZpurw...
Récupération des données pour la vidéo uUMD0W7pytU...
Récupération des données pour la vidéo A6e1oWi37po...
Récupération des données pour la vidéo 65rTa6fVF9E...
Récupération des données pour la vidéo 4hhiGrovsQI...
Récupération des données pour la vidéo rDB-7ZvKBkU...
Récupération des données pour la vidéo gPEQoXayzqU...
Récupération des données pour la vidéo F-IZxgJl0vE...
Récupération des données pour la vidéo JmSxGdWUQe0...
Récupération des données pour la vidéo 3TR-vCdVvSE...
Récupération des données pour la vidéo MRyHdC8BtOY...
Récupération des données pour la vidéo N2mIBTubmvs...
Récupération des données pour la vidéo v_0lc3VJ0zw...
Récupération des données pour la vidéo LoByAiou6dA...
Récupération des données pour la vidéo CnZbHEkjWpI...
Récupération des données pour la vidéo 1IYKG3Ufrl4...
Récupération des données pou

## Analyse

**On cherche si des livres et auteurs de nos bases de données de livres sont mentionnés dans des vidéos de nos bases de données youtube. Pour cela, on étudie les description de ces vidéos youtube.**

*NB : Voir stat_descriptives_youtube.ipynb pour plus de détails*

### 1 Recherche des titres de livres dans les descriptions de vidéos youtube

In [18]:
def livre_dans_description(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Livres de la base de données "f'{livre}.csv'" dans la description youtube de vidéos de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'description' en type string
    youtube_data['description'] = youtube_data['description'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Titre' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'description' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['Titre']) est une sous-liste de la liste de youtube_data (row2['description'])
            if row1['Titre'] in row2['description']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des Titres de books_data et la somme des occurrences
        result.append([row1['Titre'], row1['Auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Titres','Auteurs','Occurrences dans les descriptions des vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les descriptions des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les descriptions des vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

def livre_dans_description2(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Livres de la base de données "f'{livre}.csv'" dans la description youtube de vidéos de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'description' en type string
    youtube_data['description'] = youtube_data['description'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'titre' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'description' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['titre']) est une sous-liste de la liste de youtube_data (row2['description'])
            if row1['titre'] in row2['description']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des titres de books_data et la somme des occurrences
        result.append([row1['titre'], row1['auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Titres','Auteurs','Occurrences dans les descriptions des vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les descriptions des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les descriptions des vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

**Recherche des titres de livres des différentes base de données de livres dans les bases de données de vidéos youtube (sans les sous-titres)**

Par exemple : Recherche des titres de livres de la base de données livraddict_prix_2024.csv dans youtube_livre_2019_2023.csv

In [19]:
livre_dans_description('livraddict_prix_2024','youtube_livre_2019_2023')

Livres de la base de données livraddict_prix_2024.csv dans la description youtube de vidéos de la base de données youtube_livre_2019_2023.csv


Unnamed: 0,Titres,Auteurs,Occurrences dans les descriptions des vidéos


Le livre *Babel* de R. F. Kuang est cité dans une description de vidéo youtube. Ce livre qui est un des livres les mieux notés par les utilisateurs de livraddict parmi les livres sortis en 2023, est dans une description vidéo.

### 2 Recherche des auteurs de livres dans les descriptions de vidéos youtube

In [20]:
def auteur_dans_description(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Auteurs de livre de la base de données "f'{livre}.csv'" dans la description youtube de vidéos de "f'{youtube}.csv')
    # On convertie la colonne 'description' et 'Auteur' en type string
    youtube_data['description'] = youtube_data['description'].astype(str)
    books_data['Auteur'] = books_data['Auteur'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Auteur' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'description' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['Auteur']) est une sous-liste de la liste de youtube_data (row2['description'])
            if row1['Auteur'] in row2['description']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des Auteurs de books_data et la somme des occurrences
        result.append([row1['Auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Auteurs', 'Occurrences dans les descriptions des vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les descriptions des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les descriptions des vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

def auteur_dans_description2(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Auteurs de livre de la base de données "f'{livre}.csv'" dans la description youtube de vidéos de "f'{youtube}.csv')
    # On convertie la colonne 'description' et 'auteur' en type string
    youtube_data['description'] = youtube_data['description'].astype(str)
    books_data['auteur'] = books_data['auteur'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Auteur' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'description' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['auteur']) est une sous-liste de la liste de youtube_data (row2['description'])
            if row1['auteur'] in row2['description']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des auteurs de books_data et la somme des occurrences
        result.append([row1['auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Auteurs', 'Occurrences dans les descriptions des vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les descriptions des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les descriptions des vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

**Recherche des auteurs de livres des différentes base de données de livres dans les bases de données de vidéos youtube (sans les sous-titres)**

Par exemple : Recherche des auteurs de livres de la base de données best_sellers_fnac_2023_cleaned.csv dans youtube_nouveauté_livre_2023.csv

In [21]:
auteur_dans_description('best_sellers_fnac_2023_cleaned','youtube_nouveauté_livre_2023')

Auteurs de livre de la base de données best_sellers_fnac_2023_cleaned.csv dans la description youtube de vidéos de youtube_nouveauté_livre_2023.csv


Unnamed: 0,Auteurs,Occurrences dans les descriptions des vidéos
15,Michel Bussi,1
47,Agnès Martin-Lugand,2
52,Léo,2
61,Britney Spears,1


Les auteurs Michel Bussi, Virginie Grimaldi et Agnès Martin-Lugand apparaissent chacun dans un description de vidéo youtube et Léo apparaît à deux reprise. Ce sont tous des auteurs qui ont écrit un best seller de la Fnac en 2023.

### 3 Conclusion partielle

En tout (en considérant toutes les bases de données de livres), 10 livres (Les livres *Babel* de R. F. Kuang, *Noa* de Marc Lévy , *À la ligne* de Joseph Ponthus, *Troies vies par semaine* de Michel Bussi, *Veiller sur elle* de Jean-Baptiste Andrea, *La grâce* de Thibault de Montaigu, *Le culte* de Camilla Läckberg et Henrik Fexeus, *Otages* de Nina Bouraoui, *Performance* de Simon Liberati et *Révolution* de Florent Grouazel) et 5 auteurs (Joseph Ponthus, Léo, Michel Bussi, Virginie Grimaldi et Agnès Martin-Lugand) apparaissent dans des descriptions de vidéos youtube des deux bases de données utilisées.  
Cela laisserait donc penser que seulement 10 livres et 5 auteurs apparaissent dans les vidéos youtubes de nos bases de données.
Cependant plusieurs points sont à prendre en compte:  
-des vidéos youtube peuvent être sur un livre ou un auteur sans le citer dans la description, il peut aussi ne même pas y avoir de description.    
-il peut y avoir des fautes d'orthographes et des erreurs de ponctuation dans les titres des livres dans les description youtube qui ne sont alors pas comptés dans ce programme.   
-Youtube peut aussi limiter le nombre de résultats obtenus pour une requête.   
On peut pour autant remarquer que certains titres de livre ou noms d'auteur sont assez courants pour désigner autre chose, ce qui peut fausser les résultats.  

Pour essayer d'obtenir de meilleurs résultats, on va par la suite rechercher les titres et auteurs des livres dans les sous-titres de vidéos des bases de données

**On cherche si des livres et auteurs de nos bases de données de livres sont mentionnés dans des vidéos de nos bases de données youtube. Pour cela, on étudie les sous-titres de ces vidéos youtube.**

*NB : Voir stat_descriptives_youtube_suite.ipynb pour plus de détails*

### 4 Recherche des titres de livres dans les sous-titres de vidéos youtube

In [22]:
def livre_dans_sous_titres(livre,youtube):
    #On charge les tables dont on a besoin"
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Livres de la base de données "f'{livre}.csv'" dans les sous-titres de vidéos youtube de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'Subtitles'et 'Titre' en type string
    youtube_data['Subtitles'] = youtube_data['Subtitles'].astype(str)
    books_data['Titre'] = books_data['Titre'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Titre' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'Subtitles' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['Titre']) est une sous-liste de la liste de youtube_data (row2['Subtitles'])
            if row1['Titre'] in row2['Subtitles']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des Titres, des Auteurs de books_data et la somme des occurrences
        result.append([row1['Titre'], row1['Auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Titres','Auteurs','Occurrences dans les sous-titres de vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les sous-titres des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les sous-titres de vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

def livre_dans_sous_titres2(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Livres de la base de données "f'{livre}.csv'" dans les sous-titres de vidéos youtube de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'Subtitles'et 'Titre' en type string
    youtube_data['Subtitles'] = youtube_data['Subtitles'].astype(str)
    books_data['titre'] = books_data['titre'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'titre' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'Subtitles' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['titre']) est une sous-liste de la liste de youtube_data (row2['Subtitles'])
            if row1['titre'] in row2['Subtitles']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des titres, des auteurs de books_data et la somme des occurrences
        result.append([row1['titre'], row1['auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Titres','Auteurs','Occurrences dans les sous-titres de vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les sous-titres des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les sous-titres de vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

**Recherche des titres de livres des différentes base de données de livres dans les bases de données de vidéos youtube (avec les sous-titres)**

Par exemple : Recherche des titres de livres de la base de données prix_litteraires.csv dans ss_youtube_livre_2019_2023.csv

In [23]:
livre_dans_sous_titres('prix_litteraires','ss_youtube_livre_2019_2023')

Livres de la base de données prix_litteraires.csv dans les sous-titres de vidéos youtube de la base de données ss_youtube_livre_2019_2023.csv


Unnamed: 0,Titres,Auteurs,Occurrences dans les sous-titres de vidéos
105,Révolution,Florent Grouazel,1
191,555,Hélène Gestern,86


Les livres *Révolution* de Florent Grouazel, *Fritz* de Coline Pierré et *555* de Hélène Gestern apparaissent dans les sous-titres de vidéos youtube. Ces 3 livres qui ont reçu un prix littéraire entre 2019 et 2023 sont donc dans des sous-titres de vidéos.

### 5 Recherche des auteurs de livres dans les sous-titres de vidéos youtube

In [24]:
def auteur_dans_sous_titres(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Auteurs de la base de données "f'{livre}.csv'" dans les sous-titres de vidéos youtube de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'Subtitles'et 'Auteur' en type string
    youtube_data['Subtitles'] = youtube_data['Subtitles'].astype(str)
    books_data['Auteur'] = books_data['Auteur'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Auteur' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'Subtitles' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['Auteur']) est une sous-liste de la liste de youtube_data (row2['Subtitles'])
            if row1['Auteur'] in row2['Subtitles']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des Auteurs de books_data et la somme des occurrences
        result.append([row1['Auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Auteurs','Occurrences dans les sous-titres de vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les sous-titres des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les sous-titres de vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

def auteur_dans_sous_titres2(livre,youtube):
    #On charge les tables dont on a besoin",
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Auteurs de la base de données "f'{livre}.csv'" dans les sous-titres de vidéos youtube de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'Subtitles'et 'auteur' en type string
    youtube_data['Subtitles'] = youtube_data['Subtitles'].astype(str)
    books_data['auteur'] = books_data['auteur'].astype(str)
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'auteur' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'Subtitles' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['auteur']) est une sous-liste de la liste de youtube_data (row2['Subtitles'])
            if row1['auteur'] in row2['Subtitles']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des auteurs de books_data et la somme des occurrences
        result.append([row1['auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Auteurs','Occurrences dans les sous-titres de vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les sous-titres des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les sous-titres de vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df 

**Recherche des auteurs de livres des différentes base de données de livres dans les bases de données de vidéos youtube (avec les sous-titres)**

Par exemple : Recherche des auteurs de livres de la base de données Base_finale.csv dans ss_youtube_nouveauté_livre_2023.csv

In [25]:
auteur_dans_sous_titres('Base_finale','ss_youtube_nouveauté_livre_2023')

Auteurs de la base de données Base_finale.csv dans les sous-titres de vidéos youtube de la base de données ss_youtube_nouveauté_livre_2023.csv


Unnamed: 0,Auteurs,Occurrences dans les sous-titres de vidéos
22,Léo,13
30,Squeezie,2
61,Stephen King,3
118,Hannah Grace,2
163,Britney Spears,1
180,Sylvain Tesson,2
379,,264
441,Michel Bussi,1


Les auteurs Léo, Stephen King, Squeezie, Hannah Grace, Copi et Michel Bussi apparaissent chacun dans des sous-titres de vidéos youtube."nan" n'est pas un auteur mais simplement la dénomination utilisée dans la base de données lorsqu'on connaît pas l'auteur. Donc il n'y a aucun auteur de cette base de données mentionné.

### 6 Conclusion 

En tout (en considérant toutes les bases de données de livres), 65 livres apparaissent dans des sous-titres de vidéos youtube des deux bases de données utilisées.  

Et en tout 9 auteurs (Léo, Stephen King, Squeezie, Britney Spears, Hannah Grace, Copi, Michel Bussi, Éric-Emmanuel Schmitt et Virginie Grimaldi) apparaissent dans des sous-titres de vidéos youtube des deux bases de données utilisées.  

Cela laisserait donc penser que 65 livres et 9 auteurs apparaissent dans les vidéos youtube de nos bases de données.
Cependant plusieurs points sont à prendre en compte:  
-des vidéos youtubes peuvent avoir des mauvais sous-titres qui ne sous-titrent pas parfaitement toute la vidéo    
-il peut y avoir des fautes d'orthographes et des erreurs de ponctuation dans les titres des livres dans les sous-titres youtube qui ne sont alors pas comptés dans ce programme.  
-Youtube peut aussi limiter le nombre de résultats obtenus pour une requête.     
Mais on peut pour autant remarquer que certains titres de livre ou noms d'auteur sont des expressions ou mots assez courants pour désigner autre chose, ce qui peut fausser les résultats (par exemple 555 ou Léo).  

Pour essayer d'obtenir de meilleurs résultats, il faudrait chercher à faire un programme moins exigeant sur la ponctuation et l'orthographe des titres et auteurs des livres dans les sous-titres de vidéos des bases de données.


*NB : Voir stat_descriptives_youtube_bonus.ipynb pour plus de détails*

# V-

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>Partie 5: Fusion entre les bases Youtube et notre base de donnée principale</strong>
</div>

Tout d'abord on crée des dataframes à partir des bases csv.

In [26]:
first_youtube = pd.read_csv("livres_soustitres(1).csv")
second_youtube = pd.read_csv("livres_soustitres(2).csv")
big_base = pd.read_csv("Base_finale.csv")

On fait une fonction pour obtenir une indicatrice indiquant si le livre a été trouvé sur youtube et le nombre de trouvailles pour notre recherche. Nous avons deux bases youtube correspondant à deux types de recherche ( pour maximiser les chances de trouver nos livres). Nous avons choisi de conserver le nombre de trouvailles le plus grand entre les deux bases ( plutôt que de les sommer car il pourrait parfois s'agir de la même vidéo).

In [27]:
def search_youtube(first_youtube, second_youtube, row):
    first = 0
    for i in range(0,len(first_youtube)):
        if first == 0:
            titre = first_youtube.iloc[i]["Titres"]
            if row["Titre"] == titre:
                first = 1
                first_titre = titre
                first_nombre = first_youtube.iloc[i]["Occurrences dans les sous-titres de vidéos"]
    
    second = 0
    for i in range(0,len(second_youtube)):
        if second == 0:
            titre = second_youtube.iloc[i]["Titres"]
            if row["Titre"] == titre:
                second = 1
                second_titre = titre
                second_nombre = second_youtube.iloc[i]["Occurrences dans les sous-titres de vidéos"]
    if first == 1 and second ==1:
        is_in_youtube = 1
        nombre_youtube = max(first_nombre,second_nombre)
    elif first == 1 and second == 0:
        is_in_youtube = 1
        nombre_youtube = first_nombre
    elif first == 0 and second == 1:
        is_in_youtube = 1
        nombre_youtube = second_nombre
    else:
        is_in_youtube = 0
        nombre_youtube = 0
    return [is_in_youtube, nombre_youtube]

In [28]:
def indicate_youtube(row):
    global first_youtube
    global second_youtube
    youtube = search_youtube(first_youtube, second_youtube, row)
    is_in_youtube = youtube[0]
    return is_in_youtube

def nb_youtube(row):
    global first_youtube
    global second_youtube
    youtube = search_youtube(first_youtube, second_youtube, row)
    nombre_youtube = youtube[1]
    return nombre_youtube
    

On applique les fonctions à notre base pour rajouter nos nouvelles colonnes.

In [29]:
big_base["in_youtube"] = big_base.apply(indicate_youtube, axis=1)
big_base["nb_youtube"] = big_base.apply(nb_youtube, axis=1)

In [30]:
big_base.to_csv("Base_finale_with_youtube")

# VI

<div style="
    font-family: 'Arial', sans-serif; 
    text-align: center; 
    padding: 10px; 
    background-color:rgb(210, 199, 255); 
    color: black; 
    border-radius: 5px; 
    font-size: 1.5em;
">
    <strong>Partie 6: Introduction d'une base avec toutes les sorties en poche entre 2019 et 2020 grâce au scrapping de Babellio</strong>
</div>

In [33]:
# Fonction pour scraper une page donnée de Babelio
def scrape_babelio_page(url, month):
    response = requests.get(url)
    response.encoding = response.apparent_encoding  # Assure un encodage correct
    data = []  # Liste pour stocker les données scrappées

    if response.status_code == 200:  # Vérifie que la requête est réussie
        soup = BeautifulSoup(response.text, 'html.parser')

        # Recherche des éléments contenant les livres
        books = soup.find_all('div', class_='liste_item')

        for book in books:
            try:
                # Extraction du titre
                title_element = book.find('a', class_='titre_v2')
                title = title_element.text.strip() if title_element else ""

                # Extraction de l'auteur
                author_element = book.find('a', class_='auteur_v2')
                author = author_element.text.strip() if author_element else ""

                # Ajout des informations au dataset
                data.append([month, title, author])
            except Exception as e:
                print(f"Erreur lors de l'extraction d'un élément: {e}")
    else:
        print(f"Erreur: statut HTTP {response.status_code} pour l'URL {url}")

    return data

# Liste des URLs et des mois correspondants
urls_months = [
    ("https://www.babelio.com/liste/13082/Sorties-poche-de-janvier-2021", "Janvier 2021"),
    ("https://www.babelio.com/liste/13211/Sorties-poche-de-fevrier-2021", "Février 2021"),
    ("https://www.babelio.com/liste/13324/Sortie-poche-de-mars-2021", "Mars 2021"),
    ("https://www.babelio.com/liste/13478/Sortie-poche-davril-2021", "Avril 2021"),
    ("https://www.babelio.com/liste/13576/Sortie-poche-de-mai-2021", "Mai 2021"),
    ("https://www.babelio.com/liste/15430/Les-poches-daout-2021", "Août 2021"),
    ("https://www.babelio.com/liste/15518/Les-poches-de-septembre-2021", "Septembre 2021"),
    ("https://www.babelio.com/liste/15653/Les-poches-doctobre-2021", "Octobre 2021"),
    ("https://www.babelio.com/liste/19070/Les-sorties-poche-de-janvier-2022", "Janvier 2022"),
    ("https://www.babelio.com/liste/20028/Les-sorties-poche-de-fevrier-2022", "Février 2022"),
    ("https://www.babelio.com/liste/20760/Les-sorties-poche-de-mars-2022", "Mars 2022"),
    ("https://www.babelio.com/liste/21604/Les-sorties-poche-davril-2022", "Avril 2022"),
    ("https://www.babelio.com/liste/22422/Les-sorties-poches-de-mai-2022", "Mai 2022"),
    ("https://www.babelio.com/liste/26545/Les-sorties-poche-de-septembre-2022", "Septembre 2022"),
    ("https://www.babelio.com/liste/27207/Les-sorties-poche-doctobre-2022", "Octobre 2022"),
    ("https://www.babelio.com/liste/28303/Les-sorties-poche-de-novembre-2022", "Novembre 2022"),
    ("https://www.babelio.com/liste/30479/Les-sorties-poche-de-janvier-2023", "Janvier 2023"),
    ("https://www.babelio.com/liste/31499/Les-sorties-poche-de-fevrier-2023", "Février 2023"),
    ("https://www.babelio.com/liste/32156/Les-sorties-poche-de-mars-2023", "Mars 2023"),
    ("https://www.babelio.com/liste/33364/Les-sorties-poche-davril-2023", "Avril 2023"),
    ("https://www.babelio.com/liste/34649/Les-sorties-poche-de-mai-2023", "Mai 2023"),
    ("https://www.babelio.com/liste/39059/Les-sorties-poche-de-septembre-2023", "Septembre 2023"),
    ("https://www.babelio.com/liste/35928/Rentree-litteraire-dAout-a-Octobre-2023", "Août-Octobre 2023"),
    ("https://www.babelio.com/liste/40293/Les-sorties-poche-doctobre-2023", "Octobre 2023"),
    ("https://www.babelio.com/liste/42244/Les-sorties-poche-de-novembre-2023", "Novembre 2023"),
    ("https://www.babelio.com/liste/34085/Rentree-litteraire-2023", "Rentrée 2023"),
    ("https://www.babelio.com/liste/22929/Rentree-litteraire-2022", "Rentrée 2022"),
    ("https://www.babelio.com/liste/13694/94-livres-pour-decouvrir-la-rentree-litteraire-202", "Découverte Rentrée 2022"),
    ("https://www.babelio.com/liste/13689/Rentree-litteraire-2021", "Rentrée 2021"),
    ("https://www.babelio.com/liste/35522/La-selection-Babelio-des-livres-de-poche-de-lete-", "2023"),
    ("https://www.babelio.com/liste/34546/Rentree-litteraire-2023", "Rentrée littéraire 2023"),
    ("https://www.babelio.com/liste/25815/La-Grande-Librairie-2022-2023", "2022-2023"),
    ("https://www.babelio.com/liste/42957/Coups-de-1008465039-de-lannee-2023", "2023"),
    ("https://www.babelio.com/liste/42054/Mes-lectures-5-etoiles-2023--ou-presque", "2023"),
    ("https://www.babelio.com/liste/16929/Prix-Raymonde-Tillon", "2023"),
    ("https://www.babelio.com/liste/39018/Les-pepites-de-la-rentree", "Rentrée 2023"),
    ("https://www.babelio.com/liste/41882/FEUILLES-DAUTOMNE-2023", "2023"),
    ("https://www.babelio.com/liste/38654/La-premiere-selection-du-Goncourt-2023", "2023"),
    ("https://www.babelio.com/liste/39839/Les-10-livres-les-plus-attendus-doctobre-2023-sur", "Octobre 2023"),
    ("https://www.babelio.com/liste/38472/Les-10-livres-les-plus-attendus-de-septembre-2023-", "Septembre 2023"),
    ("https://www.babelio.com/liste/28446/Coups-de-1008465039-de-lannee-2022", "2022"),
    ("https://www.babelio.com/liste/15447/La-Grande-Librairie-2021-2022", "2021-2022"),
    ("https://www.babelio.com/liste/23372/50-livres-de-poche-pour-lete-2022", "2022"),
    ("https://www.babelio.com/liste/27951/Mes-10-livres-litterature-francaise-2022", "2022"),
    ("https://www.babelio.com/liste/28155/Mes-10-polars-et-thrillers-indispensables-sortis-e", "2022"),
    ("https://www.babelio.com/liste/16833/30-livres-de-non-fiction-conseilles-pour-noelbabe", "2022"),
    ("https://www.babelio.com/liste/13694/94-livres-pour-decouvrir-la-rentree-litteraire-202", "Rentrée 2022"),
    ("https://www.babelio.com/liste/16594/10-coups-de-coeur-en-litterature-etrangere-parus-e", "2021"),
    ("https://www.babelio.com/liste/16435/Le-top-10-des-romans-policiers-et-thrillers-2021", "2021"),
    ("https://www.babelio.com/liste/13193/Les-romans-de-litterature-etrangere-du-moment-fe", "2021"),
    ("https://www.babelio.com/liste/12483/La-Grande-Librairie-2020-2021", "2021"),
    ("https://www.babelio.com/liste/16505/Top-10-SFFF-des-incontournables-de-2021", "2021")
]

# Liste pour stocker toutes les données
all_data = []

# Scraper chaque URL
for url, month in urls_months:
    print(f"Scraping pour {month}...")
    month_data = scrape_babelio_page(url, month)
    all_data.extend(month_data)

# Conversion des données en DataFrame pandas
df_babelio_books = pd.DataFrame(all_data, columns=["Mois", "Titre", "Auteur"])

# Suppression des doublons
df_babelio_books = df_babelio_books.drop_duplicates()

# Affichage du DataFrame
print(df_babelio_books)

# Sauvegarde des données dans un fichier CSV
df_babelio_books.to_csv("sorties_poche_babelio_2021_2023.csv", index=False, encoding="utf-8")
print("Données sauvegardées dans 'sorties_poche_babelio_2021_2023.csv'.")


Scraping pour Janvier 2021...
Scraping pour Février 2021...
Scraping pour Mars 2021...
Scraping pour Avril 2021...
Scraping pour Mai 2021...
Scraping pour Août 2021...
Scraping pour Septembre 2021...
Scraping pour Octobre 2021...
Scraping pour Janvier 2022...
Scraping pour Février 2022...
Scraping pour Mars 2022...
Scraping pour Avril 2022...
Scraping pour Mai 2022...
Scraping pour Septembre 2022...
Scraping pour Octobre 2022...
Scraping pour Novembre 2022...
Scraping pour Janvier 2023...
Scraping pour Février 2023...
Scraping pour Mars 2023...
Scraping pour Avril 2023...
Scraping pour Mai 2023...
Scraping pour Septembre 2023...
Scraping pour Août-Octobre 2023...
Scraping pour Octobre 2023...
Scraping pour Novembre 2023...
Scraping pour Rentrée 2023...
Scraping pour Rentrée 2022...
Scraping pour Découverte Rentrée 2022...
Scraping pour Rentrée 2021...
Scraping pour 2023...
Scraping pour Rentrée littéraire 2023...
Scraping pour 2022-2023...
Scraping pour 2023...
Scraping pour 2023...
Sc

In [34]:
print(df_babelio_books.head())


           Mois                                              Titre  \
0  Janvier 2021                                      À pas de loup   
1  Janvier 2021                                   Armorican Psycho   
2  Janvier 2021                                            Bed bug   
3  Janvier 2021  Ça va changer avec vous !  Il est temps d'être...   
4  Janvier 2021                      Celle qui pleurait sous l'eau   

               Auteur  
0    Isabelle Villain  
1  Gwenael Le Guellec  
2    Katherine Pancol  
3        Julien Vidal  
4        Niko Tackian  


On remarque qu'il y a des doublons et on veut les enlever

In [35]:
df_babelio_books.loc[:, 'Doublons'] = df_babelio_books['Titre'].duplicated(keep=False)  # Repère tous les doublons

# Afficher uniquement les lignes dupliquées
doublons = df_babelio_books[df_babelio_books['Doublons']]
print(doublons)

              Mois                                           Titre  \
7     Janvier 2021                                            Éden   
10    Janvier 2021                        La consolation de l'ange   
46    Février 2021                        La consolation de l'ange   
51    Février 2021                                     Les Furtifs   
109     Avril 2021                Derniers jours dun monde oublié   
...            ...                                             ...   
2616          2021                                        Blizzard   
2617          2021                Derniers jours dun monde oublié   
2618          2021  Chroniques de Mertvecgorod, tome 2 : Feminicid   
2619          2021                                    Friday Black   
2626          2021                    Vorrh, tome 2 : Les Ancêtres   

                        Auteur  Doublons  
7                Monica Sabolo      True  
10             Frédéric Lenoir      True  
46             Frédéric Lenoir

On enlève donc les doublons

In [36]:
df_babelio_books = df_babelio_books.drop_duplicates(subset=['Titre'])

On vérifie qu'il n'y a bien plus de doublons.

In [37]:
df_babelio_books.loc[:, 'Doublons'] = df_babelio_books['Titre'].duplicated(keep=False)  # Repère tous les doublons

# Afficher uniquement les lignes dupliquées
doublons = df_babelio_books[df_babelio_books['Doublons']]
print(doublons)

Empty DataFrame
Columns: [Mois, Titre, Auteur, Doublons]
Index: []


In [38]:
df_babelio_books = df_babelio_books.drop(columns=["Doublons"])

In [39]:
# on ajoute une colonne indicatrice "parutions" 
df_babelio_books['parutions'] = 1
print("Colonnes avant sauvegarde :", df_babelio_books.columns)

Colonnes avant sauvegarde : Index(['Mois', 'Titre', 'Auteur', 'parutions'], dtype='object')


On transforme la version finale en csv.

In [40]:
df_babelio_books.to_csv('sorties_poche_babelio_2021_2023.csv')

Enfin, on fusionne les bases pour récupérer toutes nos variables.

In [41]:
# on transforme tous les titres en minuscules pour fusionner nos bases
df_babelio_books["Titre"] = df_babelio_books["Titre"].str.lower().str.strip()

In [42]:
df_to_merge_with = pd.read_csv("Base_finale_with_youtube.csv")

On fait une opération merge semblable à celle qu'on avait faite pour créer la Base_finale, afin de nettoyer les noms d'auteurs.

In [43]:
second_merged_df = df_babelio_books.merge(df_to_merge_with, on="Titre", how="outer")
second_merged_df['Auteur']= None
second_merged_df['Auteur'] = second_merged_df['Auteur'].combine_first(second_merged_df['Auteur_x']).combine_first(second_merged_df['Auteur_y'])
second_merged_df.drop(columns=['Auteur_x', 'Auteur_y'], inplace=True)

On s'est demandé si on gardait seulement les livres de la base parution. Regardons nos chiffres si l'on garde que les livres de la nouvelle base des livres parus.

In [44]:
only_new = second_merged_df[second_merged_df['parutions']==1]

In [45]:
only_new.head(5)

Unnamed: 0,Mois,Titre,parutions,top_fnac_1,top_fnac_2_plus,top_babelio,classement_babelio,Catégorie,top_livraddict,Année,Prix,prix_19_23,type_de_document,Nb_réservations_bibli,Classement_bibliothèque,Top_bibliothèque,in_youtube,nb_youtube,Auteur
1,2021,... mais la vie continue,1.0,,,,,,,,,,,,,,,,Bernard Pivot
2,Février 2022,10 minutes et 38 secondes dans ce monde étrange,1.0,,,,,,,,,,,,,,,,Elif Shafak
3,Novembre 2023,13 à table ! 2024,1.0,,,,,,,,,,,,,,,,Philippe Besson
4,Mai 2022,1794,1.0,,,,,,,,,,,,,,,,Niklas Natt och Dag
5,Octobre 2021,18.3 : une année à la pj,1.0,,,,,,,,,,,,,,,,Pauline Guéna


Fonction pour remplacer par des 0 les NaN pour avoir des indicatrices de présence dans les bases

In [46]:
def place0(row):
    global column
    if np.isnan(row[column]):
        value = 0
    else:
        value = row[column]
    return value

In [47]:
columns = ['top_fnac_1', 'top_fnac_2_plus', 'top_babelio', 'top_livraddict', 'prix_19_23', 'Top_bibliothèque']
for i in range(0,len(columns)):
    column = columns[i]
    only_new.loc[:,column] = only_new.apply(place0, axis=1)

In [48]:
only_new.head(5)

Unnamed: 0,Mois,Titre,parutions,top_fnac_1,top_fnac_2_plus,top_babelio,classement_babelio,Catégorie,top_livraddict,Année,Prix,prix_19_23,type_de_document,Nb_réservations_bibli,Classement_bibliothèque,Top_bibliothèque,in_youtube,nb_youtube,Auteur
1,2021,... mais la vie continue,1.0,0.0,0.0,0.0,,,0.0,,,0.0,,,,0.0,,,Bernard Pivot
2,Février 2022,10 minutes et 38 secondes dans ce monde étrange,1.0,0.0,0.0,0.0,,,0.0,,,0.0,,,,0.0,,,Elif Shafak
3,Novembre 2023,13 à table ! 2024,1.0,0.0,0.0,0.0,,,0.0,,,0.0,,,,0.0,,,Philippe Besson
4,Mai 2022,1794,1.0,0.0,0.0,0.0,,,0.0,,,0.0,,,,0.0,,,Niklas Natt och Dag
5,Octobre 2021,18.3 : une année à la pj,1.0,0.0,0.0,0.0,,,0.0,,,0.0,,,,0.0,,,Pauline Guéna


On vérifie qu'il y a bien des prix, des top fnacs etc.. dans les données

In [49]:
wikipedia_allbooks = only_new[only_new['prix_19_23']==1]
prop_wiki = (len(wikipedia_allbooks)*100)/len(only_new)
print(str(len(wikipedia_allbooks))+" livres de la base ont obtenu un prix. Cela représente "+str(prop_wiki)+" (%) des livres.")
livraddict_allbooks = only_new[only_new['top_livraddict']==1]
prop_livraddict = (len(livraddict_allbooks)*100)/len(only_new)
print(str(len(livraddict_allbooks))+" livres de la base sont dans un top livraddict. Cela représente "+str(prop_livraddict)+" (%) des livres.")
fnac_allbooks = only_new[only_new['top_fnac_1']==1]
prop_fnac = (len(fnac_allbooks)*100)/len(only_new)
print(str(len(fnac_allbooks))+" livres de la base sont dans les bestsellers fnac. Cela représente "+str(prop_fnac)+" (%) des livres.")
fnac2_allbooks = only_new[only_new['top_fnac_2_plus']==1]
prop_2fnac = (len(fnac2_allbooks)*100)/len(only_new)
print(str(len(fnac2_allbooks))+" livres de la base sont dans les super bestsellers fnac. Cela représente "+str(prop_2fnac)+" (%) des livres.")
babelio_allbooks = only_new[only_new['top_babelio']==1]
prop_babelio = (len(babelio_allbooks)*100)/len(only_new)
print(str(len(babelio_allbooks))+" livres de la base sont dans les plus lus sur Babelio. Cela représente "+str(prop_babelio)+" (%) des livres.")
bibli_allbooks = only_new[only_new['Top_bibliothèque']==1]
prop_bibli = (len(bibli_allbooks)*100)/len(only_new)
print(str(len(bibli_allbooks))+" livres de la base sont dans les plus empruntés dans les bibliothèques de Paris. Cela représente "+str(prop_bibli)+" (%) des livres.")

90 livres de la base ont obtenu un prix. Cela représente 4.124656278643446 (%) des livres.
7 livres de la base sont dans un top livraddict. Cela représente 0.3208065994500458 (%) des livres.
13 livres de la base sont dans les bestsellers fnac. Cela représente 0.5957836846929423 (%) des livres.
9 livres de la base sont dans les super bestsellers fnac. Cela représente 0.41246562786434465 (%) des livres.
12 livres de la base sont dans les plus lus sur Babelio. Cela représente 0.5499541704857929 (%) des livres.
16 livres de la base sont dans les plus empruntés dans les bibliothèques de Paris. Cela représente 0.7332722273143905 (%) des livres.


On va s'appuyer sur la partie "Analyse préliminaire des données" pour comparer la représentativité de cet échantillon de livres sortis. Les livres ayant reçus un prix sont légèrement sous-représentés ( puisque leur proportion dans le nombre de livres totaux sortis est plutôt autour de 6%). Toutefois, cette différence est petite. On pense que ces derniers seraient très surreprésentés si on ajoutait toute la base wikipedia. La proportion de livres issus de Livraddict est assez représentative. Les bestsellers fnac sont un tout petit peu surreprésentés, mais pas de beaucoup par rapport aux proportions dans le vrai marché du livre. De la même manière, les livres de la bibliothèque de Paris sont un peu surreprésentés. Cependant, malgré des proportions satisfaisantes, les catégories sont trop restreintes pour pouvoir mener une régression linéaire satisfaisant par la suite. Nous choisissons ainsi de laisser les livres n'étant pas dans nos sorties Babelio afin de récolter plus d'informations, tout en prévoyant d'ajouter des poids sur les données.

Ainsi, on effectue les mêmes opérations sur notre base sans enlever les livres pour lesquels la variable "parutions" n'est pas égale à 1.

In [50]:
columns = ['top_fnac_1', 'top_fnac_2_plus', 'top_babelio', 'top_livraddict', 'prix_19_23', 'Top_bibliothèque']
for i in range(0,len(columns)):
    column = columns[i]
    second_merged_df[column] = second_merged_df.apply(place0, axis=1)

In [51]:
wrong_years = second_merged_df[second_merged_df["Année"].isin([2019,2020])]
second_merged_df = second_merged_df.drop(wrong_years.index)

Pour continuer, on applique la fonction youtube sur cette base de donnée afin de regarder si les livres de la base sont cités dans des vidéos. 

In [52]:
def livre_dans_sous_titres3(livre,youtube):
    #On charge les tables dont on a besoin"
    books_data = pd.read_csv(f"{livre}.csv", encoding="utf-8")
    youtube_data = pd.read_csv(f"{youtube}.csv", encoding="utf-8")
    print("Livres de la base de données "f'{livre}.csv'" dans les sous-titres de vidéos youtube de la base de données "f'{youtube}.csv')
    # On convertie la colonne 'Subtitles'et 'Titre' en type string
    youtube_data['Subtitles'] = youtube_data['Subtitles'].astype(str)
    books_data['Titre'] = books_data['Titre'].astype(str)
    # On convertie les sous-titres en miniscule pour correspondre au traitement des titres dans Base_finale.csv
    youtube_data['Subtitles'] = youtube_data['Subtitles'].str.lower()
    # On initialise une nouvelle liste pour stocker les résultats
    result = []
    # On itére sur chaque liste de la colonne 'Titre' de books_data
    for index1, row1 in books_data.iterrows():
        count_list = []  # Liste pour stocker les résultats de cette ligne
        # On itére sur chaque liste de la colonne 'Subtitles' de youtube_data
        for index2, row2 in youtube_data.iterrows():
            # On vérifie si la liste de books_data (row1['Titre']) est une sous-liste de la liste de youtube_data (row2['Subtitles'])
            if row1['Titre'] in row2['Subtitles']:
                count_list.append(1)  # Si elle est incluse, compter une occurrence
            else:
                count_list.append(0)  # Sinon, aucune occurrence
        # On ajoute la liste des Titres, des Auteurs de books_data et la somme des occurrences
        result.append([row1['Titre'], row1['Auteur'], sum(count_list)])
    # On crée la nouvelle DataFrame contenant les résultats
    colonnes=['Titres','Auteurs','Occurrences dans les sous-titres de vidéos']
    result_df = pd.DataFrame(result, columns = colonnes )
    # On filtre les lignes où 'Occurrences dans les sous-titres des vidéos' est différente de 0 (On ne s'intéresse qu'aux livres cités au moins une fois)
    filtered_df = result_df[result_df['Occurrences dans les sous-titres de vidéos'] != 0]
    # On affiche le DataFrame filtré
    return filtered_df

In [53]:
import pandas as pd
df2 = livre_dans_sous_titres3('Base_finale_regressions','ss_youtube_livre_2019_2023')
df2.to_csv("livres_soustitres(4).csv")

Livres de la base de données Base_finale_regressions.csv dans les sous-titres de vidéos youtube de la base de données ss_youtube_livre_2019_2023.csv


Ensuite, applique les mêmes fonctions qu'avec la base_finale précédente afin d'associer à chaque livre les variables in_youtube et nb_youtube. Avant de lancer ce code, il faut aller lancer les fonctions search_youtube, indicate_youtube et nb_youtube de la partie 5.

In [54]:
first_youtube = pd.read_csv('livres_soustitres(3).csv')
second_youtube = pd.read_csv('livres_soustitres(3).csv')

La fonction met entre 1 et 2 minutes à s'exécuter

In [55]:
second_merged_df["in_youtube"] = second_merged_df.apply(indicate_youtube, axis=1)
second_merged_df["nb_youtube"] = second_merged_df.apply(nb_youtube, axis=1)

On réécrit le fichier csv

In [128]:
second_merged_df.to_csv("Base_finale_regressions.csv")