In [193]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [194]:
# URL de la page à scraper
url = "https://fr.wikipedia.org/wiki/Liste_des_mangas_les_plus_vendus"

# Faire une requête HTTP à la page
response = requests.get(url)

# Vérifier que la requête a réussi
if response.status_code == 200:
    # Analyser le contenu HTML de la page
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Trouver le tableau qui contient les données que vous souhaitez extraire
    target_table = soup.find("table", class_="wikitable")
    
    # Vérifier que le tableau a été trouvé
    if target_table:
        # Initialiser une liste pour stocker les données extraites
        manga_list = []
        
        # Parcourir les lignes du tableau
        for row in target_table.find_all("tr"):  # On exclut la première ligne car c'est l'en-tête du tableau
            # Parcourir les colonnes de chaque ligne
            columns = row.find_all("td")
            if len(columns) >= 3:  # Vérifier qu'il y a au moins 3 colonnes (pour éviter les lignes vides)
                # Extraire les données souhaitées, par exemple les colonnes 1, 2 et 3 (indexées à partir de 0)
                Manga = columns[0].text.strip()
                Auteur = columns[1].text.strip()
                Editeur = columns[2].text.strip()
                Genre = columns[3].text.strip()
                Volume = columns[4].text.strip()
                Parution = columns[5].text.strip()
                vente = columns[6].text.strip()


# Ajouter les données à la liste
                manga_list.append({"Manga" : Manga, "Auteur" : Auteur, "Editeur" : Editeur, 
                                   "Genre" : Genre, "Volume" : Volume, "Parution" : Parution, "vente" : vente})
        
else:
    print("La requête a échoué.")

In [195]:
df = pd.DataFrame(manga_list)
df

Unnamed: 0,Manga,Auteur,Editeur,Genre,Volume,Parution,vente
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"300 millions[2],[note 1]"
2,Golgo 13,Takao SaitōSaito Production (depuis 2021),Shōgakukan,Gekiga,209,1968–en cours,300 millions[3]
3,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,260 millions (tirage)[4]
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,250 millions (tirage)[5]
5,Doraemon,Fujiko Fujio,Shōgakukan,Kodomo,45,1969–1996,300 millions[6]
6,Slam Dunk,Takehiko Inoue,Shūeisha,Shōnen,31,1990–1996,170 millions[7]
7,KochiKame,Osamu Akimoto,Shūeisha,Shōnen,201,1976–2016,"156,5 millions[4]"
8,Demon Slayer,Koyoharu Gotouge,Shūeisha,Shônen,23,2016–2020,150 millions (tirage)[8]
9,Crayon Shin-chan,Yoshito Usui,Futabasha,Seinen,60,1990–en cours,"148 millions[9],[note 2]"


# Récupération des données : Wikipédia

In [196]:
dfs = pd.read_html(url)

len(dfs)

6

In [197]:
tab_1 = dfs[0]
tab_2 = dfs[1]
tab_3 = dfs[2]
tab_4 = dfs[3]
tab_5 = dfs[4]
tab_6 = dfs[5]

In [198]:
data = pd.concat([tab_1, tab_2,tab_3,tab_4,tab_5,tab_6])

In [199]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"300 millions[2],[note 1]"
2,Golgo 13,Takao Saitō Saito Production (depuis 2021),Shōgakukan,Gekiga,209,1968–en cours,300 millions[3]
3,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,260 millions (tirage)[4]
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,250 millions (tirage)[5]


In [200]:
data.reset_index(inplace = True)

In [201]:
data.tail()

Unnamed: 0,index,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
193,11,Darwin's Game,FLIPFLOPs,Akita Shoten,Shōnen,28,2012–en cours,5.6 millions (tirage)[146]
194,12,Medaka Box,Nisio Isin Akira Akatsuki,Shūeisha,Shōnen,22,2009–2013,"5,1 millions (tirage)[147]"
195,13,Iruma à l'école des démons,Osamu Nishi,Akita Shoten,Shōnen,34,2017–en cours,5 millions (tirage)[148]
196,14,Les Brigades Immunitaires,Akane Shimizu,Kōdansha,Shōnen,6,2015–2021,5 millions (tirage)[réf. nécessaire]
197,15,Mashle,Komoto Hajime,Shūeisha,Shōnen,18,2020–2023,5 millions (tirage)[149]


In [202]:
data.drop(['index'], axis=1,inplace = True)

In [203]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"300 millions[2],[note 1]"
2,Golgo 13,Takao Saitō Saito Production (depuis 2021),Shōgakukan,Gekiga,209,1968–en cours,300 millions[3]
3,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,260 millions (tirage)[4]
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,250 millions (tirage)[5]


# Exploration des données

In [204]:
data.describe()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
count,198,198,198,198,198,198,198
unique,198,173,21,9,99,159,192
top,One Piece,Naoki Urasawa,Shūeisha,Shōnen,23,2012–en cours,50 millions[4]
freq,1,5,78,118,8,4,3


In [205]:
data.dtypes

Manga                    object
Auteur(s)                object
Éditeur(s)               object
Genre                    object
Volumes                  object
Date de parution         object
Ventes approximatives    object
dtype: object

In [206]:
data['Genre'].unique()

array(['Shōnen', 'Gekiga', 'Kodomo', 'Shônen', 'Seinen', 'Shōnen/Seinen',
       'Josei', 'Shonen', 'Shōjo'], dtype=object)

In [207]:
data.loc[data['Genre'] == 'Shōnen']

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"300 millions[2],[note 1]"
3,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,260 millions (tirage)[4]
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,250 millions (tirage)[5]
6,Slam Dunk,Takehiko Inoue,Shūeisha,Shōnen,31,1990–1996,170 millions[7]
...,...,...,...,...,...,...,...
193,Darwin's Game,FLIPFLOPs,Akita Shoten,Shōnen,28,2012–en cours,5.6 millions (tirage)[146]
194,Medaka Box,Nisio Isin Akira Akatsuki,Shūeisha,Shōnen,22,2009–2013,"5,1 millions (tirage)[147]"
195,Iruma à l'école des démons,Osamu Nishi,Akita Shoten,Shōnen,34,2017–en cours,5 millions (tirage)[148]
196,Les Brigades Immunitaires,Akane Shimizu,Kōdansha,Shōnen,6,2015–2021,5 millions (tirage)[réf. nécessaire]


In [208]:
#Uniformisation du terme Shonen
data.replace('Shōnen', 'Shonen', inplace = True)
data.replace('Shônen', 'Shonen', inplace = True)

#Transformer de la colonne Volume en type int
data.replace('22+2', '24', inplace = True)
data['Volumes'] = data['Volumes'].astype(int)

#Modification de la colonne Dat de parution pour la transformer en date
data.replace('en cours', '', inplace = True)

In [209]:
#Récupération des ventes
pattern = r'(\d+\,\d+|\d+) millions'

# Utilisez str.extract pour extraire les données
data['Ventes approximatives (en millions)'] = data['Ventes approximatives'].str.extract(pattern)

# Convertissez les données extraites en type numérique (float)
data['Ventes approximatives (en millions)']= data['Ventes approximatives (en millions)'
                                                 ].str.replace(',', '.').astype(float)

In [210]:
data.drop('Ventes approximatives',axis=1, inplace = True)

In [211]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives (en millions)
0,One Piece,Eiichirō Oda,Shūeisha,Shonen,106,1997–en cours,516.6
1,Dragon Ball,Akira Toriyama,Shūeisha,Shonen,42,1984–1995,300.0
2,Golgo 13,Takao Saitō Saito Production (depuis 2021),Shōgakukan,Gekiga,209,1968–en cours,300.0
3,Naruto,Masashi Kishimoto,Shūeisha,Shonen,72,1999–2014,260.0
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shonen,103,1994–en cours,250.0


In [212]:
data['Genre'].unique()

array(['Shonen', 'Gekiga', 'Kodomo', 'Seinen', 'Shōnen/Seinen', 'Josei',
       'Shōjo'], dtype=object)

# Gestion des dates

In [213]:
data['Année de debut'] = data['Date de parution'].str.slice(0,4)

In [215]:
data['Année de fin'] = data['Date de parution'].str.slice(5,9)
data.replace('en c',None, inplace = True)

data['Fini'] = data['Année de fin'].notna()

In [216]:
data.drop('Date de parution',axis=1, inplace = True)

In [217]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Ventes approximatives (en millions),Année de debut,Année de fin,Fini
0,One Piece,Eiichirō Oda,Shūeisha,Shonen,106,516.6,1997,,False
1,Dragon Ball,Akira Toriyama,Shūeisha,Shonen,42,300.0,1984,1995.0,True
2,Golgo 13,Takao Saitō Saito Production (depuis 2021),Shōgakukan,Gekiga,209,300.0,1968,,False
3,Naruto,Masashi Kishimoto,Shūeisha,Shonen,72,260.0,1999,2014.0,True
4,Détective Conan,Gōshō Aoyama,Shōgakukan,Shonen,103,250.0,1994,,False


## Exportation des données 

In [218]:
data.to_excel('data_mangas.xlsx',index=False)