In [126]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [127]:
# URL de la page à scraper
url = "https://fr.wikipedia.org/wiki/Liste_des_mangas_les_plus_vendus"

# Faire une requête HTTP à la page
response = requests.get(url)

# Vérifier que la requête a réussi
if response.status_code == 200:
    # Analyser le contenu HTML de la page
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Trouver le tableau qui contient les données que vous souhaitez extraire
    target_table = soup.find("table", class_="wikitable")
    
    # Vérifier que le tableau a été trouvé
    if target_table:
        # Initialiser une liste pour stocker les données extraites
        manga_list = []
        
        # Parcourir les lignes du tableau
        for row in target_table.find_all("tr"):  # On exclut la première ligne car c'est l'en-tête du tableau
            # Parcourir les colonnes de chaque ligne
            columns = row.find_all("td")
            if len(columns) >= 3:  # Vérifier qu'il y a au moins 3 colonnes (pour éviter les lignes vides)
                # Extraire les données souhaitées, par exemple les colonnes 1, 2 et 3 (indexées à partir de 0)
                Manga = columns[0].text.strip()
                Auteur = columns[1].text.strip()
                Editeur = columns[2].text.strip()
                Genre = columns[3].text.strip()
                Volume = columns[4].text.strip()
                Parution = columns[5].text.strip()
                vente = columns[6].text.strip()


# Ajouter les données à la liste
                manga_list.append({"Manga" : Manga, "Auteur" : Auteur, "Editeur" : Editeur, 
                                   "Genre" : Genre, "Volume" : Volume, "Parution" : Parution, "vente" : vente})
        
else:
    print("La requête a échoué.")

In [128]:
df = pd.DataFrame(manga_list)
df

Unnamed: 0,Manga,Auteur,Editeur,Genre,Volume,Parution,vente
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"330 millions[2],[note 1]"
2,Golgo 13,Takao SaitōSaito Production (depuis 2021),Shōgakukan,Gekiga,208,1968–en cours,300 millions[3]
3,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,270 millions (tirage)[4]
4,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,250 millions (tirage)[5]
5,Doraemon,Fujiko Fujio,Shōgakukan,Kodomo,45,1969–1996,250 millions[6]
6,Slam Dunk,Takehiko Inoue,Shūeisha,Shōnen,31,1990–1996,170 millions[7]
7,KochiKame,Osamu Akimoto,Shūeisha,Shōnen,201,1976–2016,"156,5 millions[5]"
8,Demon Slayer,Koyoharu Gotouge,Shūeisha,Shônen,23,2016–2020,150 millions (tirage)[8]
9,Crayon Shin-chan,Yoshito Usui,Futabasha,Seinen,60,1990–en cours,"148 millions[9],[note 2]"


# Récupération des données : Wikipédia

In [147]:
dfs = pd.read_html(url)

len(dfs)

6

In [140]:
tab_1 = dfs[0]
tab_2 = dfs[1]
tab_3 = dfs[2]
tab_4 = dfs[3]
tab_5 = dfs[4]
tab_6 = dfs[5]

In [141]:
data = pd.concat([tab_1, tab_2,tab_3,tab_4,tab_5,tab_6])

In [142]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
11,Darwin's Game,FLIPFLOPs,Akita Shoten,Shōnen,28,2012–en cours,5.6 millions (tirage)[141]
12,Medaka Box,Nisio IsinAkira Akatsuki,Shūeisha,Shōnen,22,2009–2013,"5,1 millions (tirage)[142]"
13,Iruma à l'école des démons,Osamu Nishi,Akita Shoten,Shōnen,32,2017–en cours,5 millions (tirage)[143]
14,Les Brigades Immunitaires,Akane Shimizu,Kōdansha,Shōnen,6,2015–2021,5 millions (tirage)[réf. nécessaire]
15,Mashle,Komoto Hajime,Shūeisha,Shōnen,17,2020–2023,5 millions (tirage)[144]


In [143]:
data.reset_index(inplace = True)

In [144]:
data.tail()

Unnamed: 0,index,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
193,11,Darwin's Game,FLIPFLOPs,Akita Shoten,Shōnen,28,2012–en cours,5.6 millions (tirage)[141]
194,12,Medaka Box,Nisio IsinAkira Akatsuki,Shūeisha,Shōnen,22,2009–2013,"5,1 millions (tirage)[142]"
195,13,Iruma à l'école des démons,Osamu Nishi,Akita Shoten,Shōnen,32,2017–en cours,5 millions (tirage)[143]
196,14,Les Brigades Immunitaires,Akane Shimizu,Kōdansha,Shōnen,6,2015–2021,5 millions (tirage)[réf. nécessaire]
197,15,Mashle,Komoto Hajime,Shūeisha,Shōnen,17,2020–2023,5 millions (tirage)[144]


In [145]:
data.drop(['index'], axis=1,inplace = True)

In [146]:
data.head()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"330 millions[2],[note 1]"
2,Golgo 13,Takao SaitōSaito Production (depuis 2021),Shōgakukan,Gekiga,208,1968–en cours,300 millions[3]
3,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,270 millions (tirage)[4]
4,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,250 millions (tirage)[5]


# Exploration des données

In [151]:
data.describe()

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
count,198,198,198,198,198,198,198
unique,198,173,21,9,103,158,192
top,One Piece,Naoki Urasawa,Shūeisha,Shōnen,23,2012–en cours,50 millions[5]
freq,1,5,78,118,9,4,3


In [166]:
data.dtypes

Manga                    object
Auteur(s)                object
Éditeur(s)               object
Genre                    object
Volumes                  object
Date de parution         object
Ventes approximatives    object
dtype: object

In [154]:
data['Genre'].unique()

array(['Shōnen', 'Gekiga', 'Kodomo', 'Shônen', 'Seinen', 'Shōnen/Seinen',
       'Josei', 'Shonen', 'Shōjo'], dtype=object)

In [159]:
data.loc[data['Genre'] == 'Shōnen']

Unnamed: 0,Manga,Auteur(s),Éditeur(s),Genre,Volumes,Date de parution,Ventes approximatives
0,One Piece,Eiichirō Oda,Shūeisha,Shōnen,106,1997–en cours,"516,6 millions (tirage)[1]"
1,Dragon Ball,Akira Toriyama,Shūeisha,Shōnen,42,1984–1995,"330 millions[2],[note 1]"
3,Détective Conan,Gōshō Aoyama,Shōgakukan,Shōnen,103,1994–en cours,270 millions (tirage)[4]
4,Naruto,Masashi Kishimoto,Shūeisha,Shōnen,72,1999–2014,250 millions (tirage)[5]
6,Slam Dunk,Takehiko Inoue,Shūeisha,Shōnen,31,1990–1996,170 millions[7]
...,...,...,...,...,...,...,...
193,Darwin's Game,FLIPFLOPs,Akita Shoten,Shōnen,28,2012–en cours,5.6 millions (tirage)[141]
194,Medaka Box,Nisio IsinAkira Akatsuki,Shūeisha,Shōnen,22,2009–2013,"5,1 millions (tirage)[142]"
195,Iruma à l'école des démons,Osamu Nishi,Akita Shoten,Shōnen,32,2017–en cours,5 millions (tirage)[143]
196,Les Brigades Immunitaires,Akane Shimizu,Kōdansha,Shōnen,6,2015–2021,5 millions (tirage)[réf. nécessaire]


In [162]:
#Uniformisation du terme Shonen
data.replace('Shōnen', 'Shonen', inplace = True)
data.replace('Shônen', 'Shonen', inplace = True)

In [163]:
data['Genre'].unique()

array(['Shonen', 'Gekiga', 'Kodomo', 'Seinen', 'Shōnen/Seinen', 'Josei',
       'Shōjo'], dtype=object)