# TP Guidé : WebScrapping
## I) Le WebScrapping dans la vraie vie

Le WebScrapping est une activité très utilisé dans l’industrie informatique. En effet
c’est un outil très efficace pour récolter des données sur Internet et pouvoir les traiter.
Cependant est ce que c’est légal ?


Extrait de <i>L’usine Digitale</i>

La pratique du web scraping pourrait être considérée comme un "vol de données"
(atteinte au STAD) en s’appuyant sur l’article 323-3 du Code pénal qui énonce :
"Le fait d’introduire frauduleusement des données dans un système de traitement
automatisé, d’extraire, de détenir, de reproduire, de transmettre, de supprimer ou de
modifier frauduleusement les données qu’il contient est puni de cinq ans d’emprisonnement et de 150 000 € d’amende. Lorsque cette infraction a été commise à l’encontre d’un système de traitement automatisé de données à caractère personnel mis
en oeuvre par l’Etat, la peine est portée à sept ans d’emprisonnement et à 300 000
€ d’amende." Il conviendrait toutefois de caractériser l’intention frauduleuse du web
scraping.
On peut également considérer qu’il s’agit d’un acte de concurrence déloyale ou
d’une pratique de parasitisme, la personne recourant au web scraping n’ayant pas effectué les mêmes efforts (en termes de communication, d’investissements techniques,
etc.) que le teneur du site pour collecter ces données.
En outre, ce point se double d’exigences impératives en matière de protection des
données à caractère personnel des utilisateurs à l’heure où le RGPD constitue une
donne incontournable dans la stratégie des entreprises connectées. Il met en exergue
la nécessité d’une gouvernance des données à caractère personnel (tant organisationnelle que juridique ou technique)...





<i> Le mot du professeur </i>

Pour ne pas tomber dans l'illégalité dans le webscrapping.
* Ne publiez pas en ligne les informations que vous avez récupérer avec le webscrapping.
* Limitez au maximum le nombre de connexion au site (1 connexion maximum par page), comme vous le feriez en naviguant à la main. Les connexions sont faites grâce au module requests. <b>NE METTEZ JAMAIS <code>requests</code> DANS UNE BOUCLE</b>

Si les données sont en licence libre, alors vous avez le droit d’y accéder librement.

## II) Installation des prerequis

Taper dans le terminal (en bas ou dans Terminal -> ouvrir Nouveau Terminal)
```
pip install --user --trusted-host Pypi.org --proxy=10.0.0.1:3128 beautifulsoup4
```

```
pip install --user --trusted-host Pypi.org --proxy=10.0.0.1:3128 requests
```

Cette commande permet d’installer la librairie beautifulsoup4 qui permet à partir
du texte d’une page html d’obtenir un objet dans lequel on pourra naviguer.

## III) Initialisation 

On va charger les librairies dont on aura besoin : 

In [62]:
import requests
import time
from bs4 import BeautifulSoup
import os

Les connexions sortantes et entrantes du lycée passe par un "tunnel" appelé proxy. On va préparer une variable (de quel type) avec les coordonnées de ce tunnel.

In [63]:
proxies = {"http":"10.0.0.1:3128","https":"10.0.0.1:3128"}

On va aller chercher une liste d'animé sur le site suivant : https://www.senscritique.com/liste/liste_complete_anime/478051

<div class="alert alert-info"><strong>Exercice</strong>
Faire une variable <code>url</code> qui sera un string et qui aura pour valeur l'url précédente.
</div>
  

In [64]:
url = ...
url = "https://www.senscritique.com/liste/liste_complete_anime/478051"

## IV) Navigation sur le site et recherche des points clés

1. Connectez vous avec votre navigateur à https://www.senscritique.com/liste/liste_complete_anime/478051

2. Inspecter le titre du premier anime que vous voyez. Quelle est sa balise et si il a une classe quelle est sa classe (et ses autres attributs)

Réponse : c'est une balise a
la classe est: class="Text__SCText-sc-1aoldkr-0 Link__SecondaryLink-sc-1v081j9-1 kcGHBE jacWTu ProductListItem__StyledProductTitle-sc-1jkxxpj-3 dBFYVt".
autres attributs :data-testid="product-title"   et   href="/serie/elfen_lied/189186"


3. Chercher en remontant l'inspecteur de code la plus petite balise contenant tous les animes. Vérifier que sa balise est un div et que sa classe est ```"List__WrapperLists-sc-13autox-3 bgPFiI"```. Que signifie List__Wrapper ? Est ce que cela a du sens que sa classe est List__Wrapper ?

Réponse : ça veut dire enveloppeur de listes, ce qui à du sens car ça enveloppe un certain nombre de liste.

4. Supposer que vous pouvez tout extraire. Proposez une méthode pour pouvoir extraire tous les animes de cette page.

Réponse : Il faudra prendre tout les titres présents dans la balise list_Wrapper

## V) Automatisation de la collecte d'information

1. On se connecte au site via python en utilisant le package ```requests```. On utilise la fonction ```get``` du package ```requests``` avec les arguments ```url``` pour faire une requête GET à l'url et ```proxies``` pour préciser le tunnel de connexion (c'est un argument facultatif mais au lycée il faut absolument le mettre).

Si on voulait faire un POST quelle fonction aurait-on utilisé et quels auraient été les arguments ?

Réponse : On aurait utilisé la fonction .post() qui a pour arguments url et proxies aussi

In [65]:
response = requests.get(url)

2. Afficher le contenu de la réponse ```response```. Le contenu est dans ```response.content```.

In [66]:
print(response.content)



3. Vous avez vu c'est moche et illisible. Pour le rendre lisible, on va le découper en suivant les balises html. Cette activité s'appeler "parser" le texte. L'outil en python qui permet de parser des pages html est ```BeautifulSoup``` du package ```bs4```. On va donc appeler la classe ```BeautifulSoup``` avec comme argument le contenu de la page ```response.content``` et ```"html.parser``` pour dire qu'on veut parser du html. 

Compléter la cellule pour afficher ```soup```

In [67]:
soup = BeautifulSoup(response.content,"html.parser")
print(soup)

<!DOCTYPE html>
<html lang="fr"><head><meta charset="utf-8"/><meta content="width=device-width" name="viewport"/><meta content="index,follow,max-snippet:-1" name="robots"/><meta content="SensCritique" name="author"/><meta content="France" name="country"/><meta content="48.8685823;2.3480648" name="geo.position"/><meta content="FR" name="geo.country"/><meta content="48.8685823,2.3480648" name="ICBM"/><meta content="127524802986" property="fb:pages"/><link href="/app-icons/apple-touch-icon-57x57.png" rel="apple-touch-icon" sizes="57x57"/><link href="/app-icons/apple-touch-icon-60x60.png" rel="apple-touch-icon" sizes="60x60"/><link href="/app-icons/apple-touch-icon-72x72.png" rel="apple-touch-icon" sizes="72x72"/><link href="/app-icons/apple-touch-icon-76x76.png" rel="apple-touch-icon" sizes="76x76"/><link href="/app-icons/apple-touch-icon-114x114.png" rel="apple-touch-icon" sizes="114x114"/><link href="/app-icons/apple-touch-icon-120x120.png" rel="apple-touch-icon" sizes="120x120"/><link 

4. Maintenant on va chercher nos animes. On a pas fait tout ça pour rien :) On va pas les chercher, on va les trouver tous avec la méthode ```find_all```. Ce dernier prend pour argument :
   * un argument obligatoire : la balise de ce que l'on cherche.
   * un argument facultatif : les attributs la balise que l'on cherche.
 
  Recopier dans une variable ```classe``` du type ```string``` le contenu de l'attribut ```class``` de la balise du IV.3. 

In [68]:
classe = ...
classe = "List__WrapperLists-sc-13autox-3 bgPFiI"

Comme l'attribut ```class``` est en fait une liste on va transformer le string en liste grace à la méthode ```split```. La méthode ```.split(" ")``` prendra le string et le séparera tous les espaces. 

In [69]:
liste_classe = classe.split(" ")
liste_classe

['List__WrapperLists-sc-13autox-3', 'bgPFiI']

Finalement notre recherche donne :

In [70]:
liste_div = soup.find_all("div",{"class":classe.split(" ")})
liste_div

[<div class="List__WrapperLists-sc-13autox-3 bgPFiI"><div><div class="ProductListItem__Container-sc-1jkxxpj-0 btjqXG" data-testid="product-list-item"><div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/elfen_lied/189186" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000006486809/300/elfen_lied.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-sizing:border-box;display:block;wid

5. Regardons la longueur de ```liste_div```. On aimerait avoir une longueur de 1 pour être sûr de prendre le bon élément. Chercher la longueur de ```liste```. 

In [71]:
print(len(liste_div))

1


* Quelle est la longueur de ```liste_div``` ? 
* Est ce que c'est ce que vous voulez ? 
* Faite une variable ```tag_liste``` contenant l'unique élément de ```liste_div```.

Réponse : La longueur est de 1 et c'est ce que l'on cherche

In [72]:
tag_liste = liste_div[0]
tag_liste

<div class="List__WrapperLists-sc-13autox-3 bgPFiI"><div><div class="ProductListItem__Container-sc-1jkxxpj-0 btjqXG" data-testid="product-list-item"><div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/elfen_lied/189186" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000006486809/300/elfen_lied.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-sizing:border-box;display:block;widt

6. Maintenant que l'on a la liste de tous les mangas on va chercher les informations de chaque manga. Chercher sur le navigateur le plus petit élément contenant toutes les informations sur un seul manga. Donner 
   * sa balise
   * ses attributs.

Balise : c'est une balise div

Attribut : classe : "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"

7. Maintenant on refait l'étape 4 (```find_all```) avec la balise précédente. Ecrivez votre code en dessous.

In [73]:
classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga = soup.find_all("div", liste_classe)
liste_tag_manga

[<div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/elfen_lied/189186" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000006486809/300/elfen_lied.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-sizing:border-box;display:block;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;max-width:100%"><img alt="" aria-hidden="true" src="data:image/svg+xm

In [74]:
print(len(liste_tag_manga))

30


8. Quelle est la longueur de votre ```find_all``` ? Est ce normal (comptez combien il y a de manga sur une page et comparez le à la longueur du ```find_all```).

Réponse : La longueur du find_all est de 30, ce qui correspond au nombre d'animés sur une page

9. Maintenant il va falloir rentrer dans le détail. On va procéder en 3 étapes
   *  Exploration. On va prendre un tag en particulier et on va chercher où sont les informations précisément.
   *  Automatisation. On va faire une fonction qui prend en entrée un ```tag``` et qui renvoie les informations qui nous interesse.
   *  Récupération des informations. On va faire une boucle sur ```liste_tag_manga``` qui applique la fonction à chaque ```tag``` de la liste.

 9. 1. Faites une variable ```tag``` avec le premier élément de ```liste_tag_manga```

In [75]:
tag = liste_tag_manga[0]
tag

<div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/elfen_lied/189186" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000006486809/300/elfen_lied.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-sizing:border-box;display:block;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;max-width:100%"><img alt="" aria-hidden="true" src="data:image/svg+xml

9. 2. Dans quelle balise et avec quel attribut est le titre du manga (Attention ne regardez pas que la classe)
    

Réponse : Il est dans une balise a et a pour attributs : class="Text__SCText-sc-1aoldkr-0 Link__SecondaryLink-sc-1v081j9-1 kcGHBE jacWTu ProductListItem__StyledProductTitle-sc-1jkxxpj-3 dBFYVt" , 
data-testid="product-title" et
href="/serie/elfen_lied/189186"

9. 3. Utiliser la fonction ```find_all``` pour trouver la balise avec le titre. Extraire l'unique élément de ce ```find_all```. Affecter le à une variable ```tag_titre```. Le titre est dans l'attribut ```texte```

In [76]:

tag_titre = tag.find_all("a",{"data-testid":"product-title"})[0]
tag_titre

<a class="Text__SCText-sc-1aoldkr-0 Link__SecondaryLink-sc-1v081j9-1 kcGHBE jacWTu ProductListItem__StyledProductTitle-sc-1jkxxpj-3 dBFYVt" data-testid="product-title" href="/serie/elfen_lied/189186">Elfen Lied (2004)</a>

In [77]:
titre = tag_titre.text
titre

'Elfen Lied (2004)'

9. 4. De la même façon, trouvez la durée des épisodes, la date de première diffusion, le nombre de saisons et le genre.

In [78]:
tag_duree = tag.find_all("span",{"data-testid":"duration"})[0]
tag_1ere_diffusion = tag.find_all("span",{"data-testid":"date-release"})[0]
tag_nb_saison = tag.find_all("span",{"data-testid":"nb_season"})[0]
tag_genre = tag.find_all("span",{"data-testid":"genres"})[0]
print(tag_duree.text, tag_1ere_diffusion.text, tag_nb_saison.text, tag_genre.text)

25 min.  Date de première diffusion : 12 septembre 2007 (France).  1 saison.  Romance, Seinen, Comédie


9. 5. Faites 5 fonctions qui prennent en argument un ```tag``` et qui renvoie respectivement 
    * le titre
    * la durée des épisodes
    * la date de première diffusion
    * le nombre de saisons
    * le genre

In [79]:
def Tag_titre(tag):   # Extrait le titre d'un tag donné, tag doit être une liste
    tag_titre = tag.find_all("a",{"data-testid" : "product-title"})[0]
    titre_anime = tag_titre.text
    return titre_anime

def Tag_durée(tag):   # Extrait la durée pour un tag donné, tag doit être une liste
    if tag.find_all("span",{"data-testid" : "duration"}) == [] : # S'assure que la durée n'est pas vide
        return "il a pas écrit la durée "
    else:
        tag_duree = tag.find_all("span",{"data-testid" : "duration"})[0]
    duree_anime = tag_duree.text
    return duree_anime

def Tag_release(tag):   # Extrait la date de sortie pour un tag donné, tag doit être une liste
    tag_1ere_diffusion = tag.find_all("span",{"data-testid" : "date-release"})[0]
    diffusion_anime = tag_1ere_diffusion.text
    return diffusion_anime

def Tag_saisons(tag):   # Extrait le nombre de saisons pour un tag donné, tag doit être une liste
    if tag.find_all("span",{"data-testid" : "nb_season"}) == [] :  # S'assure que le nombre de saisons n'est pas vide
        return "il a pas écrit le nombre de saisons "
    else:
        tag_nb_saison = tag.find_all("span",{"data-testid" : "nb_season"})[0]
        saisons_anime = tag_nb_saison.text
        return saisons_anime

def Tag_genre(tag): # Extrait le genre pour un tag donné, tag doit être une liste
    tag_genre = tag.find_all("span",{"data-testid" : "genres"})[0]
    genre_anime = tag_genre.text
    return genre_anime


In [80]:
print(Tag_titre(tag))

Elfen Lied (2004)


In [82]:
Tag_titre(liste_tag_manga[9])

'Date a Live (2013)'

9. 6. Appliquez ces fonctions à tous les ```tag``` de ```liste_tag_manga```. Mettez chaque résultat dans une liste différente : ```liste_titre```, ```liste_duree```, ```liste_release```, ```liste_number_season```, ```liste_genre```.

In [83]:
liste_titre = []
liste_duree = []
liste_release = []
liste_number_season = [] 
liste_genre = []
for tag in liste_tag_manga:
    liste_titre.append(Tag_titre(tag))  
    liste_duree.append(Tag_durée(tag))
    liste_release.append(Tag_release(tag))
    liste_genre.append(Tag_genre(tag))
    liste_number_season.append(Tag_saisons(tag))
print(liste_titre)

['Elfen Lied (2004)', 'Soul Eater (2008)', 'Black Lagoon (2006)', 'Hellsing (2001)', 'Hellsing Ultimate (2006)', 'High School of the Dead (2010)', 'Death Note (2006)', 'Sora no Otoshimono (2009)', 'Angel Beats! (2010)', 'Date a Live (2013)', 'Love, Chunibyo & Other Delusions! (2012)', 'Spice and Wolf (2008)', 'Fullmetal Alchemist : Brotherhood (2009)', 'Magi : The Labyrinth of Magic (2012)', 'Ghost in the Shell : Stand Alone Complex (2002)', 'Durarara!! (2010)', "L'Attaque des Titans (2013)", 'Another (2012)', 'The Future Diary (2011)', 'Akikan! (2008)', 'Anohana (2011)', 'Blue Exorcist (2011)', 'Samurai Harem (2009)', 'Aquarion Evol (2012)', 'Baccano! (2007)', 'Baka and Test: Summon the Beasts (2010)', 'Bakemonogatari (2009)', 'Btooom! (2012)', 'Blood Lad (2013)', 'Blood+ (2005)']


9. 7. La commande suivante permet de faire une table avec tous les animes de façon rangée. Pour la faire on utilise la package pandas, qui gère les tables, appelés ```DataFrame```. La donnée de base est un dictionnaire où les clés sont les noms des colonnes que l'on veut pour notre tableau et les valeurs sont les listes de ce que l'on veut avoir. Mieux vaut comprendre sur un exemple. Le voici.

In [84]:
import pandas as pd
dataframe_manga = pd.DataFrame({
    "Titre":liste_titre,
    "Durée":liste_duree,
    "Diffusion":liste_release,
    "Nombre de Saisons":liste_number_season,
    "Genre":liste_genre
    })
dataframe_manga

Unnamed: 0,Titre,Durée,Diffusion,Nombre de Saisons,Genre
0,Elfen Lied (2004),25 min.,Date de première diffusion : 12 septembre 2007...,1 saison.,"Romance, Seinen, Comédie"
1,Soul Eater (2008),25 min.,Date de première diffusion : 7 octobre 2009 (F...,1 saison.,"Action, Animation, Épouvante-horreur"
2,Black Lagoon (2006),25 min.,Date de première diffusion : 9 avril 2006 (Jap...,1 saison.,"Action, Seinen, Comédie"
3,Hellsing (2001),25 min.,Date de première diffusion : 11 octobre 2001 (...,1 saison.,"Animation, Action, Épouvante-horreur"
4,Hellsing Ultimate (2006),45 min.,Date de première diffusion : 10 février 2006 (...,1 saison.,"Animation, Action, Fantastique"
5,High School of the Dead (2010),25 min.,Date de première diffusion : 27 juin 2010 (Jap...,1 saison.,"Shōnen, Action, Romance"
6,Death Note (2006),25 min.,Date de première diffusion : 2 février 2008 (F...,1 saison.,"Thriller, Policier, Shōnen"
7,Sora no Otoshimono (2009),25 min.,Date de première diffusion : 5 octobre 2009 (J...,2 saisons.,"Action, Animation, Comédie"
8,Angel Beats! (2010),25 min.,Date de première diffusion : 10 juillet 2013 (...,1 saison.,"Seinen, Action, Comédie"
9,Date a Live (2013),25 min.,Date de première diffusion : 31 mars 2013 (Jap...,il a pas écrit le nombre de saisons,"Fantasy, Romance, Shōnen"


10. Faire une fonction qui à une ```liste_titre```, ```liste_duree```, ```liste_release```, ```liste_number_season```, ```liste_genre``` associe une liste de dictionnaire de la forme

{"Titre":titre_du_manga, "Durée":duree_du_manga,"Date de diffusion":release_manga,"Nombre de saisons":season_number,"Genre":genre}

In [85]:
def ListeDataFrame(liste_titre,liste_duree,liste_release,liste_number_season,liste_genre):
    dicoDataFrame = []
    for i in range(len(liste_titre)):
        dicoDataFrame.append({"Titre":liste_titre[i],
                            "Durée":liste_duree[i],
                            "Date de diffusion":liste_release[i],
                            "Nombre de saisons":liste_number_season[i] ,
                            "Genre":liste_genre[i]
                            })
    return dicoDataFrame
print(ListeDataFrame(liste_titre,liste_duree,liste_release,liste_number_season,liste_genre))

[{'Titre': 'Elfen Lied (2004)', 'Durée': '25 min. ', 'Date de diffusion': 'Date de première diffusion : 12 septembre 2007 (France). ', 'Nombre de saisons': '1 saison. ', 'Genre': 'Romance, Seinen, Comédie'}, {'Titre': 'Soul Eater (2008)', 'Durée': '25 min. ', 'Date de diffusion': 'Date de première diffusion : 7 octobre 2009 (France). ', 'Nombre de saisons': '1 saison. ', 'Genre': 'Action, Animation, Épouvante-horreur'}, {'Titre': 'Black Lagoon (2006)', 'Durée': '25 min. ', 'Date de diffusion': 'Date de première diffusion : 9 avril 2006 (Japon). ', 'Nombre de saisons': '1 saison. ', 'Genre': 'Action, Seinen, Comédie'}, {'Titre': 'Hellsing (2001)', 'Durée': '25 min. ', 'Date de diffusion': 'Date de première diffusion : 11 octobre 2001 (Japon). ', 'Nombre de saisons': '1 saison. ', 'Genre': 'Animation, Action, Épouvante-horreur'}, {'Titre': 'Hellsing Ultimate (2006)', 'Durée': '45 min. ', 'Date de diffusion': 'Date de première diffusion : 10 février 2006 (Japon). ', 'Nombre de saisons': '

## Devoir Maison

Sur le site, il y a 8 pages d'anime. Nous avons analisé une page d'anime. Faite un ```Dataframe``` comme dans le 9.7. mais avec tous les animes du site.

In [86]:
url_2 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=2"
url_3 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=3"
url_4 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=4"
url_5 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=5"
url_6 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=6"
url_7 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=7"
url_8 = "https://www.senscritique.com/liste/liste_complete_anime/478051?page=8"

In [87]:
response_2 = requests.get(url_2)
response_3 = requests.get(url_3)
response_4 = requests.get(url_4)
response_5 = requests.get(url_5)
response_6 = requests.get(url_6)
response_7 = requests.get(url_7)
response_8 = requests.get(url_8)

In [88]:
print(response_2.content)
print(response_3.content)
print(response_4.content)
print(response_5.content)
print(response_6.content)
print(response_7.content)
print(response_8.content)



In [89]:
soup_2 = BeautifulSoup(response_2.content,"html.parser")
print(soup_2)

soup_3 = BeautifulSoup(response_3.content,"html.parser")
print(soup_3)

soup_4 = BeautifulSoup(response_4.content,"html.parser")
print(soup_4)

soup_5 = BeautifulSoup(response_5.content,"html.parser")
print(soup_5)

soup_6 = BeautifulSoup(response_6.content,"html.parser")
print(soup_6)

soup_7 = BeautifulSoup(response_7.content,"html.parser")
print(soup_7)

soup_8 = BeautifulSoup(response_8.content,"html.parser")
print(soup_8)

<!DOCTYPE html>
<html lang="fr"><head><meta charset="utf-8"/><meta content="width=device-width" name="viewport"/><meta content="index,follow,max-snippet:-1" name="robots"/><meta content="SensCritique" name="author"/><meta content="France" name="country"/><meta content="48.8685823;2.3480648" name="geo.position"/><meta content="FR" name="geo.country"/><meta content="48.8685823,2.3480648" name="ICBM"/><meta content="127524802986" property="fb:pages"/><link href="/app-icons/apple-touch-icon-57x57.png" rel="apple-touch-icon" sizes="57x57"/><link href="/app-icons/apple-touch-icon-60x60.png" rel="apple-touch-icon" sizes="60x60"/><link href="/app-icons/apple-touch-icon-72x72.png" rel="apple-touch-icon" sizes="72x72"/><link href="/app-icons/apple-touch-icon-76x76.png" rel="apple-touch-icon" sizes="76x76"/><link href="/app-icons/apple-touch-icon-114x114.png" rel="apple-touch-icon" sizes="114x114"/><link href="/app-icons/apple-touch-icon-120x120.png" rel="apple-touch-icon" sizes="120x120"/><link 

In [90]:
classe = "List__WrapperLists-sc-13autox-3 bgPFiI"

liste_div_2 = soup_2.find_all("div",{"class":classe.split(" ")})
liste_div_2

liste_div_3 = soup_3.find_all("div",{"class":classe.split(" ")})
liste_div_3

liste_div_4 = soup_4.find_all("div",{"class":classe.split(" ")})
liste_div_4

liste_div_5 = soup_5.find_all("div",{"class":classe.split(" ")})
liste_div_5

liste_div_6 = soup_6.find_all("div",{"class":classe.split(" ")})
liste_div_6

liste_div_7 = soup_7.find_all("div",{"class":classe.split(" ")})
liste_div_7

liste_div_8 = soup_8.find_all("div",{"class":classe.split(" ")})
liste_div_8

[<div class="List__WrapperLists-sc-13autox-3 bgPFiI"><div><div class="ProductListItem__Container-sc-1jkxxpj-0 btjqXG" data-testid="product-list-item"><div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/food_wars_shokugeki_no_soma/15876808" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000020056938/300/food_wars_shokugeki_no_soma.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box

In [91]:
print(len(liste_div_8))

1


In [92]:
tag_liste_2 = liste_div_2[0]
tag_liste_2

tag_liste_3 = liste_div_3[0]
tag_liste_3

tag_liste_4 = liste_div_4[0]
tag_liste_4

tag_liste_5 = liste_div_5[0]
tag_liste_5

tag_liste_6 = liste_div_6[0]
tag_liste_6

tag_liste_7 = liste_div_7[0]
tag_liste_7

tag_liste_8 = liste_div_8[0]
tag_liste_8

<div class="List__WrapperLists-sc-13autox-3 bgPFiI"><div><div class="ProductListItem__Container-sc-1jkxxpj-0 btjqXG" data-testid="product-list-item"><div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/food_wars_shokugeki_no_soma/15876808" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000020056938/300/food_wars_shokugeki_no_soma.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-

In [93]:
classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_2 = soup_2.find_all("div", liste_classe)
liste_tag_manga_2

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_3 = soup_3.find_all("div", liste_classe)
liste_tag_manga_3

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_4 = soup_4.find_all("div", liste_classe)
liste_tag_manga_4

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_5 = soup_5.find_all("div", liste_classe)
liste_tag_manga_5

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_6 = soup_6.find_all("div", liste_classe)
liste_tag_manga_6

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_7 = soup_7.find_all("div", liste_classe)
liste_tag_manga_7

classe = "ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"
liste_classe = classe.split(" ")
liste_tag_manga_8 = soup_8.find_all("div", liste_classe)
liste_tag_manga_8

[<div class="ProductListItem__Wrapper-sc-1jkxxpj-1 kusRkg"><div class="ProductListItem__WrapperPoster-sc-1jkxxpj-2 gYYbKm"><div class="ProductActionsOnHover__Content-sc-1kgwlhz-0 fVFIuP" data-testid="product-actions-hover"><div class="Poster__Container-sc-yale2-1 jAoPdr" data-testid="poster" height="200" width="150"><a class="Poster__SubLink-sc-yale2-2 jhmgpI" data-testid="poster" height="200" href="/serie/food_wars_shokugeki_no_soma/15876808" width="150"><span class="Poster__WrapperImage-sc-yale2-9 ZhZbK" data-srcname="https://media.senscritique.com/media/000020056938/300/food_wars_shokugeki_no_soma.jpg" data-testid="poster-img-wrapper"><span style="box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:relative;max-width:100%"><span style="box-sizing:border-box;display:block;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;max-width:100%"><img alt="" aria-

In [94]:
liste_titre_2 = []
liste_duree_2 = []
liste_release_2 = []
liste_number_season_2 = [] 
liste_genre_2 = []
for tag in liste_tag_manga_2:
    liste_titre_2.append(Tag_titre(tag))  
    liste_duree_2.append(Tag_durée(tag))
    liste_release_2.append(Tag_release(tag))
    liste_genre_2.append(Tag_genre(tag))
    liste_number_season_2.append(Tag_saisons(tag))
print(liste_titre_2)

liste_titre_3 = []
liste_duree_3= []
liste_release_3 = []
liste_number_season_3 = [] 
liste_genre_3 = []
for tag in liste_tag_manga_3:
    liste_titre_3.append(Tag_titre(tag))  
    liste_duree_3.append(Tag_durée(tag))
    liste_release_3.append(Tag_release(tag))
    liste_genre_3.append(Tag_genre(tag))
    liste_number_season_3.append(Tag_saisons(tag))
print(liste_titre_3)

liste_titre_4 = []
liste_duree_4= []
liste_release_4 = []
liste_number_season_4 = [] 
liste_genre_4 = []
for tag in liste_tag_manga_4:
    liste_titre_4.append(Tag_titre(tag))  
    liste_duree_4.append(Tag_durée(tag))
    liste_release_4.append(Tag_release(tag))
    liste_genre_4.append(Tag_genre(tag))
    liste_number_season_4.append(Tag_saisons(tag))
print(liste_titre_4)

liste_titre_5 = []
liste_duree_5 = []
liste_release_5 = []
liste_number_season_5 = [] 
liste_genre_5 = []
for tag in liste_tag_manga_5:
    liste_titre_5.append(Tag_titre(tag))  
    liste_duree_5.append(Tag_durée(tag))
    liste_release_5.append(Tag_release(tag))
    liste_genre_5.append(Tag_genre(tag))
    liste_number_season_5.append(Tag_saisons(tag))
print(liste_titre_5)

liste_titre_6 = []
liste_duree_6 = []
liste_release_6 = []
liste_number_season_6 = [] 
liste_genre_6 = []
for tag in liste_tag_manga_6:
    liste_titre_6.append(Tag_titre(tag))  
    liste_duree_6.append(Tag_durée(tag))
    liste_release_6.append(Tag_release(tag))
    liste_genre_6.append(Tag_genre(tag))
    liste_number_season_6.append(Tag_saisons(tag))
print(liste_titre_6)

liste_titre_7 = []
liste_duree_7 = []
liste_release_7 = []
liste_number_season_7 = [] 
liste_genre_7 = []
for tag in liste_tag_manga_7:
    liste_titre_7.append(Tag_titre(tag))  
    liste_duree_7.append(Tag_durée(tag))
    liste_release_7.append(Tag_release(tag))
    liste_genre_7.append(Tag_genre(tag))
    liste_number_season_7.append(Tag_saisons(tag))
print(liste_titre_7)

liste_titre_8 = []
liste_duree_8 = []
liste_release_8 = []
liste_number_season_8 = [] 
liste_genre_8 = []
for tag in liste_tag_manga_8:
    liste_titre_8.append(Tag_titre(tag))  
    liste_duree_8.append(Tag_durée(tag))
    liste_release_8.append(Tag_release(tag))
    liste_genre_8.append(Tag_genre(tag))
    liste_number_season_8.append(Tag_saisons(tag))
print(liste_titre_8)

['Black Rock Shooter (2012)', 'C3: Cube x Cursed x Curious (2011)', 'Campione! Matsurowanu Kamigami to Kamigoroshi no Maou (2012)', 'Canaan (2009)', 'Love, Chunibyo and Other Delusions! Heart Throb (2014)', 'Claymore (2007)', 'Code : Breaker (2012)', 'Code Geass: Lelouch of the Rebellion (2006)', 'Code Geass: Lelouch of the Rebellion R2 (2008)', 'Corpse Party: Tortured Souls (2013)', 'Puella Magi Madoka Magica (2011)', 'One Piece (1999)', 'Naruto (2002)', 'Naruto Shippuden (2007)', 'Fullmetal Alchemist (2003)', 'Full Metal Panic ! (2002)', 'Steins;Gate (2011)', 'Strike the Blood (2013)', 'Gurren Lagann (2007)', 'Chaos;Head (2008)', 'Danganronpa The Animation (2013)', 'Aesthetica of a Rogue Hero (2012)', 'The Legend of the Legendary Heroes (2010)', 'Darker than Black (2007)', 'Dakara Boku wa, H ga Dekinai. (2012)', 'Haganai Next (2013)', "Haganai: I Don't Have Many Friends (2011)", 'Deadman Wonderland (2011)', 'Dragon Crisis! (2011)', 'D-Frag! (2014)']
['Ergo Proxy (2006)', 'Fairy Tail 

In [95]:
liste_tout_titre = []
liste_tout_duree = []
liste_tout_release = []
liste_tout_number_season = []
liste_tout_genre = []

liste_tout_titre = liste_titre + liste_titre_2 + liste_titre_3 + liste_titre_4 + liste_titre_5 + liste_titre_6 + liste_titre_7 + liste_titre_8
liste_tout_duree = liste_duree + liste_duree_2 + liste_duree_3 + liste_duree_4 + liste_duree_5 + liste_duree_6 + liste_duree_7 + liste_duree_8
liste_tout_release = liste_release + liste_release_2 + liste_release_3 + liste_release_4 + liste_release_5 + liste_release_6 + liste_release_7 + liste_release_8
liste_tout_number_season = liste_number_season + liste_number_season_2 + liste_number_season_3 + liste_number_season_4 + liste_number_season_5 + liste_number_season_6 + liste_number_season_7 + liste_number_season_8
liste_tout_genre = liste_genre + liste_genre_2 + liste_genre_3 + liste_genre_4 + liste_genre_5 + liste_genre_6 + liste_genre_7 + liste_genre_8
print(liste_tout_titre)
print(len(liste_tout_titre))

['Elfen Lied (2004)', 'Soul Eater (2008)', 'Black Lagoon (2006)', 'Hellsing (2001)', 'Hellsing Ultimate (2006)', 'High School of the Dead (2010)', 'Death Note (2006)', 'Sora no Otoshimono (2009)', 'Angel Beats! (2010)', 'Date a Live (2013)', 'Love, Chunibyo & Other Delusions! (2012)', 'Spice and Wolf (2008)', 'Fullmetal Alchemist : Brotherhood (2009)', 'Magi : The Labyrinth of Magic (2012)', 'Ghost in the Shell : Stand Alone Complex (2002)', 'Durarara!! (2010)', "L'Attaque des Titans (2013)", 'Another (2012)', 'The Future Diary (2011)', 'Akikan! (2008)', 'Anohana (2011)', 'Blue Exorcist (2011)', 'Samurai Harem (2009)', 'Aquarion Evol (2012)', 'Baccano! (2007)', 'Baka and Test: Summon the Beasts (2010)', 'Bakemonogatari (2009)', 'Btooom! (2012)', 'Blood Lad (2013)', 'Blood+ (2005)', 'Black Rock Shooter (2012)', 'C3: Cube x Cursed x Curious (2011)', 'Campione! Matsurowanu Kamigami to Kamigoroshi no Maou (2012)', 'Canaan (2009)', 'Love, Chunibyo and Other Delusions! Heart Throb (2014)', '

In [96]:
import pandas as pd
dataframe_manga = pd.DataFrame({
    "Titre":liste_tout_titre,
    "Durée":liste_tout_duree,
    "Diffusion":liste_tout_release,
    "Nombre de Saisons":liste_tout_number_season,
    "Genre":liste_tout_genre
    })
dataframe_manga

Unnamed: 0,Titre,Durée,Diffusion,Nombre de Saisons,Genre
0,Elfen Lied (2004),25 min.,Date de première diffusion : 12 septembre 2007...,1 saison.,"Romance, Seinen, Comédie"
1,Soul Eater (2008),25 min.,Date de première diffusion : 7 octobre 2009 (F...,1 saison.,"Action, Animation, Épouvante-horreur"
2,Black Lagoon (2006),25 min.,Date de première diffusion : 9 avril 2006 (Jap...,1 saison.,"Action, Seinen, Comédie"
3,Hellsing (2001),25 min.,Date de première diffusion : 11 octobre 2001 (...,1 saison.,"Animation, Action, Épouvante-horreur"
4,Hellsing Ultimate (2006),45 min.,Date de première diffusion : 10 février 2006 (...,1 saison.,"Animation, Action, Fantastique"
...,...,...,...,...,...
229,L'Ère des Cristaux (2017),25 min.,Date de première diffusion : 7 octobre 2017 (J...,1 saison.,"Animation, Action, Fantasy"
230,Les Enfants de la baleine (2017),25 min.,Date de première diffusion : 8 octobre 2017 (J...,1 saison.,"Science-fiction, Fantastique, Drame"
231,Devilman Crybaby (2018),30 min.,Date de première diffusion : 5 janvier 2018 (F...,1 saison.,"Fantastique, Épouvante-horreur, Animation"
232,Violet Evergarden (2018),25 min.,Date de première diffusion : 11 janvier 2018 (...,1 saison.,"Drame, Animation, Science-fiction"
