# Techniques de Web Scraping avec Python

-----

In [2]:
###   Web scraping avec le package BeautifulSoup


#HTML -> BeautifulSoup 
#JavaScript (contenu dynamique ) -> Selenium

#en bas de la page il y a un plusieur balises pour exemple

from urllib.request import urlopen  # request permet de récupérer un site web
from bs4 import BeautifulSoup # bs4 converti un site web en objet BeautifulSoup
import pandas

# fonction urlopen pour récupérer le code HTML de la page web
page_SC = urlopen("https://www.senscritique.com/films/tops/top111")

#On crée une instance soup de la classe BeautifulSoup pour décrypter ce code HTML
soup = BeautifulSoup(page_SC, 'html.parser')


titre_SC = [] # On crée une liste vide qui contiendra tous les titres propres

for element in soup.findAll(name = 'a', attrs = {'class': 'elco-anchor'}):
    titre_SC.append(element.text)
    
print(titre_SC)

annee_sortie_SC = []
for element in soup.findAll('span', attrs={'class': 'elco-date'}):
    annee_sortie_SC.append(element.text.strip("()")) # On retire les parenthèses

note_SC = []
for element in soup.findAll('a', attrs={'class': 'erra-global'}):
    note_SC.append(element.text.strip()) # On retire les espaces inutiles
    
# Création de la data frame

sens_critique = pandas.DataFrame(list(zip(titre_SC,annee_sortie_SC,note_SC)), columns=["Titre","Annee_sortie_SC","Note_SC"])

sens_critique.head()

[]


Unnamed: 0,Titre,Annee_sortie_SC,Note_SC


In [4]:
page_imdb = urlopen("https://www.imdb.com/chart/top")

soup = BeautifulSoup(page_imdb, 'html.parser')

titre_imdb = []
for element in soup.select(".titleColumn a"):
    titre_imdb.append(element.text)
    
annee_sortie_imdb = []
for element in soup.findAll(name = 'span', attrs = {'class': 'secondaryInfo'}):
    annee_sortie_imdb.append(element.text.strip("()"))
    
note_imdb = []
for element in soup.findAll(name = 'strong'):
    note_imdb.append(element.text)
    
note_imdb = note_imdb[4:]

# Création de la data frame

imdb = pandas.DataFrame(list(zip(titre_imdb,annee_sortie_imdb,note_imdb)), columns=["Titre","Annee_sortie_imdb","Note_imdb"])

imdb.head()

Unnamed: 0,Titre,Annee_sortie_imdb,Note_imdb
0,Les évadés,1994,8.9
1,Le parrain,1972,8.9
2,"Le parrain, 2ème partie",1974,8.9
3,The Dark Knight: Le chevalier noir,2008,8.8
4,12 hommes en colère,1957,8.8


In [None]:
from scipy.stats import ttest_rel

# Retirer les accents de la colonne "Titre"

imdb["Titre"] = imdb["Titre"].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
sens_critique["Titre"] = sens_critique["Titre"].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

# Mettre tout en majuscule

imdb["Titre"] = imdb["Titre"].str.upper()
sens_critique["Titre"] = sens_critique["Titre"].str.upper()

# Merge

note_finale = imdb.merge(sens_critique, how = "inner", left_on = "Titre", right_on = "Titre", )

note_finale["Note_imdb"] = pandas.to_numeric(note_finale["Note_imdb"])
note_finale["Note_SC"] = pandas.to_numeric(note_finale["Note_SC"])

# T-test

ttest_rel(note_finale["Note_imdb"],note_finale["Note_SC"])

# La p-value du test de Student est inférieure à 0,05, on rejette donc l'hypothèse que les 
# moyennes sont égales. Comme la statistique de test est positive, la différence entre la moyenne 
# IMDB et la moyenne Sens Critique est elle aussi positive, ce qui suggère que les utilisateurs 
# IMDB sont plus cléments que les utilisateurs Sens Critique quant à la notation.

In [10]:
# Web Scraper les requêtes Google
#Web Scraping avec le package GoogleSearch




from googlesearch import search   #Importez la fonction search du module googleSearch


#Cherchez 10 premiers articles sur google concernant la parité en intelligence 
#artificielle en francais demandant une pause de 2s entre chaque requêtes

for url in search('parite en intelligence artificielle', 
                  tld='com', lang='fr',
                  num= 10, pause= 2.0):
    print (url)



https://datascientest.com/parite-en-intelligence-artificielle-un-enjeu-cle
https://www.actuia.com/tag/parite/
https://www.laboratoiredelegalite.org/le-pacte-pour-une-intelligence-artificielle-egalitaire-entre-les-femmes-et-les-hommes/
https://www.lesechos.fr/idees-debats/cercle/opinion-pas-de-diversite-des-genres-sans-intelligence-artificielle-256956
https://www.nextinpact.com/article/28220/106379-ia-ethique-boites-noires-parite-et-armes-autonomes-dans-rapport-cedric-villani
https://itsocial.fr/enjeux-it/enjeux-strategie/enjeu-digital/parite-homme-femme-lit-vision-dexakis-nelite/
https://digital-society-forum.orange.com/fr/les-actus/1195-les-biais-sexistes-de-l39intelligence-artificielle
https://redpill.nospoon.fr/ia-lintelligence-artificielle-menace-t-elle-legalite-femmes-hommes/
https://www.epsi.fr/femmes-et-intelligence-artificielle/
https://www.unitheque.com/intelligence-artificielle-pas-sans-elles/egale-a%C2%A0-egal/belin/Livre/138853
https://www.belin-editeur.com/lintelligence-ar

<a target=“http://wikipedia.org”>')

In [11]:
#Web Scraping avec le package NewsPaper    

from newspaper import Article
url = 'https://datascientest.com/parite-en-intelligence-artificielle-un-enjeu-cle'
article = Article(url)
article.download()
article.parse()
print(article.text)   #recupere tout 



print (article.nlp() ) # on fait avant tout fonctionner le langage naturel
print (article.authors )
print (article.publish_date)
print (article.summary)
print (article.keywords)

ModuleNotFoundError: No module named 'newspaper'

### Introduction au web scripping

https://www.youtube.com/watch?v=Fvl7wZRkplU

### Introduction au langage web


###### Introduction à HTML

Le HTML (HyperText Markup Language) est un langage de balisage

 - Les balises en paires : Elles s'ouvrent, contiennent du texte, et se referment. < titre>Ceci est un titre< /titre>

 - Les balises orpheline : Ce sont des balises qui servent à insérer un élément à un endroit précis (par exemple une image, un lien). Il n'est pas nécessaire de délimiter le début et la fin.Une balise orpheline s'écrit comme ceci : <image/>

 - Les attributs : Les attributs viennent compléter les balises afin de donner des informations supplémentaires. L'attribut se place après le nom de la balise ouvrante et a le plus souvent une valeur, comme ceci :< balise attribut="valeur"> Par exemple, dans une balise orpheline insérant une image, on ajoute généralement un attribut qui indique le nom de l'image à afficher < image nom="photo.jpg" />
 
Le modele type : 

 - Le Doctype <!DOCTYPE html>: une page HTML démarre toujours en précisant le doctype de notre document.

 - L'élément HTML: composé d’une paire de balises ouvrante < html> et fermante < /html>. L’élément html va représenter notre page, on y insérera tout le contenu de notre page à l’intérieur de celui-ci.
    
 - L'élément head :< head> est un élément d’en-tête. Il va contenir des éléments qui vont servir à fournir des informations sur la page au navigateur, comme le titre de la page.
    
 - L'élément body : < body> contiendra les éléments définissant les contenus de la page à destination de l’utilisateur comme les différents textes présents dans la page, les images, etc.
    
 - L'élément title : < title> va nous permettre d’indiquer le titre de la page visible sur le haut des onglets de votre navigateur, par exemple ici on aurait < title> DataScienTest - Train </ title>
    

###### Introduction à CSS


 - L'attribut .classe
vous devez écrire un nom qui sert à identifier la balise


- L'attribut #ID
L'attribut #id fonctionne de la même manière que .class à un détail près : il ne peut être utilisé qu'une fois dans le code


https://www.youtube.com/watch?v=Fvl7wZRkplU

Balises	Rôle
<html>...</html>	Encadre tout le code HTML (balise principale)
<head>...</head>	En tête de la page
<body>...</body>	Corps de la page
<h1> <h2>...<h6>	Titres
<img src="lien" />	Image
<a href="lien"> </a>	Lien hypertexte
<p>...</p>	Paragraphe
<ul>...</ul>	Liste à puces (non numérotée)
<ol>...</ol>	Liste à puces (numérotée)
<li>...</li>	Eléments de liste à puces
<table>...</table>	Table
<tbody>...</tbody>	Corps d'une table (regroupe une ou plusieurs balises <tr>)
<tr>...</tr>	Ligne d'une table
<td>...</td>	Cellule d'une table
<div>...</div>	Division du contenu (prend un sens lorsqu'elle est associée à un attribut)
<script>...</script>	Code JavaScript

In [None]:
Quel sélecteur css est utilisée afin de définir le style d’un seule élément?

In [None]:
print('id')
#print('text')
#print('class')
#print('name')

In [None]:
Quel est la balise HTML correcte pour un grand titre ?

In [None]:
print('H1')
#print('Heading')
#print('Head')
#print('H6')

In [None]:
Quelle balise est utilisée pour lister les éléments avec des puces ?

In [None]:
#print('<puce>…</puce>')
#print('<list>…</list>')
print('<ul>…</ul>')
#print('<ol>…</ol>')

In [None]:
Quelle est la syntaxe correcte du code CSS suivant ?

In [None]:
#print('Body:color=black')
#print('{body;color:black}')
#print('{body:color=black(body}')
print('Body {color: Black}')

In [None]:
Lequel des attributs est obligatoire dans la balise <img>?

In [None]:
print('src')
#print('href')
#print('id')
#print('alt')

In [None]:
Quel est la bonne syntaxe afin de créer un lien vers la page d’accueil de Wikipédia ?

In [None]:
#print('<a target=“http://wikipedia.org”>Wikipédia</a>')
#print('<a href=“http://wikipedia.org”>')
print('<a href=“http://wikipedia.org”>Wikipédia</a>')
#print('<a target=“http://wikipedia.org”>')

In [None]:
Laquelle de ces syntaxes est correcte ?

In [None]:
print('<img>src=“mon-image.jpg” alt=“Une image”</img>')
#print('<img src=“mon-image.jpg” alt=“Une image”>')
#print('<img href=“mon-image.jpg” alt=“Une image”>')

In [None]:
#Partie 2: Web Scraping avec Beautiful Soup¶

In [None]:
Importez les module pandas , beautiful soup et urllopen
Afficher l'ensemble des titres de films contenus dans la liste Title sur la page mentionnée plus haut.

In [None]:
from urllib.request import urlopen  # request permet de récupérer un site web
from bs4 import BeautifulSoup # bs4 converti un site web en objet BeautifulSoup
import pandas


page = urlopen("https://www.rottentomatoes.com/top/bestofrt/top_100_action__adventure_movies/")
soup = BeautifulSoup(page, 'html.parser')


titre = [] # On crée une liste vide qui contiendra tous les titres propres


for element in soup.findAll(attrs = {'class': 'unstyled articleLink'}):
    titre.append(element.text.strip('\n xa'))    
    
titre = titre [43:143]
titre[:5]
len (titre)

In [None]:
De la même manière que ci-dessus, créez les listes num_critique_SC et note_SC contenant respectivement le nombre de critiques et la note de chaque film de la liste.
Utilisez la méthode strip() pour "nettoyer" les listes obtenues précédemment (supprimer les parenthèses : "()" et les espaces inutiles).

In [None]:
rating = [] 

for element in soup.findAll(name = 'span' ,  attrs = {'class': 'tMeterScore'}):
    rating.append(element.text.strip('\n'))
    
rating = rating[20:120]



cmt = [] 
for element in soup.findAll(attrs = {'class': 'right hidden-xs'}):
    cmt.append(element.text.strip(''))
    
cmt = cmt[1:101]

In [None]:
Créer un dataframe nommérotten_tomatoes qui contient ces trois listes

In [None]:
# Insérez votre code
rotten_tomatoes   = pandas.DataFrame (list(zip(titre,rating,cmt)), columns= ["titre","rating","Comment"])

rotten_tomatoes.head()

In [None]:
#Partie 3: Web Scraping GoogleSearch/NewsPaper

In [None]:
Importez la fonction search du module GoogleSearch
Cherchez 20 premiers articles sur google concernant la data science en anglais demandant une pause de 2s entre chaque requêtes

In [None]:
from googlesearch import search   #Importez la fonction search du module googleSearch


for url in search('data science', 
                  tld='com', lang='en',
                  num= 20, pause= 2.0):
    print (url)

In [None]:
Reprenez le lien qui reviens en premier c'est à dire celui ci

Importez la fonction Article du module Newspaper.
Saisissez l'url de l'article puis telecharger le afin d'acceder au contenu.
Affichez l'article

In [None]:
from newspaper import Article
url = 'https://www.kainos.com/my-experience-as-a-data-scientist'
article = Article(url)
article.download()
article.parse()
print(article.text)  


In [None]:
print (article.nlp() ) # on fait avant tout fonctionner le langage naturel
print (article.authors )
print (article.publish_date)
print (article.summary)
print (article.keywords)