# Data Gathering


# Web scraping the english verbs conjugation of Python

*Created by Mohamed Haythem Kchouk. Hosted on [GitHub](https://github.com/HaythemKchouk).*

## Summary

Ceci est un tutoriel introductif sur le web scraping en Python. Tout ce qui est nécessaire pour suivre ce tutoriel est une compréhension de base de la programmation en Python.

A la fin de ce tutoriel, vous serez capable de récupérer des données à partir d'une page web statique en utilisant les bibliothèques requests et Beautiful Soup, et d'exporter ces données dans un fichier texte structuré en utilisant la bibliothèque pandas.

## Examining the HTML

Pour voir le code HTML qui génère une page web, vous cliquez droit dessus et sélectionnez "Afficher la source de la page" dans Chrome ou Firefox, "Afficher la source" dans Internet Explorer, ou "Afficher la source de la page" dans Safari. (Si cette option n'apparaît pas dans Safari, il suffit d'ouvrir les Préférences de Safari, de sélectionner l'onglet Avancé et de cocher "Afficher le menu Développement dans la barre des menus".)

## Reading the web page into Python

Cette ligne de code importe la bibliothèque requests qui est utilisée pour envoyer des requêtes HTTP en Python. La ligne suivante utilise la méthode get() de la bibliothèque requests pour envoyer une requête HTTP de type GET à l'URL https://www.grammarbook.com/blog/verbs/english-verb-conjugation/. Cette requête va récupérer le contenu de la page web à cette URL. Le contenu de la page web est stocké dans la variable r. Cela va permettre de récupérer les données de cette page web pour une utilisation ultérieure, comme l'analyse ou l'extraction de données.

In [4]:
import requests
r = requests.get('https://www.grammarbook.com/blog/verbs/english-verb-conjugation/')

Cette ligne de code utilise la fonction print() pour afficher les 500 premiers caractères de la variable r.text, qui contient le texte (code HTML) de la page web obtenue à partir de la méthode requests.get() précédente.
La propriété r.text contient le code source HTML de la page.
Cette instruction permet de vérifier que la requête a bien récupéré le code source de la page, et de visualiser les premières lignes de celui-ci.

In [5]:
# print the first 500 characters of the HTML
print(r.text[0:500])

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head> <meta content="width=device-width, initial-scale=1" name="viewport" /> <meta content="no" name="msapplication-tap-highlight" /> <link href="https://maxcdn.bootstrapcdn.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="stylesheet" /> <link href="/assets/styles/modern.css" rel="stylesheet" /> <link href="/assets/media/logo-fa


## Parsing the HTML using Beautiful Soup(analyse)

Ce code importe la classe BeautifulSoup de la bibliothèque bs4 (Beautiful Soup version 4), qui est utilisée pour l'extraction de données à partir de pages web en utilisant Python.
Ensuite, il crée un objet soup en utilisant le constructeur de BeautifulSoup. Il passe en argument le contenu HTML récupéré dans la variable r.text obtenue dans la requête précédente.
Le deuxième argument, 'html.parser', spécifie le parseur HTML que la bibliothèque doit utiliser pour analyser le code HTML.
Une fois l'objet soup créé, il permet de naviguer dans le code HTML de la page web, et d'extraire les informations qui nous intéressent.

In [6]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(r.text, 'html.parser')

Cette ligne de code utilise la méthode find_all() de l'objet soup pour sélectionner toutes les balises <table> qui ont un attribut class ayant pour valeur "border". La méthode find_all() renvoie une liste de tous les éléments correspondants dans le document HTML. La variable results contiendra donc toutes les tables qui ont un attribut class égale à "border".

In [7]:
results = soup.find_all('table', attrs={'class':'border'})

Cette ligne de code utilise la fonction len() pour obtenir le nombre d'éléments dans la variable results, qui contient probablement une liste d'éléments obtenue à partir d'une méthode find_all() précédente. Dans ce cas, il donnera le nombre de tables avec la classe "border" trouvées sur la page web.
En d'autres termes, il renvoie le nombre de table avec la classe "border" présente sur la page.

In [8]:
len(results)

10

Cette ligne de code utilise le découpage de liste pour obtenir les quatre premiers éléments de la variable results. La notation [0:4] signifie qu'il va sélectionner les éléments d'index 0 à 3 (le dernier élément sélectionné est l'élément d'index 3, donc 4 éléments au total). Si la variable results contient une liste d'éléments, cette instruction va renvoyer les 4 premiers éléments de cette liste.

In [43]:
results[0:20]

[<table class="border">
 <tbody>
 <tr>
 <td>first person singular</td>
 <td>I</td>
 <td>first person plural</td>
 <td>we</td>
 </tr>
 <tr>
 <td>second person singular</td>
 <td>you</td>
 <td>second person plural</td>
 <td>you</td>
 </tr>
 <tr>
 <td>third person singular</td>
 <td>he, she, it</td>
 <td>third person plural</td>
 <td>they</td>
 </tr>
 </tbody>
 </table>, <table class="border">
 <tbody>
 <tr>
 <td colspan="4"><strong>Simple Present Tense</strong></td>
 </tr>
 <tr>
 <td>first person singular</td>
 <td>I touch</td>
 <td>first person plural</td>
 <td>we touch</td>
 </tr>
 <tr>
 <td>second person singular</td>
 <td>you touch</td>
 <td>second person plural</td>
 <td>you touch</td>
 </tr>
 <tr>
 <td>third person singular</td>
 <td>he, she, it touches</td>
 <td>third person plural</td>
 <td>they touch</td>
 </tr>
 </tbody>
 </table>, <table class="border">
 <tbody>
 <tr>
 <td colspan="4"><strong>Simple Past Tense</strong></td>
 </tr>
 <tr>
 <td>first person singular</td>
 <td>I t

Cette ligne de code utilise l'index négatif pour obtenir le dernier élément de la variable results. L'utilisation de l'index -1 permet de récupérer l'élément situé à la fin de la liste, c'est-à-dire le dernier élément de la liste. Si results est une liste, cette instruction va renvoyer le dernier élément de cette liste.

In [10]:
results[-1]

<table class="border">
<tbody>
<tr>
<td colspan="4"><strong>Future Tense</strong></td>
</tr>
<tr>
<td>first person singular</td>
<td>I will be touched</td>
<td>first person plural</td>
<td>we will be touched</td>
</tr>
<tr>
<td>second person singular</td>
<td>you will be touched</td>
<td>second person plural</td>
<td>you will be touched</td>
</tr>
<tr>
<td>third person singular</td>
<td>he, she, it will be touched</td>
<td>third person plural</td>
<td>they will be touched</td>
</tr>
</tbody>
</table>

## Extracting the date
Cette ligne de code assigne le premier élément de la liste results à une variable first_result. La notation results[0] sélectionne le premier élément de la liste results. La variable first_result contiendra donc le premier élément de la liste results. La dernière ligne affiche la valeur de la variable first_result, qui est donc le premier élément de la liste results.

In [11]:
first_result = results[0]
first_result

<table class="border">
<tbody>
<tr>
<td>first person singular</td>
<td>I</td>
<td>first person plural</td>
<td>we</td>
</tr>
<tr>
<td>second person singular</td>
<td>you</td>
<td>second person plural</td>
<td>you</td>
</tr>
<tr>
<td>third person singular</td>
<td>he, she, it</td>
<td>third person plural</td>
<td>they</td>
</tr>
</tbody>
</table>

Cette ligne de code utilise la méthode find() sur la variable first_result, qui contient probablement le premier élément de la liste d'éléments obtenue à partir d'une méthode find_all() précédente.
Cette méthode find() cherche la première occurrence de la balise <tr> à l'intérieur de l'élément first_result et la renvoie sous forme d'objet BeautifulSoup.
Cela permet de récupérer le premier élément de type <tr> qui se trouve dans l'élément first_result.

Cette ligne de code utilise la méthode find() sur la variable first_result, qui contient probablement le premier élément de la liste d'éléments obtenue à partir d'une méthode find_all() précédente.
Cette méthode find() cherche la première occurrence de la balise tr à l'intérieur de l'élément first_result et la renvoie sous forme d'objet BeautifulSoup.
Cela permet de récupérer le premier élément de type tr qui se trouve dans l'élément first_result.

In [13]:
first_result.find('tr')

<tr>
<td>first person singular</td>
<td>I</td>
<td>first person plural</td>
<td>we</td>
</tr>

Cette ligne de code utilise la méthode find() sur la variable first_result, qui trouve la première occurrence de la balise tr à l'intérieur de cet élément. Ensuite, l'attribut .text est utilisé pour obtenir le texte à l'intérieur de la balise tr qui vient d'être sélectionnée. Cela va renvoyer le texte à l'intérieur de la première balise tr trouvée dans l'élément first_result.

In [14]:
first_result.find('tr').text

'\nfirst person singular\nI\nfirst person plural\nwe\n'

Ce code utilise la méthode find() sur la variable first_result, qui contient probablement le premier élément de la liste de résultats obtenue à partir de la méthode find_all() précédente.
Cette méthode find() cherche la première occurrence de la balise tr à l'intérieur de l'élément first_result et la renvoie sous forme d'objet BeautifulSoup.
Ensuite, l'attribut .text est utilisé pour obtenir le texte à l'intérieur de la balise tr. Il va renvoyer le texte à l'intérieur de la première balise tr à l'intérieur de la première table avec la classe "border".

Cette ligne de code utilise l'attribut text pour récupérer le texte à l'intérieur de l'élément first_result, puis utilise la méthode replace() pour remplacer tous les caractères '\n' (sauts de ligne) par une chaîne vide ('') dans le texte récupéré. Cela va donner une version du contenu de first_result sans les sauts de ligne.

In [18]:
first_result.text.replace('\n', '')

'first person singularIfirst person pluralwesecond person singularyousecond person pluralyouthird person singularhe, she, itthird person pluralthey'

Finally, we're going to add the year, since we don't want our dataset to include ambiguous dates:

## Building the dataset

Maintenant que nous avons compris comment extraire les quatre composants de first_result, nous pouvons créer une boucle pour répéter ce processus sur les 10 résultats. Nous stockerons la sortie dans une liste de tuples appelée Liste:

In [103]:
results = soup.find_all('table', attrs={'class':'border'})
Liste = []
for i in range(0, 10):
    first_result = results[i]
    Tableau = first_result.text.replace('\n', ' ')
    Liste.append((Tableau))

In [105]:
len(Liste)

10

In [106]:
Liste[0:10]

['   first person singular I first person plural we   second person singular you second person plural you   third person singular he, she, it third person plural they   ',
 '   Simple Present Tense   first person singular I touch first person plural we touch   second person singular you touch second person plural you touch   third person singular he, she, it touches third person plural they touch   ',
 '   Simple Past Tense   first person singular I touched first person plural we touched   second person singular you touched second person plural you touched   third person singular he, she, it touched third person plural they touched   ',
 '   Simple Future Tense   first person singular I will touch first person plural we will touch   second person singular you will touch second person plural you will touch   third person singular he, she, it will touch third person plural they will touch   ',
 '   Present Tense   first person singular I dance first person plural we dance   second person

## Applying a tabular data structure

Maintenant que nous avons compris comment extraire les  composants de first_result, nous pouvons créer une boucle pour répéter ce processus sur les 10 résultats. Nous stockerons la sortie dans une liste de tuples appelée Liste:

La dernière étape majeure de ce processus est d'appliquer une structure de données tabulaires à notre structure existante (qui est une liste de tuples). Nous allons le faire en utilisant la bibliothèque pandas, une bibliothèque Python incroyablement populaire pour l'analyse et la manipulation de données. 

La structure de données principale de pandas est le "DataFrame", qui convient aux données tabulaires avec des colonnes de différents types, similaires à un classeur Excel ou à une table SQL. Nous pouvons convertir notre liste de tuples en DataFrame en la passant au constructeur DataFrame et en spécifiant les noms de colonnes souhaités:

In [107]:
import pandas as pd
df = pd.DataFrame(Liste, columns=['Tableau'])

In [113]:
df.head()

Unnamed: 0,Tableau
0,first person singular I first person plural...
1,Simple Present Tense first person singula...
2,Simple Past Tense first person singular I...
3,Simple Future Tense first person singular...
4,Present Tense first person singular I dan...


In [114]:
df.tail()

Unnamed: 0,Tableau
5,Past Tense first person singular I danced...
6,Future Tense first person singular I will...
7,Present Tense first person singular I am ...
8,Past Tense first person singular I was to...
9,Future Tense first person singular I will...


## Exporting the dataset to a CSV file
Enfin, nous utiliserons pandas pour exporter le DataFrame dans un fichier CSV (valeurs séparées par des virgules), qui est la manière la plus simple et la plus courante de stocker des données tabulaires dans un fichier texte.

In [115]:
df.to_csv('English_Verb_Conjugation.csv', index=False, encoding='utf-8')

Enfin, nous utiliserons pandas pour exporter le DataFrame vers un fichier CSV (valeurs séparées par des virgules), qui est la manière la plus simple et la plus courante de stocker des données tabulaires dans un fichier texte. Nous avons défini le paramètre index à False pour dire à pandas que nous n'avons pas besoin qu'il inclue l'index (les entiers de 0 à 10) dans le fichier CSV. Vous devriez être en mesure de trouver ce fichier dans votre répertoire de travail et de l'ouvrir dans n'importe quel éditeur de texte ou programme de feuille de calcul!



# Upload File


Importe la bibliothèque pandas et lui assigne l'alias "pd". Cela nous permet d'utiliser l'abréviation "pd" pour faire référence à la bibliothèque pandas dans notre code, plutôt que d'écrire "pandas" à chaque fois. C'est une convention courante lors de la manipulation de pandas.

In [6]:
import pandas as pd

Le code utilise la méthode pd.read_csv() de pandas pour lire un fichier CSV nommé "English_Verb_Conjugation.csv" et le stocker dans une variable nommée "data". Cette méthode convertit les données du fichier CSV en un DataFrame de pandas, qui est une structure de données tabulaire utilisée pour stocker et manipuler des données en Python.

In [13]:
data = pd.read_csv('./English_Verb_Conjugation.csv')

In [14]:
data

Unnamed: 0,Unnamed: 1,Tableau
first person singular I first person plural we second person singular you second person plural you third person singular he,she,it third person plural they
Simple Present Tense first person singular I touch first person plural we touch second person singular you touch second person plural you touch third person singular he,she,it touches third person plural they touch
Simple Past Tense first person singular I touched first person plural we touched second person singular you touched second person plural you touched third person singular he,she,it touched third person plural they touched
Simple Future Tense first person singular I will touch first person plural we will touch second person singular you will touch second person plural you will touch third person singular he,she,it will touch third person plural they will t...
Present Tense first person singular I dance first person plural we dance second person singular you dance second person plural you dance third person singular he,she,it dances third person plural they dance
Past Tense first person singular I danced first person plural we danced second person singular you danced second person plural you danced third person singular he,she,it danced third person plural they danced
Future Tense first person singular I will dance first person plural we will dance second person singular you will dance second person plural you will dance third person singular he,she,it will dance third person plural they will d...
Present Tense first person singular I am touched first person plural we are touched second person singular you are touched second person plural you are touched third person singular he,she,it is touched third person plural they are to...
Past Tense first person singular I was touched first person plural we were touched second person singular you were touched second person plural you were touched third person singular he,she,it was touched third person plural they were ...
Future Tense first person singular I will be touched first person plural we will be touched second person singular you will be touched second person plural you will be touched third person singular he,she,it will be touched third person plural they w...


Ce code utilise la méthode "read_csv" de pandas pour lire les données d'un fichier CSV à partir de l'URL spécifiée et les stocker dans une variable appelée "data". Cela permet de travailler avec les données dans le script Python en utilisant les fonctionnalités de pandas pour manipuler et analyser les données.

In [21]:
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/lung-cancer/lung-cancer.data')

In [22]:
data

Unnamed: 0,1,0,3,0.1,?,0.2,2,2.1,2.2,1.1,...,2.25,2.26,2.27,2.28,2.29,1.12,1.13,1.14,2.30,2.31
0,1,0,3,3,1,0,3,1,3,1,...,2,2,2,2,2,2,2,1,2,2
1,1,0,3,3,2,0,3,3,3,1,...,2,2,2,2,2,2,2,2,1,2
2,1,0,2,3,2,1,3,3,3,1,...,2,2,2,2,2,2,2,2,2,2
3,1,0,3,2,1,1,3,3,3,2,...,2,2,2,2,2,2,2,1,2,2
4,1,0,3,3,2,0,3,3,3,1,...,2,2,2,2,2,2,2,2,1,2
5,1,0,3,2,1,0,3,3,3,1,...,2,2,2,2,1,2,2,2,1,2
6,1,0,2,2,1,0,3,1,3,3,...,2,2,1,2,2,2,2,1,2,2
7,1,0,3,1,1,0,3,1,3,1,...,2,2,2,2,2,2,2,1,2,2
8,2,0,2,3,2,0,2,2,2,1,...,2,2,2,1,3,2,1,1,2,2
9,2,0,2,2,0,0,3,2,3,1,...,2,2,2,2,2,2,2,2,2,2


La commande utilise la commande "wget" pour télécharger un fichier à partir d'un lien web (https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip) et l'enregistrer sur votre ordinateur. Le point d'exclamation "!" indique que c'est une commande de système et non une commande Python.

!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip

Cette commande décompresse le fichier "UCI HAR Dataset.zip". Le "!" au début de la ligne indique à Jupyter Notebook de exécuter cette commande comme une commande shell plutôt qu'une commande Python. Les fichiers décompressés seront enregistrés dans le répertoire de travail actuel.

!unzip "UCI HAR Dataset.zip"