# Webscraping avec python

Après 2 mois de python, nous sommes maintenant prêts à hacker les serveurs de la CIA :)  

Le webscraping est une technique permettant l’extraction des données d’un site via un programme. Il permet ainsi de pouvoir réutiliser ces données. Attention, le webscraping est encadré par les Conditions d'Utilisation des sites web.

## Le langage HTML

LE but n'est pas ici de faire un cours complet sur HTML mais d'introduire des bases suffisantes pour faire du webscraping.  

HyperText Markup Language (HTML) est le code utilisé pour structurer une page web et son contenu. Par exemple, le contenu de votre page pourra être structuré en un ensemble de paragraphes, une liste à puces ou avec des images et des tableaux de données.  

HTML n'est pas un langage de programmation. C'est un langage de **balises** qui définit la structure de votre contenu. HTML se compose d'une série d'éléments, utilisés pour entourer, ou envelopper, les diverses parties du contenu pour les faire apparaître ou agir d'une certaine façon. Les balises entourantes peuvent être rendues par un mot ou une image lien hypertexte vers quelque chose d'autre, un texte en italique, une police plus grande ou plus petite, et ainsi de suite.

Copiez le code ci-dessous dans un fichier index.html

```html
<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <title>Ma page de test</title>
  </head>
  <body>
    
  </body>
</html>
```

Voici quelques balises utilisables entre les balises ```<body>``` et ```</body>```.

### Les titres
```html
<h1>Mon titre principal</h1>
<h2>Mon titre de section</h2>
<h3>Mon sous-titre</h3>
<h4>Mon sous-sous-titre</h4>
```

### Les paragraphes
```html
<p>Voici un paragraphe</p>
```

### Les listes
```html
<ul>
  <li>GEOMAS</li>
  <li>GEOIDES</li>
  <li>GEOPOESICE</li>
</ul>
```

### Les images
```html
<img src="img/konigsberg_1910.jpg" alt="Mon image de test">
```

### Les liens
```html
<a href="https://iuga.univ-grenoble-alpes.fr/">IUGA</a>
```

### Les tableaux
```html
<table>
  <tr>
    <td>Formation</td>
    <td>Effectifs</td>
  </tr>
  <tr>
    <td>GEOMAS</td>
    <td>11</td>
  </tr>
  <tr>
    <td>GEOIDES</td>
    <td>25</td>
  </tr>
  <tr>
    <td>GEOPOESICE</td>
    <td>25</td>
  </tr>
</table>
```

## Webscraping avec BeautifulSoup

La documentation se trouve [ici](https://beautiful-soup-4.readthedocs.io/en/latest/#).

In [9]:
!pip install --user BeautifulSoup4



In [18]:
# import libraries
from bs4 import BeautifulSoup
import urllib.request
import csv
import pandas

In [11]:
# specify the url
urlpage = 'https://www.cia.gov/the-world-factbook/field/area/country-comparison'

In [12]:
# query the website and return the html to the variable 'page'
page = urllib.request.urlopen(urlpage)
# parse the html using beautiful soup and store in variable 'soup'
soup = BeautifulSoup(page, 'html.parser')

In [13]:
# find results within table
table = soup.find('table', attrs={'class': 'content-table table-auto'})
results = table.find_all('tr')
print('Number of results', len(results))

Number of results 257


In [14]:
# create and write headers to a list
rows = [] 
rows.append(['rank', 'country', 'sq_km', 'date_of_information'])

In [15]:
for result in results :
    data = result.find_all('td')
    if len(data) > 0 :
        rank = data[0].getText()
        country = data[1].getText()
        sqkm = data[2].getText().replace(',','') #  remove the decimal separator
        doi = data[3].getText()
        rows.append([rank, country, sqkm, doi])

In [24]:
# Create csv and write rows to output file
with open('area.csv','w', newline='') as f_output:
    csv_output = csv.writer(f_output)
    csv_output.writerows(rows)

In [26]:
# Lecture d'un fichier csv
df = pandas.read_csv("./area.csv")
df.head()

Unnamed: 0,rank,country,sq_km,date_of_information
0,1,Russia,17098242,
1,2,Antarctica,14200000,
2,3,Canada,9984670,
3,4,United States,9833517,
4,5,China,9596960,
