# Enoncé du projet : Scraping de données de titres du journal "Le Monde"

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- [BeautifulSoup4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) (``pip install bs4``)
- [urllib](https://docs.python.org/3/library/urllib.html#module-urllib)

Beautiful Soup ci-dessous nous aide à gérer le html et urllib qui permet d’établir une connexion avec la page web

In [1]:
#import librairies

import bs4
from urllib import request
import urllib
import pandas as pd

L’étape suivante consiste à définir l’URL que nous voulons scraper. Cette page Web présente tous les résultats sur une seule page. Ainsi, vous devez fournir l’URL complète ici, comme dans la barre d’adresse.

Nous faisons ensuite la connexion à la page web avec urllib, puis nous pouvons analyser le html avec BeautifulSoup, en stockant l’objet dans la variable « page_1 ».

In [2]:
url = 'https://www.lemonde.fr/archives-du-monde/01-01-2018/'

req_1 = urllib.request.Request(url,headers={'User-Agent': 'Mozilla/5.0'})
html_1 = urllib.request.urlopen(req_1).read()
soup = bs4.BeautifulSoup(html_1, "lxml")

Nous pouvons afficher la variable "soup" à ce stade, ce qui devrait donner le html complet analysé de la page web que nous avons demandée.

## Recherche d’éléments HTML
Comme tous les résultats sont contenus dans une table, nous pouvons rechercher l’objet soup de la table en utilisant la méthode find. Nous pouvons alors trouver chaque ligne à l’intérieur de la table en utilisant la méthode find_all.

In [3]:
for item in page_1.find('section', { 'id' : 'river'}).findAll('h3', {'class' : 'teaser__title'}): 
    print(item, "\n-------")

<h3 class="teaser__title">Un réveillon « pacifié » malgré une « hausse sensible » des interpellations</h3> 
-------
<h3 class="teaser__title">Au Gabon, Ali Bongo assure que les législatives d’avril 2018 auront bien lieu</h3> 
-------
<h3 class="teaser__title">Petite histoire de l’intelligence artificielle à l’écran</h3> 
-------
<h3 class="teaser__title">Les robots, superstars de la bande dessinée</h3> 
-------
<h3 class="teaser__title">TV – « American Epic », aux origines de la musique populaire aux Etats-Unis</h3> 
-------
<h3 class="teaser__title">Le président malien annonce un projet de loi « d’entente nationale »</h3> 
-------
<h3 class="teaser__title">Deux policiers agressés la nuit du réveillon à Champigny-sur-Marne</h3> 
-------
<h3 class="teaser__title">Pour 2018, le pape François veut un « avenir de paix » pour les migrants</h3> 
-------
<h3 class="teaser__title">Etudiants : trois bonnes résolutions culturelles pour commencer 2018</h3> 
-------
<h3 class="teaser__title">« Tim

In [4]:
liste_titres_le_monde = []

for item in page_1.find('section', { 'id' : 'river'}).findAll('h3', {'class' : 'teaser__title'}) [0:] : 
        if item.get("class") :
            liste_titres_le_monde.append(item.getText())
            
            
liste_titres_le_monde [0:5]

['Un réveillon «\xa0pacifié\xa0» malgré une «\xa0hausse sensible\xa0» des interpellations',
 'Au Gabon, Ali Bongo assure que les législatives d’avril 2018 auront bien lieu',
 'Petite histoire de l’intelligence artificielle à l’écran',
 'Les robots, superstars de la bande dessinée',
 'TV – «\xa0American Epic\xa0», aux origines de la musique populaire aux Etats-Unis']

In [5]:
for sub_heading in page_1.find_all('h3'):
    print(sub_heading.text)

Un réveillon « pacifié » malgré une « hausse sensible » des interpellations
Au Gabon, Ali Bongo assure que les législatives d’avril 2018 auront bien lieu
Petite histoire de l’intelligence artificielle à l’écran
Les robots, superstars de la bande dessinée
TV – « American Epic », aux origines de la musique populaire aux Etats-Unis
Le président malien annonce un projet de loi « d’entente nationale »
Deux policiers agressés la nuit du réveillon à Champigny-sur-Marne
Pour 2018, le pape François veut un « avenir de paix » pour les migrants
Etudiants : trois bonnes résolutions culturelles pour commencer 2018
« Time’s Up » à Hollywood, un fonds pour soutenir toutes les victimes de harcèlement sexuel
Cinq promesses d’Emmanuel Macron attendues en 2018
Le président tchadien Idriss Déby annonce l’organisation de législatives en 2018
Madrid évalue à 1 milliard d’euros le coût de la crise catalane
Pour la ministre des armées en visite au Mali, « la France fait fléchir le djihadisme »
Les développeur

In [6]:
# on parse les headlines
i = 0

while i != len(liste_titres_le_monde):
    liste_titres_le_monde[i] = liste_titres_le_monde[i].replace('\n', '')
    liste_titres_le_monde[i] = liste_titres_le_monde[i].replace('«', '')
    liste_titres_le_monde[i] = liste_titres_le_monde[i].replace('»', '')
    liste_titres_le_monde[i] = liste_titres_le_monde[i].replace('\xa0', '')
    i +=1
 
    
print(liste_titres_le_monde)

['Un réveillon pacifié malgré une hausse sensible des interpellations', 'Au Gabon, Ali Bongo assure que les législatives d’avril 2018 auront bien lieu', 'Petite histoire de l’intelligence artificielle à l’écran', 'Les robots, superstars de la bande dessinée', 'TV – American Epic, aux origines de la musique populaire aux Etats-Unis', 'Le président malien annonce un projet de loi d’entente nationale', 'Deux policiers agressés la nuit du réveillon àChampigny-sur-Marne', 'Pour 2018, le pape François veut un avenir de paix pour les migrants', 'Etudiants : trois bonnes résolutions culturelles pour commencer 2018', 'Time’sUp à Hollywood, un fonds pour soutenir toutes les victimes de harcèlement sexuel', 'Cinq promesses d’Emmanuel Macron attendues en 2018', 'Le président tchadien Idriss Déby annonce l’organisation de législatives en2018', 'Madrid évalue à 1milliard d’euros le coût de la crise catalane', 'Pour la ministre des armées en visite au Mali, la France fait fléchir le djihadisme', 'Les

In [7]:
# Création d'un dataframe qui regroupe tous les titres de l'url : https://www.lemonde.fr/archives-du-monde/01-01-2018/

df_titres_journaux = pd.DataFrame.from_dict( {"titres" : liste_titres_le_monde})
df_titres_journaux

Unnamed: 0,titres
0,Un réveillon pacifié malgré une hausse sensibl...
1,"Au Gabon, Ali Bongo assure que les législative..."
2,Petite histoire de l’intelligence artificielle...
3,"Les robots, superstars de la bande dessinée"
4,"TV – American Epic, aux origines de la musique..."
5,Le président malien annonce un projet de loi d...
6,Deux policiers agressés la nuit du réveillon à...
7,"Pour 2018, le pape François veut un avenir de ..."
8,Etudiants : trois bonnes résolutions culturell...
9,"Time’sUp à Hollywood, un fonds pour soutenir t..."
