# Scraping: récupération de 51 fichiers PDF du corpus Camille

Dans ce notebook, nous créons un robot qui va ouvrir la page https://max.de.wilde.web.ulb.be/camille/ et télécharger automatiquement les 51 fichiers PDF listés sur la page.

## Imports

In [None]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

## Récupération de tous les fichiers PDF



In [24]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

files = []

root_url = f"https://max.de.wilde.web.ulb.be/camille/"
response = requests.get(root_url, headers=headers, verify=False)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all("a"):
    title = link.text.strip()
    url = root_url + link.get('href')
    files.append([url, title])



In [25]:
# Affichage du nombre d'articles récupérés
len(files)

51

In [26]:
# Affichage des 10 premières entrées
files[:10]

[['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1892-08-07_01-0003.pdf',
  'KB_JB230_1892-08-07_01-0003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1920-01-10_01-00004.pdf',
  'KB_JB427_1920-01-10_01-00004.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1836-02-08_01-00002.pdf',
  'KB_JB555_1836-02-08_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB638_1860-05-21_01-00002.pdf',
  'KB_JB638_1860-05-21_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB773_1918-11-30_01-00002.pdf',
  'KB_JB773_1918-11-30_01-00002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB838_1887-12-28_01-00003.pdf',
  'KB_JB838_1887-12-28_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB230_1903-10-16_01-0002.pdf',
  'KB_JB230_1903-10-16_01-0002.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB427_1933-01-04_01-00003.pdf',
  'KB_JB427_1933-01-04_01-00003.pdf'],
 ['https://max.de.wilde.web.ulb.be/camille/KB_JB555_1899-01-19_01-00

## Création d'un dataframe avec les liens et les titres des articles


In [53]:
df = pd.DataFrame(files, columns=['link', 'filename'])
df

Unnamed: 0,link,filename
0,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1892-08-07_01-0003.pdf
1,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1920-01-10_01-00004.pdf
2,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1836-02-08_01-00002.pdf
3,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1860-05-21_01-00002.pdf
4,https://max.de.wilde.web.ulb.be/camille/KB_JB7...,KB_JB773_1918-11-30_01-00002.pdf
5,https://max.de.wilde.web.ulb.be/camille/KB_JB8...,KB_JB838_1887-12-28_01-00003.pdf
6,https://max.de.wilde.web.ulb.be/camille/KB_JB2...,KB_JB230_1903-10-16_01-0002.pdf
7,https://max.de.wilde.web.ulb.be/camille/KB_JB4...,KB_JB427_1933-01-04_01-00003.pdf
8,https://max.de.wilde.web.ulb.be/camille/KB_JB5...,KB_JB555_1899-01-19_01-00003.pdf
9,https://max.de.wilde.web.ulb.be/camille/KB_JB6...,KB_JB638_1902-12-20_01-00002.pdf


In [54]:
# Sauvegarde du dataframe dans un fichier csv
data_path = '../data/'
if not os.path.exists(data_path):
    os.mkdir(data_path)

# Création d'un dossier de sauvegarde pour les pdfs
pdf_path = '../data/pdf/'
if not os.path.exists(pdf_path):
    os.mkdir(pdf_path)

df.to_csv(f"../data/files_{time.strftime('%Y%m%d')}.csv", index=False)

## Téléchargement automatique de fichiers pdf

In [55]:
# Boucle selon le nombre de fichiers
for index, row in df.iterrows():
    file_url = row['link']
    filename = row['filename']

    # Ouverture de la page
    response = requests.get(file_url, headers=headers, verify=False)

    # Sauvegarde du fichier dans un dossier data/pdf/
    with open(f"../data/pdf/{filename}", "wb") as f:
        f.write(response.content)




## Pour en savoir plus

- Le web scraping avec Python: https://realpython.com/beautiful-soup-web-scraper-python/
- Tutoriel sur les expressions régulières: https://www.w3schools.com/python/python_regex.asp