##  Web scraping en Python

Le **web scraping** consiste à extraire automatiquement des données depuis des pages web.

### Étapes principales

1. **Envoyer une requête HTTP**  
   Utiliser une bibliothèque comme `requests` pour télécharger le contenu d’une page web.

2. **Analyser le contenu HTML**  
   Utiliser `BeautifulSoup` pour parser et naviguer dans le code HTML.

3. **Extraire les données**  
   Repérer les balises ou attributs qui contiennent les informations recherchées et les extraire.

4. **Stocker les données**  
   Sauvegarder les données extraites dans un fichier (CSV, Excel, base de données, etc.).

### Bibliothèques courantes

- `requests` : pour télécharger les pages web.
- `BeautifulSoup` : pour analyser et extraire les données du HTML.
- `pandas` : pour organiser et stocker les données.

### Exemple simple

```python
import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extraire tous les titres h1
titres = [h1.text for h1 in soup.find_all("h1")]
print(titres)
```

### Bonnes pratiques

- Respecter les conditions d’utilisation du site (robots.txt).
- Ne pas surcharger les serveurs (utiliser des délais entre les requêtes).
- Vérifier la légalité du scraping selon le site et le

#### Processus 

```python
   
    import requests
    from bs4 import BeautifulSoup

    #### Requête GET basique
    response = requests.get('https://www.example.com')
```
###### Requête GET
requests.get(url)

###### Requête POST
requests.post(url, data={'key': 'value'})

###### Requête PUT
requests.put(url, data={'key': 'value'})

###### Requête DELETE
requests.delete(url)

###### Requête HEAD (récupère seulement les en-têtes)
requests.head(url)
### les reponses

```python
    response.status_code  # Code de statut HTTP (200, 404, etc.)
    response.text        # Corps de la réponse en string
    response.content     # Corps de la réponse en bytes
    response.json()      # Parse la réponse JSON
    response.headers     # En-têtes de la réponse
    response.cookies     # Cookies reçus
    response.url         # URL finale après redirections
    response.history     # Historique des redirections


```

### Gestion des erreurs 


```python

    try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()  # Lève une HTTPError pour les codes d'erreur
except requests.exceptions.RequestException as e:
    print(f"Échec de la requête : {e}")
```

### Les bases de BeautifulSoup
```python
    html = "la réponse text reçue de request "#response.text
    soup = BeautifulSoup(html, 'html.parser') # Parseurs disponibles : 'html.parser', 'lxml', 'html5lib'


    # Accéder aux balises
soup.title          # Balise <title>
soup.title.name     # 'title'
soup.title.string   # Texte dans la balise title
soup.p              # Première balise <p>

# Naviguer vers le bas
soup.head           # Balise <head>
soup.body.b         # Première balise <b> dans body

# Naviguer vers le haut
tag = soup.p
tag.parent          # Balise parente

# Naviguer latéralement
tag.next_sibling    # Balise suivante au même niveau
tag.previous_sibling # Balise précédente au même niveau




# Trouver le premier élément correspondant
soup.find('div')             # Première div
soup.find(id='main')         # Premier élément avec id='main'
soup.find(class_='header')   # Premier élément avec class 'header'
soup.find('a', href=True)    # Premier <a> avec attribut href

# Trouver tous les éléments correspondants
soup.find_all('p')           # Toutes les balises <p>
soup.find_all('a', class_='external')  # Tous les liens externes
soup.find_all(text='Bonjour')  # Tous les nœuds texte contenant 'Bonjour'

# Sélecteurs CSS
soup.select('div.content')   # Toutes les divs avec class 'content'
soup.select('#footer')       # Élément avec id 'footer'
soup.select('a[href^="https"]')  # Liens commençant par https




# Modifier les attributs
tag['class'] = 'nouvelle-classe'
del tag['id']

# Modifier le texte
tag.string = "Nouveau texte"

# Créer de nouvelles balises
new_tag = soup.new_tag('a', href='http://example.com')
new_tag.string = "Cliquez ici"

# Ajouter des balises
tag.append(new_tag)
tag.insert(0, new_tag)  # Insérer au début
```

In [21]:
import requests
import pandas as pd 
import requests
from bs4 import BeautifulSoup

url = "https://github.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extraire tous les titres h1
titres = [h1.text for h1 in soup.find_all("h1")]
print(titres)

['Search code, repositories, users, issues, pull requests...', '\n        Provide feedback\n      ', '\n        Saved searches\n      ', 'Build and ship software on a single, collaborative platform']


In [13]:
# URL de la page à scraper
url = "https://fr.wikipedia.org/wiki/Liste_des_langages_de_programmation"

# En-têtes pour simuler un navigateur
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Faire la requête GET
try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # Lève une exception pour les codes 4XX/5XX
    print(f"Statut de la réponse : {response.status_code}")
except requests.exceptions.RequestException as e:
    print(f"Erreur lors de la requête : {e}")

Statut de la réponse : 200


In [14]:
# Créer un objet BeautifulSoup à partir du contenu HTML
soup = BeautifulSoup(response.text, 'html.parser')

# Afficher le titre de la page pour vérifier
print(f"Titre de la page : {soup.title.string}")

Titre de la page : Liste de langages de programmation — Wikipédia


In [15]:
# Trouver tous les éléments <li> dans la page
all_languages = []

# La page Wikipedia a plusieurs listes, nous ciblons celles dans les sections principales
sections = soup.find_all('div', class_='div-col')

for section in sections:
    languages = section.find_all('li')
    for lang in languages:
        # Nettoyer le texte et extraire le nom du langage
        language_name = lang.get_text().strip()
        # Certains éléments contiennent des notes entre parenthèses
        if '(' in language_name:
            language_name = language_name.split('(')[0].strip()
        all_languages.append(language_name)

# Afficher les 10 premiers langages
print("10 premiers langages trouvés :")
for lang in all_languages[:10]:
    print(f"- {lang}")

10 premiers langages trouvés :


In [20]:
# Créer un DataFrame pandas pour analyser les données
df_languages = pd.DataFrame(all_languages, columns=['Langage'])

# Statistiques de base
print(f"Nombre total de langages trouvés : {len(df_languages)}")
print("\nQuelques statistiques :")
print(df_languages.describe())

Nombre total de langages trouvés : 0

Quelques statistiques :
       Langage
count        0
unique       0
top        NaN
freq       NaN
