# Web Scraping sur Wikipedia : Extraction des suffixes de noms de société par pays

Ce projet utilise BeautifulSoup, une bibliothèque Python pour l'analyse HTML, afin de récupérer des données à partir du site Wikipedia. L'objectif est d'extraire les suffixes utilisés dans les noms de société pour chaque pays répertorié sur la page [List of legal entity types by country](https://en.wikipedia.org/wiki/List_of_legal_entity_types_by_country).

## Description

Ce projet vise à automatiser le processus d'extraction des suffixes de noms de société utilisés dans différents pays. Le scraping est effectué sur la page Wikipedia mentionnée ci-dessus, qui répertorie les types d'entités légales par pays.

Le script Python utilise BeautifulSoup pour analyser le HTML de la page et extraire les informations pertinentes. Il navigue à travers la structure du DOM pour trouver les sections pertinentes pour chaque pays, puis extrait les suffixes de noms de société associés à chaque pays.

Les données extraites peuvent être utilisées dans diverses applications, telles que l'analyse comparative des conventions de dénomination des sociétés dans différents pays, l'étude des pratiques commerciales internationales, etc.

## Installation

Pour exécuter ce projet, vous devez disposer des dépendances suivantes :

- Python 3.x
- BeautifulSoup

Vous pouvez installer les dépendances en utilisant la commande suivante :

```
pip install beautifulsoup4
```

## Utilisation

Pour exécuter le script de scraping, suivez les étapes suivantes :

1. Clonez ce référentiel sur votre machine.
2. Naviguez vers le répertoire du projet.
3. Exécutez le script `scrape.py` en utilisant la commande suivante :

   ```
   python scrape.py
   ```

   Assurez-vous que vous avez une connexion Internet active pour accéder au site Wikipedia.

4. Le script va parcourir la page et extraire les suffixes de noms de société pour chaque pays répertorié. Les résultats seront affichés dans la console et stockés dans un fichier CSV.

   Note : Vous pouvez modifier le script pour adapter le format de stockage des données selon vos besoins.
   

## Exemples

Voici quelques exemples de résultats que vous pouvez obtenir en exécutant ce projet :

```
Pays : France
Suffixes de noms de société : SARL, SAS, SA, SCI, SNC

Pays : Allemagne
Suffixes de noms de société : GmbH, AG, KG, OHG, eG

...

```

Ces exemples montrent les pays et les suffixes de noms de société extraits à partir de la page Wikipedia.

## Pipeline pour le web scraping avec Beautiful Soup

1. Installer les dépendances nécessaires :  
   - Assurez-vous d'avoir Python installé sur votre système.
   - Installez Beautiful Soup en exécutant la commande suivante :
     ```
     pip install beautifulsoup4
     ```

2. Importer les bibliothèques requises :
   ```python
   from bs4 import BeautifulSoup
   import requests
   ```

3. Récupérer la page web à scraper :
   ```python
   url = "https://fr.wikipedia.org/wiki/Votre_Page_Wikipedia"
   response = requests.get(url)
   ```

4. Parser le contenu HTML avec Beautiful Soup :
   ```python
   soup = BeautifulSoup(response.content, 'html.parser')
   ```
   
   La ligne "soup = BeautifulSoup(response.content, 'html.parser')" effectue le parsing du contenu HTML en utilisant Beautiful Soup.

Le terme "parser" dans ce contexte fait référence à un processus d'analyse ou de compréhension de la structure du document HTML. En d'autres termes, le parsing consiste à analyser le code HTML et à le décomposer en une structure hiérarchique, ce qui permet d'accéder facilement aux différentes parties du document.

Dans cette ligne de code spécifique :

- `response.content` est le contenu HTML brut extrait de la réponse HTTP. Il peut s'agir de l'intégralité du contenu HTML de la page web demandée.

- `'html.parser'` est l'analyseur HTML utilisé par Beautiful Soup pour effectuer le parsing. Ici, nous utilisons l'analyseur intégré de Python appelé `html.parser`. Cet analyseur est capable de traiter la plupart des pages HTML bien formées.

En utilisant Beautiful Soup avec l'analyseur spécifié, la ligne de code crée un objet `soup` qui représente le contenu HTML analysé et structuré. Cet objet `soup` peut ensuite être utilisé pour naviguer, extraire et manipuler les données du document HTML de manière plus conviviale à l'aide de méthodes fournies par Beautiful Soup.

5. Identifier les éléments cibles à extraire :
   Utilisez les méthodes et attributs de Beautiful Soup pour trouver les balises HTML correspondant aux informations que vous souhaitez extraire.

6. Extraire les données souhaitées :
   Utilisez les méthodes et attributs de Beautiful Soup pour extraire les données des balises HTML identifiées à l'étape précédente.

7. Traiter les données extraites :
   Si nécessaire, effectuez des manipulations supplémentaires sur les données extraites pour les mettre dans un format souhaité.

8. Afficher ou enregistrer les données :
   Affichez les données extraites à l'écran ou enregistrez-les dans un fichier selon vos besoins.