# **MISE EN SITUATION**

**Web Scraping: Méthodes, Limites et Considérations Légales**

Le web scraping, ou extraction de données web, est une technique automatisée qui consiste à extraire des données à partir de sites web. Cette méthode est devenue un outil essentiel pour les chercheurs, les analystes de données et les entreprises qui ont besoin de collecter de grandes quantités d'informations disponibles publiquement sur internet.



**Limitations et défis du Web Scraping :**

- **Structure du site web** : La structure d'un site web peut changer sans préavis, ce qui peut rendre un script de web scraping obsolète. Il est important de surveiller régulièrement le site cible et de mettre à jour le script au besoin.

- **Sites dynamiques** : Si le site web utilise JavaScript pour charger du contenu dynamiquement, l'extraction de données peut être plus difficile et nécessiter l'utilisation d'outils supplémentaires comme `Selenium`.

- **Respect des robots.txt :** Les sites web peuvent avoir des fichiers robots.txt qui indiquent quelles parties du site peuvent être explorées ou non par les robots. Il est important de respecter ces directives.

- **Blocage par le serveur :** Si un script de web scraping effectue des requêtes trop rapidement ou en trop grand nombre, le serveur du site web peut bloquer l'accès à l'adresse IP du client. Il est donc important d'être respectueux et d'appliquer des délais raisonnables entre les requêtes.

- **Manque de données:** Les données extraites peuvent être manquantes ou incomplètes, cela impactera la qualité de l'analyse.

**Méthode et outils utilisés :**

Dans ce projet, nous avons utilisé les outils et la méthode suivants pour extraire des informations sur les annonces voiture du site web "Coin Afrique" et pour analyser les données collectées:

- **Langage de programmation :** Python, un langage polyvalent très utilisé en data science et en web scraping.
Bibliothèque de requête HTTP : requests pour envoyer des requêtes HTTP au serveur du site web et télécharger le code HTML des pages.

- **Bibliothèque d'analyse HTML :** Beautiful Soup 4 (bs4), une bibliothèque Python qui permet d'analyser le code HTML et XML. Elle facilite la navigation dans l'arbre HTML et l'extraction des données souhaitées.

- **Gestion du rythme des requêtes :** Utilisation de la fonction time.sleep() pour respecter le serveur et éviter de le surcharger en faisant des requêtes à un rythme trop élevé.

# **RECUPERATION DES DONNEES**

In [None]:
#importation des bibliothèques
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time


In [None]:
#création de la fonction get_car
def get_cars():
    headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0"} # le pass pour pouvoir collecter les données
    base_url = "https://ci.coinafrique.com/search?sort_by=last&category=45&page=" # url pourobtenir les données
    all_data = [] # initialisation d'une lise vide pour collecter les données scrappés
    initial_page = 1
    max_pages = 20  # Limite à 20 pages

    # boucle pour parcourir les différentes pages
    while initial_page <= max_pages:
        url = base_url + str(initial_page)
        print(f"Scraping page {initial_page} effectué")
        r = requests.get(url, headers=headers)
        if r.status_code != 200:
            print(f"Error: Received status code {r.status_code} on page {initial_page}. Stopping.")
            break

        # récuppérer les données obtenues
        result = BeautifulSoup(r.text, 'html.parser')
        annonces = result.find_all('div', class_='col s6 m4 l3')

        if not annonces:
            print("donneés non trouvé.")
            break

        # déclaration des variables (valeurs = None) pour toutes les lignes vides
        for annonce in annonces:
            type_transaction = None
            prix_location = None
            devise_location = None
            prix_vente = None
            description = None
            localisation = None

            # accès à la balise qui contient les données ciblées
            card = annonce.find('div', class_='monthly-payment-card')
            if card:
                # récuppération des données du type de transaction, le prix des locations, et la devise de locations
                type_transaction = card.find('p', class_='monthly-payment-begin-from').text.strip() if card.find('p', class_='monthly-payment-begin-from') else None
                prix_location = card.find('span', class_='monthly-payment-price').text.strip() if card.find('span', class_='monthly-payment-price') else None
                devise_location = card.find('span', class_='monthly-payment-currency').text.strip() if card.find('span', class_='monthly-payment-currency') else None

            # récuppération du prix de vente
            prix_vente = annonce.find('p', class_='ad__card-price')
            if prix_vente:
                prix_vente = prix_vente.text.strip() if prix_vente else None

            # récupération de la descrition
            description = annonce.find('p', class_='ad__card-description')
            if description:
                description = description.find('a').get('title') if description.find('a') else None

            # récuppération de la localisation
            localisation = annonce.find('p', class_='ad__card-location').find('span').text.strip() if annonce.find('p', class_='ad__card-location') else None

             # stocker les données collectés dans la liste all_data
            all_data.append({
                'type_transaction': type_transaction,
                'prix_location': prix_location,
                'devise_location': devise_location,
                'prix_vente': prix_vente,
                'description': description,
                'localisation': localisation
            })

    #     # initialisation de la page de début ainsi que le temps d'attente avant de scrapper à nouveau une autre page
        initial_page += 1
        time.sleep(2)

    # #convertir les données collectées en dataframe pour une analyse
    df = pd.DataFrame(all_data)
    df.to_csv('cars.csv', index=False) # télécharger les données collectées au format csv (optionnel)
    df.to_pickle('cars.pickle')
    return df



get_cars() #appel de la fonction



Scraping page 1 effectué
Scraping page 2 effectué
Scraping page 3 effectué
Scraping page 4 effectué
Scraping page 5 effectué
Scraping page 6 effectué
Scraping page 7 effectué
Scraping page 8 effectué
Scraping page 9 effectué
Scraping page 10 effectué
Scraping page 11 effectué
Scraping page 12 effectué
Scraping page 13 effectué
Scraping page 14 effectué
Scraping page 15 effectué
Scraping page 16 effectué
Scraping page 17 effectué
Scraping page 18 effectué
Scraping page 19 effectué
Scraping page 20 effectué


Unnamed: 0,type_transaction,prix_location,devise_location,prix_vente,description,localisation
0,A partir de,904 990,CFA/mois *,18 500 000CFA,Mitsubishi Pajero GLS 2020,"Cocody, Abidjan, Côte d'Ivoire"
1,,,,16 000 000CFA,Honda CR-V2019,"Yopougon, Abidjan, Côte d'Ivoire"
2,A partir de,1 283 739,CFA/mois *,26 800 000CFA,Hyundai Santa fe 2023,"Cocody, Abidjan, Côte d'Ivoire"
3,,,,6 300 000CFA,Kia Sportage LX phase 2 2010,"Cocody, Abidjan, Côte d'Ivoire"
4,,,,2 500 000CFA,Ford Focus 2005,"Cocody, Abidjan, Côte d'Ivoire"
...,...,...,...,...,...,...
1675,A partir de,685 955,CFA/mois *,13 700 000CFA,Toyota rush 2023,"Cocody, Abidjan, Côte d'Ivoire"
1676,,,,1 800 000CFA,Mazda 323 1999,"Cocody, Abidjan, Côte d'Ivoire"
1677,,,,5 800 000CFA,Hyundai Tucson 2008,"Cocody, Abidjan, Côte d'Ivoire"
1678,,,,8 000 000CFA,Hyundai Avante 2018,"Koumassi, Abidjan, Côte d'Ivoire"


In [None]:
#download df