In [49]:
import pandas as pd
from bs4 import BeautifulSoup as soup
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

# Configuration du driver
service = Service(r"C:\webdrivers\chromedriver.exe")
options = Options()
options.add_argument("--start-maximized")
driver = webdriver.Chrome(service=service, options=options)

# Fonction pour générer toutes les URLs (exemple : 10 pages)
def get_all_pages():
    return [f"https://www.tayara.tn/ads/c/Immobilier/?page={i}" for i in range(1, 11)]

# Liste des URLs
urls = get_all_pages()

# Liste pour stocker les données
data = []

# Parcourir toutes les pages
for url in urls:
    print(f"Scraping : {url}")
    driver.get(url)
    time.sleep(2)  # Pause pour le chargement de la page
    
    # Parser le contenu HTML avec BeautifulSoup
    page = soup(driver.page_source, 'html.parser')
    house_containers = page.find_all("article", class_="mx-0")

    # Extraire les infos de chaque article
    for house in house_containers:
        # Titre de l'article
        nom_article = house.find('h2', class_="card-title font-arabic text-sm font-medium leading-5 text-gray-800 max-w-min min-w-full line-clamp-2 my-2")
        nom_article = nom_article.text.strip() if nom_article else "Non spécifié"
        
        # Prix
        prix = house.find('data', class_="font-bold font-arabic text-red-600 undefined")
        prix = prix.text.strip() if prix else "Non spécifié"
        
        # Catégorie
        categorie = house.find('span', class_="truncate text-3xs md:text-xs lg:text-xs w-3/5 font-medium text-neutral-500")
        categorie = categorie.text.strip() if categorie else "Non spécifiée"
        
        # Localisation
        localisation = house.find_all('span', class_="line-clamp-1 truncate text-3xs md:text-xs lg:text-xs w-3/5 font-medium text-neutral-500")
        localisation = localisation[-1].text.strip() if localisation else "Non spécifiée"
        
        # Ajouter dans la liste
        data.append({
            'Nom': nom_article,
            'Prix': prix,
            'Catégorie': categorie,
            'Localisation': localisation
        })

# Fermer le driver après le scraping
driver.quit()

# Créer un DataFrame avec pandas
df = pd.DataFrame(data)

# Afficher le résultat
print(df.head(10))

# Exporter les résultats dans un fichier CSV
df.to_csv('annonces_tayara.csv', index=False)

print(f"\n{len(df)} articles extraits et sauvegardés dans 'annonces_tayara.csv'")


Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=1
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=2
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=3
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=4
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=5
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=6
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=7
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=8
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=9
Scraping : https://www.tayara.tn/ads/c/Immobilier/?page=10
                                                 Nom          Prix  \
0                                          cafétéria          70DT   
1  Appartement S1 luxueux meublé pour vos vacance...          80DT   
2                                             studio  Non spécifié   
3             👉opportunité a EL AGba-Manouba (365m²)   330000000DT   
4                                   للبيع 1400 هكتار  Non spécifié   