# üìä Web Scraper Simple

## Instructions:
1. **Ex√©cutez le premier bloc** (Importations)
2. **Ex√©cutez le deuxi√®me bloc** (Configuration)
3. **Allez au troisi√®me bloc**, entrez votre URL et ex√©cutez-le pour obtenir les r√©sultats
4. **Optionnel**: Ex√©cutez le bloc BONUS pour sauvegarder les donn√©es scrap√©es en CSV

---
## üì¶ Bloc 1: Importations

In [6]:
# Import des biblioth√®ques n√©cessaires
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import pandas as pd
import json
import time
import random
import os
from urllib.parse import urlparse

print("‚úÖ Importations termin√©es avec succ√®s!")

‚úÖ Importations termin√©es avec succ√®s!


---
## ‚öôÔ∏è Bloc 2: Configuration du Scraper (Ne pas modifier)

In [7]:
class ModernScraper:
    def __init__(self, use_random_agent=True):
        self.session = requests.Session()
        self.ua = UserAgent() if use_random_agent else None
        self.use_random_agent = use_random_agent
        self.headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
            "Accept-Language": "en-US,en;q=0.5",
            "Accept-Encoding": "gzip, deflate, br",
            "Connection": "keep-alive",
            "Upgrade-Insecure-Requests": "1",
            "Sec-Fetch-Dest": "document",
            "Sec-Fetch-Mode": "navigate",
            "Sec-Fetch-Site": "none",
            "Sec-Fetch-User": "?1",
            "Cache-Control": "max-age=0",
        }
        self._update_headers()

    def _update_headers(self):
        if self.use_random_agent:
            self.headers["User-Agent"] = self.ua.random
        else:
            self.headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        self.session.headers.update(self.headers)

    def fetch(self, url, method="GET", data=None, params=None, is_json=False):
        self._update_headers()
        
        try:
            time.sleep(random.uniform(1, 3))
            
            print(f"üîç R√©cup√©ration de {url}...")
            
            if method.upper() == "GET":
                response = self.session.get(url, params=params, timeout=15)
            elif method.upper() == "POST":
                response = self.session.post(url, data=data, json=data, timeout=15)
            else:
                print(f"‚ùå M√©thode non support√©e: {method}")
                return None

            response.raise_for_status()

            if is_json or "application/json" in response.headers.get("Content-Type", ""):
                print("‚úÖ R√©ponse JSON d√©tect√©e")
                return response.json()
            
            print("‚úÖ Page HTML r√©cup√©r√©e avec succ√®s")
            return BeautifulSoup(response.text, "html.parser")

        except requests.exceptions.RequestException as e:
            print(f"‚ùå Erreur lors de la r√©cup√©ration: {e}")
            return None

    def save_to_csv(self, data_list, filename="scraped_data.csv"):
        if not data_list:
            print("‚ö†Ô∏è Aucune donn√©e √† sauvegarder")
            return

        try:
            output_dir = os.getcwd()
            file_path = os.path.join(output_dir, filename)
            
            df = pd.DataFrame(data_list)
            df.to_csv(file_path, mode='w', header=True, index=False)
                
            print(f"‚úÖ Donn√©es sauvegard√©es dans: {file_path}")
            print(f"üìä Nombre de lignes sauvegard√©es: {len(data_list)}")
        except Exception as e:
            print(f"‚ùå Erreur lors de la sauvegarde: {e}")

# Initialisation du scraper
scraper = ModernScraper()
print("‚úÖ Scraper configur√© et pr√™t √† l'emploi!")

‚úÖ Scraper configur√© et pr√™t √† l'emploi!


---
## üöÄ Bloc 3: Utilisation Simple - Entrez votre URL ici!

In [8]:
# ========================================
# MODIFIEZ SEULEMENT CETTE PARTIE
# ========================================

# Entrez votre URL ici:
url = "https://httpbin.org/html"  # ‚¨ÖÔ∏è Remplacez par votre URL

# Type de requ√™te: "GET" ou "POST"
method = "GET"  # ‚¨ÖÔ∏è Changez si n√©cessaire

# ========================================
# EX√âCUTION AUTOMATIQUE
# ========================================

print("="*50)
print("üåê D√âBUT DU SCRAPING")
print("="*50)

# R√©cup√©ration des donn√©es
result = scraper.fetch(url, method=method)

# Variable pour stocker les donn√©es extraites
scraped_data = []

if result:
    print("\n" + "="*50)
    print("üìä R√âSULTATS")
    print("="*50)
    
    # Si c'est du HTML
    if isinstance(result, BeautifulSoup):
        page_title = result.title.string if result.title else 'Sans titre'
        print(f"\nüìÑ Titre de la page: {page_title}")
        print(f"\nüìù Nombre de paragraphes: {len(result.find_all('p'))}")
        print(f"üîó Nombre de liens: {len(result.find_all('a'))}")
        
        # Extraction automatique des donn√©es
        # 1. Extraire tous les liens
        links = result.find_all('a')
        for link in links:
            href = link.get('href', '')
            text = link.get_text().strip()
            if href and text:
                scraped_data.append({
                    'type': 'lien',
                    'texte': text,
                    'url': href,
                    'page_source': url
                })
        
        # 2. Extraire tous les paragraphes
        paragraphs = result.find_all('p')
        for i, p in enumerate(paragraphs, 1):
            text = p.get_text().strip()
            if text:
                scraped_data.append({
                    'type': 'paragraphe',
                    'texte': text[:200],  # Limiter √† 200 caract√®res
                    'position': i,
                    'page_source': url
                })
        
        # 3. Extraire les titres (h1, h2, h3)
        for tag in ['h1', 'h2', 'h3']:
            headers = result.find_all(tag)
            for header in headers:
                text = header.get_text().strip()
                if text:
                    scraped_data.append({
                        'type': f'titre_{tag}',
                        'texte': text,
                        'page_source': url
                    })
        
        # Afficher un aper√ßu des premi√®res donn√©es extraites
        print(f"\n‚úÖ {len(scraped_data)} √©l√©ments extraits de la page")
        if scraped_data:
            print("\nüìñ Aper√ßu des donn√©es extraites (5 premiers √©l√©ments):")
            for i, item in enumerate(scraped_data[:5], 1):
                print(f"  {i}. [{item['type']}] {item['texte'][:80]}...")
    
    # Si c'est du JSON
    elif isinstance(result, dict):
        print("\nüîë Cl√©s JSON disponibles:")
        for key in result.keys():
            print(f"  - {key}")
        
        # Convertir le JSON en format tabulaire
        def flatten_json(data, parent_key=''):
            items = []
            if isinstance(data, dict):
                for k, v in data.items():
                    new_key = f"{parent_key}.{k}" if parent_key else k
                    if isinstance(v, (dict, list)):
                        items.extend(flatten_json(v, new_key))
                    else:
                        items.append({'cle': new_key, 'valeur': str(v), 'page_source': url})
            elif isinstance(data, list):
                for i, item in enumerate(data):
                    items.extend(flatten_json(item, f"{parent_key}[{i}]"))
            return items
        
        scraped_data = flatten_json(result)
        print(f"\n‚úÖ {len(scraped_data)} paires cl√©-valeur extraites")
        print("\nüìÑ Aper√ßu des 5 premi√®res entr√©es:")
        for i, item in enumerate(scraped_data[:5], 1):
            print(f"  {i}. {item['cle']}: {item['valeur'][:60]}...")
    
    print("\n" + "="*50)
    print("‚úÖ SCRAPING TERMIN√â AVEC SUCC√àS!")
    print("="*50)
    print(f"\nüí° Vous pouvez maintenant ex√©cuter le bloc BONUS pour sauvegarder ces {len(scraped_data)} donn√©es en CSV")
else:
    print("\n‚ùå √âchec du scraping. V√©rifiez l'URL et r√©essayez.")

üåê D√âBUT DU SCRAPING
üîç R√©cup√©ration de https://httpbin.org/html...
‚úÖ Page HTML r√©cup√©r√©e avec succ√®s

üìä R√âSULTATS

üìÑ Titre de la page: Sans titre

üìù Nombre de paragraphes: 1
üîó Nombre de liens: 0

‚úÖ 2 √©l√©ments extraits de la page

üìñ Aper√ßu des donn√©es extraites (5 premiers √©l√©ments):
  1. [paragraphe] Availing himself of the mild, summer-cool weather that now reigned in these lati...
  2. [titre_h1] Herman Melville - Moby-Dick...

‚úÖ SCRAPING TERMIN√â AVEC SUCC√àS!

üí° Vous pouvez maintenant ex√©cuter le bloc BONUS pour sauvegarder ces 2 donn√©es en CSV


---
## üíæ Bloc BONUS: Sauvegarder les donn√©es scrap√©es en CSV

In [9]:
# ========================================
# Ce bloc sauvegarde les donn√©es R√âELLES
# extraites du Bloc 3
# ========================================

# Nom du fichier de sortie (vous pouvez le modifier)
output_file = "scraped_data.csv"

print("="*50)
print("üíæ SAUVEGARDE DES DONN√âES")
print("="*50)

if scraped_data:
    print(f"\nüìä Nombre de donn√©es √† sauvegarder: {len(scraped_data)}")
    scraper.save_to_csv(scraped_data, output_file)
    print("\n‚úÖ Vous pouvez maintenant ouvrir le fichier CSV pour voir vos donn√©es!")
else:
    print("\n‚ö†Ô∏è Aucune donn√©e √† sauvegarder.")
    print("üí° Assurez-vous d'avoir ex√©cut√© le Bloc 3 d'abord!")

üíæ SAUVEGARDE DES DONN√âES

üìä Nombre de donn√©es √† sauvegarder: 2
‚úÖ Donn√©es sauvegard√©es dans: c:\Users\azizh\OneDrive\Bureau\TekSpire 2.0\data_scraping\scraped_data.csv
üìä Nombre de lignes sauvegard√©es: 2

‚úÖ Vous pouvez maintenant ouvrir le fichier CSV pour voir vos donn√©es!
