# üß™ Scraping Test - Pipeline de scraping (√©tape 1)

Ce notebook a pour objectif de tester le pipeline de scraping sur un √©chantillon de produits depuis eBay.

üéØ **Objectif** :
- Identifier les balises HTML utiles
- Tester la r√©cup√©ration des informations (titre, prix, lien)
- √âviter la surcharge m√©moire, disque et processeur
- Valider la faisabilit√© du scraping

üîÑ **Pipeline de scraping (r√©sum√©)** :
1. D√©finir les sites √† scraper
2. Inspecter la structure HTML des pages
3. Identifier les s√©lecteurs (balises CSS/HTML)
4. Automatiser avec `requests` et `BeautifulSoup`
5. Limiter √† quelques r√©sultats (`limit=5`)
6. Ne pas stocker localement pour ce test


## IMPORTAION BIBLIOTHEQUE

In [7]:
# üì¶ Installer toutes les biblioth√®ques n√©cessaires
#!pip install tweepy pandas beautifulsoup4 requests lxml snscrape


In [5]:
import tweepy
import pandas as pd
import requests
from bs4 import BeautifulSoup
import snscrape.modules.twitter as sntwitter
import re
from collections import Counter


## generation des csv de scraping

In [2]:
from datetime import datetime
import os

# Liste pour suivre les fichiers sauvegard√©s
_saved_files = []

def save_dataset(df, site_name, final=False):
    """
    Sauvegarde les donn√©es dans un fichier CSV :
    - Si final=True : fichier 'data/final_<site>.csv' (suivi par Git)
    - Sinon : fichier 'data/<site>_<timestamp>.csv' (ignor√© par Git)

    Ajoute automatiquement le fichier √† la liste des sauvegardes (_saved_files).
    """
    os.makedirs("data", exist_ok=True)

    if final:
        filename = f"data/final_{site_name}.csv"
    else:
        now = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"data/{site_name}_{now}.csv"

    df.to_csv(filename, index=False)
    _saved_files.append(filename)
    print(f"‚úÖ Donn√©es sauvegard√©es dans : {filename}")

def check_final_save_required(site_name):
    """
    Affiche un avertissement si aucun fichier final_<site>.csv n'a √©t√© sauvegard√©.
    """
    expected = f"data/final_{site_name}.csv"
    if expected not in _saved_files:
        print(f"‚ö†Ô∏è Attention : aucune sauvegarde finale d√©tect√©e pour {site_name} !")
        print(f"üëâ Pense √† appeler : save_dataset(df, site_name='{site_name}', final=True)")


In [4]:
# 1. Scraping
# ... ton code ...

# 2. Sauvegarde automatique ignor√©e par Git
#save_dataset(df, site_name="reddit")

# 3. V√©rification en fin de script
#check_final_save_required("reddit")


## TWITTER SCRAPIING

In [7]:
import os
import tweepy
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv()
BEARER_TOKEN = os.getenv("BEARER_TOKEN")

# V√©rification du chargement du token
if not BEARER_TOKEN:
    raise ValueError("Le token d'acc√®s n'a pas √©t√© trouv√©. V√©rifie ton fichier .env")

# Connexion √† l'API
client = tweepy.Client(bearer_token=BEARER_TOKEN)

# Requ√™te
query = "(#beauty OR #fashion OR #tech OR #food) -is:retweet lang:en"

# Appel API
tweets = client.search_recent_tweets(
    query=query,
    max_results=10,
    tweet_fields=['public_metrics', 'created_at']
)

# Affichage des r√©sultats
for tweet in tweets.data:
    print(f"Tweet ID: {tweet.id}")
    print(f"Date: {tweet.created_at}")
    print(f"Texte: {tweet.text}")
    print(f"Likes: {tweet.public_metrics['like_count']}, Retweets: {tweet.public_metrics['retweet_count']}")
    print("-" * 50)


Tweet ID: 1926950633413791882
Date: 2025-05-26 10:36:46+00:00
Texte: No one‚Äôs safe when ChatGPT reads the zodiac like this.
Your sign‚Äôs brutally honest truth ‚Äî oddly accurate and way too personal.
Save this one üìå &amp; RT if it‚Äôs you!
Follow @forbelite for more AI insights.

#AI #ChatGPT #Tech #Forbelite https://t.co/60BBgeDnlM
Likes: 0, Retweets: 0
--------------------------------------------------
Tweet ID: 1926950509061062985
Date: 2025-05-26 10:36:17+00:00
Texte: reading #Grok3 #AI„Ç§„É©„Çπ„Éà #AIArtCommuity #aigeneratedart #aigenerated #AIArtwork #AIArtGallery #AIartists #beauty #photography #AIbeauty #AIart  #ÊñáÈùí #shavedhead #BeautifulBody #AiartÔ∏è #AI„Ç§„Ç±„É°„É≥ #AIArtistCommunity https://t.co/z8AQbut6kH
Likes: 0, Retweets: 0
--------------------------------------------------
Tweet ID: 1926950447417270341
Date: 2025-05-26 10:36:02+00:00
Texte: Breaking News: AI model Claude 3.5 outperforms GPT-4 in reasoning tasks, claims Anthropic. Released today, it excels in c