# 🧪 Scraping Test - Pipeline de scraping (étape 1)

Ce notebook a pour objectif de tester le pipeline de scraping sur un échantillon de produits depuis eBay.

🎯 **Objectif** :
- Identifier les balises HTML utiles
- Tester la récupération des informations (titre, prix, lien)
- Éviter la surcharge mémoire, disque et processeur
- Valider la faisabilité du scraping

🔄 **Pipeline de scraping (résumé)** :
1. Définir les sites à scraper
2. Inspecter la structure HTML des pages
3. Identifier les sélecteurs (balises CSS/HTML)
4. Automatiser avec `requests` et `BeautifulSoup`
5. Limiter à quelques résultats (`limit=5`)
6. Ne pas stocker localement pour ce test


## IMPORTAION BIBLIOTHEQUE

In [7]:
# 📦 Installer toutes les bibliothèques nécessaires
#!pip install tweepy pandas beautifulsoup4 requests lxml snscrape


In [5]:
import tweepy
import pandas as pd
import requests
from bs4 import BeautifulSoup
import snscrape.modules.twitter as sntwitter
import re
from collections import Counter


## generation des csv de scraping

In [2]:
from datetime import datetime
import os

# Liste pour suivre les fichiers sauvegardés
_saved_files = []

def save_dataset(df, site_name, final=False):
    """
    Sauvegarde les données dans un fichier CSV :
    - Si final=True : fichier 'data/final_<site>.csv' (suivi par Git)
    - Sinon : fichier 'data/<site>_<timestamp>.csv' (ignoré par Git)

    Ajoute automatiquement le fichier à la liste des sauvegardes (_saved_files).
    """
    os.makedirs("data", exist_ok=True)

    if final:
        filename = f"data/final_{site_name}.csv"
    else:
        now = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"data/{site_name}_{now}.csv"

    df.to_csv(filename, index=False)
    _saved_files.append(filename)
    print(f"✅ Données sauvegardées dans : {filename}")

def check_final_save_required(site_name):
    """
    Affiche un avertissement si aucun fichier final_<site>.csv n'a été sauvegardé.
    """
    expected = f"data/final_{site_name}.csv"
    if expected not in _saved_files:
        print(f"⚠️ Attention : aucune sauvegarde finale détectée pour {site_name} !")
        print(f"👉 Pense à appeler : save_dataset(df, site_name='{site_name}', final=True)")


In [4]:
# 1. Scraping
# ... ton code ...

# 2. Sauvegarde automatique ignorée par Git
#save_dataset(df, site_name="reddit")

# 3. Vérification en fin de script
#check_final_save_required("reddit")


## TWITTER SCRAPIING

In [7]:
import os
import tweepy
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv()
BEARER_TOKEN = os.getenv("BEARER_TOKEN")

# Vérification du chargement du token
if not BEARER_TOKEN:
    raise ValueError("Le token d'accès n'a pas été trouvé. Vérifie ton fichier .env")

# Connexion à l'API
client = tweepy.Client(bearer_token=BEARER_TOKEN)

# Requête
query = "(#beauty OR #fashion OR #tech OR #food) -is:retweet lang:en"

# Appel API
tweets = client.search_recent_tweets(
    query=query,
    max_results=10,
    tweet_fields=['public_metrics', 'created_at']
)

# Affichage des résultats
for tweet in tweets.data:
    print(f"Tweet ID: {tweet.id}")
    print(f"Date: {tweet.created_at}")
    print(f"Texte: {tweet.text}")
    print(f"Likes: {tweet.public_metrics['like_count']}, Retweets: {tweet.public_metrics['retweet_count']}")
    print("-" * 50)


Tweet ID: 1926950633413791882
Date: 2025-05-26 10:36:46+00:00
Texte: No one’s safe when ChatGPT reads the zodiac like this.
Your sign’s brutally honest truth — oddly accurate and way too personal.
Save this one 📌 &amp; RT if it’s you!
Follow @forbelite for more AI insights.

#AI #ChatGPT #Tech #Forbelite https://t.co/60BBgeDnlM
Likes: 0, Retweets: 0
--------------------------------------------------
Tweet ID: 1926950509061062985
Date: 2025-05-26 10:36:17+00:00
Texte: reading #Grok3 #AIイラスト #AIArtCommuity #aigeneratedart #aigenerated #AIArtwork #AIArtGallery #AIartists #beauty #photography #AIbeauty #AIart  #文青 #shavedhead #BeautifulBody #Aiart️ #AIイケメン #AIArtistCommunity https://t.co/z8AQbut6kH
Likes: 0, Retweets: 0
--------------------------------------------------
Tweet ID: 1926950447417270341
Date: 2025-05-26 10:36:02+00:00
Texte: Breaking News: AI model Claude 3.5 outperforms GPT-4 in reasoning tasks, claims Anthropic. Released today, it excels in coding and math. #AI #Tech
Likes: 