### Extraction des Publications et Commentaires de Reddit

Dans ce projet, nous nous concentrons sur l'extraction de publications et de commentaires de Reddit en utilisant des techniques de web scraping et d'interaction avec l'API. Reddit est une plateforme riche en contenu généré par les utilisateurs sur divers sujets, ce qui en fait une ressource précieuse pour des applications telles que l'analyse des sentiments, le suivi des tendances et la modélisation de sujets.

#### Objectifs
- **Collecte de Données** : Récupérer les publications et commentaires de subreddits spécifiques en fonction de critères thématiques (par exemple, r/mentalhealth, r/fitness).
- **Traitement des Données** : Nettoyer et prétraiter les données extraites afin de les préparer pour l'analyse.
- **Stockage des Données** : Stocker les données collectées dans un format structuré, comme un fichier CSV ou une base de données, pour une analyse ultérieure.

#### Outils et Technologies
- **Python** : Le langage de programmation principal pour le web scraping et l'interaction avec l'API.
- **Requests** : Une bibliothèque pour effectuer des requêtes HTTP, si un scraping supplémentaire est nécessaire.
- **Pandas** : Une bibliothèque de manipulation de données pour gérer et analyser les données extraites.

#### Mise en Route
1. **Configurer l’Environnement** : Installer les bibliothèques nécessaires avec pip (`praw`, `requests`, `pandas`).
2. **Obtenir les Identifiants API** : Créer un compte Reddit et enregistrer une application pour obtenir les identifiants API (client ID, secret et user agent).
3. **Définir la Logique d’Extraction** : Écrire des fonctions pour extraire les données de subreddits ou de fils spécifiques en fonction de mots-clés ou de catégories.
4. **Exécuter le Scraper** : Lancer le script et surveiller le processus de collecte de données.
5. **Analyser les Données** : Utiliser Pandas pour analyser les publications et commentaires collectés afin d’en tirer des insights.

#### Conclusion
Ce projet offre une introduction pratique à l’utilisation de l’API de Reddit et à l’analyse de données avec Python, tout en permettant de manipuler des données issues d’une communauté en ligne dynamique.


<p style="color:#FBCE60;text-align:center;font-size:30px"> Scraping Reddit's  Posts And Articles </p>

In [None]:
# Installation de BeautifulSoup4
# BeautifulSoup4 (bs4) est une bibliothèque Python utilisée pour extraire et manipuler des données depuis des fichiers HTML et XML. 
# Elle est souvent utilisée pour le web scraping en combinant avec des requêtes HTTP pour obtenir le contenu des pages web.
!pip install bs4

# Installation de Selenium
# Selenium est une bibliothèque puissante pour automatiser l'interaction avec les navigateurs web.
# Elle est utilisée pour le web scraping dynamique, où l'interaction avec les pages (comme le défilement, les clics ou le remplissage de formulaires) est nécessaire.
!pip install selenium


### Scraping Reddit's Health related Topics

In [3]:
## importing libraries
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup