# Code  pour chercher et télécharger les PDF

In [None]:
#Installez la bibliothèque

# Beautiful Soup 4 - Bibliothèque Python pour le Parsing et le Scraping

**Beautiful Soup 4** est une bibliothèque Python populaire utilisée pour le **parsing** et le **scraping** de documents HTML et XML. Elle permet d'extraire facilement des données d'une page web et de naviguer dans la structure des balises HTML de manière intuitive.

## Caractéristiques principales de Beautiful Soup 4 :

### 1. **Parsing HTML/XML :**
- Convertit des documents HTML ou XML en un arbre de structure que vous pouvez manipuler facilement.
- Gère même des pages mal formées (HTML incorrect ou cassé).

### 2. **Navigation facile :**
- Permet de rechercher, modifier et extraire des informations de balises spécifiques en utilisant des méthodes conviviales.
- Exemples : rechercher une balise spécifique, extraire du texte, ou accéder aux attributs d'une balise (comme `href` ou `src`).

### 3. **Compatibilité avec plusieurs parsers :**
- Utilise par défaut le parser intégré de Python (`html.parser`).
- Peut aussi fonctionner avec d'autres parsers comme `lxml` ou `html5lib` pour des performances ou des fonctionnalités spécifiques.

### 4. **Gestion des documents volumineux :**
- Optimisée pour fonctionner avec des documents volumineux et complexes.


In [1]:
pip install beautifulsoup4





 # Exploiter plusieurs pages de résultats

In [2]:
import requests
from bs4 import BeautifulSoup
import os
# Requête de recherche Google
query = "SQL tutorial filetype:pdf"  # Mot-clé à chercher
url = f"https://www.google.com/search?q={query.replace(' ', '+')}"  # Convertir en URL

# En-têtes pour éviter les restrictions
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}

# Envoyer une requête à Google
response = requests.get(url, headers=headers)

# Vérifier si la requête a réussi
if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    
    # Extraire les liens des résultats
    for link in soup.find_all("a"):
        href = link.get("href")
        if href and "pdf" in href:
            print(f"Lien PDF trouvé : {href}")
else:
    print(f"Erreur : {response.status_code}")


Lien PDF trouvé : /search?q=SQL+tutorial+filetype:pdf&sca_esv=4f9cd8e0fdf28683&gbv=1&sei=ZMw9Z4-3LN2rwbkPx_H22Qs
Lien PDF trouvé : https://accounts.google.com/ServiceLogin?hl=fr&passive=true&continue=https://www.google.com/search%3Fq%3DSQL%2Btutorial%2Bfiletype:pdf&ec=GAZAAQ
Lien PDF trouvé : /search?sca_esv=4f9cd8e0fdf28683&q=SQL+tutorial+filetype:pdf&udm=7&fbs=AEQNm0CbCVgAZ5mWEJDg6aoPVcBgjESotLRNhF4rcMUS8g-cctLe7ANvTTim5zj7R9O1FDteB0Ndimd-nGNoJTDMkjaC8jOpOEt8YUgMAbn09FxUqfXAO0wK-9ve-GQhxAi6Phi7BamdyWD3uSQQYDq5yIaa2cdnF6Jm--RCOakLUT4K6zoDnNsioMsEsSKN_PSXhTLzXvDb&sa=X&ved=2ahUKEwiP-a_A6-qJAxXdVTABHce4PbsQtKgLegQIKRAB
Lien PDF trouvé : /search?sca_esv=4f9cd8e0fdf28683&q=SQL+tutorial+filetype:pdf&udm=2&fbs=AEQNm0CbCVgAZ5mWEJDg6aoPVcBgjESotLRNhF4rcMUS8g-cctLe7ANvTTim5zj7R9O1FDteB0Ndimd-nGNoJTDMkjaC8jOpOEt8YUgMAbn09FxUqfXAO0wK-9ve-GQhxAi6Phi7BamdyWD3uSQQYDq5yIaa2cdnF6Jm--RCOakLUT4K6zoDnNsioMsEsSKN_PSXhTLzXvDb&sa=X&ved=2ahUKEwiP-a_A6-qJAxXdVTABHce4PbsQtKgLegQIJRAB
Lien PDF trouvé : /search?

In [3]:


# Étape 1 : Définir la requête Google et le dossier de téléchargement
query = "SQL tutorial filetype:pdf"  # Remplacez par votre mot-clé
url = f"https://www.google.com/search?q={query.replace(' ', '+')}"
output_folder = "pdf_downloads"
os.makedirs(output_folder, exist_ok=True)  # Crée le dossier si nécessaire

# Étape 2 : Envoyer une requête à Google
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}
response = requests.get(url, headers=headers)

# Étape 3 : Vérifier si la requête a réussi
if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    pdf_links = []  # Liste pour stocker les liens PDF
    
    # Étape 4 : Extraire les liens
    for link in soup.find_all("a"):
        href = link.get("href")
        if href and ".pdf" in href:  # Vérifie que le lien contient ".pdf"
            # Nettoyer le lien si nécessaire
            if href.startswith("/url?q="):
                href = href.split("/url?q=")[1].split("&")[0]
            pdf_links.append(href)
    
    print(f"PDFs trouvés : {len(pdf_links)}")
    
    # Étape 5 : Télécharger chaque PDF
    for pdf_url in pdf_links:
        try:
            print(f"Téléchargement de : {pdf_url}")
            pdf_response = requests.get(pdf_url, stream=True)
            
            if pdf_response.status_code == 200:
                # Nom du fichier PDF
                pdf_name = pdf_url.split("/")[-1].split("?")[0]  # Extrait le nom du fichier
                pdf_path = os.path.join(output_folder, pdf_name)
                
                # Enregistrement du fichier
                with open(pdf_path, "wb") as pdf_file:
                    for chunk in pdf_response.iter_content(chunk_size=1024):
                        pdf_file.write(chunk)
                print(f"Enregistré sous : {pdf_path}")
            else:
                print(f"Échec du téléchargement : {pdf_url}")
        except Exception as e:
            print(f"Erreur lors du téléchargement de {pdf_url} : {e}")
else:
    print(f"Erreur lors de l'accès à Google ({response.status_code})")


PDFs trouvés : 10
Téléchargement de : https://www.hcoe.edu.np/uploads/attachments/r96oytechsacgzi4.pdf
Échec du téléchargement : https://www.hcoe.edu.np/uploads/attachments/r96oytechsacgzi4.pdf
Téléchargement de : https://sql.sh/ressources/cours-sql-sh-.pdf
Enregistré sous : pdf_downloads\cours-sql-sh-.pdf
Téléchargement de : https://www.i3s.unice.fr/~edemaria/cours/c4.pdf
Enregistré sous : pdf_downloads\c4.pdf
Téléchargement de : https://cdncontribute.geeksforgeeks.org/wp-content/uploads/SQL-Manual.pdf
Enregistré sous : pdf_downloads\SQL-Manual.pdf
Téléchargement de : http://www.salihayacoub.com/420Kba/TransacSql.pdf
Enregistré sous : pdf_downloads\TransacSql.pdf
Téléchargement de : https://people.inf.elte.hu/kiss/DB/sqltutorial.pdf
Enregistré sous : pdf_downloads\sqltutorial.pdf
Téléchargement de : https://www-npa.lip6.fr/~blin/Enseignement_files/SGBD/Tuto0racle-L3.pdf
Enregistré sous : pdf_downloads\Tuto0racle-L3.pdf
Téléchargement de : https://www.tutorialspoint.com/sql/sql_tutoria

# Scraper et télécharger les PDF de Google Scholar

In [4]:
import os
import requests
from bs4 import BeautifulSoup
import time

# URL de recherche Google Scholar
query = "SQL tutorial filetype:pdf"
scholar_url = f"https://scholar.google.com/scholar?q={query.replace(' ', '+')}"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}

# Dossier où les PDF seront téléchargés
output_folder = "scholar_pdfs"
os.makedirs(output_folder, exist_ok=True)

# Étape 1 : Envoyer une requête à Google Scholar
response = requests.get(scholar_url, headers=headers)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    pdf_links = []

    # Étape 2 : Extraire les liens PDF
    for link in soup.find_all("a"):
        href = link.get("href")
        if href and ".pdf" in href:  # Vérifie si le lien est un PDF
            pdf_links.append(href)

    print(f"{len(pdf_links)} liens PDF trouvés.")

    # Étape 3 : Télécharger les PDF
    for pdf_url in pdf_links:
        try:
            print(f"Téléchargement de : {pdf_url}")
            pdf_response = requests.get(pdf_url, stream=True)
            
            if pdf_response.status_code == 200:
                # Nom du fichier PDF
                pdf_name = pdf_url.split("/")[-1].split("?")[0]
                pdf_path = os.path.join(output_folder, pdf_name)
                
                # Enregistrement du fichier
                with open(pdf_path, "wb") as pdf_file:
                    for chunk in pdf_response.iter_content(chunk_size=1024):
                        pdf_file.write(chunk)
                print(f"Enregistré sous : {pdf_path}")
            else:
                print(f"Échec du téléchargement : {pdf_url}")
        except Exception as e:
            print(f"Erreur lors du téléchargement de {pdf_url} : {e}")

else:
    print(f"Erreur : Impossible d'accéder à Google Scholar (Code {response.status_code})")


20 liens PDF trouvés.
Téléchargement de : https://asterixdb.incubator.apache.org/files/SQL_Book.pdf
Enregistré sous : scholar_pdfs\SQL_Book.pdf
Téléchargement de : https://asterixdb.incubator.apache.org/files/SQL_Book.pdf
Enregistré sous : scholar_pdfs\SQL_Book.pdf
Téléchargement de : http://www.brescianet.com/appunti/db/OracleSQLTutorial.pdf
Enregistré sous : scholar_pdfs\OracleSQLTutorial.pdf
Téléchargement de : http://www.brescianet.com/appunti/db/OracleSQLTutorial.pdf
Enregistré sous : scholar_pdfs\OracleSQLTutorial.pdf
Téléchargement de : https://www.academia.edu/download/51556543/choirul-SQL.pdf
Échec du téléchargement : https://www.academia.edu/download/51556543/choirul-SQL.pdf
Téléchargement de : https://www.academia.edu/download/51556543/choirul-SQL.pdf
Échec du téléchargement : https://www.academia.edu/download/51556543/choirul-SQL.pdf
Téléchargement de : https://www.academia.edu/download/40932699/LCTASQL.pdf
Échec du téléchargement : https://www.academia.edu/download/4093269