## Récupération de pages  aléatoires de Wikipédia dans différentes langues

### Import des bibliothèques nécessaires

In [1]:
import requests
import os
import hashlib
import random

Les quatre bibliothèques importées sont `requests`, `os`, `hashlib` et `random`. Elles fournissent des fonctionnalités pour effectuer des requêtes HTTP, manipuler les fichiers et les dossiers, générer des hachages et effectuer des opérations aléatoires.

### Fonction pour récupérer le résumé d'une page Wikipédia aléatoire dans une langue donnée

In [2]:
def recuperer_page_aleatoire(langue):
    url = f"https://{langue}.wikipedia.org/api/rest_v1/page/random/summary"
    try:
        # Envoi de la requête HTTP GET pour obtenir les données de la page aléatoire
        reponse = requests.get(url)
        reponse.raise_for_status()  # Vérifie si la requête a échoué
        donnees = reponse.json() # Conversion de la réponse en format JSON
        if 'extract' in donnees and 'title' in donnees:
            return donnees['title'], donnees['extract'] ## Retourne le titre et le contenu de la page
        else:
            print(f"Aucun extrait ou titre trouvé pour une page aléatoire en {langue}")
            return None, None
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors de la récupération de la page aléatoire pour {langue}: {e}")
        return None, None

Fonction `recuperer_page_aleatoire(langue)`:

Cette fonction prend en entrée le code de langue (par exemple, 'fr' pour le français) et récupère le résumé d'une page Wikipédia aléatoire dans cette langue.

Elle utilise l'API de Wikipédia pour obtenir les données de la page aléatoire, extrait le titre et le contenu de la réponse JSON, puis les retourne.

In [3]:
# Fonction pour écrire le contenu d'une page dans un fichier texte
def ecrire_fichier_texte(dossier_data, langue, titre, paragraphe):
    # Génération d'un identifiant unique basé sur le titre de la page
    id_unique = generer_id_unique(titre)
    nom_fichier = f"{id_unique}_{langue}.txt" # Nom du fichier avec l'identifiant et la langue
    chemin_fichier = os.path.join(dossier_data, nom_fichier) # Chemin complet du fichier
    try:
        with open(chemin_fichier, 'w', encoding='utf-8') as fichier:
            premier_paragraphe = paragraphe.split('\n')[0]  # Extraction du premier paragraphe
            fichier.write(premier_paragraphe.strip() + '\n')  # Écriture du premier paragraphe dans le fichier
    except IOError as e:
        print(f"Erreur lors de l'écriture du fichier {chemin_fichier}: {e}")

Fonction `ecrire_fichier_texte(dossier_data, langue, titre, paragraphe)`:

Cette fonction prend en entrée le chemin du dossier de données, la langue de la page, le titre de la page et le contenu de la page.

Elle génère un identifiant unique basé sur le titre de la page, puis écrit le premier paragraphe du contenu dans un fichier texte. La raison pour laquelle j'ai décidé de créer un identifiant unique pour chaque page Wiki récupéréé, c'est que certains titres sont trop longs et leur nom de fichier est donc trop long.

Le fichier est enregistré dans le dossier spécifié.

In [4]:
# Fonction pour générer un identifiant unique basé sur le titre de la page
def generer_id_unique(titre):
    return hashlib.sha1(titre.encode()).hexdigest()[:8]

Fonction `generer_id_unique(titre)`:

Cette fonction prend en entrée le titre de la page et génère un identifiant unique en utilisant la fonction de hachage SHA-1.

L'identifiant unique est tronqué pour ne conserver que les 8 premiers caractères.

In [5]:
def main():
    langues = ['ar', 'de', 'en', 'fr', 'es', 'it', 'ja', 'pt', 'ru', 'th', 'tr', 'vi', 'zh']
    nb_pages_par_langue = 20
    
    # Liste pour stocker les résultats
    resultats = []
    
    # Création du dossier pour stocker les résultats
    for langue in langues:
        dossier_data = f"./results/"
        os.makedirs(dossier_data, exist_ok=True)
        
        for index in range(1, nb_pages_par_langue + 1):
            titre, contenu = recuperer_page_aleatoire(langue)
            
            if titre and contenu:
                # Ajoutez le titre, le contenu et la langue à la liste des résultats
                resultats.append((titre, contenu, langue))
    
    # Mélangez l'ordre des résultats
    random.shuffle(resultats)
    
    # Parcourez les résultats mélangés et écrivez chaque fichier
    for index, (titre, contenu, langue) in enumerate(resultats, start=1):
        print(f"Contenu de l'article {index} ({langue}):")
        print(contenu)
        ecrire_fichier_texte(dossier_data, langue, titre, contenu)
        print(f"Page enregistrée : {titre}_{langue}.txt")

Fonction `main()`:

Cette fonction est le point d'entrée principal du script.

Elle définit la liste des langues à traiter et le nombre de pages à extraire par langue.

Pour chaque langue, elle crée un dossier pour stocker les résultats, puis extrait les résumés de pages aléatoires.

Les résultats sont stockés dans une liste, mélangés aléatoirement, et pour chaque résultat, le contenu est écrit dans un fichier texte à l'aide des fonctions précédentes.

In [6]:
# Exécution de la fonction principale si le script est exécuté directement
if __name__ == "__main__":
    main()

Erreur lors de la récupération de la page aléatoire pour de: 404 Client Error: Not Found for url: https://de.wikipedia.org/api/rest_v1/page/summary/Giro_d%E2%80%99Italia_2023/16._Etappe
Erreur lors de la récupération de la page aléatoire pour it: 404 Client Error: Not Found for url: https://it.wikipedia.org/api/rest_v1/page/summary/Benz_27/70_PS
Contenu de l'article 1 (tr):
Ferruccio Valcareggi, orta saha pozisyonunda görev yapmış İtalyan eski futbolcu ve teknik direktör.
Page enregistrée : Ferruccio Valcareggi_tr.txt
Contenu de l'article 2 (ru):
Филипп Кулик — выдающийся математик, физик, председатель Королевского Чешского Общества Наук, составил таблицы первочисел и таблицы разложения чисел.
Page enregistrée : Кулик, Филипп_ru.txt
Contenu de l'article 3 (th):
ในทางคณิตศาสตร์ ส่วนลงตัว (aliquot part หรือ aliquot) คือจำนวนเต็มบวกใดๆ ที่นำไปหารจำนวนเต็มบวกอีกจำนวนหนึ่งแล้วสามารถหารได้ลงตัว หรือเรียกได้ว่า "เป็นตัวหาร" เช่น 2 เป็นส่วนลงตัวของ 12 ผลบวกของส่วนลงตัวทั้งหมดของ n จะมีค่าเท่าก