In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import os
import urllib.parse

In [2]:
def get_random_page_urls(driver, languages: list) -> dict:
    """
    Récupère les URLs de pages aléatoires pour chaque langue donnée

    Parameters:
    driver (WebDriver): Le driver Selenium
    languages (list): La liste des langues pour lesquelles on veut récupérer une URL

    Returns:
    dict: Un dictionnaire avec les langues en clés et les URLs en valeurs
    """
    urls = {}
    for language in languages:
        driver.get('https://{}.wikipedia.org/wiki/Special:Random'.format(language))
        urls[language] = driver.current_url
    return urls

Je commence par définir une fonction nommée `get_random_page_urls` qui prend deux paramètres : `driver` et `languages`. Le `driver` est probablement un objet qui me permet d'interagir avec un navigateur web, et `languages` est une liste des codes de langue pour lesquels je veux récupérer des URL aléatoires de pages Wikipédia.

À l'intérieur de la fonction, je crée un dictionnaire vide appelé `urls` où je vais stocker les URL que je récupère. Pour chaque langue présente dans la liste `languages`, je fais plusieurs actions :

1. Je construis l'URL de la page Wikipédia aléatoire pour cette langue en utilisant la méthode `format`. Cela me donne une URL comme 'https://en.wikipedia.org/wiki/Special:Random' si la langue est 'en' (anglais), par exemple.

2. J'utilise le `driver` pour charger cette URL dans le navigateur web avec `driver.get(url_formée)`.

3. Une fois que la page a chargé, je récupère l'URL actuelle, qui est une page spécifique choisie aléatoirement par Wikipédia, en utilisant `driver.current_url`.

4. Je stocke cette URL dans le dictionnaire `urls` avec la langue correspondante comme clé.

Après avoir traité toutes les langues dans la boucle, je retourne le dictionnaire `urls` qui contient les codes de langue comme clés et les URL des pages Wikipédia aléatoires comme valeurs.

In [3]:
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')


def get_interlanguage_urls(driver, base_url: str) -> dict:
    """
    Obtient les URLs des pages correspondantes dans d'autres langues pour une page donnée

    Parameters:
    driver (WebDriver): Le driver Selenium
    base_url (str): L'URL de la page pour laquelle on veut récupérer les URLs des pages correspondantes dans d'autres langues

    Returns:
    dict: Un dictionnaire avec les langues en clés et les URLs en valeurs
    """
    driver.get(base_url)
    wait = WebDriverWait(driver, 30)
    try:
        interlanguage_links = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'li.interlanguage-link a')))
        return {link.get_attribute('lang'): link.get_attribute('href') for link in interlanguage_links}
    except TimeoutException:
        logging.error(f"Timeout when trying to find interlanguage links for {base_url}\n")
        return {}

Je commence par importer le module `logging` qui me permet d'enregistrer des informations sur ce qui se passe dans mon code. Je configure le niveau de logging à `INFO`, ce qui signifie que je vais enregistrer les messages de niveau INFO et supérieur (comme ERROR). Je définis également un format spécifique pour ces messages qui inclut la date et l'heure, le niveau de gravité du message et le message lui-même.

Ensuite, je définis une fonction nommée `get_interlanguage_urls` qui prend deux paramètres : `driver` et `base_url`. Le `driver` est l'objet qui interagit avec le navigateur, et `base_url` est l'URL de la page de base à partir de laquelle je veux récupérer des liens interlangues.

À l'intérieur de la fonction, je fais plusieurs actions :

1. Je charge l'URL de base dans le navigateur en utilisant `driver.get(base_url)`.

2. Je crée un objet `wait` de type `WebDriverWait`, lié au `driver` et avec un délai maximal de 30 secondes. Cet objet me permet d'attendre que certaines conditions soient remplies avant de continuer l'exécution de mon code.

3. J'essaie ensuite de récupérer tous les éléments de la page qui correspondent à des liens interlangues. Ces liens sont localisés par un sélecteur CSS qui cible les éléments 'a' dans les 'li' avec la classe 'interlanguage-link'. J'attends que ces éléments soient présents sur la page, ce que je vérifie avec la méthode `presence_of_all_elements_located`.

4. Si les éléments sont trouvés à temps, je construis un dictionnaire avec les langues comme clés (en récupérant l'attribut 'lang' de chaque lien) et les URL correspondantes comme valeurs (en récupérant l'attribut 'href' de chaque lien).

5. Si le délai d'attente de 30 secondes est dépassé sans que les liens soient trouvés, je consigne une erreur de type `TimeoutException` avec un message d'erreur spécifique qui mentionne l'URL de base. Dans ce cas, je retourne un dictionnaire vide.

La fonction `get_interlanguage_urls` retourne donc soit un dictionnaire contenant les langues et leurs URL associées si tout se passe bien, soit un dictionnaire vide si une erreur se produit lors de la récupération des liens.

In [4]:
def extract_paragraphs(driver, url: str) -> tuple:
    """
    Extrait les paragraphes d'un article Wikipédia

    Parameters:
    driver (WebDriver): Le driver Selenium
    url (str): L'URL de l'article Wikipédia

    Returns:
    str: Les paragraphes de l'article
    str: Le titre de l'article
    """
    driver.get(url)
    
    paragraphs = ""

    # Extract the first paragraph of the article
    try:
        title = os.path.basename(urllib.parse.urlparse(url).path)
        elements = driver.find_elements(By.XPATH, '//*[@id="mw-content-text"]/div/p')

        print(f"Found {len(elements)} paragraphs for {url} : {[el.text[:30] for el in elements]}")

        for el in elements:
            if el.text:
                paragraphs += el.text + "\n"
            else:
                continue

    except:
        print(f"Could not find paragraph for {url}")

    return paragraphs, title

Je définis ici une fonction appelée `extract_paragraphs` qui prend deux paramètres : `driver` et `url`.

Voici ce que je fais dans cette fonction :

1. Je commence par charger l'URL donnée dans le navigateur à l'aide de `driver.get(url)`.

2. Je déclare une variable `paragraphs` que j'initialise avec une chaîne de caractères vide. Cela servira à stocker tous les paragraphes de texte que je vais extraire.

3. Je tente ensuite d'extraire le premier paragraphe de l'article. Pour cela, je procède comme suit :

   a. J'extrais le titre de la page à partir de l'URL en utilisant les fonctions `os.path.basename` et `urllib.parse.urlparse` pour obtenir uniquement la partie finale de l'URL, qui correspond généralement au titre de l'article.

   b. Je recherche dans le document tous les éléments qui correspondent au chemin XPath spécifié. Ce chemin cible les paragraphes situés dans une division particulière de la page identifiée par l'identifiant `mw-content-text`.

   c. J'affiche un message indiquant combien de paragraphes j'ai trouvés pour l'URL donnée. Pour chaque élément trouvé, je montre les 30 premiers caractères du texte de cet élément.

   d. Je parcours ensuite chaque élément trouvé. Si l'élément contient du texte, je l'ajoute à la variable `paragraphs` avec un saut de ligne à la fin. Si l'élément ne contient pas de texte, je continue simplement sans l'ajouter.

4. Si une exception se produit pendant l'extraction (par exemple, si le chemin XPath est incorrect ou si la page ne se charge pas correctement), j'affiche un message d'erreur indiquant que je n'ai pas pu trouver de paragraphe pour l'URL donnée.

5. Enfin, je retourne un tuple contenant les paragraphes extraits et le titre de l'article. Cela permet à celui qui utilise cette fonction de recevoir à la fois le texte extrait et le titre de la page à partir de laquelle le texte a été extrait.

In [5]:
def write_txt(data_folder: str, lang: str, url: str, paragraph: str, file_counts: dict) -> None:
    """
    Écrit un paragraphe récupéré dans un fichier texte

    Parameters:
    data_folder (str): Le chemin du dossier où écrire le fichier texte
    lang (str): La langue de l'article
    url (str): L'URL de l'article
    paragraph (str): Le paragraphe à écrire
    file_counts (dict): Un dictionnaire avec les langues en clés et le nombre de fichiers écrits en valeurs

    Returns:
    None
    """
    # Parse the URL to extract the article title, which is the part after the last '/'
    parsed_url = urllib.parse.urlparse(url)
    article_title = os.path.basename(parsed_url.path)
    
    # URL decode the article title (e.g., replace '%E1%83%90' with actual characters)
    article_title = urllib.parse.unquote(article_title)
    
    # Replace any remaining invalid file name characters (like '/') in the title with '_'
    valid_article_title = ''.join(char if char.isalnum() else '_' for char in article_title)
    
    # Ensure the data folder exists
    os.makedirs(data_folder, exist_ok=True)
    
    # Generate the filename and write the paragraph to the file
    filename = f"{lang}_{valid_article_title}.txt"
    file_path = os.path.join(data_folder, filename)
    
    with open(file_path, 'w', encoding='utf-8') as f:
        f.write(paragraph)
        print(f"Successfully wrote {file_path}\n")
    file_counts[lang] += 1


Je définis une fonction nommée `write_txt` qui prend cinq paramètres : `data_folder`, `lang`, `url`, `paragraph`, et `file_counts`. Ces paramètres me servent respectivement à spécifier où sauvegarder les fichiers, la langue de l'article, l'URL de l'article, le paragraphe à écrire, et un dictionnaire pour suivre combien de fichiers j'ai écrits pour chaque langue.

Voici comment je procède dans cette fonction :

1. **Extraction du titre de l'article depuis l'URL** : 
   - Je parse l'URL pour isoler la partie qui me sert de titre, qui est après le dernier '/' dans le chemin de l'URL.
   - Je décode le titre pour convertir des séquences d'échappement URL (comme '%E1%83%90') en caractères lisibles.

2. **Nettoyage du titre** :
   - Je remplace tout caractère du titre qui n'est pas alphanumérique par un underscore ('_') pour m'assurer que le titre peut être utilisé comme nom de fichier sans causer d'erreur.

3. **Préparation du dossier de données** :
   - Je m'assure que le dossier où je veux sauvegarder les fichiers existe. S'il n'existe pas, je le crée avec `os.makedirs`, et l'option `exist_ok=True` me permet de ne pas générer d'erreur si le dossier existe déjà.

4. **Écriture du paragraphe dans un fichier** :
   - Je génère le nom du fichier en utilisant la langue et le titre de l'article nettoyé, et j'ajoute l'extension '.txt'.
   - Je combine le dossier de données et le nom du fichier pour créer le chemin complet du fichier.
   - J'ouvre le fichier en mode écriture (`'w'`) avec encodage UTF-8, et j'écris le paragraphe dedans. Je termine par afficher un message pour confirmer que l'écriture a réussi.

5. **Incrémentation du compteur de fichiers** :
   - J'augmente de 1 le compteur pour la langue correspondante dans le dictionnaire `file_counts` pour suivre combien de fichiers ont été écrits pour chaque langue.

La fonction `write_txt` n'a pas de valeur de retour. Elle effectue son travail d'écriture en sauvegardant les paragraphes dans des fichiers spécifiques tout en organisant et en comptant combien de fois elle le fait pour chaque langue.

In [6]:
def main():
    driver = webdriver.Chrome()
    data_folder = "../../../data/raw/"
    languages = ['ar', 'fr', 'en', 'de', 'es', 'ja', 'ko', 'ru', 'zh']
    file_counts = {lang: 0 for lang in languages}

    base_urls = get_random_page_urls(driver, languages)
    for lang in languages:
        while file_counts[lang] < 40:
            current_url = base_urls[lang]
            paragraphs, article_title = extract_paragraphs(driver, current_url)
            if paragraphs:
                write_txt(data_folder, lang, article_title, paragraphs, file_counts)
            
            links = get_interlanguage_urls(driver, current_url)
            for link_lang, link_url in links.items():
                if link_lang in languages and file_counts[link_lang] < 40:
                    link_paragraphs, title = extract_paragraphs(driver, link_url)
                    if link_paragraphs:
                        write_txt(data_folder, link_lang, title, link_paragraphs, file_counts)

            # Refreash the base URL for the current language
            new_urls = get_random_page_urls(driver, [lang])
            base_urls[lang] = new_urls[lang]
            
    driver.quit()



J'ai défini une fonction nommée `main` qui orchestre l'extraction et l'enregistrement de textes à partir de différentes éditions linguistiques de Wikipedia. Voici comment je m'y prends :

1. **Initialisation du pilote du navigateur** :
   - J'initialise un pilote Chrome en utilisant `webdriver.Chrome()`. Cela me permet d'ouvrir et de manipuler un navigateur Chrome directement depuis mon script.

2. **Définition du dossier de données et des langues** :
   - Je définis le chemin vers le dossier où je souhaite enregistrer les fichiers extraits. Je spécifie également une liste de codes de langue pour les éditions de Wikipedia que je souhaite explorer.

3. **Initialisation des compteurs de fichiers** :
   - Je crée un dictionnaire `file_counts` pour suivre le nombre de fichiers que j'ai écrits pour chaque langue, en initialisant tous les compteurs à zéro.

4. **Récupération des URL initiales** :
   - J'utilise la fonction `get_random_page_urls` pour obtenir une URL de page aléatoire pour chaque langue listée. Cela me donne un point de départ pour chaque langue.

5. **Traitement pour chaque langue** :
   - Pour chaque langue, je continue à extraire et enregistrer des paragraphes tant que je n'ai pas atteint 20 fichiers pour cette langue. Je récupère l'URL actuelle pour la langue en question et j'extrait des paragraphes et le titre de l'article à partir de cette URL.

6. **Écriture des paragraphes** :
   - Si des paragraphes sont extraits, je les enregistre en utilisant la fonction `write_txt`.

7. **Exploration des liens interlangues** :
   - J'utilise `get_interlanguage_urls` pour récupérer des liens vers d'autres éditions linguistiques de la même page Wikipedia. Pour chaque lien valide qui pointe vers une langue que je suis en train de traiter et où je n'ai pas encore atteint la limite de 20 fichiers, j'extrait et j'enregistre les paragraphes.

8. **Rafraîchissement des URL** :
   - Après avoir traité les liens interlangues, je rafraîchis l'URL de base pour la langue actuelle en récupérant une nouvelle URL aléatoire. Cela me permet de continuer à extraire de nouveaux contenus sans boucler sur les mêmes pages.

9. **Nettoyage** :
   - Une fois que j'ai fini de traiter toutes les langues, je ferme le pilote du navigateur avec `driver.quit()` pour libérer les ressources.

Cette fonction `main` organise donc systématiquement l'extraction de contenus multilingues à partir de Wikipedia, les sauvegarde localement, et assure que le nombre de fichiers pour chaque langue atteint un seuil spécifié. Cela me permet de construire une collection diversifiée de textes pour différents usages, comme l'entraînement de modèles de traitement de langues.

In [7]:
main()

Found 1 paragraphs for https://ar.wikipedia.org/wiki/%D9%85%D8%A7%D8%AA%D9%8A%D9%88_%D9%84%D9%8A%D9%86 : ['ماتيو لين (بالفرنسية: Mathieu ']
Successfully wrote ../../../data/raw/ar_ماتيو_لين.txt

Found 37 paragraphs for https://en.wikipedia.org/wiki/Mathieu_Laine : ['Mathieu Laine (born April 9, 1', 'He is the founder and head of ', 'He is an affiliate professor a', 'Son and grandson of doctors, M', 'He holds a certificate in the ', 'Mathieu Laine taught business ', 'In 2018, he was appointed Affi', 'Mathieu Laine was a corporate ', 'Mathieu Laine created Altermin', 'Mathieu Laine became an adviso', 'In 2014, Mathieu Laine moved t', 'Since the launch of Altermind,', 'He advises several executives ', 'According to an article in Les', 'Among Altermind’s achievements', 'Another mission relayed in the', "Altermind's partners include A", 'In July 2020, Altermind announ', 'Mathieu Laine has been a regul', 'In April 2005, after having be', 'In 2002, Laine published an op', 'Mathieu Laine is in

2024-05-05 10:57:49,091 - ERROR - Timeout when trying to find interlanguage links for https://ar.wikipedia.org/wiki/%D9%86%D9%88%D8%A7%D9%84_%D9%85%D9%87%D9%86%D9%8A


Found 2 paragraphs for https://ar.wikipedia.org/wiki/%D8%AC%D9%88%D9%86_%D8%B3%D8%AA%D8%B1%D9%8A%D9%86%D8%AC : ['جون سترينج هو سياسي كندي، ولد ', 'ولد في إيست كيلبرايد، اسكتلندا']
Successfully wrote ../../../data/raw/ar_جون_سترينج.txt

Found 4 paragraphs for https://en.wikipedia.org/wiki/John_Strange_(Upper_Canada_politician) : ['John Strange (September 2, 178', 'He was born in East Kilbride, ', 'Strange was a father of five, ', '']
Successfully wrote ../../../data/raw/en_John_Strange__Upper_Canada_politician_.txt

Found 22 paragraphs for https://ar.wikipedia.org/wiki/%D8%B4%D8%B0%D9%89_%D8%AD%D8%B3%D9%88%D9%86 : ['شذى أمجد الحسون (مواليد 3 مارس', 'ولدت بمدينة الدار البيضاء بالم', 'لديها أخ اصغر منها اسمه "وائل"', 'منذ الطفولة كان هدف شذى حسون ه', 'في عام 2006 كانت الصدفة حليفة ', 'حينها تميزت شذى عن باقي الطالب', 'كانت عدة قنوات محلية بضمنها قن', 'كما قال بعض المراقبين أن شذى ق', 'منذ وجودها في الأكاديمية فازت ', 'لتكرر التجربة للمرة الثانية عل', 'لتقوم نفس الشركة بأستغلال شعبي', 'شار

2024-05-05 11:00:15,473 - ERROR - Timeout when trying to find interlanguage links for https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AC%D8%AD%D8%A7%D9%88%D8%B1_(%D8%A7%D9%84%D9%82%D9%81%D8%B1)


Found 1 paragraphs for https://ar.wikipedia.org/wiki/%D8%AF%D9%8A%D9%81_%D8%AF%D9%88%D9%86%D8%A7%D9%84%D8%AF%D8%B3%D9%88%D9%86_(%D9%84%D8%A7%D8%B9%D8%A8_%D9%83%D8%B1%D8%A9_%D9%82%D8%AF%D9%85) : ['ديف دونالدسون (بالإنجليزية: Da']
Successfully wrote ../../../data/raw/ar_ديف_دونالدسون__لاعب_كرة_قدم_.txt

Found 3 paragraphs for https://en.wikipedia.org/wiki/Dave_Donaldson_(footballer,_born_1941) : ['', 'David Donaldson (born 28 Decem', '']
Successfully wrote ../../../data/raw/en_Dave_Donaldson__footballer__born_1941_.txt

Found 2 paragraphs for https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%BA%D8%B1%D9%81_(%D8%AD%D8%B6%D8%B1%D9%85%D9%88%D8%AA) : ['الغرف هي إحدى قرى الجمهورية ال', '']
Successfully wrote ../../../data/raw/ar_الغرف__حضرموت_.txt



2024-05-05 11:00:51,313 - ERROR - Timeout when trying to find interlanguage links for https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%BA%D8%B1%D9%81_(%D8%AD%D8%B6%D8%B1%D9%85%D9%88%D8%AA)


Found 2 paragraphs for https://ar.wikipedia.org/wiki/%D9%87%D8%AA%D9%84%D9%8A_(%D9%83%D8%A7%D9%85%D8%A8%D8%B1%D9%8A%D8%AF%D8%AC%D8%B4%D9%8A%D8%B1) : ['هتلي (بالإنجليزية: Hatley, Cam', '']
Successfully wrote ../../../data/raw/ar_هتلي__كامبريدجشير_.txt

Found 18 paragraphs for https://en.wikipedia.org/wiki/Hatley,_Cambridgeshire : ['', 'Hatley is a civil parish in So', 'The Hatley name was in use as ', 'In 1831, the population of the', 'The parish was established in ', 'Hatley is 12 miles south-west ', 'Around half of the land in Hat', 'There are two main settlements', 'East Hatley is a row of houses', 'Historically, East Hatley hous', 'Hatley village hall was built ', 'Around one-third of the parish', 'At the time of the 2001 census', 'Hatley has a high rate of in-m', 'In addition to the two churche', 'Hatley St George has a church,', 'There are remnants of ancient ', 'Media related to Hatley, Cambr']
Successfully wrote ../../../data/raw/en_Hatley__Cambridgeshire.txt

Found 2 paragraphs

2024-05-05 11:01:34,879 - ERROR - Timeout when trying to find interlanguage links for https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AD%D9%85%D8%B1%D8%A9_(%D8%AD%D8%B2%D9%85_%D8%A7%D9%84%D8%B9%D8%AF%D9%8A%D9%86)


Found 1 paragraphs for https://ar.wikipedia.org/wiki/%D8%AA%D8%A7%D9%86%D8%AF%D9%8A%D8%AA_31_(%D8%AA%D8%A7%D9%86%D8%AF%D9%8A%D8%AA_%D8%A7%D9%84%D8%B4%D9%85%D8%A7%D9%84%D9%8A%D8%A9) : ['تانديت 31 هو دُوَّار يقع بجماع']
Successfully wrote ../../../data/raw/ar_تانديت_31__تانديت_الشمالية_.txt

Found 25 paragraphs for https://ar.wikipedia.org/wiki/%D9%85%D8%B1%D8%AD%D9%84%D8%A9_%D8%AE%D8%B1%D9%88%D8%AC_%D8%A7%D9%84%D9%85%D8%BA%D9%84%D9%88%D8%A8_%D9%81%D9%8A_%D8%AF%D9%88%D8%B1%D9%8A_%D8%A3%D8%A8%D8%B7%D8%A7%D9%84_%D8%A3%D9%88%D8%B1%D9%88%D8%A8%D8%A7_2012%E2%80%9313 : ['مرحلة خروج المغلوب في دوري أبط', 'الأوقات لغاية 30 مارس 2013 (دو', 'عقدت جميع القرعات في مقر اليوي', 'تنطوي مرحلة خروج المغلوب على ا', 'تلعب كل مواجهة في مرحلة خروج ا', 'آلية قرعات كل دور كما يلي:', 'لعبت مباريات الذهاب في 12 و13 ', 'تم الوقوف دقيقة صمت قبل المبار', 'فاز ريال مدريد 3–2 بالإجمالي.', 'فاز بوروسيا دورتموند 5–2 بالإج', 'فاز باريس سان جيرمان 3–2 بالإج', 'فاز يوفنتوس 5–0 بالإجمالي.', 'فاز غلطة سراي 4–3 بالإجمالي.', 

2024-05-05 11:02:39,243 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Louise_Smyth


Found 8 paragraphs for https://fr.wikipedia.org/wiki/Histoires_courtes_de_Boule_et_Bill : ['Les histoires courtes de Boule', '', 'Poisson vole est une histoire ', 'Billégiature est une histoire ', 'Père et mer est une histoire d', '10 ans après est une histoire ', 'Bill chante le printemps est u', 'Boule et Bill en vacances est ']
Successfully wrote ../../../data/raw/fr_Histoires_courtes_de_Boule_et_Bill.txt



2024-05-05 11:03:10,542 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Histoires_courtes_de_Boule_et_Bill


Found 3 paragraphs for https://fr.wikipedia.org/wiki/Trichuridae : ['Les Trichuridae forment une fa', 'Dans sa monographie de 2001 su', "D'après le Biology Catalog pro"]
Successfully wrote ../../../data/raw/fr_Trichuridae.txt

Found 5 paragraphs for https://de.wikipedia.org/wiki/Trichuridae : ['Trichuridae sind eine Familie ', 'Wie alle Familien aus der Über', 'Trichuridae befallen vor allem', 'Der Familie der Trichuridae ge', 'Gattungen und ausgewählte Arte']
Successfully wrote ../../../data/raw/de_Trichuridae.txt

Found 5 paragraphs for https://en.wikipedia.org/wiki/Trichuridae : ['', 'The roundworm family Trichurid', 'The genus Trichuris is particu', 'The genera of Trichuridae are:', '']
Successfully wrote ../../../data/raw/en_Trichuridae.txt

Found 2 paragraphs for https://es.wikipedia.org/wiki/Trichuridae : ['Los tricúridos (Trichuridae) s', 'El género Trichuris incluye va']
Successfully wrote ../../../data/raw/es_Trichuridae.txt

Found 3 paragraphs for https://zh.wikipedia.org/wi

2024-05-05 11:03:46,557 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Liste_des_salles_de_l%27Arena_Football_League


Found 10 paragraphs for https://fr.wikipedia.org/wiki/Pilawa_(gmina) : ['', 'Pilawa est une gmina (commune)', 'Son siège administratif est la', 'La gmina couvre une superficie', 'De 1975 à 1998, la gmina est a', 'À part la ville de Pilawa, la ', 'La gmina de Pilawa est voisine', "D'après les données de 2002, l", 'La commune représente 6,01 % d', 'Données du 30 juin 2004 :']
Successfully wrote ../../../data/raw/fr_Pilawa__gmina_.txt

Found 9 paragraphs for https://de.wikipedia.org/wiki/Gmina_Pilawa : ['Die Gmina Pilawa ist eine Stad', 'Die Gemeinde liegt fünf Kilome', 'Die Landgemeinde Pilawa wurde ', 'Zur Stadt-und-Land-Gemeinde ge', 'Kleinere Orte der Gemeinde sin', 'Neben Industriebetrieben in Pi', 'Östlich des Hauptortes kreuzt ', 'Der Bahnhof Pilawa ist Knotenp', 'Der nächste internationale Flu']
Successfully wrote ../../../data/raw/de_Gmina_Pilawa.txt

Found 5 paragraphs for https://en.wikipedia.org/wiki/Gmina_Pilawa : ['Gmina Pilawa is an urban-rural', 'The gmina covers an area o

2024-05-05 11:04:43,982 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Robert_Ch%C3%A9ramy


Found 11 paragraphs for https://fr.wikipedia.org/wiki/Albert_Chavaz : ['Albert Chavaz, né le 6 décembr', "Albert Chavaz, fils d'Alphonse", 'Dans les années 1930, il devie', 'Grâce à une bourse, dès 1933, ', 'Il réalise, dans toute la Suis', 'En 1957, une grande rétrospect', 'Il perd son épouse en 1977. Un', 'Albert Chavaz appartient, avec', 'Pour célébrer le 100e annivers', 'En 2018, la famille et les ami', "Une sélection d'œuvres d'Alber"]
Successfully wrote ../../../data/raw/fr_Albert_Chavaz.txt



2024-05-05 11:05:15,187 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Albert_Chavaz


Found 10 paragraphs for https://fr.wikipedia.org/wiki/Andr%C3%A9_de_La_Franquerie : ['André Lesage (de son nom de pl', "Fils d'Henri Lesage, docteur e", "Il prend l'habitude d'adjoindr", 'En 1926, il est nommé rédacteu', "Durant l'année 1939, il se voi", 'Dès son premier ouvrage, il ex', 'Il attribue également beaucoup', 'Il lance également des accusat', 'Croyant au canular de Taxil, i', '']
Successfully wrote ../../../data/raw/fr_André_de_La_Franquerie.txt

Found 2 paragraphs for https://es.wikipedia.org/wiki/Marqu%C3%A9s_de_la_Franquerie : ['El marqués André Le Sage de La', 'En 1926, fue nombrado redactor']
Successfully wrote ../../../data/raw/es_Marqués_de_la_Franquerie.txt

Found 13 paragraphs for https://fr.wikipedia.org/wiki/Tunnel_Wilbur-Wright : ['Le tunnel Wilbur-Wright ou le ', 'Il est situé au cœur de la vie', 'Le tunnel a été construit au x', 'Ce tunnel est ouvert aux voitu', 'Il comprend une chaussée à deu', 'Les flancs sont parcourus par ', 'Il porte le nom de Wilbur Wrig

2024-05-05 11:05:47,399 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Tunnel_Wilbur-Wright


Found 3 paragraphs for https://fr.wikipedia.org/wiki/La_Chambre_rouge,_%C3%89tretat : ['La Chambre rouge, Étretat est ', "L'œuvre a été peinte à partir ", '']
Successfully wrote ../../../data/raw/fr_La_Chambre_rouge__Étretat.txt



2024-05-05 11:06:18,360 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/La_Chambre_rouge,_%C3%89tretat


Found 11 paragraphs for https://fr.wikipedia.org/wiki/Famille_de_Sars : ['La famille de Sars est une fam', 'Grâce aux travaux et publicati', 'La généalogie évoquée précédem', 'Les hautes charges que plusieu', 'La famille de Sars est devenue', 'Aujourd’hui 4 branches subsist', 'Armes: "d\'or à la bande de gue', 'La forme primitive "d\'or à la ', 'Couronne : depuis le xviiie si', 'Supports: deux lions d’or, lam', 'Devise: Honor et libertas.']
Successfully wrote ../../../data/raw/fr_Famille_de_Sars.txt



2024-05-05 11:06:49,073 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Famille_de_Sars


Found 8 paragraphs for https://fr.wikipedia.org/wiki/Ch%C3%A2teau_des_Charmilles : ['', 'Le château des Charmilles est ', 'Le château est situé dans la R', 'Le château a été construit au ', 'En 1933, la famille Costa de B', 'En 2005, le lycée des Charmill', 'En 2016, dans le cadre d’une é', 'Le château, qui date du xixe s']
Successfully wrote ../../../data/raw/fr_Château_des_Charmilles.txt



2024-05-05 11:07:19,967 - ERROR - Timeout when trying to find interlanguage links for https://fr.wikipedia.org/wiki/Ch%C3%A2teau_des_Charmilles


Found 15 paragraphs for https://de.wikipedia.org/wiki/Die_Hand_an_der_Wiege : ['Die Hand an der Wiege (Origina', 'Die junge Claire Bartel, verhe', 'Sechs Monate später (Claire ha', 'Zunächst stillt Kindermädchen ', 'Die Bartels haben Solomon, ein', 'Eines Tages soll Claire einen ', 'Michael verzeiht Claire ihre v', 'Fortan verbringt Michael viel ', 'Bei einem Spaziergang mit Joe ', 'Unterdessen erfährt Immobilien', 'Als Claire nach Hause kommt, f', 'Zu Hause angekommen, schlägt C', 'Das Lexikon des internationale', 'Cinema empfand den Film als „t', 'Prisma bezeichnete den Film al']
Successfully wrote ../../../data/raw/de_Die_Hand_an_der_Wiege.txt

Found 24 paragraphs for https://es.wikipedia.org/wiki/La_mano_que_mece_la_cuna : ['La mano que mece la cuna (Títu', 'La película cuenta la historia', 'Estrenada en salas de cine el ', 'La mano que mece la cuna se la', 'Claire Bartel es una mujer asm', 'Seis meses más tarde, tras dar', 'Peyton se gana la confianza de', 'Un día, Salomón descubr

2024-05-05 11:07:54,919 - ERROR - Timeout when trying to find interlanguage links for https://de.wikipedia.org/wiki/Akunnaaq_(Ilulissat)


Found 2 paragraphs for https://de.wikipedia.org/wiki/Yoshimi_(Saitama) : ['Yoshimi (jap. 吉見町, -machi) ist', 'Yoshimi liegt westlich von Kon']
Successfully wrote ../../../data/raw/de_Yoshimi__Saitama_.txt

Found 4 paragraphs for https://es.wikipedia.org/wiki/Yoshimi_(Saitama) : ['Yoshimi (吉見町 Yoshimi-machi?) e', 'Yoshimi está localizado en el ', 'Las villas de Higashi-Yoshimi,', 'Según los datos del censo japo']
Successfully wrote ../../../data/raw/es_Yoshimi__Saitama_.txt

Found 15 paragraphs for https://ja.wikipedia.org/wiki/%E5%90%89%E8%A6%8B%E7%94%BA : ['吉見町（よしみまち）は、埼玉県の中部に位置し、比企郡に属する', '人口は約2万人。', '町域の大部分は荒川流域の荒川低地に属し田園地帯となっている。', 'いずれの合併に関しても成立には至らず、当面は単独での町政運営', '2024年、民間の有識者らで作る人口戦略会議は、各市町村にお', '', '幼稚園・保育園', '市外局番は町内全域が「0493」。同一市外局番の地域との通話', '郵便番号は町内全域が「355-01xx」である。', '町内に鉄道路線は通っていない。最寄りは、JR東日本高崎線鴻巣', '吉見町巡回バスは、2019年3月末までに順次廃止され、デマン', '町内に事業者1社、吉見タクシーがある。営業区域は県南西部交通', '町内に国道は通っていない。', '横穴古墳群「吉見百穴（よしみ・ひゃっけつ/ひゃくあな）」があ', '高速大容量通信回線網が遅れ、東京から約50 km圏内、住宅地']
Successfully wrote ../../

2024-05-05 11:08:36,519 - ERROR - Timeout when trying to find interlanguage links for https://de.wikipedia.org/wiki/Hermann_Ludwig_Dryander


Found 4 paragraphs for https://de.wikipedia.org/wiki/Sesvennah%C3%BCtte : ['', 'Die Sesvennahütte ist eine Sch', 'Die Sesvennahütte wurde 1980 v', 'Die Sesvennahütte wird von vie']
Successfully wrote ../../../data/raw/de_Sesvennahütte.txt



2024-05-05 11:09:08,175 - ERROR - Timeout when trying to find interlanguage links for https://de.wikipedia.org/wiki/Sesvennah%C3%BCtte


Found 17 paragraphs for https://de.wikipedia.org/wiki/Naatje_van_de_Dam : ['Naatje van de Dam (offiziell D', 'Im Zuge der Belgischen Revolut', 'Ab 1846, 15 Jahre nach diesem ', 'Schon vor der Errichtung des D', 'Ein Grund für die Teilung der ', 'Zunächst war geplant, ein groß', 'Die Figur wurde von dem flämis', 'Offiziell hieß das Monument De', 'Schon im ersten Winter wurde d', '1913 beschloss der Stadtrat vo', 'Auch gab es ein populäres Lied', 'Die Überreste der Figur wurden', 'Während der Besetzung der Nied', 'Anlässlich des 500. Geburtstag', 'Zum 700. Geburtstag der Stadt ', 'Ab 1947 befand sich an der Ste', 'Koordinaten: 52° 22′ 22,07″ N,']
Successfully wrote ../../../data/raw/de_Naatje_van_de_Dam.txt

Found 6 paragraphs for https://de.wikipedia.org/wiki/Terry_Sue-Patt : ['Terry Sue-Patt (* 29. Septembe', 'Terry Sue-Patt begann in der S', 'Nach seinem Ausscheiden aus Gr', 'Bei einem Verkehrsunfall, bei ', 'Terry Sue-Patt war ein talenti', 'Terry Sue-Patt wurde am 22. Ma']
Successfu

2024-05-05 11:09:55,610 - ERROR - Timeout when trying to find interlanguage links for https://de.wikipedia.org/wiki/Fritz_Strohmeyer


Found 1 paragraphs for https://de.wikipedia.org/wiki/Gisele : ['Gisele oder Gisèle ist ein wei']
Successfully wrote ../../../data/raw/de_Gisele.txt

Found 3 paragraphs for https://de.wikipedia.org/wiki/Alexander_Malta : ['Alexander Malta (* 28. Septemb', 'Nach der Matura an der Kantons', 'Er war der jüngere Bruder von ']
Successfully wrote ../../../data/raw/de_Alexander_Malta.txt

Found 4 paragraphs for https://es.wikipedia.org/wiki/Municipio_de_Washington_(condado_de_Lycoming,_Pensilvania) : ['El municipio de Washington (en', 'El municipio de Washington se ', 'Según la Oficina del Censo en ', '']
Successfully wrote ../../../data/raw/es_Municipio_de_Washington__condado_de_Lycoming__Pensilvania_.txt

Found 5 paragraphs for https://es.wikipedia.org/wiki/Manuel_Rocha_D%C3%ADaz : ['Manuel Rocha Díaz (Ciudad de M', 'En 1960 hizo una residencia de', 'En 1980 se casó por segunda ve', 'En 1988 se convirtió en un aca', 'Uno de sus hijos es Mauricio R']
Successfully wrote ../../../data/raw/es_Ma

2024-05-05 11:10:53,941 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/The_KIX-S_90%27s_II_%E3%80%9CThe_BEST%E3%80%9C


Found 25 paragraphs for https://ja.wikipedia.org/wiki/%E6%99%82%E4%BA%8B%E6%96%B0%E5%A0%B1 : ['時事新報（じじしんぽう）は、かつて存在した日本の日刊新聞であ', '現在も会社組織（株式会社時事新報社）としては存続している（後', '当初の福澤諭吉の計画では、政府の伊藤博文や井上馨の要請を受け', '結局、慶應義塾の出版局（現・慶應義塾大学出版会）は、その時、', '『時事新報』の論調は、国際情勢に関するものが多かった。福澤諭', '条約改正問題や、大阪事件、朝鮮問題が起こると、『時事新報』は', '1885年（明治18年）1月18日、「上野公園全国有志大運動', '時事新報は創刊時より「国権皇張」・「不偏不党」を掲げ、平明で', '日清戦争後の1896年（明治29年）、時事新報はロイター通信', '明治末期には、新聞業界の代表2人を選ぶ時、時事新報から1人が', 'また、1905年（明治38年）には、大阪へ進出している（以下', 'しかしその後、大正関東地震（関東大震災）による被災で、時事新', '紙勢の退調を補うために1932年（昭和7年）に鐘淵紡績社長で', 'やがてそれは「帝人事件」（昭和初期の大疑獄事件）まで引き起こ', '打開策として慶應義塾卒業生で当時大阪毎日新聞社（大毎）政治部', '合同前日には、福澤諭吉の墓前に奉告が行われている[12]。 ', '1945年（昭和20年）、GHQ占領下で日本新聞連盟などの用', '1946年（昭和21年）1月1日、戦前の時事新報で主筆を務め', '復刊当初、新興紙ブームの時流で名門復活と謳われた「時事新報」', '前田は追放解除後の1950年（昭和25年）、産業経済新聞の全', 'その後、「産経時事」は大阪本社版と題字を合わせて現在の『産経', '時事新報は、1905年（明治38年）3月15日から大阪で「大', 'その後三都合同新聞社は1940年（昭和15年）7月30日に解', '戦後1946年（昭和21年）2月1日、前田の手により復刊した', '日本経済新聞社は、戦時統制で1942年（昭和17年）に日本産']
Successfully wrote ../../../data/raw/ja_時事新報.txt

Found 

2024-05-05 11:11:27,502 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E4%B8%80%E6%A9%8B%E6%96%8E%E8%89%B6%E9%95%B7


Found 5 paragraphs for https://ja.wikipedia.org/wiki/%E9%AB%98%E6%A9%8B%E5%A4%A7%E8%BC%94_(%E5%A3%B0%E5%84%AA) : ['高橋 大輔（たかはし だいすけ、1986年[4]2月20日[', '日本ナレーション演技研究所[4]、テアトル・エコー研究所[4', '以前はアーツビジョン、プロダクション・タンク[4]に所属して', '声種はハイバリトン。外国語は英語（イギリス・ネイティヴ通翻訳', '特技はカードマジック、カクテル作り。趣味・スポーツはゴルフ、']
Successfully wrote ../../../data/raw/ja_高橋大輔__声優_.txt



2024-05-05 11:11:58,781 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E9%AB%98%E6%A9%8B%E5%A4%A7%E8%BC%94_(%E5%A3%B0%E5%84%AA)


Found 6 paragraphs for https://ja.wikipedia.org/wiki/%E6%A8%AA%E5%B1%B1%E3%81%82%E3%81%95%E3%81%BF : ['横山 あさみ（よこやま あさみ、1997年6月7日 - ）は', '音楽好きの一家のもとに生まれた[3]。立教大学観光学部観光学', '2020年、鹿児島読売テレビに入社[4]。同期のアナウンサー', '趣味は、ギター・焼き鳥を食べること（特にせせり）[2]。特技', '大学時代は日テレイベントコンパニオンを務めていた。', '女優の上白石萌音、上白石萌歌は幼馴染で、クラシックバレエを習']
Successfully wrote ../../../data/raw/ja_横山あさみ.txt



2024-05-05 11:12:30,215 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E6%A8%AA%E5%B1%B1%E3%81%82%E3%81%95%E3%81%BF


Found 2 paragraphs for https://ja.wikipedia.org/wiki/%E9%B9%BF%E6%B1%9F%E6%AF%94%E8%B3%A3%E7%A5%9E%E7%A4%BE : ['鹿江比賣神社（鹿江比売神社）（かえひめじんじゃ）は『延喜式神', '『延喜式神名帳』阿波国板野郡に小社（国幣小社）として掲載され']
Successfully wrote ../../../data/raw/ja_鹿江比賣神社.txt



2024-05-05 11:13:01,335 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E9%B9%BF%E6%B1%9F%E6%AF%94%E8%B3%A3%E7%A5%9E%E7%A4%BE


Found 4 paragraphs for https://ja.wikipedia.org/wiki/%E3%81%95%E3%82%88%E3%81%AA%E3%82%89%E3%81%AE%E7%A5%88%E3%82%8A/%E6%B5%B7%E3%81%AB%E6%B2%88%E3%82%81%E3%81%A6 : ['「さよならの祈り/海に沈めて」（さよならのいのり/うみにしず', 'キャニオンレコード（当時）の邦楽第1号シングル。', '共に1970年代に最初にデビューしたジャニーズ事務所の歌手 ', '両A面シングルである。']
Successfully wrote ../../../data/raw/ja_海に沈めて.txt



2024-05-05 11:13:32,212 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E3%81%95%E3%82%88%E3%81%AA%E3%82%89%E3%81%AE%E7%A5%88%E3%82%8A/%E6%B5%B7%E3%81%AB%E6%B2%88%E3%82%81%E3%81%A6


Found 21 paragraphs for https://ja.wikipedia.org/wiki/%E6%97%A9%E5%B7%9D%E5%BE%B3%E6%AC%A1_(%E6%9D%B1%E4%BA%AC%E5%9C%B0%E4%B8%8B%E9%89%84%E9%81%93) : ['早川 徳次（はやかわ のりつぐ、1881年〈明治14年〉10', '山梨県東八代郡御代咲村（現在の笛吹市一宮町東新居）に生まれる', '旧制甲府中学（現在の山梨県立甲府第一高等学校）を経て第六高等', '1908年（明治41年）に早稲田大学を卒業すると、後藤が総裁', '早川が鉄道と本格的に関わるようになるのは郷里の先輩である根津', '早川は1914年（大正3年）に国際事情視察の為、欧州を訪問し', '初めは公共交通として鉄道省や自治体に建設を働きかけたものの、', '早川は東京市橋梁課の地層図を取得し、東京の軟弱な地盤は地表か', '1919年（大正8年）11月17日にはついに鉄道院から地下鉄', '1924年（大正13年）には野村龍太郎が二代社長となり、早川', 'ようやく開通した浅草駅 - 上野駅間につづき、順次路線延長を', '一方で、小林一三率いる阪神急行電鉄を手本に駅の出入口にビルを', 'さらに郊外へ伸びる他の鉄道線への乗り入れも視野に入れたりする', '早川は職員教育・福利厚生にも力を入れ、1938年（昭和13年', '東京地下鉄道は1932年から根津嘉一郎が3代社長に就任し、1', 'しかし、1940年（昭和15年）12月に東急の総帥・五島慶太', '当時の鉄道省の思惑（地下鉄の国営化を目論んでいた）も絡み、東', 'その後、故郷の山梨へ帰郷する。早川は郷里における人材育成のた', '銀座駅の日比谷線中2階の中央部に早川の胸像がある。同じ胸像が', '早川徳次は自分の娘に「いつかきっと、東京中がクモの巣のように', '荒俣宏の小説『帝都物語』には早川徳次が登場、「地下鉄の建設中']
Successfully wrote ../../../data/raw/ja_早川徳次__東京地下鉄道_.txt

Found 6 paragraphs for https://ko.wikipedia.org/wiki/%ED%95%98%EC%95%BC%EC%B

2024-05-05 11:14:08,284 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/1995%E5%B9%B4%E3%81%AE%E7%A6%8F%E5%B2%A1%E3%83%80%E3%82%A4%E3%82%A8%E3%83%BC%E3%83%9B%E3%83%BC%E3%82%AF%E3%82%B9


Found 8 paragraphs for https://ja.wikipedia.org/wiki/%E8%B2%AF%E8%94%B5%E5%93%81 : ['貯蔵品（ちょぞうひん、stores/supplies）は、簿', '販売目的ではなく、社内で使用するための切手（通信費）、印紙（', '建設目的で購入した資材だが、他の用途に使うかもしれないものや', '（法人税基本通達2-2-15） 消耗品費等', '(注)\u3000この取扱いにより損金の額に算入する金額が製品の製造等', '（購入時）', '（期末時）未使用分4,000円を戻入れ', '（翌期首）振戻し']
Successfully wrote ../../../data/raw/ja_貯蔵品.txt



2024-05-05 11:14:39,332 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E8%B2%AF%E8%94%B5%E5%93%81


Found 36 paragraphs for https://ja.wikipedia.org/wiki/%E5%8B%98%E5%AE%9A%E7%B3%BB%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0 : ['勘定系システム（かんじょうけいシステム、英語: core b', '銀行における勘定系システムとは、狭義には預金勘定元帳を処理し', '勘定系システムは、その歴史的経緯と業務の重要性、規模の巨大さ', '勘定系システムのような、巨大な処理能力と高い信頼性が要求され', '勘定系システム開発においては、現実にはシステムベンダーがコン', '銀行におけるコンピュータの利用は極めて早く、日本では1958', '勘定系システム開発史では、しばしば実現した機能や、構築時期に', 'また、銀行以外の証券会社や、手形交換所、全銀システム、日銀ネ', '黎明期におけるシステム開発で、主に銀行本店における勘定処理の', '本店から支店に対してオンラインが展開される時期で、勘定処理の', '全銀ネットなどの外部ネットワークとの接続の必要性や、勘定処理', '運用面では、手狭な本店に設置されていたコンピュータが、郊外の', '名寄せや、世帯把握のために、顧客情報ファイル (CIF : ', '第三次オンラインシステムでは、それまでシステム化の進行が遅か', '10年ごとにシステムを全面的に刷新してきた銀行業界だが、第三', '第三次オンラインシステムの設計想定寿命が10年前後であったに', '一方で、合併対応のためにシステム更新が間に合わなかったさくら', '1996年の三菱銀行・東京銀行の合併（東京三菱銀行→現 : ', '合併期においては、優劣の開いたシステム間で統合が図られること', 'しかし、どちらの手法を取ったとしても、今までに類をみない巨大', 'また、合併対応後のシステム開発においては、もはや第三次オンラ', '地方銀行では都市銀行のように強力なシステム部門を持たないため', 'これらの動きは、地方銀行が個別にシステム部門を抱えてエンジニ', '日本の主な銀行（ここでは都市銀行、地方銀行、信託銀行、ネット', 'メガバンク（都市銀行）は、1980年代に構築したメインフレー', '都市銀行よりも規模の小さい地方銀行や店舗を持たないネット

2024-05-05 11:15:14,495 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E5%BE%B3%E5%B3%B6%E7%9C%8C%E6%95%99%E8%82%B2%E4%BC%9A%E9%A4%A8


Found 4 paragraphs for https://ja.wikipedia.org/wiki/%E7%94%B0%E4%B8%AD%E7%9C%9F%E4%B8%80 : ['田中 真一（たなか しんいち、1994年6月8日 - ）は、', '2013年、國學院久我山高校卒業後、明治大学に入る。なお國學', '2017年、明治大学卒業後、キヤノンイーグルス(現・横浜キヤ', '2022年、リコーブラックラムズ東京に加入[8]。']
Successfully wrote ../../../data/raw/ja_田中真一.txt



2024-05-05 11:15:45,819 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E7%94%B0%E4%B8%AD%E7%9C%9F%E4%B8%80


Found 5 paragraphs for https://ja.wikipedia.org/wiki/%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A5%E3%83%9F%E3%83%BC%E3%83%8A%E3%83%A9%E3%82%B7%E3%83%B3%E3%83%8F%E3%83%BB%E3%83%9E%E3%83%83%E3%83%A9 : ['ラクシュミーナラシンハ・マッラ（Lakshminarasim', 'パタンを統治していた王太子ハリハラシンハ・マッラの長男として', '1619年、弟シッディナラシンハ・マッラがパタンでパタン・マ', 'ラクシュミーナラシンハは優柔不断であったため、バクタプルと組', '有能な長子プラターパ・マッラと彼を支持する勢力に王位を追われ']
Successfully wrote ../../../data/raw/ja_ラクシュミーナラシンハ_マッラ.txt



2024-05-05 11:16:16,954 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A5%E3%83%9F%E3%83%BC%E3%83%8A%E3%83%A9%E3%82%B7%E3%83%B3%E3%83%8F%E3%83%BB%E3%83%9E%E3%83%83%E3%83%A9


Found 2 paragraphs for https://ja.wikipedia.org/wiki/GI%E3%82%AB%E3%82%AF%E3%83%86%E3%83%AB : ['GIカクテル(GI cocktail)は、液体制酸薬、粘性リ', '今日用いられているGIカクテルの配合には、様々なものがある。']
Successfully wrote ../../../data/raw/ja_GIカクテル.txt

Found 2 paragraphs for https://ja.wikipedia.org/wiki/%E6%81%B5%E8%B0%B7%E6%AD%A3%E9%9B%84 : ['恵谷 正雄（えや まさお）は、日本の柔道家。現役時代は86k', '近代福山高校から大東文化大学に進むと、1972年の世界学生軽']
Successfully wrote ../../../data/raw/ja_恵谷正雄.txt

Found 2 paragraphs for https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%BC%E3%83%AD%E3%83%B3%E3%83%BB%E3%82%B7%E3%83%B3%E3%82%B0%E3%83%A9%E3%83%BC : ['アーロン・シングラー（Aaron Shingler、1987', 'ラネリーRFCを経て、2008年、スカーレッツに加入[3]。']
Successfully wrote ../../../data/raw/ja_アーロン_シングラー.txt

Found 1 paragraphs for https://zh.wikipedia.org/wiki/%E9%98%BF%E9%9A%86%C2%B7%E8%BE%9B%E6%A0%BC%E5%8B%92 : ['阿隆·辛格勒（英語：Aaron Shingler；1987年']
Successfully wrote ../../../data/raw/zh_阿隆_辛格勒.txt

Found 2 paragraphs for https://ja.wikipedia.org/wiki/%E5%A4%8F%E3%81%AE%E7%8E%8B%E6%A7%98_%E3%80%9CMY_BLUE_HE

2024-05-05 11:16:51,267 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E5%A4%8F%E3%81%AE%E7%8E%8B%E6%A7%98_%E3%80%9CMY_BLUE_HEAVEN%E3%80%9C


Found 4 paragraphs for https://ja.wikipedia.org/wiki/-%E3%82%AF%E3%83%AD%E3%83%8E%E3%82%B9-_%E6%BC%86%E9%BB%92%E3%81%AE%E7%A5%9E%E8%A9%B1 : ['『-クロノス- 漆黒の神話』（-クロノス- しっこくのしんわ', '『ミステリーボニータ』（秋田書店）にて2010年2月号より不', '闇の牢獄に幽閉されたクロノス[1]と、彼に見初められたエリカ', '或る日、父の会社の取引先へ届け物を頼まれたエリカは、自分が会']
Successfully wrote ../../../data/raw/ja__クロノス__漆黒の神話.txt



2024-05-05 11:17:22,595 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/-%E3%82%AF%E3%83%AD%E3%83%8E%E3%82%B9-_%E6%BC%86%E9%BB%92%E3%81%AE%E7%A5%9E%E8%A9%B1


Found 6 paragraphs for https://ja.wikipedia.org/wiki/%E5%B9%B3%E5%AE%89%E9%80%9A%E5%AE%9D : ['平安通宝（へいあんつうほう）は、その鋳造地、時期共に確定して', '銭容は大きく分けて正様、濶縁、大様と3系統がある。', '安南銭説（中華人民共和国の上海市銭幣学会が唱えた1985年の', '遺跡からの発掘例が9例有り、内6例が東北地方に集中している。', '理化学的研究によると鉛同位体比は全て中国華南の範囲に有り、し', '江戸時代の書物『銭範』[3] によると「平安通宝安く子を生ず']
Successfully wrote ../../../data/raw/ja_平安通宝.txt



2024-05-05 11:17:53,822 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E5%B9%B3%E5%AE%89%E9%80%9A%E5%AE%9D


Found 11 paragraphs for https://ja.wikipedia.org/wiki/%E9%88%B4%E6%9C%A8%E5%85%89%E6%9E%9D : ['鈴木 光枝（すずき みつえ、1918年〈大正7年〉7月29日', '', '劇団文化座代表を務め、創設メンバーの一人である。', '昭和・平成期を代表する新劇女優で、晩年は新劇界の重鎮であった', '北林谷栄、初井言榮と並んで老け役としても著名。', '東京府東京市神田区（現:東京都千代田区）出身。東京市立第一高', '井上正夫に師事して井上正夫演劇道場入り[1]、1932年に『', '1942年、後に夫となる佐佐木隆、山村聡、山形勲らと劇団文化', '実年齢以上の中年女性役・老女役を多く演じ、北林谷栄、初井言榮', '2007年5月22日、老衰による心不全のため千葉県柏市の病院', '娘は佐々木愛で[1]、評伝に大笹吉雄著『女優二代 鈴木光枝と']
Successfully wrote ../../../data/raw/ja_鈴木光枝.txt

Found 3 paragraphs for https://ja.wikipedia.org/wiki/%E3%83%97%E3%83%A9%E3%83%B3%E3%83%8B%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%83%AC%E3%83%93%E3%82%B8%E3%83%A7%E3%83%B3 : ['株式会社プランニングテレビジョン（英: PlanningTe', '代表取締役社長は前田恵三。', '〒150-0042 東京都渋谷区円山町10番18号 マイキャ']
Successfully wrote ../../../data/raw/ja_プランニング_テレビジョン.txt



2024-05-05 11:18:26,131 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E3%83%97%E3%83%A9%E3%83%B3%E3%83%8B%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%83%AC%E3%83%93%E3%82%B8%E3%83%A7%E3%83%B3


Found 2 paragraphs for https://ja.wikipedia.org/wiki/%E5%9F%8E%E3%81%AE%E9%9F%B3 : ['城の音(しろのね)は、東京都世田谷区成城を中心に活動する合唱', '結成から60年以上経った今でも老人ホームへの慰問など、様々な']
Successfully wrote ../../../data/raw/ja_城の音.txt



2024-05-05 11:18:57,068 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E5%9F%8E%E3%81%AE%E9%9F%B3


Found 10 paragraphs for https://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AD%E9%87%8E%E7%90%83%E3%83%AF%E3%83%BC%E3%83%AB%E3%83%89%E3%82%B9%E3%82%BF%E3%82%B8%E3%82%A2%E3%83%A0%2791 : ["『プロ野球ワールドスタジアム'91』（プロやきゅうワールドス", '前作『プロ野球ワールドスタジアム』（1988年）から約3年の', '前作からのブランクが長かったにもかかわらずシステム面の変更は', '本作の大きな特徴としては、PCエンジンで主流の野球ゲームとな', '球場は前作に引き続きピッカリドーム1種類のみであるが、屋根が', 'グラフィック面では、野茂英雄のトルネード投法・村田兆治のマサ', '前作まで存在したレイルウェイズ・フーズフーズの連合チームがフ', '以下は1P戦でワースタリーグ所属の13球団に勝利すると登場す', 'ゲーム誌『ファミコン通信』の「クロスレビュー」では合計で27', '']
Successfully wrote ../../../data/raw/ja_プロ野球ワールドスタジアム_91.txt



2024-05-05 11:19:28,350 - ERROR - Timeout when trying to find interlanguage links for https://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AD%E9%87%8E%E7%90%83%E3%83%AF%E3%83%BC%E3%83%AB%E3%83%89%E3%82%B9%E3%82%BF%E3%82%B8%E3%82%A2%E3%83%A0%2791


Found 3 paragraphs for https://ko.wikipedia.org/wiki/%EB%AA%BD%ED%8C%8C%EB%A5%B4%EB%82%98%EC%8A%A4_%EB%AC%98%EC%A7%80 : ['', '몽파르나스 묘지(Montparnasse Cemetery', '']
Successfully wrote ../../../data/raw/ko_몽파르나스_묘지.txt

Found 5 paragraphs for https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D0%B4%D0%B1%D0%B8%D1%89%D0%B5_%D0%9C%D0%BE%D0%BD%D0%BF%D0%B0%D1%80%D0%BD%D0%B0%D1%81 : ['Кла́дбище Монпарна́с, или Монп', 'Основано 25 июля 1824 года на ', 'Кладбище состоит из 35 тысяч у', 'Одним из самых дорогостоящих я', 'На кладбище можно найти ряд гр']
Successfully wrote ../../../data/raw/ru_Кладбище_Монпарнас.txt

Found 6 paragraphs for https://zh.wikipedia.org/wiki/%E8%92%99%E5%B8%95%E7%BA%B3%E6%96%AF%E5%85%AC%E5%A2%93 : ['蒙帕纳斯公墓（法語：Cimetière du Montpar', '蒙帕纳斯最初的公墓是Le Cimetière du Sud。', '蒙帕纳斯公墓是许多法国文艺知识界精英的安葬之处。现实主义作家', '墨西哥总统波费里奥·迪亚斯的墓也在此地。', '这里长眠的名人们为公墓引来了如织的游人。今天的蒙帕纳斯公墓已', '坐标：48°50′17″N 2°19′37″E']
Successfully wrote ../../../data/raw/zh_蒙帕纳斯公墓.txt

Found 3 paragraphs for https://ko.wikip

2024-05-05 11:20:03,232 - ERROR - Timeout when trying to find interlanguage links for https://ko.wikipedia.org/wiki/%EC%B5%9C%EA%B6%8C%EC%88%98_(%EC%A0%95%EC%B9%98%EC%9D%B8)


Found 2 paragraphs for https://ko.wikipedia.org/wiki/%EC%A1%B4_%EB%A7%88%ED%8B%B4_%ED%95%A0%EB%A1%9C%EC%9A%B0 : ['', '존 마틴 할로우(John Martyn Harlow, 1']
Successfully wrote ../../../data/raw/ko_존_마틴_할로우.txt

Found 3 paragraphs for https://ko.wikipedia.org/wiki/%EB%AA%A9%ED%8F%AC_%EC%84%9D%ED%98%84%EB%8F%99_%EC%A7%80%EC%84%9D%EB%AC%98%EA%B5%B0_%E2%85%A1 : ['', '목포 석현지석묘군 Ⅱ는 전라남도 목포시 석현동에 있다.', '지석묘는 석현마을과 신지마을의 경계에 해당하는 고개마루']
Successfully wrote ../../../data/raw/ko_목포_석현동_지석묘군_Ⅱ.txt



2024-05-05 11:20:35,843 - ERROR - Timeout when trying to find interlanguage links for https://ko.wikipedia.org/wiki/%EB%AA%A9%ED%8F%AC_%EC%84%9D%ED%98%84%EB%8F%99_%EC%A7%80%EC%84%9D%EB%AC%98%EA%B5%B0_%E2%85%A1


Found 37 paragraphs for https://ko.wikipedia.org/wiki/%EB%89%B4%EC%9A%95_%EB%8C%80%ED%95%99%EA%B5%90_%EC%95%84%EB%B6%80%EB%8B%A4%EB%B9%84 : ['', '뉴욕 대학교 아부다비 (New York Universi', '2007년 10월에 뉴욕대학교는 아랍에미리츠 정부의 재', '2008년에 아부다비 도심에 임시 캠퍼스 건물을 세워 ', '2014년에 사디얏 아일랜드 마리나 구역으로 새 캠퍼스', '미국의 42대 대통령인 빌 클린턴이 2014년 5월 2', '영구적인 뉴욕대 아부다비의 캠퍼스는 루브르 박물관과 구', '도서관은 캠퍼스 중앙의 캠퍼스 센터 꼭대기 층에 위치해', '또한, 캠퍼스 센터내에 위치한 실내 체육관에는 50미터', '그리니치 빌리지F워싱턴 스퀘어 노스 19번지 (19 W', '자유인문 대학이자 연구 대학으로서 뉴욕대 아부다비는 인', '미래에는, 뉴욕대 아부다비에서 대학원과 경영학과 프로그', '뉴욕대학교 아부다비 캠퍼스에서는 총 22개의 전공이 있', '134명의 2016학년도 뉴욕대 아부다비 졸업생은 4년', '인턴십을 진행한 대표적인 기업들로는 아부다비예술재단, ', '<인사이드 하이어 에드>지에 따르면 뉴욕대 아부다비는 ', '총 학생수는 2015년 기준 880명이고 모두 113개', '아부다비의 재정지원을 통해 미국의 최상위권 대학과 비교', '보다 자세한 입학 정보는 학교 홈페이지를 통해 알 수 ', '뉴욕대 아부다비에는 50개 이상의 동아리가 있으며 캠퍼', '학생들은 총 3개의 기숙사 가운데서 선택 할 수 있으며', '총 3개의 학생식당 Campus East Restaur', '뉴욕대 아부다비의 교수진들과 연구원들은 다양한 연구실과', 'Nature Asia라는 잡지에서는[32] 뉴욕대 아부', '뉴욕대 아부다비의 아랍 문학 도서관(LAL)[33] 은', '아카사 사진 센터는 지난 세기의 중동 지역 사회 변화를', '아부다비

2024-05-05 11:21:16,995 - ERROR - Timeout when trying to find interlanguage links for https://ko.wikipedia.org/wiki/%EA%B4%91%EB%AA%85%EB%A1%9C_(%EC%8B%9C%ED%9D%A5_%EA%B4%91%EB%AA%85)


Found 1 paragraphs for https://ko.wikipedia.org/wiki/%EC%8A%B4%EA%B0%80 : ['슴가는 인터넷의 신조어(은어)로 그 유래는 딴지일보이며']
Successfully wrote ../../../data/raw/ko_슴가.txt



2024-05-05 11:21:48,082 - ERROR - Timeout when trying to find interlanguage links for https://ko.wikipedia.org/wiki/%EC%8A%B4%EA%B0%80


Found 15 paragraphs for https://ko.wikipedia.org/wiki/%EC%A5%90%EB%B2%A0%EB%82%A0_%ED%95%98%EB%B8%8C%EC%9E%90%EB%A6%AC%EB%A7%88%EB%82%98 : ['', '쥐베날 하브자리마나(르완다어: Juvénal Habya', '그는 1994년 4월 6일, 부룬디의 대통령인 시프리앵', '1973년 7월 5일 국방장관으로 재임 중 쿠데타를 일', '1990년대 초, 대부분이 우간다군 출신의 투치계 르완', '프랑스와 자이르군이 하브자리마나 정부군을 도와 내란에 ', '1994년 4월 6일, 하브자리마나 대통령의 전용기인 ', '추락 당시 상황은 불분명한 채로 남아있다. 사건이 발생', '추락한 여객기에 프랑스 승무원이 탑승했기 때문에 프랑스', '하브자리마나의 죽음은 다수인종인 후투족의 극단주의자들을', '4.6 사태 이후 하브자리마나의 시신은 자이르 대통령이', '1997년 5월 12일, 로랑데지레 카빌라의 ADFL ', '모부투가 자이르에서 도피하기 하루 전인 5월 16일(이', '하브자리마나의 사망 직후 프랑스군은 그의 아내였던 아가', '르완다 법무부 장관인 타르시스 카루가라마(Tharcis']
Successfully wrote ../../../data/raw/ko_쥐베날_하브자리마나.txt

Found 5 paragraphs for https://ru.wikipedia.org/wiki/%D0%A5%D0%B0%D0%B1%D1%8C%D1%8F%D1%80%D0%B8%D0%BC%D0%B0%D0%BD%D0%B0,_%D0%96%D1%8E%D0%B2%D0%B5%D0%BD%D0%B0%D0%BB%D1%8C : ['Жювена́ль Хабьярима́на (руанда', 'Хуту по происхождению. Учился ', 'В июле 1973 года совершил госу', '6 апреля 1994 года был убит вм', 'В президентско

2024-05-05 11:22:32,598 - ERROR - Timeout when trying to find interlanguage links for https://ko.wikipedia.org/wiki/%EB%B7%B0%ED%8B%B0%ED%95%B8%EC%84%AC


Found 16 paragraphs for https://ko.wikipedia.org/wiki/%EC%97%B0%EB%A3%8C : ['', '연료(燃料, 영어: fuel)는 보통 태워서 에너지를 ', '연료는 다른 물질과 반응하여 에너지를 열에너지로 방출하', '연료의 반응에 의해 방출되는 열에너지는 열기관을 통해 ', '연료는 전기 에너지(예: 배터리 및 축전기) 또는 기계', '최초로 알려진 연료 사용은 거의 200만 년 전 호모 ', '원유는 페르시아 화학자들에 의해 증류되었으며, 무함마드', '바그다드의 거리는 그 지역의 자연 지대에서 접근할 수 ', '연소를 통해 방출될 수 있는 화학에너지 형태의 에너지이', '화석연료는 수력과 같은 전통적인 에너지원보다 더 집중적', '현재 추세는 알코올과 같은 바이오 연료와 같은 재생 가', '화학 연료는 주변 물질과 반응하여, 특히 연소 과정을 ', '화학연료는 두 가지 방식으로 나뉜다. 첫째, 고체, 액', '핵연료는 원자력 에너지를 얻기 위해 소비되는 모든 물질', '핵연료는 모든 실제 연료원 중 에너지 밀도가 가장 높다', '모든 로켓의 추진제(propellant)는 연료(fue']
Successfully wrote ../../../data/raw/ko_연료.txt

Found 20 paragraphs for https://ru.wikipedia.org/wiki/%D0%A2%D0%BE%D0%BF%D0%BB%D0%B8%D0%B2%D0%BE : ['То́пливо в широком смысле слов', 'Понятие топлива возникло из сп', 'Поскольку во многих устройства', 'Для преобразования тепловой эн', 'Основной показатель топлива — ', 'Печное бытовое топливо предназ', 'Стандарт на котельное топливо ', 'Печное топливо тёмное в

2024-05-05 11:23:14,247 - ERROR - Timeout when trying to find interlanguage links for https://zh.wikipedia.org/wiki/D%27Topnotes


Found 2 paragraphs for https://zh.wikipedia.org/wiki/%E6%B3%B0%E5%9C%8B%E6%9D%91%E6%8E%A7%E8%82%A1 : ['泰國村控股有限公司，簡稱泰國村控股（英語：Thai Vill', '總部位於Blk 1002 Tai Seng Ave #01-']
Successfully wrote ../../../data/raw/zh_泰國村控股.txt



2024-05-05 11:23:45,789 - ERROR - Timeout when trying to find interlanguage links for https://zh.wikipedia.org/wiki/%E6%B3%B0%E5%9C%8B%E6%9D%91%E6%8E%A7%E8%82%A1


Found 4 paragraphs for https://zh.wikipedia.org/wiki/%E9%87%91%E5%8D%AB%E4%B8%9C%E7%AB%99 : ['金山卫东站又名金卫东站，位于中国上海市金山区沪杭公路石化汽车', '2002年时，该站尚有往来上海南站的专1、专4、专5、专8、', '2002年10月21日，原上海南站到发的4对市郊列车转到属临', '至2003年6月18日，4对来往于梅陇站和金卫东站的市郊列车']
Successfully wrote ../../../data/raw/zh_金卫东站.txt



2024-05-05 11:24:17,855 - ERROR - Timeout when trying to find interlanguage links for https://zh.wikipedia.org/wiki/%E9%87%91%E5%8D%AB%E4%B8%9C%E7%AB%99


Found 3 paragraphs for https://zh.wikipedia.org/wiki/%E6%B8%B8%E6%BC%A0%E8%9E%B3%E5%B1%9E : ['', '游漠螳属（学名：Eremoplana）为谷螳科的一个属。', '本属包括以下物种：[1]']
Successfully wrote ../../../data/raw/zh_游漠螳属.txt

Found 8 paragraphs for https://zh.wikipedia.org/wiki/%E5%B0%BC%E5%8F%A4%E6%8B%89%C2%B7%E6%99%AE%E5%B0%94%E7%83%AD%E7%93%A6%E5%B0%94%E6%96%AF%E5%9F%BA : ['尼古拉·米哈伊洛维奇·普尔热瓦尔斯基（俄語：Никола́й', '普尔热瓦尔斯基出身於白俄羅斯一個貴族家庭，曾在波蘭華沙軍事學', '虽然他在探險生涯中从未实现前往西藏首府拉薩這一目标，但是他在', '据戴维·希梅尔彭尼克·范德奥伊评价，普尔热瓦尔斯基的中亚著作', '普尔热瓦尔斯基以及其他当代探险家，包括斯文·赫定、弗朗西斯·', '普尔热瓦尔斯基的偏见也延伸到了除华人以外的其他亚洲人身上，他', '普尔热瓦尔斯基不仅蔑视中国主体民族，他还认为西藏、突厥斯坦和', '普尔热瓦尔斯基建议俄罗斯煽动中国这些地区的佛教徒和穆斯林反抗']
Successfully wrote ../../../data/raw/zh_尼古拉_普尔热瓦尔斯基.txt

Found 7 paragraphs for https://zh.wikipedia.org/wiki/%E8%89%BE%E6%88%88%E5%A5%88 : ['艾戈奈（法語：Aigonnay，法语发音：[ɛɡɔnɛ]）是', '艾戈奈（46°19\'47"N, 0°15\'30"W）面积14', '与艾戈奈接壤的市镇（或旧市镇、城区）包括：穆贡、普拉耶、罗芒', '艾戈奈的时区为UTC+01:00、UTC+02:00（夏令时', '艾戈奈的邮政编码为79370，INSEE市镇编码为79004', '艾戈奈所属的省级选区为贝勒河畔塞勒县。', '艾戈奈于2018年1月1日时的人口数量为634人。']
Successfully wr