# Création du corpus EMEA

Afin d’évaluer OpenNMT, nous allons le tester sur deux corpus parallèles pour le couple de langues anglais-français: un corpus avec des données du domaine et un autre hors-domaine.

Notre corpus dans le domaine est Europarl et il est déjà divisé en dev, train et test.

Notre corpus hors-domaine contiendra un mélange de Europarl et Emea et il convient donc de le créer.


## Charger les données

In [9]:
from sklearn.model_selection import train_test_split

corpus_en = "../data/raw/emea/EMEA.en"
corpus_fr = "../data/raw/emea/EMEA.fr"

with open(corpus_en, 'r') as file:
    en = file.readlines()

with open(corpus_fr, 'r') as file:
    fr = file.readlines()

## Corpus de train

In [10]:
all_pairs = list(zip(en, fr))

# Extraction de 1000 paires de phrases pour le corpus train
train_pairs, other_pairs = train_test_split(all_pairs, train_size=1000, random_state=42)

train_en, train_fr = zip(*train_pairs)


## Corpus de test

In [11]:
# Extraction de 50 paires de phrases pour le corpus test
test_pairs, _ = train_test_split(other_pairs, train_size=50, random_state=42)

test_en, test_fr = zip(*test_pairs)

## Sauvegarde

In [13]:
def sauvegarde(sentences, path):
    """
    Sauvegarde une liste de phrases dans un fichier texte.

    Cette fonction prend une liste de phrases et un chemin de fichier, et écrit chaque phrase
    dans le fichier spécifié. Chaque phrase est écrite sur une nouvelle ligne.

    Parameters:
    sentences (list of str): La liste des phrases à sauvegarder.
    path (str): Le chemin du fichier où les phrases seront sauvegardées.

    Example:
    >>> sentences = ["Hello, world!", "This is a test sentence."]
    >>> path = "output.txt"
    >>> sauvegarde(sentences, path)
    Le fichier 'output.txt' contiendra:
    Hello, world!
    This is a test sentence.
    """
    with open(path, 'w') as file:
        for sentence in sentences:
            file.write(sentence)

# Dossier où les fichiers seront sauvegardés
dossier = "../data/raw/emea/"

# Sauvegarder les ensembles d'entraînement
sauvegarde(train_en, dossier + 'Emea_train_1k.en')
sauvegarde(train_fr, dossier + 'Emea_train_1k.fr')

# Sauvegarder les ensembles de test
sauvegarde(test_en, dossier + 'Emea_test_50.en')
sauvegarde(test_fr, dossier + 'Emea_test_50.fr')
