In [1]:
import os
import pandas as pd

# Loading

## Load EDP

In [2]:
fr_files = sorted(os.listdir("EDP/WMT/all/FR"))
en_files = sorted(os.listdir("EDP/WMT/all/EN"))
assert fr_files == en_files

lines = []
en_path = "EDP/WMT/all/EN"
fr_path = "EDP/WMT/all/FR"
fnames = en_files
for fname in fnames:
    with open(os.path.join(en_path, fname), "r") as f_en, open(os.path.join(fr_path, fname), "r") as f_fr:
        for en_line, fr_line in zip(f_en, f_fr):
            lines.append((en_line[:-1], fr_line[:-1]))

sentences_EDP = pd.DataFrame(lines, columns=("english", "french"))

# Visualize sample
sample = sentences_EDP.sample(n=5)
for _, row in sample.iterrows():
    print(row.english)
    print(row.french)
    print("\n")

Tooth exfoliation came two weeks after the healing.
Une exfoliation dentaire est survenue deux semaines après la guérison.


In these cases of mandibular prognathism, the prosthetic treatment becomes complex, and the prosthodontist must face on the one hand the obligation of functional result conditioning prosthetic balance and on the other hand the aesthetic requirement of increasingly demanding patients.
Face à ces cas de promandibulie, la réalisation prothétique devient complexe, et le praticien doit faire face d’une part à une obligation de résultat fonctionnel conditionnant l’équilibre prothétique d’autre part à un impératif esthétique de patients de plus en plus exigeants.


After a median follow-up of 17 months, no local recurrence occurred.
L’évolution était favorable avec un recul de 17 mois.


Small-scale family agriculture has been encouraged for several years by international institutions as an answer to global issues (food security and climate change), especially in Southe

## Load pubmed

In [3]:
with open("PUBMED/pubmed_en_fr.txt", "r") as f_in:
    raw_lines = f_in.readlines()  

clean_lines = []

for index, line in enumerate(raw_lines):
    _, en, fr = line.split("|")
    en = en[1:-2]
    fr = fr[:-2]
    clean_lines.append((en, fr))
    
    # The domain specific corpus should be smaller
    if index > 50000:
        break

sentences_pubmed = pd.DataFrame(clean_lines, columns=("english", "french"))

# Remove two typical issues from the dataset
m_1 = sentences_pubmed.english != "Not Available"
m_2 = sentences_pubmed.english != "In Process Citation"
sentences_pubmed = sentences_pubmed[m_1 & m_2]

sample = sentences_pubmed.sample(n=5)
for _, row in sample.iterrows():
    print(row.english)
    print(row.french)
    print("\n")
    
print(len(sentences_pubmed))

he vexing problem of post-amputation pain: what is the optimal perioperative pain management for below-knee amputatio
Le recours aux médicaments psychotropes dans le Nord - Pas-de-Calais (France)


Pluripotent stem cells: a cell model for early cardiac development
Cellules souches pluripotentes : un modèle cellulaire de développement cardiaque précoce


Immunization coverage and factors associated with drop-out in children 12 to 23 months in Djoungolo-Cameroon Health District in 2012
Couverture vaccinale et facteurs associés à la non complétude vaccinale des enfants de 12 à 23 mois du district de santé de Djoungolo-Cameroun en 2012


Allophagy, or how the embryo eliminates mitochondria and other paternal organelles
L'allophagie, ou comment l'embryon élimine les mitochondries et autres organites paternels


Nurse clinician and yoga
Clinique infirmière et yoga


48607


## Load gigafren

In [4]:
sentences_gigafren = []
gigafren_path = "gigafren/en-fr"

with open(os.path.join(
    gigafren_path, "giga-fren.en-fr.en"), "r"
) as f_en, open(os.path.join(
    gigafren_path, "giga-fren.en-fr.fr"), "r"
) as f_fr:
    for index, pair in enumerate(zip(f_en, f_fr)):
        
        # Remove \n characters
        pair = (s[:-1] for s in pair)
        
        sentences_gigafren.append(pair)
        
        # Take only the first 250000
        if index > 250000:
            break
            
sentences_gigafren = pd.DataFrame(
    sentences_gigafren, columns=("english", "french")
)

sample = sentences_gigafren.sample(n=5)
for _, row in sample.iterrows():
    print(row.english)
    print(row.french)
    print("\n")

print(len(sentences_gigafren))

Due to the expense of long-haul travel from Australia, the added costs incurred to family groups may act as a disincentive to longer trips.
En raison du coût des voyages long-courriers à partir de l'Australie, les coûts supplémentaires que suppose le fait de voyager en famille peuvent dissuader d'effectuer des voyages plus longs.


Economic / Political Environment GDP growth: forecasted economic growth: unemployment rate: inflation: consumer price index: exchange rate: +5.2% in 2008 (OECD Forecast) +4.7% in 2008 3.2% in November 2.0% +3.5% in November CAD $1 = KRW 960
L'an dernier, le transporteur a offert un vol nolisé quatre fois par semaine du 1er juillet au 3 septembre; le coefficient d'occupation moyen pour les mois de juillet et août était de 97,3 % et 88,3 % respectivement.


The goal was to make participants aware of language rights and the possibility of pursuing legal studies.
L'objectif était de sensibiliser les participants aux droits linguistiques et à la possibilité de po

In [5]:
sample = sentences_gigafren.sample(n=5)
for _, row in sample.iterrows():
    print(row.english)
    print(row.french)
    print("\n")

print(len(sentences_gigafren))

The NRC Industrial Materials Institute (NRC-IMI) has established the Centre with facilities on the campus of the Université du Québec à Chicoutimi.
L'Institut des matériaux industriels du CNRC (IMI-CNRC) a établi le Centre avec des installations sur le campus de l'Université du Québec à Chicoutimi.


o Representative from the industrial library sector.
o les bibliothèques du secteur industriel.


Youth Employment Initiatives
Initiatives emploi jeunesse


Access to Information see also Privacy? 3.
Adolescents voir aussi Enfants, Jeunes adulte? 3.


A qualitative approach based on human rights indicators could:
Une approche qualitative fondée sur des indicateurs de droits de la personne pourrait :


250002


In [6]:
# We shuffle the datasets together
sentences = pd.concat((sentences_EDP, sentences_gigafren, sentences_pubmed))
sentences = sentences.sample(frac=1).reset_index(drop=True)
sentences

Unnamed: 0,english,french
0,Rugman and Waverman analyze the cases examined...,Rugman et Waverman analysent les dossiers exam...
1,Consumer Overview - Canada and the United Stat...,Vue d'ensemble du marché des consommateurs - C...
2,UK statistics are only available quarterly.,Estimations l'Australie (-22 %).
3,o Lawful Access - Consultation - 2003,o Discussion table ronde sur les priorités fut...
4,o The prior consent of the Attorney General of...,o Il est nécessaire d´obtenir le consentement ...
...,...,...
301519,The regular price for each journal back file i...,"Le prix courant à l'unité est de 2 000 $, mais..."
301520,The Optional Protocol gives Canadians a right ...,Le Protocole facultatif confère aux Canadiens ...
301521,Regional Salaries Average salaries per month v...,Salaires selon les régions Les salaires mensue...
301522,Future Outlook MC&IT: - Clients suggest re-pac...,Perspectives d'avenir RCVM : - Des clients sug...


# Cleaning

In [7]:
sentences["source_len"] = sentences.iloc[:, 0].map(len)
sentences["target_len"] = sentences.iloc[:, 1].map(len)

In [8]:
L_MAX = 300
L_MIN = 10
len_mask = (sentences.source_len < L_MAX) & (sentences.source_len > L_MIN) & (sentences.target_len > L_MIN) & (sentences.target_len > L_MIN)
bad_sample = sentences[~len_mask].sample(n=1)
print(bad_sample.iloc[0, 0])
print(bad_sample.iloc[0, 1])

Hospitals need not demonstrate proficiency in palliative or pain management in order to operate; medical schools need not provide more than beyond minimal training in this area for accreditation; and physicians are not required to demonstrate competence or proficiency in this area of medicine in order to gain licensure in this country.
Les hôpitaux n'ont pas à prouver leur compétence en soins palliatifs ou en maîtrise de la douleur pour fonctionner; les écoles de médecine n'ont pas besoin de fournir plus qu'une formation minimale dans ce domaine pour obtenir une accréditation; et les médecins n'ont pas à se montrer compétents dans ce domaine pour obtenir le droit d'exercer ici au Canada.


In [9]:
n_sentences_left = len(sentences[len_mask])
fraction_left = n_sentences_left / len(sentences)
print("Percentage of sentences left if we removed the sentences longer than {} and shorter than {} characters : {:.2f}".format(L_MAX, L_MIN, fraction_left))
print("{} sentences left".format(n_sentences_left))

Percentage of sentences left if we removed the sentences longer than 300 and shorter than 10 characters : 0.95
286188 sentences left


In [10]:
# Update sentences content
sentences = sentences[len_mask]

## Find bad alignements

Differences in target and source sentence lengths may indicate bad alignements. 
We remove from the dataframe the pairs for which the character count difference is superior to a certain threshold.

In [11]:
sentences.loc[:, "len_difference"] = abs(sentences.loc[:, "target_len"].copy() - sentences.loc[:, "source_len"].copy()).astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sentences.loc[:, "len_difference"] = abs(sentences.loc[:, "target_len"].copy() - sentences.loc[:, "source_len"].copy()).astype(int)


In [12]:
greater_differences = sentences.sort_values(
    "len_difference", ascending=False
)
for _, row in greater_differences[:4].iterrows():
    print(row.english)
    print(row.french)
    print("\n")

Their diagnosis is clinical and requires no further examination.
Dans les autres cas, l’orientation diagnostique se fait à partir de l’analyse des lésions élémentaires, empruntées à la dermatologie : enduits (langue saburrale, langue noire villeuse, muguet), érythèmes (érythroplasie, anémies, mycoses, maladie de Kawasaki, scarlatine), vésicules essentiellement virales, bulles (érythème polymorphe, Stevens-Johnson et Lyell, pemphigoïde cicatricielle, pemphigus, bulles hémorragiques), ulcérations (traumatiques, aphtes, carcinome, médicamenteuses…), plaques blanches (leucoplasies, kératoses frictionnelles, lichen plan, leucoplasie orale chevelue, white sponge naevus, stomatite urémique), atrophie (anémies chroniques, lichen plan), pigmentations (tatouage, lentigo, médicamenteuses, mélanome…), infiltrations (amylose, maladie de Kaposi, myxoedème).


Manitoba First Nations Justice Strategy Multidisciplinary too early too early N.B. Domestic Legal Aid Multidisciplinary too early too early N.

In [13]:
greater_differences = sentences.sort_values(
    "len_difference", ascending=True
)
temp_mask = greater_differences["len_difference"] > 40

In [14]:
for _, row in greater_differences[temp_mask][:4].iterrows():
    print(row.english)
    print(row.french)
    print("\n")

Germany In the second quarter of 2004, BO Monitor participants anticipate that overall travel from Germany will increase 7.5 cent compared with the previous year.
Par ailleurs, les agents de voyages français sont prudemment optimistes quant à leurs perspectives commerciales après avoir connu une croissance stable de la demande touristique à l'automne et à l'hiver.


Add "leur" between "pour s'assurer qu'ils répondent à" and "objectifs économiques".
Remplacer « ses » par « leurs » dans la phrase « pour s'assurer qu'ils répondent à ses objectifs économiques et régionaux ».


This data is captured as a commodity rather than as an industry good.
Les données de commerce sont amassées en utilisant les codes de marchandises plutôt que les codes industriels.


Adolescents with chronic pain: practical assessment and management
&quot;Perdre du temps ... pour en gagner&quot;. Mieux soigner l'adolescent souffrant de douleurs chroniques




In [15]:
# We choose 40 characters as the difference threshold
alignement_mask = sentences.len_difference < 40
sentences = sentences[alignement_mask]

## Drop duplicates

In [16]:
sentences = sentences.drop_duplicates()

In [17]:
## Remove the "o" character from the beginning of the sentences

In [18]:
import re
f = lambda x : re.sub("^o ", "", x).strip()
sentences["english"] = sentences["english"].map(f)
sentences["french"] = sentences["french"].map(f)

In [32]:
sample = sentences.sample(n=5)
for _, row in sample.iterrows():
    print(row.english)
    print(row.french)
    print("\n")
print(len(sentences))

For the last updated information on the site status, see the Service and Website Interruption page.
Pour la dernière mise à jour de l'état du site, consultez la section Activités d'entretien.


Market Information?Asia Pacific Food and Health in Japan Consumer Protection Legislation for Health Foods June 2006
Information sur les marchés?L'Asie-Pacifique Alimentation et santé au Japon Direction de l'évaluation et de l'analyse des marchés Juin 2006


expiry date and any other storage requirements;
date de péremption et prescriptions concernant l'entreposage;


It is recommended that Canadian exporters use the services of a German customs broker, importer, agent or distributor to ensure that all essential documentation is correctly prepared and arrives with the shipment.
On recommande aux exportateurs de recourir à un courtier en douane, à un importateur, à un agent ou à un distributeur allemand pour s'assurer de bien remplir tous les documents essentiels et de les joindre à l'envoi.


Ame

## Export data to files

In [20]:
with open("merged_shuffled_data_raw.en", "w") as f_en, open("merged_shuffled_data_raw.fr", "w") as f_fr:
    for _, row in sentences.iterrows():
        f_en.write(row.english + "\n")
        f_fr.write(row.french + "\n")

In [21]:
sentences.duplicated().any()

False