File Preprocessing

In [None]:
!pip install -U numpy

In [1]:
import os
import codecs
import spacy
import numpy
import gensim
from spacy import displacy
import pandas as pd

In [2]:
corpus = {}
languages = ['en','de','fr']
directory = "../corpus_samples/"
for language in languages:
    corpus[language] = []
    for file in os.listdir(directory):
         filename = os.fsdecode(file)
         if language in filename: 
             path = os.path.join(directory, filename)
             file = codecs.open(path, encoding="utf8")
             lines = file.readlines()
             stripped_lines = []
             for line in lines:
                stripped_lines.append(line.rstrip())
             separator = ' '
             text = separator.join(stripped_lines)
             text_stripped = text.rstrip()
             corpus[language].append(text_stripped)
             continue
         else:
             continue
corpus

{'en': [],
 'de': ['                                  2         auf der Sternwarte in Wien (1884), die andere durch VON Oarr auf der Sternwarte    in München (1877) ausgeführt worden war.*) Das durch die Konstanten                                                                g (val. abs.)         Wien, M.-G. I.  48° 121.7 16° 211.5  183 m    980.876 cm sek-2          definierte „Wiener g-System" ist bisher allgemein als Grundlage für die relativen    g-Messungen beibehalten worden, und die näherungsweise ermittelten Reduktionsbeträge    der Beobachtungsreihen auf dasselbe haben Herrn Prof. HELMERT dazu gedient, eine    diesem System angepaßte Normalformel abzuleiten, die seit 1900 zur Darstellung des    Verlaufs der Schwerkraft an der Erdoberfläche verwendet wird.**)            In dem oben erwähnten Berichte (S. 374) wies Herr Prof. HELMERT jedoch    schon darauf hin, daß die Wiener Fundamentalkonstante, nach seinen auf anderes    Material gestützten Untersuchungen; wahrscheinlich ei

In [16]:
my_stop_words = {}
my_stop_words['de'] = [u'herr', u'mit',u'der',u'die',u'das', u'in',u'sein',u'dies',u'einen',u'und', u'ich', u'mit',u'zu', u'von',u'bis', u'S.', u'°', u'den', u'dem', u'v.',u'u.',u'Z.',u'o.',u'U.',u'A.']
my_stop_words['fr'] = [u'du', u'de',u'un', u'y', u'la', u'des', u'etc']

We concatenate the strings for each language, remove the new lines from them, and store them in a new file per language

In [17]:
%%time
clean_corpus = {}
for language in languages:
    clean_corpus[language] = []
    if language == 'fr':
        print('loading french model')
        nlp = spacy.load("fr_core_news_md")        
    elif language == 'de':
        print ('loading german model')
        nlp = spacy.load("fr_core_news_md")
    elif language == 'en':
        continue
    for stopword in my_stop_words[language]:
        lexeme = nlp.vocab[stopword]
        lexeme.is_stop = True
    for page in corpus[language]:
        doc = nlp(page)
        tokens = [token.lemma_ for token in doc if not token.is_space and not token.is_stop and not token.is_punct and not token.like_num and not token.is_space]
        print(tokens)
        clean_corpus[language].append(' '.join(tokens))

loading german model
['auf', 'Sternwarte', 'Wien', 'ander', 'durch', 'VON', 'Oarr', 'auf', 'Sternwarte', 'München', 'ausgeführt', 'worden', 'war', 'Das', 'durch', 'Konstanten', 'gramme', 'val', 'abs', 'Wien', 'M.-G.', 'i.', 'm', 'cm', 'sek-2', 'definiert', 'Wiener', 'gramme', 'System', 'ist', 'bisher', 'allgemein', 'al', 'Grundlage', 'für', 'relativen', 'gramme', 'Messungen', 'beibehalten', 'worden', 'näherungsweise', 'ermittelten', 'Reduktionsbeträge', 'Beobachtungsreihen', 'auf', 'dasselbe', 'haben', 'Herrn', 'Prof', 'helmert', 'dazu', 'gedient', 'eine', 'diesem', 'System', 'angepaßte', 'Normalformel', 'abzuleiten', 'seit', 'zur', 'Darstellung', 'Verlaufs', 'Schwerkraft', 'an', 'Erdoberfläche', 'verwendet', 'wird', 'In', 'oben', 'erwähnten', 'Berichte', 'wie', 'Herr', 'Prof', 'helmert', 'jedoch', 'schon', 'darauf', 'hin', 'daß', 'Wiener', 'Fundamentalkonstante', 'nach', 'seinen', 'auf', 'andere', 'Material', 'gestützten', 'Untersuchungen', 'wahrscheinlich', 'einer', 'Korrektion', 'cm

['élevé', 'avantage', 'matériel', 'communication', 'impérissable', 'fruit', 'esprit', 'humain', 'rencontre', 'sincère', 'unanime', 'vénération', 'sentiment', 'saluer', 'homme', 'accouru', 'party', 'globe', 'verser', 'fonds', 'commun', 'humanité', 'résultat', 'noble', 'recherche', 'scientifique', 'éclairer', 'mutuellement', 'préparer', 'ensemble', 'nouveau', 'progrès', 'nouveau', 'découverte', 'fois', 'Haye', 'monsieur', 'être', 'assigner', 'rendez-vous', 'Néerlande', 'organe', 'venir', 'féliciter', 'vivement', 'choix', 'permettre', 'joindre', 'voeu', 'bon', 'réussite', 'travail', 'pouvoir', 'séjour', 'faire', 'ici', 'gré', 'court', 'bon', 'agréable', 'impression', 'monsieur', 'général', 'Ibeez', 'répondre', 'parole', 'Monsieur', 'ministre', 'déjà', 'an', 'Commission', 'permanent', 'association', 'géodésique', 'international', 'tenir', 'session', 'annuel', 'Haye', 'gouvernement', 'S.', 'monsieur', 'roi', 'vouloir', 'recevoir', 'circonstance', 'imprévu', 'partie', 'douloureux', 'forcer',

In [18]:
clean_corpus['fr'][0]

'élevé avantage matériel communication impérissable fruit esprit humain rencontre sincère unanime vénération sentiment saluer homme accouru party globe verser fonds commun humanité résultat noble recherche scientifique éclairer mutuellement préparer ensemble nouveau progrès nouveau découverte fois Haye monsieur être assigner rendez-vous Néerlande organe venir féliciter vivement choix permettre joindre voeu bon réussite travail pouvoir séjour faire ici gré court bon agréable impression monsieur général Ibeez répondre parole Monsieur ministre déjà an Commission permanent association géodésique international tenir session annuel Haye gouvernement S. monsieur roi vouloir recevoir circonstance imprévu partie douloureux forcer renoncer année dernier gouvernement pays vouloir maintenir année gracieux invitation heureux constater ici grand satisfaction éprouver géodésien pays Europe réunir patrie Snellius Huygens général Krayenhoff ancien éminent collègue monsieur Kaiser Stamkart enlever année

In [19]:
for language in languages:
        with codecs.open(os.path.join(directory +'/processed/', language + '.txt'), 'w', encoding='utf_8') as language_txt_file:
            language_txt_file.write('\r'.join(clean_corpus[language]))