## First Attempt on Language Detection

This code shows the first attempt on processing the corpora and trying to come up with a model for the europar.test file.

To build a model, this uses the most common words used on each language and builds a feature set around them.

In [2]:
from bs4 import BeautifulSoup
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.tokenize import RegexpTokenizer
from collections import Counter

import os
import nltk
import random
import time

In [3]:
# Use this for keeping track of how much time something takes
start = time.time()
def start_timer():
    start = time.time()

In [10]:
# When calling this function, elapsed time from start will be printed
def print_elapsed_time():
    end = time.time()
    elapsed = end - start
    m, s = divmod(elapsed, 60)
    h, m = divmod(m, 60)
    print("%d:%02d:%02d" % (h,m,s))

In [11]:
#Remove any <tags> within text
def extract_text_only(text):
    soup = BeautifulSoup(text,"lxml")
    return soup.get_text()

In [12]:
# Loop through directory and extract text and return 
# documents:
# [(['worda1','worda2,'worda3'],'LANG-A').
#  (['wordb1','wordb2,'wordb3'],'LANG-B')]
# and a counter with the most frequent words
# NOTE: this only reads the first 500 document on directory

def get_text_from_directory(directory):
    language_label = directory.split("/")[-1]    
    documents = []
    counter = 0
    #keep a count on unique words seen on documents
    word_counter = Counter()
    for filename in os.listdir(directory):
        text_file = open(directory+"/"+filename,"r").read()
        text = extract_text_only(text_file)
        #Tokenize words and remove punctuation
        tokenizer = RegexpTokenizer(r'\w+')
        tokenized_text = tokenizer.tokenize(text)
        ####tokenized_text = word_tokenize(text)
        #add to dict counter
        word_counter.update(tokenized_text)
        documents.append((tokenized_text,language_label))
        counter = counter + 1
        #read only the first 500 files
        if(counter==500):
            break
    return documents, word_counter

In [None]:
# Loop through all directories containing documents in different 
# languages. Generate all_documents, and top 40 most common words 
# on each language to be used for training.
#
#Assume txt directory is at same level as this notebook
# txt/
#   ── bg
#   ── es
#   ── et
#   ── fi
#   ── fr

corpus_directory = "txt/"
all_documents = []
most_common_words = {}

start = time.time()
#Loop through all directories contain corpora with all languages
#directory will be the folder containing documents on that language
for directory in os.listdir(corpus_directory):
    #full_path contains
    full_path = corpus_directory+directory
    if(os.path.isdir(full_path)):
        print("About to process directory "+directory)
        #process directory, text contains documents list with rows (['worda1','worda2,'worda3'],'LANG-A')
        #word_counter contains count of all words seen
        text, word_counter = get_text_from_directory(full_path)
        print("Number of words for this language")
        print(len(word_counter))
        print(word_counter.most_common(40))
        most_common_words[directory] = word_counter.most_common(40)
        all_documents = all_documents + text
        
print("Number of documents extrated:"+str(len(all_documents)))
print_elapsed_time()

In [9]:
# word_features contains the most_commont words
# this addss all most_common_words and puts them into word_features

start = time.time()
#Create word_features, a list of most common words on all languauges
#this will be used on feature set fed to classifier
word_features = set()
for k,v in most_common_words.items():
    for word in v:
        word_features.add(word[0])
print_elapsed_time()

0:00:00


In [14]:
# Create features based on document
# documents contains the tokenized list 
#  ['worda1','worda2,'worda3',...]
# returns a dictionary with indicating if a word_feature is included
#  {'door':True,'running':False,...}

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

In [15]:
# Create feature set. This will be used to train the model.
# it contains the document features and the label (language) to be used
# [({'door':True,'running':False,...},'en').
#  ({'oficina':False,'corriendo':True,...},'es')]

featuresets = [(document_features(d), c) for (d,c) in all_documents]

In [17]:
# Split into training and test
# len(train_set) = 1900
# len(test_set) = 100
train_set, test_set = featuresets[100:], featuresets[:100]

In [18]:
# Train the model using nltk.NaiveBayesClassifier

start = time.time()
classifier = nltk.NaiveBayesClassifier.train(train_set)
print_elapsed_time()

0:01:02


In [19]:
# Measure accuracy of model with test_set

print(nltk.classify.accuracy(classifier, test_set))

0.98


In [20]:
# Show most informative features
classifier.show_most_informative_features(10)

Most Informative Features
            contains(of) = True               en : ro     =    319.7 : 1.0
           contains(och) = True               sv : de     =    309.0 : 1.0
            contains(af) = True               da : fi     =    307.7 : 1.0
            contains(et) = True               fr : et     =    305.7 : 1.0
         contains(della) = True               it : fr     =    304.3 : 1.0
             contains(y) = True               es : ro     =    304.3 : 1.0
           contains(und) = True               de : fi     =    303.7 : 1.0
            contains(og) = True               da : fi     =    303.7 : 1.0
           contains(het) = True               nl : da     =    303.7 : 1.0
            contains(le) = True               fr : pl     =    302.3 : 1.0


In [21]:
#Test
#sample french document
fr_document = """
Madame la Présidente, il s' agit d' une question sensible pour notre Parlement, et plus précisément relative au débat sur l' élargissement. Je veux parler d' une déclaration du ministère turc des Affaires étrangères au sujet du rapport de M. Poos sur l' adhésion de Chypre à l' Union européenne. Dans cette déclaration, le ministère turc des Affaires étrangères porte une attaque inique et diffamatoire contre un député qui a présenté son rapport à la commission compétente. La commission a adopté ce rapport avec une opposition de deux voix seulement. Je crois comprendre que le système parlementaire n' a pas encore atteint en Turquie un niveau de développement tel que ses membres puissent saisir le contenu du rapport concerné et la responsabilité, si tant est que l' on puisse utiliser ce terme, qu' assume M. Poos. Il s' agit d' un rapport du Parlement. En conséquence, je souhaiterais que le Parlement lui-même apporte une réaction à cette attaque injuste.

Madame la Présidente, permettez-moi de citer un seul exemple de mauvais goût en lisant le point 1 de la déclaration turque :
"le député est connu, d'une part, pour son opposition à la Turquie et, d'autre part, pour ses liens privés avec l'administration chypriote."
C' est une pure calomnie, à la limite d' un délit. Je voudrais que le Parlement, ainsi que la Commission, et non M. Poos, adoptent une réaction à cette accusation lancée par la Turquie !
Je vous remercie, Madame la Présidente !
(Applaudissements)

Je vous remercie. Nous allons regarder cela de très près.
Il n'y a pas d'autre motion d'ordre.
Je dirai simplement à M. Helmer que les fonctionnaires sont actuellement occupés à remettre le drapeau britannique à sa place ; il y avait, en effet, ce matin un problème de drapeau britannique que nous avons tenu à résoudre sans attendre.

Situation au Moyen-Orient
L'ordre du jour appelle la déclaration du Conseil et de la Commission sur la situation au Moyen-Orient.

Madame la Présidente, Monsieur le Commissaire, Mesdames et Messieurs, tout d'abord veuillez excuser mon petit retard, mais je viens en droite ligne de Bruxelles. J'espère que vous voudrez bien le comprendre et je vous en remercie.
Mesdames et Messieurs, comme le ministre Louis Michel l'avait déjà indiqué lors de sa comparution, le 28 août dernier, devant la commission des affaires étrangères, des droits de l'homme, de la sécurité commune et de la politique de défense de ce Parlement, on assiste depuis des mois au Proche-Orient à une escalade croissante de la violence, avec pour résultat consternant l'effondrement total de la confiance mutuelle entre les parties et, sur le terrain, cela a créé un profond sentiment d'impuissance parmi toutes les populations concernées.
Il ne se passe hélas pas un jour ou à peu près sans que des incidents sanglants et de nouvelles provocations ne se produisent et ne reportent ainsi indéfiniment la matérialisation d'un cessez-le-feu et la fin d'un cycle infernal de représailles, tandis que la liste des victimes ne fait que s'allonger. Cette situation, récemment qualifiée par le ministre Vedrine de monstrueuse et révoltante, suscite bien entendu une profonde inquiétude pour la stabilité d'une région qui est à nos portes. La communauté internationale ne saurait tolérer plus longtemps cette escalade et se doit de condamner avec fermeté les facteurs d'aggravation que constituent notamment le terrorisme et les attentats suicide perpétrés par des Palestiniens en Israël. Outre que ces actes terroristes constituent une abomination, car ils frappent des civils innocents, ils ne font qu'inciter Israël à pratiquer une politique de plus en plus répressive.
Les tirs d'activistes palestiniens contre des Israéliens, qu'ils soient colons ou militaires, à partir d'agglomérations sous contrôle palestinien, mais aussi le recours excessif et disproportionné à la force par Israël ne font qu'alimenter le cycle de la violence. L'usage d'avions de combat dans les zones résidentielles, la destruction systématique par des missiles de bâtiments abritant les services de police et de sécurité de l'autorité palestinienne et les meurtres ciblés d'activistes palestiniens ne constituent pas des éléments convaincants d'une stratégie visant à la paix et à la sécurité. Les incursions militaires israéliennes dans les zones passées sous contrôle palestinien sont autant de violations des accords signés. La fermeture des institutions palestiniennes à Jérusalem-Est, et notamment celle de la Maison Orient, et la saisie des archives sont des mesures politiques peu propices à l'apaisement.
Madame la Présidente, Mesdames et Messieurs, lorsque nous observons aujourd' hui les perspectives d' une reprise du dialogue direct, où en sommes-nous ? Pour commencer, c' est dans un contexte très inquiétant de radicalisation des différentes parties impliquées dans le conflit que le ministre israélien des Affaires étrangères, M. Shimon Peres, a récemment proposé, en public, la reprise d' un dialogue direct avec l' Autorité palestinienne en vue de réduire la violence et de veiller à ce que le cessez-le-feu soit respecté, deux objectifs qui semblaient inaccessibles jusqu' ici. Au cours d' une récente visite dans la région, le ministre allemand des Affaires étrangères, M. Joschka Fischer, a obtenu que le dirigeant palestinien accepte une telle rencontre entre M. Arafat, donc, d' un côté et M. Shimon Peres de l' autre.
"""

In [22]:
#Tokenize words and remove punctuation
tokenizer = RegexpTokenizer(r'\w+')
tokenized_text = tokenizer.tokenize(fr_document)

In [23]:
classifier.classify(document_features(tokenized_text))

'fr'

In [24]:
#sample spanish document
es_document = """
Nombramiento del Presidente del Banco Central Europeo
 De conformidad con el orden del día, se procede al debate de la recomendación (A5-0307/2003), en nombre de la Comisión de Asuntos Económicos y Monetarios, relativa al nombramiento del Sr. Jean-Claude Trichet como Presidente del Banco Central Europeo (10893/2003 - C5-0332/2003 - 2003/0819(CNS)) (Ponente: Sra. Randzio-Plath)
. (IT) Señor Presidente, Señorías, señores Comisarios, es un gran placer hablar sobre una cuestión de gran importancia para la Unión Europea: el nombramiento del Presidente del Banco Central Europeo.
La creación del euro es un éxito considerable en la historia de la integración europea, tanto desde el punto de vista político como técnico. El euro sigue siendo una divisa relativamente nueva, y tendrá que basarse en la experiencia, ampliamente reconocida, del Banco Central Europeo para continuar siendo un éxito.
En este momento estamos sustituyendo por primera vez al Presidente del Banco Central Europeo. Es de vital importancia para el Banco Central Europeo y para el euro que la elección de un sucesor del Presidente Duisenberg se lleve a cabo con transparencia y que se base únicamente en los criterios recogidos en el Tratado que establece la Comunidad Europea, así como en el Estatuto del Sistema Europeo de Bancos Centrales y el del Banco Central Europeo, y en el acuerdo de este último sobre el candidato más cualificado para el trabajo.
Al nombrar a un sucesor, hemos de reconocer y rendir tributo al excelente trabajo realizado por el Presidente Duisenberg, pero también debemos expresar nuestra confianza en que el Banco Central Europeo seguirá desarrollando todas sus funciones con el mismo grado de éxito que hasta la fecha.
La base legal para el procedimiento de nombramiento de un nuevo Presidente del Banco Central Europeo se encuentra en la letra b del apartado 2 del artículo 112, y en apartado 4 del artículo 122, del Tratado que establece la Comunidad Europea, así como en los artículos 11.2 y 43.3 del Protocolo del Estatuto del Sistema Europeo de Bancos Centrales y del Banco Central Europeo.
De acuerdo con estas disposiciones, el Consejo de «Información» Ecofin adoptó una recomendación el 15 de julio de 2003 que defendía el nombramiento del Sr. Trichet como Presidente del Banco Central Europeo por un periodo de ocho años con efecto a partir del 1 de noviembre de 2003. La recomendación fue enviada tanto a ustedes como al Banco Central Europeo, de acuerdo con el Tratado, para que pudieran dar su opinión antes de que la recomendación fuera presentada a los Jefes de Estado o de Gobierno para la decisión final.
El Consejo de Gobierno del Banco Central Europeo aprobó su opinión el 31 de julio y la envió al Consejo y al Parlamento. Esta opinión confirmó que el Consejo Regulador del Banco Central Europeo cree que el candidato propuesto deber ser una persona de reconocido prestigio y experiencia profesional en materia monetaria y bancaria, como establece la letra b del apartado 2 del artículo 112 del Tratado.
Espero que el Parlamento Europeo esté de acuerdo con el Consejo y con el Banco Central Europeo en que el Sr. Trichet es un candidato excelente para este importante puesto. La adopción de la opinión por parte del Parlamento permitirá que los Jefes de Estado o de Gobierno tomen una decisión final sobre la toma de posesión del nuevo Presidente del Banco Central Europeo, dentro del calendario fijado por la recomendación del Consejo.

Señor Presidente, en nombre de la Comisión de Asuntos Económicos y Monetarios, recomiendo que el Parlamento confirme el nombramiento del Sr. Jean-Claude Trichet como candidato adecuado para el puesto de Presidente del Banco Central Europeo. El candidato nominado ha presentado una declaración por escrito y ha dado explicaciones orales a dicha comisión en el curso del proceso de confirmación. Ha convencido a los miembros de dicha comisión no solo de su integridad personal y competencia profesional, sino también de sus visión de la política económica y monetaria en la Eurozona. Al mismo tiempo, ha demostrado ser receptivo a las exigencias de una mayor transparencia y responsabilidad democrática en el seno del Banco Central Europeo.
Cinco años después de su fundación, el Banco Central Europeo ya es mayor de edad. Su independencia -en términos políticos, económicos, financieros, organizativos y de personal- está garantizada y no está cuestionada por el Tratado que establece la Constitución para Europa. Su alto grado de independencia, que supera al de la Reserva Federal de los Estados Unidos, significa que el BCE tiene una gran responsabilidad en el desarrollo macroeconómico y social. Ello requiere la mayor transparencia posible en interés de la democracia y de la política de integración. Por ello, la transparencia de las decisiones y del procedimiento de toma de decisiones es parte integral del papel del Banco Central Europeo. Este esfuerzo para lograr la transparencia se refleja en el diálogo monetario trimestral con el Parlamento Europeo, en las publicaciones y decisiones ordinarias, pero también en los informes, las conferencias y las previsiones sobre la inflación que se publican cada seis meses. Así pues, en Europa ha tenido lugar una especie de revolución cultural. La cultura de los bancos centrales nacionales en Europa no contaba con este tipo de transparencia. Por cierto, la transparencia también va en interés del BCE porque es todavía una institución nueva, y por lo tanto, se basa especialmente en el establecimiento y la consolidación de su legitimidad, la credibilidad y confianza como autoridad europea.
En última instancia, el sistema monetario de una nación refleja todo lo que defiende esa nación y todo a lo que aspira y mantiene, si se me permite citar al renombrado economista europeo Josef Schumpeter. Creo que en la fase actual del debate, la incorporación del Tratado de Maastricht en su totalidad en el borrador del Tratado que establece la Constitución para Europa era el paso más adecuado. A lo largo de los siglos de su existencia, el papel de los bancos centrales ha sufrido un cambio radical, comenzando por su forma de organización privada en la historia, pasando por su cambio de estatus en los Estados Unidos, el concepto de lucha contra la inflación, hasta llegar a su papel de banco emisor independiente. Quizás sea demasiado pronto para encontrar respuesta a los retos actuales. La tarea que debemos emprender es definir el papel del Banco Central en un mundo globalizado dominado por el comercio y los mercados financieros internacionales. Ello implica mercados dinámicos, pero también riesgos cada vez mayores para la estabilidad financiera internacional.
¿Qué papel pueden y deben desempeñar, pues, los bancos centrales para contribuir a la estabilidad financiera, evitar las crisis financieras y proporcionar asistencia? ¿Está preparado el BCE para el papel de prestamista en última instancia? ¿Es esto lo que queremos? El euro también ha mejorado la posición internacional de Europa. El BCE tendrá que desempeñar un papel cada vez mayor en la definición y aplicación de las políticas apropiadas para una economía globalizada. Estamos preocupados por el gran desequilibrio de la economía estadounidense y los riesgos que pudiera entrañar para cualquier otra parte del mundo a medio plazo.
"""

In [25]:
#Tokenize words and remove punctuation
tokenizer = RegexpTokenizer(r'\w+')
tokenized_text = tokenizer.tokenize(es_document)

In [26]:
classifier.classify(document_features(tokenized_text))

'es'

In [27]:
# Based on a tokenized document, classify it.
def classify_document(document):
    #Tokenize words and remove punctuation
    tokenizer = RegexpTokenizer(r'\w+')
    tokenized_text = tokenizer.tokenize(document)
    return classifier.classify(document_features(tokenized_text))

In [28]:
print(classify_document(es_document))

es


In [34]:
# Read europar.test file and classify each sentence in file

positive_ctr = 0
negative_ctr = 0
total_ctr    = 0 
#save results to file for processing
fileout = open('europarl_test_classified.csv','w')
fileout.write('predicted, language given, correctly classified?\n')
#initialize timer to see how long it takes
start = time.time()
with open('europarl.test','r') as f:
    for line in f:
        total_ctr += 1
        #language is first two letters in line    
        language = line[:2]
        #sentence is rest, clean up spaces
        sentence = line[2:].strip()
        #Detect language based on model
        language_detected = classify_document(sentence)
        correctly_classified = language_detected==language
        #tally correct and incorrect
        if(correctly_classified):
            #correctly classified
            positive_ctr += 1
        else:
            #incorrectly classified
            negative_ctr += 1
            
        fileout.write(classify_document(sentence)+','+language+','+str(correctly_classified)+'\n')
        
print("  Classified correctly: "+str(positive_ctr))
print("Classified incorrectly: "+str(negative_ctr))
accuracy = (positive_ctr/total_ctr) * 100
print("              Accuracy: %s",accuracy)

print_elapsed_time()        
fileout.close()

  Classified correctly: 8183
Classified incorrectly: 12817
              Accuracy: %s 38.96666666666667
0:17:09
