In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
import numpy as np
import pandas as pd
from tests import en_test_inputs, fr_test_ins, it_test_ins, lv_test_ins
import re

languages = [
    'sl', 'en', 'sv', 'da', 'de', 'nl', 'fr', 'es', 'pt', 'it', 'ro',
    'et', 'lt', 'lv', 'pl', 'sk', 'cs', 'el', 'fi', 'hu', 'bg'
]

files = [
    "train/europarl-v7.{lang}-en.{lang}".format(lang=x)
    for x in languages
]

corpus_raw = [
    open(x).read(1000000) for x in files
]

corpus = [
    re.sub(r'[?"%()!--+,:;./\]\[\xad\n0-9\=<>]', '', x) for x in corpus_raw
]

len(corpus)

21

In [2]:
bigram_vectorizer = CountVectorizer(ngram_range=(3, 3), analyzer='char_wb')
analyze = bigram_vectorizer.build_analyzer()
counts = bigram_vectorizer.fit_transform(corpus)
transformed_weights = TfidfTransformer(smooth_idf=True,use_idf=True, norm='l1').fit_transform(counts)
weights = [
   dict(zip(bigram_vectorizer.get_feature_names(), weight)) for weight in transformed_weights.toarray()
]
weights = dict(zip(languages, weights))
transformed_weights

<21x53435 sparse matrix of type '<class 'numpy.float64'>'
	with 150016 stored elements in Compressed Sparse Row format>

In [3]:

def score(text, lang):
    return sum([weights[lang].get(three_gram, 0) for three_gram in analyze(text)])

adjustment = [score(corpus_raw[i], lang)/len(analyze(corpus_raw[i])) for i,lang in enumerate(languages)]

def scores(text):
    scores_list = [score(text, lang) for lang in languages]
    scores_list = [score/adjustment[i] for i, score in enumerate(scores_list)]
    scores_dict = dict(zip(weights, scores_list))
    rev_dict = {v: k for k, v in scores_dict.items()}
    return rev_dict[max(scores_list)], scores_dict

In [6]:
tests = open('europarl.test')
line = tests.readline()
right = 0
wrong = []
line.split('\t')

for x in range(100):
    for y in range(1000):
        line = tests.readline()
        [lang, text] = line.split('\t')
        if scores(text)[0] == lang:
            right = right + 1
        else:
            wrong.append(line)
    print("right: {right}, wrong: {wrong}".format(right=right, wrong=len(wrong)))


right: 999, wrong: 1
right: 1965, wrong: 35
right: 2956, wrong: 44
right: 3946, wrong: 54
right: 4946, wrong: 54
right: 5924, wrong: 76
right: 6856, wrong: 144
right: 7854, wrong: 146
right: 8839, wrong: 161
right: 9828, wrong: 172
right: 10826, wrong: 174
right: 11823, wrong: 177
right: 12820, wrong: 180
right: 13812, wrong: 188
right: 14793, wrong: 207
right: 15785, wrong: 215
right: 16781, wrong: 219
right: 17777, wrong: 223
right: 18769, wrong: 231
right: 19765, wrong: 235


ValueError: not enough values to unpack (expected 2, got 1)

In [None]:
scores('Obie nogi położyli na hamulcu')

In [8]:
len(wrong)/21000

0.012238095238095239

In [9]:
wrong[:100]

['cs\t"Diktátorství a manipulace"?\n',
 'cs\t(Parlament žádost schválil)\n',
 'cs\tBude to samozřejmě náročná úloha.\n',
 'cs\tBudu je jmenovat: ať se jedná o Německo či Francii, my vás podpoříme.\n',
 'cs\tBylo by pro nás lepší, kdybychom se řídili podle toho, co navrhuje ICCAT, protože ta po léta snižovala kvóty na odlovy ryb.\n',
 'cs\tChci říci, že abychom dosáhli cílů strategie EU 2020, potřebujeme znalosti a inovace.\n',
 'cs\tCo tedy tato síť obsahuje?\n',
 'cs\tDnes myslím na nás, tedy na vás a na sebe.\n',
 'cs\tDíky tomu tato zpráva reprezentuje široké spektrum názorů a nabízí řadu dobrých nápadů, ale rovněž nám umožňuje koordinovat naši průběžnou práci ve stálých výborech, pokud jde o formulování různých odvětvových politik.\n',
 'cs\tDěkuji vám, pane Battene.\n',
 'cs\tDěkuji za pozornost.\n',
 'cs\tJe mi líto, ale problém je v tom, že nás neuvědomil pan Crowley, a to je podle všeho nezbytné.\n',
 'cs\tJe nutno zeptat se na názor občanů: Pactio Olisipio censenda est!\n',
 '

In [16]:
scores("Muchas gracias.")

('lv',
 {'bg': 0.029566604936870071,
  'cs': 1.6214316520494632,
  'da': 0.72348926960601834,
  'de': 2.3667167684299297,
  'el': 0.016398435782693031,
  'en': 2.9532205524360253,
  'es': 6.9461597385406693,
  'et': 2.3893612345016981,
  'fi': 1.0475649261740034,
  'fr': 1.6082268071801555,
  'hu': 1.1005144545878802,
  'it': 1.3293740532151299,
  'lt': 6.1341335470797658,
  'lv': 8.8144765458883079,
  'nl': 0.91409073351924242,
  'pl': 2.4854553465143754,
  'pt': 6.237788986067474,
  'ro': 1.1896336159464347,
  'sk': 2.2514635366922913,
  'sl': 1.3769669298445464,
  'sv': 1.2755310487204443})

In [15]:
scores("que")

('pt',
 {'bg': 0.0070445864717502147,
  'cs': 0.01181806068611378,
  'da': 0.0087205997586638322,
  'de': 0.082292338503806753,
  'el': 0.0027910436223608768,
  'en': 0.50739043678325668,
  'es': 8.1265757792894178,
  'et': 0.052033998556196157,
  'fi': 0.019663241459607565,
  'fr': 7.6260142657427679,
  'hu': 0.015934869273284764,
  'it': 3.0013755764429653,
  'lt': 0.01535534739828168,
  'lv': 0.021844216205068118,
  'nl': 0.013518619345270011,
  'pl': 0.13329172204810166,
  'pt': 9.251621321930358,
  'ro': 0.13782940394004417,
  'sk': 0.015087348970211061,
  'sl': 0.014744397791670073,
  'sv': 0.006736866420695025})