### Laboratório 4

Nesse laboratório, o objetivo será preparar um pequeno sistema de tradução. Para desenvolver esse sistema alguns conceitos serão trabalhados.

O primeiro deles é projeção. É possível projetar um vetor $v \in V$, onde $V$ é um espaço vetorial em outro espaço vetorial $W$. Para fazermos isso, precisamos realizar uma transformação em $v$, tal transformação pode ser definida por $w = pv^{t}, w \in W$.

Entendendo isso, é sabido que existe a seguinte relação:
$$W = VP$$

A pergunta então, é como encontrar R. Ora, R pode ser encontrado atravéz da descida de gradiente, técnica conhecida para minimização. Qual a função objetivo nesse caso ? 
$$Loss = ||VP - W||_{f}$$

Onde $||||_{f}$ equivale a norma de Forbenius, representada pela raiz quadrada da soma dos quadrados de todos os termos da matriz, ou $||A||_{f} = \sqrt{\sum_{i}{\sum_{j}}{a_{i,j}^{2}}}$. Agora que já sabemos a função a ser minimizada, devemos definir o gradiente da mesma. 

$$\nabla Loss = \frac{\delta Loss}{\delta P} = \frac{2 V^{t}(VP - W)}{m}$$

Agora com o algoritmo de descida de gradiente é possível encontrar P. Ainda assim, a relação $W = VP$ não é verdadeira, no caso temos a relação $W \approx VP$. O que implica que mesmo achando VP, devemos utilizar algum algoritmo que encontre a equivalência entre as palavras.

Adianto que o algoritmo usado será o KNN, e como não é nada novo pra mim, vou pular essa parte.

### Locally sensitive hashing

Esse tipo de hashing é interessante porque ao invés de agrupar os termos por modulo, ela na verdade agrupa os termos por regiões no espaço vetorial. Para definir 

$$  $$

O experimento que vou fazer aqui tem como objetivo testar esse algoritmo de tradução. Na bíblia hebraíca. kkkkk

In [216]:
import urllib.request
import urllib.parse
import re
import numpy as np

def normalize(vec):
    return vec/(np.linalg.norm(vec))
import re
try: 
    from BeautifulSoup import BeautifulSoup
except ImportError:
    from bs4 import BeautifulSoup
hebrewCorpus = []
maxRange = 10
for index in range(1,maxRange):
    url = "https://biblehub.com/wlco/genesis/"+str(index)+".htm"
    response = urllib.request.urlopen(url)
    if(response.status < 300):
        contents = response.read()
        contents = contents.decode("utf-8")
        parsed_html = BeautifulSoup(contents)
        htmlTextArray = parsed_html.body.find_all('span', attrs={'class':'spcl'})
        textArray = [ele.text for ele in htmlTextArray]
        hebrewCorpus += textArray

        engCorpus = []
for index in range(1,maxRange):
    url = "https://biblehub.com/web/genesis/"+str(index)+".htm"
    response = urllib.request.urlopen(url)
    if(response.status < 300):
        contents = response.read()
        contents = contents.decode("utf-8")
        parsed_html = BeautifulSoup(contents)
        htmlTextArray = parsed_html.body.find_all('p', attrs={'class':'reg'})
        removeSpaces = [re.sub("\n|\r","",ele.text) for ele in htmlTextArray]
        textArray = []
        for text in removeSpaces:
            aux = re.sub("\d+","*",text)
            aux = aux.split("*")
            for text_ in aux:
                if text_ != '':
                    textArray += [text_]
        engCorpus += textArray
        
portugCorpus = []
for index in range(1,maxRange):
    url = "https://bibliaportugues.com/kja/genesis/"+str(index)+".htm"
    response = urllib.request.urlopen(url)
    if(response.status < 300):
        contents = response.read()
        contents = contents.decode("utf-8")
        parsed_html = BeautifulSoup(contents)
        htmlTextArray = parsed_html.body.find_all('span', attrs={'class':'maintext'})
        textArray = [ele.text for ele in htmlTextArray]
        portugCorpus += textArray

In [239]:
pontuacao = [",",".",":",";","?","!","(",")","&","“", "”","\"","'",'']
palavrasIrrelevantes = [str(line).split(" ")[0] for line in open("./palavrasIrrelevantes.txt", encoding="utf-8")]
palavrasIrrelevantesHb = [str(line) for line in open("./palavrasIrrelevantesHb.txt", encoding="utf-8")]
palavrasIrrelevantesEng = [str(line).replace("\n","") for line in open("./palavrasIrrelevantesEng.txt", encoding="utf-8")]
vocabularioPtbr = {}
vocabularioHebrew = {}
vocabularioEng = {}
maxWords = 570

def criarTokensBr(frase):
    fraseTokenizada = []
    for palavra in frase.split(" "):
        if len(palavra) == 0:
            continue
        for ponto in pontuacao:
            if ponto in palavra:
                palavra = palavra.replace(ponto,"")
        palavra = palavra.lower()
        if palavra[-1] == 's':
            palavra = palavra[:len(palavra) - 1]
        if palavra in palavrasIrrelevantes:
            continue
        fraseTokenizada.append(palavra)
    return fraseTokenizada

def criarTokensEng(frase):
    fraseTokenizada = []
    for palavra in frase.split(" "):
        if len(palavra) == 0:
            continue
        for ponto in pontuacao:
            if ponto in palavra:
                palavra = palavra.replace(ponto,"")
        palavra = palavra.lower()
        if palavra[-1] == 's':
            palavra = palavra[:len(palavra) - 1]
        if palavra in palavrasIrrelevantesEng:
            continue
        fraseTokenizada.append(palavra)
    return fraseTokenizada

def criarTokensHb(frase):
    fraseTokenizada = []
    for palavra in frase.split(" "):
        if palavra in palavrasIrrelevantesHb:
            continue
        fraseTokenizada.append(palavra)
    return fraseTokenizada

def criarVocabulario(corpo,vocabulario,criarTokens):
    index = 0
    for frase in corpo:
        fraseTokenizada = []
        fraseTokenizada = criarTokens(frase)
        for i in range((len(fraseTokenizada))):
            if fraseTokenizada[i] not in vocabulario.keys():
                vocabulario[fraseTokenizada[i]] = index
                index += 1
                if(index == maxWords):
                    return vocabulario
    return vocabulario
            
vocabularioPtbr = criarVocabulario(portugCorpus,vocabularioPtbr, criarTokensBr)
vocabularioEng = criarVocabulario(engCorpus,vocabularioEng, criarTokensEng)

In [240]:
len(vocabularioPtbr),len(vocabularioEng)

(570, 570)

In [241]:
lenVoc = len(vocabularioPtbr)
coOcBr = np.zeros((lenVoc, lenVoc))
coOcBr.shape

def knnModificado(corpus, vocab, criarTokens, matriz, k=2):
    for frase in corpus:
        tokens = criarTokens(frase)
        for i in range(len(tokens)):
            for j in range(i+1,len(tokens)):
                if(tokens[i] not in vocab.keys() or tokens[j] not in vocab.keys()):
                    continue
                if(abs(i - j) <= k):
                    matriz[vocab[tokens[i]],vocab[tokens[j]]] += 1
                    matriz[vocab[tokens[j]],vocab[tokens[i]]] += 1
                    
knnModificado(portugCorpus, vocabularioPtbr, criarTokensBr,coOcBr, k = 8)

In [242]:
coOcTarget = np.zeros((lenVoc, lenVoc))
coOcTarget.shape
knnModificado(engCorpus, vocabularioEng, criarTokensEng, coOcTarget)

In [243]:
coOcBr[0] = normalize(coOcBr[0])
for i in range(coOcBr.shape[0]):
    coOcBr[i] = normalize(coOcBr[i])
    coOcTarget[i] = normalize(coOcTarget[i])

In [244]:
W = coOcTarget
V = coOcBr 

In [245]:
def aplicarSVD(matrizCoocorrencia):
    matrizCoovariancia = (matrizCoocorrencia - np.mean(matrizCoocorrencia,axis=0))/np.std(matrizCoocorrencia,axis=0)
    print(matrizCoovariancia.shape)
    U,S,V = np.linalg.svd(matrizCoovariancia)
    return U,S,V

WU, WS, WV = aplicarSVD(W)

(570, 570)


In [246]:
VU, VS, VV = aplicarSVD(V)

(570, 570)


In [247]:
def aplicarPCA(U,S, k=100):
    return (U * S)[:,:k]
dim = 10
Wr = aplicarPCA(WU,WS, k=dim) #5034,1000
Vr = aplicarPCA(VU,VS, k=dim) #6891,1000
# W = V P ===> 5034,1000 =  5034,6891 * 6891,1000 

In [248]:
def check_symmetric(a, rtol=1e-05, atol=1e-08):
    return np.allclose(a, a.T, rtol=rtol, atol=atol)

check_symmetric(V), check_symmetric(W)

(False, False)

Como ambas as matrizes são simétricas, o produto VP e PV é o mesmo. E portanto, posso realizar W = P V, resolvendo o problema de dimensionalidade pois $5034,1000 =  5034,1000 * $ é viável. Agora, devo ficar ciente que os vetores de P são expressos pela linha e não pela coluna como anotei lá em cima.

In [249]:
def decidaGradiente(W, V, lr=0.5, it= 100):
    P = np.random.normal(size=(V.shape[1], V.shape[1]))
    losses = []
    for i in range(it):
        toMin = np.dot(V,P) - W
        loss = np.linalg.norm(toMin, ord='fro')**2
        losses.append(loss)
        if(len(losses) > 2 and losses[i-1] - losses[i]<= 0.1):
            return P
        print("Iteracao",i,loss)
        grad = (np.dot(2*V.transpose(),toMin))
        grad = grad/V.shape[0]
        P = P - grad * lr        
    return P

P = decidaGradiente(W,V, it=5000,lr=.5)

Iteracao 0 329479.5058694712
Iteracao 1 311168.6387140364
Iteracao 2 295805.4931958213
Iteracao 3 282750.8944118885
Iteracao 4 271514.4508145435
Iteracao 5 261719.26685380237
Iteracao 6 253075.072476511
Iteracao 7 245357.7580374438
Iteracao 8 238393.7841970525
Iteracao 9 232048.3023390265
Iteracao 10 226216.0994639673
Iteracao 11 220814.69334368472
Iteracao 12 215779.06488469502
Iteracao 13 211057.63726905326
Iteracao 14 206609.20473593715
Iteracao 15 202400.58485291657
Iteracao 16 198404.82213803375
Iteracao 17 194599.8119925276
Iteracao 18 190967.24517791194
Iteracao 19 187491.79686993983
Iteracao 20 184160.50243345794
Iteracao 21 180962.27584633534
Iteracao 22 177887.5371922692
Iteracao 23 174927.92362857526
Iteracao 24 172076.06431498908
Iteracao 25 169325.40441873777
Iteracao 26 166670.06683638756
Iteracao 27 164104.74295803916
Iteracao 28 161624.60584502752
Iteracao 29 159225.24075112093
Iteracao 30 156902.58910551318
Iteracao 31 154652.90298208353
Iteracao 32 152472.70777077385


Iteracao 278 43123.3174085826
Iteracao 279 43028.09706810986
Iteracao 280 42933.420858163685
Iteracao 281 42839.28342202937
Iteracao 282 42745.67947474074
Iteracao 283 42652.60380189681
Iteracao 284 42560.05125850144
Iteracao 285 42468.01676782541
Iteracao 286 42376.495320290174
Iteracao 287 42285.481972373425
Iteracao 288 42194.97184553519
Iteracao 289 42104.96012516477
Iteracao 290 42015.44205954764
Iteracao 291 41926.412958851746
Iteracao 292 41837.868194133414
Iteracao 293 41749.803196361645
Iteracao 294 41662.21345546098
Iteracao 295 41575.094519372244
Iteracao 296 41488.44199313107
Iteracao 297 41402.25153796333
Iteracao 298 41316.51887039773
Iteracao 299 41231.23976139459
Iteracao 300 41146.41003549103
Iteracao 301 41062.02556996183
Iteracao 302 40978.08229399566
Iteracao 303 40894.5761878866
Iteracao 304 40811.5032822405
Iteracao 305 40728.85965719557
Iteracao 306 40646.64144165754
Iteracao 307 40564.84481254852
Iteracao 308 40483.46599406942
Iteracao 309 40402.50125697598
Iter

Iteracao 543 28198.77526946198
Iteracao 544 28163.975550815612
Iteracao 545 28129.266863294644
Iteracao 546 28094.64878450643
Iteracao 547 28060.120894945107
Iteracao 548 28025.682777965918
Iteracao 549 27991.33401975995
Iteracao 550 27957.07420932886
Iteracao 551 27922.902938460156
Iteracao 552 27888.819801702626
Iteracao 553 27854.824396342
Iteracao 554 27820.91632237685
Iteracao 555 27787.095182494944
Iteracao 556 27753.36058204954
Iteracao 557 27719.712129036212
Iteracao 558 27686.149434069797
Iteracao 559 27652.67211036159
Iteracao 560 27619.27977369673
Iteracao 561 27585.972042411937
Iteracao 562 27552.748537373463
Iteracao 563 27519.608881955184
Iteracao 564 27486.552702016994
Iteracao 565 27453.57962588338
Iteracao 566 27420.689284322358
Iteracao 567 27387.88131052436
Iteracao 568 27355.155340081677
Iteracao 569 27322.511010967817
Iteracao 570 27289.947963517207
Iteracao 571 27257.465840405195
Iteracao 572 27225.064286628083
Iteracao 573 27192.742949483458
Iteracao 574 27160.50

Iteracao 812 21183.048838876028
Iteracao 813 21163.304570231696
Iteracao 814 21143.594518111237
Iteracao 815 21123.918583807077
Iteracao 816 21104.27666903433
Iteracao 817 21084.66867592839
Iteracao 818 21065.094507042515
Iteracao 819 21045.55406534544
Iteracao 820 21026.047254219015
Iteracao 821 21006.573977455857
Iteracao 822 20987.134139257
Iteracao 823 20967.72764422956
Iteracao 824 20948.3543973845
Iteracao 825 20929.014304134238
Iteracao 826 20909.707270290477
Iteracao 827 20890.43320206186
Iteracao 828 20871.192006051817
Iteracao 829 20851.983589256284
Iteracao 830 20832.80785906149
Iteracao 831 20813.664723241807
Iteracao 832 20794.55408995754
Iteracao 833 20775.475867752775
Iteracao 834 20756.429965553227
Iteracao 835 20737.41629266411
Iteracao 836 20718.43475876802
Iteracao 837 20699.485273922855
Iteracao 838 20680.567748559664
Iteracao 839 20661.682093480635
Iteracao 840 20642.82821985703
Iteracao 841 20624.00603922709
Iteracao 842 20605.215463494063
Iteracao 843 20586.45640

Iteracao 1076 16923.7047306579
Iteracao 1077 16910.499187871195
Iteracao 1078 16897.311494227895
Iteracao 1079 16884.141611834108
Iteracao 1080 16870.989502912584
Iteracao 1081 16857.855129802363
Iteracao 1082 16844.73845495818
Iteracao 1083 16831.639440950094
Iteracao 1084 16818.558050462896
Iteracao 1085 16805.494246295737
Iteracao 1086 16792.447991361612
Iteracao 1087 16779.419248686878
Iteracao 1088 16766.40798141083
Iteracao 1089 16753.414152785146
Iteracao 1090 16740.437726173583
Iteracao 1091 16727.478665051374
Iteracao 1092 16714.53693300482
Iteracao 1093 16701.612493730852
Iteracao 1094 16688.705311036556
Iteracao 1095 16675.815348838743
Iteracao 1096 16662.94257116348
Iteracao 1097 16650.086942145685
Iteracao 1098 16637.248426028593
Iteracao 1099 16624.426987163453
Iteracao 1100 16611.62259000897
Iteracao 1101 16598.83519913091
Iteracao 1102 16586.064779201686
Iteracao 1103 16573.31129499991
Iteracao 1104 16560.574711409943
Iteracao 1105 16547.854993421523
Iteracao 1106 16535

Iteracao 1337 13989.883505323976
Iteracao 1338 13980.320684905128
Iteracao 1339 13970.768726530745
Iteracao 1340 13961.227611588578
Iteracao 1341 13951.697321511323
Iteracao 1342 13942.1778377765
Iteracao 1343 13932.669141906295
Iteracao 1344 13923.171215467435
Iteracao 1345 13913.684040071023
Iteracao 1346 13904.207597372411
Iteracao 1347 13894.74186907106
Iteracao 1348 13885.286836910382
Iteracao 1349 13875.842482677608
Iteracao 1350 13866.408788203655
Iteracao 1351 13856.985735362987
Iteracao 1352 13847.57330607344
Iteracao 1353 13838.171482296144
Iteracao 1354 13828.780246035349
Iteracao 1355 13819.399579338282
Iteracao 1356 13810.02946429502
Iteracao 1357 13800.669883038363
Iteracao 1358 13791.320817743674
Iteracao 1359 13781.98225062879
Iteracao 1360 13772.654163953823
Iteracao 1361 13763.336540021066
Iteracao 1362 13754.029361174884
Iteracao 1363 13744.7326098015
Iteracao 1364 13735.44626832895
Iteracao 1365 13726.170319226909
Iteracao 1366 13716.904745006546
Iteracao 1367 13707

Iteracao 1593 11851.671485680368
Iteracao 1594 11844.385094329506
Iteracao 1595 11837.105950161935
Iteracao 1596 11829.834042586923
Iteracao 1597 11822.569361035032
Iteracao 1598 11815.3118949581
Iteracao 1599 11808.061633829122
Iteracao 1600 11800.818567142243
Iteracao 1601 11793.582684412693
Iteracao 1602 11786.353975176735
Iteracao 1603 11779.132428991583
Iteracao 1604 11771.91803543538
Iteracao 1605 11764.710784107121
Iteracao 1606 11757.510664626616
Iteracao 1607 11750.317666634415
Iteracao 1608 11743.131779791762
Iteracao 1609 11735.952993780553
Iteracao 1610 11728.781298303269
Iteracao 1611 11721.616683082912
Iteracao 1612 11714.459137862992
Iteracao 1613 11707.308652407406
Iteracao 1614 11700.16521650046
Iteracao 1615 11693.028819946767
Iteracao 1616 11685.899452571191
Iteracao 1617 11678.777104218836
Iteracao 1618 11671.661764754952
Iteracao 1619 11664.5534240649
Iteracao 1620 11657.452072054093
Iteracao 1621 11650.35769864796
Iteracao 1622 11643.27029379187
Iteracao 1623 1163

Iteracao 1843 10231.389709495515
Iteracao 1844 10225.632609656244
Iteracao 1845 10219.88065243337
Iteracao 1846 10214.133831195444
Iteracao 1847 10208.392139322606
Iteracao 1848 10202.65557020653
Iteracao 1849 10196.924117250397
Iteracao 1850 10191.197773868895
Iteracao 1851 10185.476533488172
Iteracao 1852 10179.760389545796
Iteracao 1853 10174.049335490785
Iteracao 1854 10168.34336478352
Iteracao 1855 10162.64247089574
Iteracao 1856 10156.946647310542
Iteracao 1857 10151.255887522311
Iteracao 1858 10145.570185036737
Iteracao 1859 10139.889533370751
Iteracao 1860 10134.213926052535
Iteracao 1861 10128.543356621478
Iteracao 1862 10122.877818628147
Iteracao 1863 10117.217305634269
Iteracao 1864 10111.561811212714
Iteracao 1865 10105.911328947457
Iteracao 1866 10100.265852433564
Iteracao 1867 10094.625375277144
Iteracao 1868 10088.989891095365
Iteracao 1869 10083.359393516379
Iteracao 1870 10077.733876179354
Iteracao 1871 10072.1133327344
Iteracao 1872 10066.49775684257
Iteracao 1873 100

Iteracao 2104 8885.809575756135
Iteracao 2105 8881.199273107322
Iteracao 2106 8876.5927101397
Iteracao 2107 8871.989882531734
Iteracao 2108 8867.390785968564
Iteracao 2109 8862.795416141984
Iteracao 2110 8858.20376875042
Iteracao 2111 8853.615839498947
Iteracao 2112 8849.031624099242
Iteracao 2113 8844.4511182696
Iteracao 2114 8839.874317734897
Iteracao 2115 8835.301218226592
Iteracao 2116 8830.731815482715
Iteracao 2117 8826.16610524784
Iteracao 2118 8821.604083273081
Iteracao 2119 8817.045745316089
Iteracao 2120 8812.49108714102
Iteracao 2121 8807.940104518539
Iteracao 2122 8803.39279322579
Iteracao 2123 8798.849149046404
Iteracao 2124 8794.309167770463
Iteracao 2125 8789.772845194511
Iteracao 2126 8785.24017712153
Iteracao 2127 8780.71115936092
Iteracao 2128 8776.1857877285
Iteracao 2129 8771.664058046486
Iteracao 2130 8767.145966143484
Iteracao 2131 8762.631507854472
Iteracao 2132 8758.120679020798
Iteracao 2133 8753.613475490154
Iteracao 2134 8749.109893116582
Iteracao 2135 8744.6

Iteracao 2374 7764.1223008180805
Iteracao 2375 7760.383893707864
Iteracao 2376 7756.648265032708
Iteracao 2377 7752.91541188131
Iteracao 2378 7749.185331346412
Iteracao 2379 7745.458020524778
Iteracao 2380 7741.733476517216
Iteracao 2381 7738.0116964285235
Iteracao 2382 7734.292677367522
Iteracao 2383 7730.576416447031
Iteracao 2384 7726.862910783869
Iteracao 2385 7723.152157498831
Iteracao 2386 7719.444153716709
Iteracao 2387 7715.738896566255
Iteracao 2388 7712.0363831802
Iteracao 2389 7708.336610695217
Iteracao 2390 7704.639576251948
Iteracao 2391 7700.945276994986
Iteracao 2392 7697.25371007284
Iteracao 2393 7693.564872637974
Iteracao 2394 7689.878761846762
Iteracao 2395 7686.195374859511
Iteracao 2396 7682.514708840435
Iteracao 2397 7678.836760957638
Iteracao 2398 7675.161528383146
Iteracao 2399 7671.489008292861
Iteracao 2400 7667.8191978665745
Iteracao 2401 7664.152094287959
Iteracao 2402 7660.487694744553
Iteracao 2403 7656.825996427759
Iteracao 2404 7653.166996532845
Iteracao 

Iteracao 2632 6884.159120391074
Iteracao 2633 6881.0513014607595
Iteracao 2634 6877.945626091738
Iteracao 2635 6874.842092216525
Iteracao 2636 6871.740697770262
Iteracao 2637 6868.641440690717
Iteracao 2638 6865.544318918256
Iteracao 2639 6862.449330395875
Iteracao 2640 6859.356473069162
Iteracao 2641 6856.265744886316
Iteracao 2642 6853.177143798119
Iteracao 2643 6850.090667757967
Iteracao 2644 6847.006314721829
Iteracao 2645 6843.9240826482655
Iteracao 2646 6840.843969498415
Iteracao 2647 6837.765973236005
Iteracao 2648 6834.690091827322
Iteracao 2649 6831.616323241223
Iteracao 2650 6828.544665449143
Iteracao 2651 6825.475116425059
Iteracao 2652 6822.407674145521
Iteracao 2653 6819.342336589619
Iteracao 2654 6816.279101738998
Iteracao 2655 6813.217967577859
Iteracao 2656 6810.158932092914
Iteracao 2657 6807.10199327344
Iteracao 2658 6804.047149111236
Iteracao 2659 6800.994397600625
Iteracao 2660 6797.943736738463
Iteracao 2661 6794.89516452412
Iteracao 2662 6791.84867895949
Iteracao 

Iteracao 2900 6121.905749885199
Iteracao 2901 6119.305958688778
Iteracao 2902 6116.707839067714
Iteracao 2903 6114.111389530203
Iteracao 2904 6111.516608586188
Iteracao 2905 6108.92349474735
Iteracao 2906 6106.332046527102
Iteracao 2907 6103.742262440603
Iteracao 2908 6101.154141004737
Iteracao 2909 6098.567680738122
Iteracao 2910 6095.982880161095
Iteracao 2911 6093.399737795733
Iteracao 2912 6090.818252165821
Iteracao 2913 6088.238421796874
Iteracao 2914 6085.660245216118
Iteracao 2915 6083.083720952499
Iteracao 2916 6080.508847536669
Iteracao 2917 6077.935623500999
Iteracao 2918 6075.364047379562
Iteracao 2919 6072.794117708137
Iteracao 2920 6070.225833024202
Iteracao 2921 6067.659191866941
Iteracao 2922 6065.094192777237
Iteracao 2923 6062.530834297659
Iteracao 2924 6059.969114972477
Iteracao 2925 6057.409033347648
Iteracao 2926 6054.850587970819
Iteracao 2927 6052.293777391315
Iteracao 2928 6049.738600160157
Iteracao 2929 6047.185054830034
Iteracao 2930 6044.633139955319
Iteracao 

Iteracao 3157 5504.864403179387
Iteracao 3158 5502.649591102172
Iteracao 3159 5500.4361181470085
Iteracao 3160 5498.2239831974
Iteracao 3161 5496.0131851380675
Iteracao 3162 5493.803722854945
Iteracao 3163 5491.595595235173
Iteracao 3164 5489.388801167106
Iteracao 3165 5487.183339540307
Iteracao 3166 5484.979209245534
Iteracao 3167 5482.776409174762
Iteracao 3168 5480.574938221164
Iteracao 3169 5478.374795279116
Iteracao 3170 5476.175979244193
Iteracao 3171 5473.9784890131605
Iteracao 3172 5471.782323483995
Iteracao 3173 5469.587481555854
Iteracao 3174 5467.393962129093
Iteracao 3175 5465.201764105258
Iteracao 3176 5463.010886387094
Iteracao 3177 5460.821327878523
Iteracao 3178 5458.633087484654
Iteracao 3179 5456.446164111788
Iteracao 3180 5454.260556667404
Iteracao 3181 5452.076264060163
Iteracao 3182 5449.893285199911
Iteracao 3183 5447.711618997668
Iteracao 3184 5445.531264365635
Iteracao 3185 5443.352220217183
Iteracao 3186 5441.174485466861
Iteracao 3187 5438.998059030392
Iteraca

Iteracao 3419 4967.278904686059
Iteracao 3420 4965.38007572122
Iteracao 3421 4963.482330470074
Iteracao 3422 4961.58566808511
Iteracao 3423 4959.690087719687
Iteracao 3424 4957.795588528021
Iteracao 3425 4955.902169665193
Iteracao 3426 4954.009830287128
Iteracao 3427 4952.118569550631
Iteracao 3428 4950.228386613346
Iteracao 3429 4948.33928063378
Iteracao 3430 4946.451250771292
Iteracao 3431 4944.564296186095
Iteracao 3432 4942.6784160392535
Iteracao 3433 4940.793609492682
Iteracao 3434 4938.909875709148
Iteracao 3435 4937.027213852271
Iteracao 3436 4935.145623086505
Iteracao 3437 4933.265102577167
Iteracao 3438 4931.385651490413
Iteracao 3439 4929.5072689932385
Iteracao 3440 4927.629954253493
Iteracao 3441 4925.7537064398575
Iteracao 3442 4923.87852472186
Iteracao 3443 4922.004408269875
Iteracao 3444 4920.131356255105
Iteracao 3445 4918.259367849603
Iteracao 3446 4916.388442226248
Iteracao 3447 4914.518578558755
Iteracao 3448 4912.649776021688
Iteracao 3449 4910.782033790434
Iteracao 

Iteracao 3684 4499.56100984532
Iteracao 3685 4497.922159882236
Iteracao 3686 4496.284196159634
Iteracao 3687 4494.6471180248855
Iteracao 3688 4493.010924825963
Iteracao 3689 4491.375615911478
Iteracao 3690 4489.741190630657
Iteracao 3691 4488.107648333354
Iteracao 3692 4486.474988370032
Iteracao 3693 4484.843210091785
Iteracao 3694 4483.2123128503235
Iteracao 3695 4481.582295997967
Iteracao 3696 4479.953158887662
Iteracao 3697 4478.324900872974
Iteracao 3698 4476.697521308073
Iteracao 3699 4475.071019547755
Iteracao 3700 4473.445394947426
Iteracao 3701 4471.820646863105
Iteracao 3702 4470.196774651424
Iteracao 3703 4468.573777669628
Iteracao 3704 4466.951655275576
Iteracao 3705 4465.330406827738
Iteracao 3706 4463.71003168519
Iteracao 3707 4462.090529207617
Iteracao 3708 4460.471898755318
Iteracao 3709 4458.854139689198
Iteracao 3710 4457.237251370769
Iteracao 3711 4455.6212331621455
Iteracao 3712 4454.006084426054
Iteracao 3713 4452.391804525825
Iteracao 3714 4450.778392825391
Iteraca

Iteracao 3941 4105.809865190361
Iteracao 3942 4104.378930406937
Iteracao 3943 4102.948732747611
Iteracao 3944 4101.5192716983065
Iteracao 3945 4100.090546745399
Iteracao 3946 4098.662557375736
Iteracao 3947 4097.235303076628
Iteracao 3948 4095.8087833358377
Iteracao 3949 4094.3829976416014
Iteracao 3950 4092.95794548261
Iteracao 3951 4091.533626348015
Iteracao 3952 4090.110039727432
Iteracao 3953 4088.6871851109345
Iteracao 3954 4087.2650619890524
Iteracao 3955 4085.843669852776
Iteracao 3956 4084.4230081935543
Iteracao 3957 4083.0030765032957
Iteracao 3958 4081.5838742743617
Iteracao 3959 4080.1654009995696
Iteracao 3960 4078.7476561722005
Iteracao 3961 4077.330639285982
Iteracao 3962 4075.914349835102
Iteracao 3963 4074.4987873142
Iteracao 3964 4073.083951218374
Iteracao 3965 4071.669841043171
Iteracao 3966 4070.2564562845896
Iteracao 3967 4068.843796439087
Iteracao 3968 4067.4318610035693
Iteracao 3969 4066.020649475392
Iteracao 3970 4064.610161352367
Iteracao 3971 4063.200396132749

Iteracao 4195 3764.7238394614023
Iteracao 4196 3763.464785643206
Iteracao 4197 3762.206351983375
Iteracao 4198 3760.9485380706706
Iteracao 4199 3759.6913434942117
Iteracao 4200 3758.4347678434615
Iteracao 4201 3757.178810708241
Iteracao 4202 3755.9234716787205
Iteracao 4203 3754.668750345419
Iteracao 4204 3753.414646299209
Iteracao 4205 3752.1611591313035
Iteracao 4206 3750.908288433276
Iteracao 4207 3749.6560337970395
Iteracao 4208 3748.4043948148637
Iteracao 4209 3747.1533710793597
Iteracao 4210 3745.90296218349
Iteracao 4211 3744.653167720561
Iteracao 4212 3743.4039872842336
Iteracao 4213 3742.1554204685044
Iteracao 4214 3740.907466867726
Iteracao 4215 3739.660126076591
Iteracao 4216 3738.41339769014
Iteracao 4217 3737.167281303758
Iteracao 4218 3735.9217765131743
Iteracao 4219 3734.676882914465
Iteracao 4220 3733.4326001040454
Iteracao 4221 3732.188927678681
Iteracao 4222 3730.9458652354756
Iteracao 4223 3729.703412371877
Iteracao 4224 3728.4615686856782
Iteracao 4225 3727.22033377

Iteracao 4453 3459.3448626208847
Iteracao 4454 3458.23310809278
Iteracao 4455 3457.1218783125532
Iteracao 4456 3456.011172948603
Iteracao 4457 3454.9009916695923
Iteracao 4458 3453.7913341444596
Iteracao 4459 3452.6822000424086
Iteracao 4460 3451.573589032913
Iteracao 4461 3450.465500785714
Iteracao 4462 3449.3579349708234
Iteracao 4463 3448.2508912585185
Iteracao 4464 3447.1443693193446
Iteracao 4465 3446.0383688241177
Iteracao 4466 3444.9328894439145
Iteracao 4467 3443.827930850084
Iteracao 4468 3442.7234927142404
Iteracao 4469 3441.619574708263
Iteracao 4470 3440.5161765042976
Iteracao 4471 3439.4132977747586
Iteracao 4472 3438.310938192318
Iteracao 4473 3437.2090974299263
Iteracao 4474 3436.1077751607872
Iteracao 4475 3435.006971058372
Iteracao 4476 3433.9066847964204
Iteracao 4477 3432.8069160489313
Iteracao 4478 3431.707664490171
Iteracao 4479 3430.6089297946683
Iteracao 4480 3429.5107116372155
Iteracao 4481 3428.413009692866
Iteracao 4482 3427.315823636941
Iteracao 4483 3426.219

Iteracao 4716 3184.088527424535
Iteracao 4717 3183.10411514264
Iteracao 4718 3182.120148930924
Iteracao 4719 3181.136628520234
Iteracao 4720 3180.1535536416272
Iteracao 4721 3179.170924026367
Iteracao 4722 3178.1887394059263
Iteracao 4723 3177.2069995119846
Iteracao 4724 3176.225704076428
Iteracao 4725 3175.244852831352
Iteracao 4726 3174.2644455090567
Iteracao 4727 3173.2844818420544
Iteracao 4728 3172.304961563055
Iteracao 4729 3171.325884404982
Iteracao 4730 3170.347250100963
Iteracao 4731 3169.3690583843345
Iteracao 4732 3168.3913089886337
Iteracao 4733 3167.4140016476067
Iteracao 4734 3166.437136095205
Iteracao 4735 3165.4607120655824
Iteracao 4736 3164.484729293105
Iteracao 4737 3163.5091875123344
Iteracao 4738 3162.5340864580467
Iteracao 4739 3161.55942586521
Iteracao 4740 3160.585205469011
Iteracao 4741 3159.6114250048317
Iteracao 4742 3158.638084208259
Iteracao 4743 3157.6651828150852
Iteracao 4744 3156.692720561306
Iteracao 4745 3155.7206971831192
Iteracao 4746 3154.749112416

Iteracao 4978 2940.6646177627695
Iteracao 4979 2939.7884543403466
Iteracao 4980 2938.912673041715
Iteracao 4981 2938.037273646101
Iteracao 4982 2937.1622559328944
Iteracao 4983 2936.2876196816383
Iteracao 4984 2935.41336467205
Iteracao 4985 2934.5394906840083
Iteracao 4986 2933.6659974975446
Iteracao 4987 2932.792884892862
Iteracao 4988 2931.920152650322
Iteracao 4989 2931.0478005504497
Iteracao 4990 2930.175828373932
Iteracao 4991 2929.304235901615
Iteracao 4992 2928.433022914511
Iteracao 4993 2927.5621891937867
Iteracao 4994 2926.6917345207767
Iteracao 4995 2925.821658676974
Iteracao 4996 2924.9519614440337
Iteracao 4997 2924.082642603771
Iteracao 4998 2923.21370193816
Iteracao 4999 2922.3451392293387


In [250]:
palavras = np.dot(V,P)
palavras.shape

(570, 570)

In [251]:
reverseVocabularioEng = dict([(value,key) for key,value in vocabularioEng.items()])
def traduzir(palavra,P,Vr,Wr):
    tokens = criarTokensBr(palavra)
    if(len(tokens) == 0):
        return ""
    palavra = tokens[0]
    if palavra not in vocabularioPtbr.keys():
        return "Indefinido"
    projecao = np.dot(Vr[vocabularioPtbr[palavra]],P)
    dist = 0
    index = 0
    for key, value in vocabularioEng.items():
        if key not in vocabularioEng.keys():
            return "Indefinido"
        newdist = np.dot(normalize(projecao),normalize(Wr[vocabularioEng[key],:]))
        if(dist < newdist):
            dist = newdist
            index = key 
    return index

traduzir("deus",P,V,W)
#np.dot(normalize(palavras[3]),normalize(Wr[vocabularioPtbr["senhor"],:]))

'god'

In [None]:
def traduzirFrase(frase):
    result = ""
    print("\n" + frase)
    for palavra in frase.split(" "):
        val = traduzir(palavra,P,V,W)
        if len(val) != 0:
            result += val + " "    
    print(result)
    
for verso in portugCorpus:
    traduzirFrase(verso)



No princípio, Deus criou os céus e a terra.
beginning god created corrupt earth 

A terra, entretanto, era sem forma e vazia. A escuridão cobria o mar que envolvia toda a terra, e o Espírito de Deus se movia sobre a face das águas.
earth wa formles empty darknes surface deep spirit man earth water god said let light saw 

Disse Deus: “Haja luz!”, e houve luz.
good god divided called day called 

Viu Deus que a luz era boa; e separou a luz das trevas.
night god called fifth morning called one 

Chamou Deus à luz “Dia”, e às trevas chamou “Noite”. Houve então, a tarde e a manhã: o primeiro dia.
expanse god called middle one expanse divide day made sky second gathered middle 

Depois disse Deus: “Haja entre as águas um limite para separá-las em duas partes!”
together good god divided saw place dry land appear 

Fez, portanto, Deus o firmamento e separou as águas estabelecidas abaixo desse limite, das que ficaram por cima. E assim aconteceu.
gathering sea god put morning saw forth gras he

walking serpent god cool hid presence among afraid told eaten done array four deceived 

O SENHOR Deus fez nascer do solo toda espécie de árvores agradáveis aos olhos e boas para alimento. E no meio desse jardim estavam a árvore da vida e a árvore do conhecimento do bem e do mal.
eye god gathering cursed desired man multiply move belly go fifth shall enmity herb hid thing move alone move offspring bruise heel 

Na região do Éden nascia um rio que irrigava todo o jardim e depois se dividia em quatro.
presence among greatly pain childbirth creature hid together children desire 

O nome do primeiro é Pisom. Ele percorre todo o território de Havilá, onde existe ouro.
bearing gathered adam listened creature sake toil thorn thistle sweat 

O ouro daquela terra é de pureza excelente; terra na qual se encontra o bdélio, raro perfume, e a valiosa pedra ônix.
sweat face earth bread return earth eve coat skin ashamed become hand take 

O segundo, que percorre toda a terra de Cuxe, é chamado Giom.

room finish cain upward side desired lower earth level even know fig fig earth flood 

Assim, Adão deu à sua mulher o nome de Eva, porquanto ela seria mãe de toda a humanidade
fruit killed god happen bearing establish father fallen built man naked 

Fez Yahweh Deus túnicas de pele e com elas vestiu Adão e Eva, sua mulher.
gathering serpent god covenant sort alive killed establish happen 

Então declarou Yahweh Deus: “Eis que agora o ser humano tornou-se como um de nós, conhecendo o bem e o mal. Não devemos permitir que ele também estenda a sua mão e tome do fruto da árvore da vida e comendo-o possa viver para sempre!”
made u serpent god keep gather four thu handle according bruise heel household seen righteousnes pair clean winged move alone cause six hundredth month 

Por isso o SENHOR expulsou o ser humano do jardim do Éden e fez que ele lavrasse a terra da qual havia sido formado.
eye seventeenth four hid among gathering fountain earth burst even 

Deus baniu Adão e Eva e no lado le

man Indefinido alone Indefinido Indefinido Indefinido hi together Indefinido 

Quando Cainã completou setenta anos, gerou Maalaleel.
Indefinido Indefinido Indefinido hi Indefinido Indefinido 

Depois do nascimento de Maalaleel, Cainã viveu oitocentos e quarenta anos, e gerou filhos e filhas.
together Indefinido Indefinido Indefinido Indefinido Indefinido Indefinido hi Indefinido end Indefinido 

Toda a duração da vida de Cainã foi de novecentos e dez anos; depois morreu.
man Indefinido alone Indefinido Indefinido Indefinido hi together Indefinido 

Quando Maalaleel completou sessenta e cinco anos, gerou Jarede.
Indefinido Indefinido Indefinido Indefinido hi Indefinido Indefinido 

Depois do nascimento de Jarede, Maalaleel viveu oitocentos e trinta anos, e gerou filhos e filhas.
together Indefinido Indefinido Indefinido Indefinido Indefinido Indefinido hi Indefinido end Indefinido 

Toda a duração da vida de Maalaleel foi de oitocentos e noventa e cinco anos; depois morreu.
man Indefini

knowledge multiply yet knowledge multiply mother knowledge multiply creature river desired Indefinido Indefinido Indefinido Indefinido alone 

Quanto a ti, reúne todo tipo de alimento e armazena-o; isso servirá de alimento para ti e para eles.
Indefinido heart Indefinido creature bird shall Indefinido Indefinido shall heart 

Noé assim fez; tudo em conformidade com o que Deus lhe ordenara, ele concluiu a obra.
Indefinido fruit gathering gave whole god Indefinido Indefinido closed 

Então o SENHOR ordenou a Noé: “Entra na arca, tu e toda a tua família, porque és o único justo que observo diante de mim no meio desta geração.
made eye gihon Indefinido Indefinido Indefinido man blood Indefinido know Indefinido Indefinido Indefinido Indefinido rainbow enmity pas Indefinido 

De todos os animais puros, tomarás sete pares, o macho e sua fêmea; dos animais que não são puros, tomarás apenas um casal, o macho e sua fêmea;
creature mother Indefinido Indefinido Indefinido Indefinido onyx stone mot

gathered middle gathered Indefinido hi Indefinido alone Indefinido Indefinido saw Indefinido earth Indefinido made Indefinido Indefinido Indefinido night knew earth enosh great 

No vigésimo sétimo dia do segundo mês, a terra já estava bem seca.
Indefinido took middle third Indefinido earth enosh bruise great 

Então ordenou Deus a Noé:
made gihon god Indefinido 

“Sai da tua arca, tu e tua esposa, teus filhos e as esposas de teus filhos contigo.
Indefinido blood Indefinido blood Indefinido end Indefinido end Indefinido 

Todos os animais que estão contigo; todas as criaturas, as aves, os grandes animais e os pequenos, todos que se movem rente ao solo. Faze-os deixar a arca contigo: que pululem sobre a face da terra, sejam fecundos e multipliquem-se sobre toda a terra!”
creature mother Indefinido man back yet given mother havilah creature gold aromatic desired Indefinido Indefinido Indefinido Indefinido Indefinido let light earth male breath Indefinido let man earth 

Assim, Noé e sua 

In [79]:
def ladoDoPlano(P,v):
    prod = np.dot(P,v.transpose())
    sinais = np.sign(prod)
    return sinais

def hashSensivel(P,v):
    valorHash = 0
    sinais = ladoDoPlano(P,v)
    sinais = (sinais >= 0) * 1
    index = np.sum(2**np.array(range(P.shape[0])) * sinais)
    return index

def criarHashing(P,V,vocabulario):
    reverseVocabulario = dict([(value,key) for key, value in vocabulario.items()])
    hashing = {}
    wordHashing = {}
    for i in range(V.shape[0]):
        vec = V[i]
        index = hashSensivel(P,vec)
        if index in hashing:
            hashing[index].append(vec)
            wordHashing[index].append(reverseVocabulario[i])
        else:
            hashing[index] = [vec]
            wordHashing[index] = [reverseVocabulario[i]]
    return hashing, wordHashing


In [187]:
engCorpus

['In the beginning God created the heavens and the earth. ',
 "Now the earth was formless and empty. Darkness was on the surface of the deep. God's Spirit was hovering over the surface of the waters.",
 'God said, "Let there be light," and there was light. ',
 'God saw the light, and saw that it was good. God divided the light from the darkness. ',
 'God called the light "day," and the darkness he called "night." There was evening and there was morning, one day.',
 'God said, "Let there be an expanse in the middle of the waters, and let it divide the waters from the waters." ',
 'God made the expanse, and divided the waters which were under the expanse from the waters which were above the expanse; and it was so. ',
 'God called the expanse "sky." There was evening and there was morning, a second day.',
 'God said, "Let the waters under the sky be gathered together to one place, and let the dry land appear;" and it was so. ',
 'God called the dry land "earth," and the gathering together