# Introducción al procesamiento del lenguaje natural

In [57]:
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec   

In [58]:
def cargar_datos(text_file):
    lista = []
    oraciones = []
    with open(text_file, 'r', encoding="utf-8") as f:
        for i, line in enumerate(f):
            lista.append(line)
    sentencias = list([word_tokenize(frase, language="spanish", preserve_line=True) for frase in lista])    
    return sentencias

In [59]:
sentencias = cargar_datos("datos.txt")

In [60]:
# mostramos el titulo del primer proyecto
sentencias[1]

['Desarrollar',
 'un',
 'sistema',
 'que',
 'integre',
 'distintos',
 'algoritmos',
 'de',
 'procesamiento',
 'de',
 'imágenes',
 'médicas',
 'que',
 'brinde',
 'información',
 'relevante',
 'para',
 'la',
 'toma',
 'de',
 'decisiones',
 'en',
 'los',
 'diagnósticos',
 'y',
 'tratamiento',
 'del',
 'SDRA']

In [61]:
modelo = Word2Vec(
        sentences=sentencias, # datos
        window=10, # distancia máxima entre la palabra objetivo y las otras
        min_count=5, # minimo número frecuencia de palabras 
        workers=8,# número de hilos de ejecución
        sg=1,# 1 = SKIP , 0 = CBOW
        hs=1,
        negative=0) 
modelo.train(sentencias, total_examples=len(sentencias), epochs=20)  # entrenamos el modelo con 20 épocas          

(1967, 15960)

In [79]:
palabras_incrustadas = modelo.wv[modelo.wv.key_to_index] # obtenemos los vectores de palabras

lista_palabras = list(modelo.wv.key_to_index) # lista con las palabras
palabras_incrustadas
palabras_incrustadas[lista_palabras.index("sistema"), :],

(array([-0.00073743,  0.00204963,  0.01785159,  0.02969659, -0.01933305,
        -0.02235572,  0.02150625,  0.03205127, -0.01971458, -0.03554021,
         0.01808269, -0.02547315,  0.02006525,  0.01742276,  0.00137815,
        -0.00654036,  0.03585552, -0.00201472, -0.0198508 , -0.05516871,
         0.01822434,  0.01539533,  0.03345823, -0.00402954, -0.00597383,
         0.00608297, -0.021612  ,  0.01328896, -0.01853243,  0.01401208,
         0.01479805, -0.00651355,  0.02192673, -0.03736488, -0.01685435,
         0.01398175,  0.01588437, -0.00460743, -0.01392766, -0.0040602 ,
         0.01410346, -0.01462244, -0.01263982,  0.00145185,  0.01762321,
        -0.01789523, -0.02638333, -0.00424192,  0.01680952,  0.0105044 ,
        -0.00813806, -0.0099309 , -0.00303356, -0.01075879, -0.00816959,
         0.00621903,  0.00624451, -0.00700361, -0.00086288,  0.01196977,
         0.00028447, -0.01851765,  0.03075248,  0.008051  , -0.02460038,
         0.03555854, -0.01873489,  0.01708398, -0.0

In [76]:
import numpy as np
def norma_vectorial(vector):
    return np.sqrt(np.sum([v**2 for v in vector]))

def similitud_coseno(v1, v2):
    return np.dot(v1, v2)/float(norma_vectorial(v1)*norma_vectorial(v2))

In [77]:
# prueba el modelo    
print("Similitud: {:.2f} ".format(similitud_coseno(palabras_incrustadas[lista_palabras.index("sistema"), :], 
                          palabras_incrustadas[lista_palabras.index("algoritmos"), :]) ))
   

Similitud: 0.91 


In [40]:
s = modelo.wv.similarity(w1="sistema", w2="algoritmos")  
print("similitud {:.2f} ".format(s))

similitud 0.91 


In [41]:
palabra = "sistema" 
print("Más similar a {0}: ".format(palabra), modelo.wv.most_similar(positive=palabra))

Más similar a sistema:  [('de', 0.9480828046798706), ('que', 0.9357652068138123), ('el', 0.9296500086784363), ('Desarrollar', 0.9236196875572205), ('un', 0.9158722162246704), (',', 0.9146167039871216), ('los', 0.9145620465278625), ('información', 0.9096739888191223), ('la', 0.9090107083320618), ('una', 0.9086618423461914)]
