In [1]:
from gensim.models import KeyedVectors

In [2]:
we = KeyedVectors.load_word2vec_format('fasttext-sbwc.100k.vec', limit=100000)

In [6]:
we['gato'][:50]

array([ 0.072649 , -0.4433   ,  0.12554  ,  0.049606 , -0.12972  ,
        0.32156  , -0.14644  ,  0.20144  , -0.15818  ,  0.12647  ,
        0.19597  ,  0.50453  ,  0.01111  ,  0.12758  , -0.11527  ,
        0.17277  , -0.10098  , -0.15261  ,  0.062471 , -0.025088 ,
       -0.2724   , -0.29719  ,  0.05186  ,  0.044487 ,  0.35225  ,
       -0.65213  , -0.0017838,  0.0086409, -0.3108   ,  0.19001  ,
        0.26181  , -0.083221 ,  0.074633 , -0.080038 ,  0.34239  ,
        0.10485  ,  0.1183   , -0.24124  ,  0.10061  , -0.020331 ,
        0.046146 , -0.17905  , -0.49263  ,  0.16665  ,  0.044745 ,
        0.22714  ,  0.01891  , -0.42457  ,  0.4272   , -0.050753 ],
      dtype=float32)

In [8]:
we.most_similar(positive=['rey','mujer'], negative=['hombre'])[:3]

[('reina', 0.6306586265563965),
 ('infanta', 0.5454355478286743),
 ('princesa', 0.5346059799194336)]

In [12]:
we.most_similar(positive=['actor','mujer'], negative=['hombre'])[:3]

[('actriz', 0.7320431470870972),
 ('cantante', 0.5639584064483643),
 ('guionista', 0.5555437803268433)]

In [62]:
we.most_similar(positive=['mujer','activista'])

[('feminista', 0.6502466201782227),
 ('transexual', 0.6304376125335693),
 ('niña', 0.6294453740119934),
 ('luchadora', 0.6272600889205933),
 ('lesbiana', 0.603931188583374),
 ('trabajadora', 0.595452070236206),
 ('militante', 0.5916344523429871),
 ('empresaria', 0.5810160636901855),
 ('hombre', 0.5789231657981873),
 ('abogada', 0.5774852633476257)]

In [None]:
# Puedes probar todas las siguientes relaciones

# Algebra

# 'dilma' + 'chile' - 'bachelet'
# 'dilma' + 'chile' - 'brasil'
# 'chile' + 'brasil'
# 'microsoft'
# 'micorosft' + 'steve'
# 'facebook'
# 'facebook' + 'bill'

# Conjugaciones

# 'corría' + 'saltar' - 'correr'
# 'corría' + 'ir' - 'correr'

# Palabras complejas

# 'mujer' + 'yerno' - 'hombre'
# 'hombre' + 'nuera' - 'mujer'

# no calza

# 'abril', 'mayo', 'septiembre', 'martes', 'julio'
# 'talca', 'paris', 'londres'

In [None]:
# casos complejos

# 'hombre' + 'activista'
# 'mujer' + 'activista'
# 'hombre' - 'familia'
# 'mujer' - 'familia'

## Exploremos datos

Dos archivos `dataset_compras.tsv` y `clases.tsv`.

In [26]:
!head dataset_compras.tsv

colmax 125 mg, 10 comprimidos	4
servilletas (paquetes de 50 und c/u)	3
caja tapsin comprimidos d/n plus 18 comprimidos	4
carne molida cazuela	0
toallas de papel favoritas 13 rollos	3
guantes de goma aseo	3
bolsa cafe molido	0
poleras + pantalones mujer	2
broca corona (fanta)	3
postres manjarate	0


In [27]:
!head clases.tsv

alimentos comida bebida carne pollo jugo
alcohol cigarrillo tabaco
ropa de vestir calzado zapatos vestidos
muebles hogar aseo herramienta
salud medicamento hospital
transporte bus avion automóvil
comunicaciones teléfono celular


## Cargamos los datos de compras

Cargamos los datos en una estructura de la forma

```
compras = [ 
    (texto_compra_1, int_clase_compra_1),  
    (texto_compra_2, int_clase_compra_2),
    ...
    (texto_compra_N, int_clase_compra_N)
]

clases = [
    texto_clase_1,
    texto_clase_2,
    ...
]```

In [28]:
compras = []
with open('dataset_compras.tsv') as f:
    for line in f:
        glosa, clase = line[:-1].split('\t')
        compras.append((glosa, int(clase)))
        
# ejemplos
compras[100:110]

[('pisco alto del carmen 750 ml', 1),
 ('crema bose tacndimus para tratamiento dermatologico (30grs)', 4),
 ('poleras de mujer nime', 2),
 ('examenes mamarios', 4),
 ('recarga bip', 5),
 ('viaje taxi trabajo - casa', 5),
 ('noche', 4),
 ('resperidona (ansiedad) o dagotil', 4),
 ('cuello de genero de mujer', 2),
 ('boletos a villa alemana ida y vuelta', 5)]

In [29]:
clases = []
with open('clases.tsv') as f:
    clases = [line[:-1] for line in f]
    
clases

['alimentos comida bebida carne pollo jugo',
 'alcohol cigarrillo tabaco',
 'ropa de vestir calzado zapatos vestidos',
 'muebles hogar aseo herramienta',
 'salud medicamento hospital',
 'transporte bus avion automóvil',
 'comunicaciones teléfono celular']

## Vectores para frases y  similitud

Para convertir una lista de palabras en un vector, simplemente sumamos los vectores, y luego normalizamos el vector resultante:

In [None]:
# si no hemos cargado los embeddings antes lo hacemos ahora
# we = KeyedVectors.load_word2vec_format('fasttext-sbwc.100k.vec', limit=100000)

In [30]:
import numpy as np
from numpy.linalg import norm # para normalizar datos

In [31]:
def to_vector(texto):
    tokens = texto.split()
    vec = np.zeros(300)
    for word in tokens:
        # si la palabra está la acumulamos
        if word in we:
            vec += we[word]
    return vec / norm(vec)

In [32]:
texto = 'me gustan los gatos'
to_vector(texto)[:30]

array([-0.02160363, -0.13543574, -0.00359645, -0.03332749,  0.07891227,
        0.06204042,  0.00753889, -0.04465527,  0.0450577 ,  0.05973038,
       -0.08960684, -0.05345259, -0.00115848, -0.04865786,  0.00335951,
        0.05654213, -0.02306999,  0.00865327, -0.02585105, -0.05084353,
       -0.09082358,  0.01703158,  0.03228194,  0.05585475,  0.00697301,
       -0.07326494,  0.07028165, -0.0402126 , -0.04905922, -0.01236731])

Hacemos una función para similitud de textos, usando vectores y producto punto de numpy.

In [33]:
def similarity(texto_1, texto_2):
    vec_1 = to_vector(texto_1)
    vec_2 = to_vector(texto_2)
    sim = vec_1 @ vec_2
    return sim

In [35]:
texto_1 = 'no me gustan los gatos'
texto_2 = 'los felinos son lindos'
texto_3 = 'quiero comer pizza'

print(similarity(texto_1, texto_2))
print(similarity(texto_2, texto_3))
print(similarity(texto_1, texto_3))

0.720966065387025
0.4570526033251019
0.6455029211704626


In [36]:
def clasifica(texto, clases):
    sims = [similarity(texto, clase) for clase in clases]
    indices = range(len(sims))
    ind_max = max(indices, key=lambda i: sims[i])
    return ind_max

In [37]:
clase = clasifica("un cuarto de lomo liso", clases)
print(clases[clase])

alimentos comida bebida carne pollo jugo


In [38]:
clase = clasifica("dos paracetamol para el dolor de cabeza", clases)
print(clases[clase])

salud medicamento hospital


In [39]:
clase = clasifica("la cuenta del internet", clases)
print(clases[clase])

comunicaciones teléfono celular


In [44]:
clase = clasifica("whisky", clases)
print(clases[clase])

alcohol cigarrillo tabaco


## Clasifica un dato al azar

In [51]:
# elige una compra al azar (índice)
i = np.random.randint(len(compras))

# clase real
(compra, clase_real) = compras[i]
clase_pred = clasifica(compra, clases)

print('glosa compra:\t',compra)
print('clase predicha:\t', clases[clase_pred])
print('clase real:\t', clases[clase_real])

glosa compra:	 margarina soprole s
clase predicha:	 alimentos comida bebida carne pollo jugo
clase real:	 alimentos comida bebida carne pollo jugo


## Tarea: métricas de  acierto

Calcula la predicción para todos los texto y compara con la clase real. Usa `classification_report` y `accuracy_score`.

In [52]:
from sklearn.metrics import classification_report, accuracy_score

In [59]:
%%time
# Hacemos la predicción para los primeros 5000 ejemplos

pred = []
real = []

for compra, clase_real in compras[:5000]:
    clase_pred = clasifica(compra, clases)
    pred.append(clase_pred)
    real.append(clase_real)

print(classification_report(real, pred))
print("Accuracy:", accuracy_score(real, pred))

             precision    recall  f1-score   support

          0       0.66      0.91      0.76      1176
          1       0.79      0.43      0.56       237
          2       0.60      0.82      0.69       658
          3       0.65      0.46      0.54      1026
          4       0.90      0.56      0.69      1016
          5       0.73      0.79      0.76       737
          6       0.70      0.88      0.78       150

avg / total       0.72      0.69      0.68      5000

Accuracy: 0.6936
CPU times: user 1.75 s, sys: 164 ms, total: 1.92 s
Wall time: 2.14 s


## Vectorización

El anterios código tarda demasiado para clasificar todos los ejemplos. Para mejorar radicalmente el tiempo de ejecución podemos convertir todo en operación de matrices. Primero creamos una matriz con todos los vectores representantes de cada texto de compra, y luego una con los vectores de las clases.

In [60]:
%%time

# pon todos los vectores de compras en una matriz
compras_vectores = [to_vector(texto) for texto, cls in compras]
X = np.vstack(compras_vectores)

# pon todos los vectores de clases en una matriz
clases_vectores = [to_vector(cls) for cls in clases]
C = np.vstack(clases_vectores)

print('X.shape =',X.shape)
print('C.shape =',C.shape)

X.shape =  (572080, 300)
C.shape =  (7, 300)
CPU times: user 19.3 s, sys: 6.21 s, total: 25.5 s
Wall time: 29 s


Ahora podemos calcular la similitud con una simple multiplicación de matrices.

In [61]:
%%time

#calcula las similitudes como un producto punto
similitudes = X @ C.T

pred = np.argmax(similitudes, axis=1)
real = [cls for _, cls in compras]

print(classification_report(real, pred))
print("Accuracy:", accuracy_score(real, pred))

             precision    recall  f1-score   support

          0       0.67      0.92      0.78    140032
          1       0.77      0.43      0.55     25936
          2       0.59      0.82      0.69     74864
          3       0.66      0.45      0.53    116992
          4       0.89      0.56      0.69    116720
          5       0.72      0.80      0.76     82732
          6       0.68      0.89      0.77     14804

avg / total       0.72      0.69      0.68    572080

Accuracy: 0.6949657390574745
CPU times: user 1.46 s, sys: 1.03 s, total: 2.49 s
Wall time: 1.77 s
