#### Ejercicio 1: "Embeddings en español" (obligatorio)

Para palabras en español utilizaremos embeddings entrenados con FastText que hemos descargado del [repositorio](https://github.com/dccuchile/spanish-word-embeddings). Particularmente el archivo utilizado se puede descargar de [aquí](https://zenodo.org/record/3234051/files/embeddings-l-model.vec).

El ejercicio consiste en:
1. Cargar los embeddings linkeados utilizados la librería Gensim
2. Dar 1 ejemplo de most_similar para una palabra en español.
3. Dar 1 ejemplo de un "fallo" similar a lo que ocurría con "trump" en most_similar para una palabra en español: donde el embedding desconozca cierta información por el año en dodne fue entrenado.
4. Dar 5 ejemplos de analogías. Es necesario reescribir la función analogy?
5. Dar 1 ejemplo donde el modelo replique sesgos presentes en los datos que considere pernicioso.

In [1]:
from gensim.models import KeyedVectors

In [2]:
# 1. Cargar el modelo en español
model_es = KeyedVectors.load_word2vec_format('../../models/embeddings-l-model.vec')

In [4]:
#2. Palabra similar
model_es.most_similar('asado', topn=10)

[('asada', 0.7902636528015137),
 ('asados', 0.7901856899261475),
 ('guiso', 0.7752070426940918),
 ('estofado', 0.7731484174728394),
 ('asadas', 0.770538330078125),
 ('pollo', 0.761725664138794),
 ('chorizo', 0.7508561015129089),
 ('asador', 0.7376899123191833),
 ('churrasco', 0.7269676923751831),
 ('guisado', 0.7253041863441467)]

In [5]:
# 3. Ejemplo de palabra que tenia otro contexto unos años atras
model_es.most_similar('milei')

[('mileidy', 0.6162314414978027),
 ('archilei', 0.5704389810562134),
 ('milessi', 0.564062237739563),
 ('milea', 0.5424215793609619),
 ('zilei', 0.5419692993164062),
 ('leilei', 0.5339961051940918),
 ('montironi', 0.5273367762565613),
 ('jucilei', 0.5159411430358887),
 ('iannaccone', 0.5134119987487793),
 ('miledi', 0.512912392616272)]

In [12]:
# 4. Analogias: comparativa entre hacerlo con función y directamente con Gensim en una liena de código
from numpy import negative, positive

def analogy(model, x1, x2, y1):
    result = model.most_similar(positive=[y1, x2], negative=[x1])
    return result[0][0]

analogy(model_es, 'caminar', 'caminando', 'pensar')


'pensando'

In [18]:
model_es.most_similar(positive=['pensar','caminando'], negative=['caminar'], topn=1)
# se puede observar que es el mismo resultado

[('pensando', 0.653136670589447)]

In [34]:
# Ejemplo 2
model_es.most_similar(positive=['chile','mujer'], negative=['hombre'])

[('chile2', 0.6111091375350952),
 ('chilena', 0.6027321219444275),
 ('chiledu', 0.5967060327529907),
 ('bolivia', 0.5691836476325989),
 ('chilea', 0.5562186241149902),
 ('antofagasta', 0.5533804893493652),
 ('argentina', 0.5515984892845154),
 ('ecuador', 0.5405001044273376),
 ('chilex', 0.5386781096458435),
 ('valparaíso', 0.5310677289962769)]

In [38]:
# Ejemplo3
model_es.most_similar(positive=['argentina','brasilia'], negative=['brasil'])

[('aires', 0.7352921962738037),
 ('argentinay', 0.6647652387619019),
 ('argentino', 0.6434076428413391),
 ('neuquén', 0.6407351493835449),
 ('bariloche', 0.6374251842498779),
 ('esquel', 0.6308908462524414),
 ('tucumán', 0.6209922432899475),
 ('montevideo', 0.6202198266983032),
 ('argentinam', 0.6175807118415833),
 ('catamarca', 0.6056064963340759)]

In [48]:
# Ejemplo 4
model_es.most_similar(positive=['argentina','nadal'], negative=['españa'])

[('tandilense', 0.5718888640403748),
 ('federer', 0.5575558543205261),
 ('argentino', 0.5560175180435181),
 ('nalbandian', 0.5551522374153137),
 ('djokovic', 0.5535011291503906),
 ('zeballos', 0.5508044958114624),
 ('garín', 0.5437861084938049),
 ('banfield', 0.5352136492729187),
 ('đoković', 0.5317217707633972),
 ('djoković', 0.5287153124809265)]

In [49]:
# Ejemplo 5
model_es.most_similar(positive=['colombia','montevideo'], negative=['uruguay'])

[('bogotá', 0.8238403797149658),
 ('medellín', 0.7347131967544556),
 ('barranquilla', 0.7271052598953247),
 ('antioquia', 0.7188071012496948),
 ('nariño', 0.7158085703849792),
 ('bucaramanga', 0.714212954044342),
 ('cúcuta', 0.7115553021430969),
 ('cundinamarca', 0.7014581561088562),
 ('ibagué', 0.697793185710907),
 ('popayán', 0.6908361911773682)]

In [50]:
# 5.  Con algunos terminos tiene sesgo

terminos_mujer = ['mujer', 'ella', 'señora', 'chica']
terminos_hombre = ['hombre', 'el', 'caballero', 'chico']
model_es.most_similar(positive=terminos_mujer + ['programador'], negative=terminos_hombre)

[('podóloga', 0.46492791175842285),
 ('clienta', 0.44701749086380005),
 ('nefróloga', 0.4391913414001465),
 ('ginecóloga', 0.4372602105140686),
 ('uróloga', 0.43637749552726746),
 ('robopsicóloga', 0.4344342052936554),
 ('oncóloga', 0.4332377314567566),
 ('vaginadora', 0.4332067668437958),
 ('diseñadora', 0.4305908679962158),
 ('radióloga', 0.43041637539863586)]

#### Ejercicio 2: "Otros text embedding" (opcional)

Probar otro método de generar el text embedding a partir de los word embeddings y reportar los resultados.

In [15]:
from gensim.test.utils import datapath, get_tmpfile
from gensim.scripts.glove2word2vec import glove2word2vec

embeddings_path = '../../models/glove.6B/glove.6B.300d.txt'

glove_file = datapath(embeddings_path)
word2vec_glove_file = get_tmpfile("glove.6B.300d.word2vec.txt")

glove2word2vec(embeddings_path, word2vec_glove_file)

model_en = KeyedVectors.load_word2vec_format(word2vec_glove_file)

  glove2word2vec(embeddings_path, word2vec_glove_file)


In [2]:
import os.path 
import glob
import pandas as pd

dataset_path = '../../data/aclImdb/'

cls = ['pos', 'neg']

def get_text(file_path):
    with open(file_path, 'r') as f:
        return '\n'.join(f.readlines())

def load_dataset(is_train, limit):
    data_path = os.path.join(dataset_path, 'train' if is_train else 'test')
    data = []
    limit_per_class = limit//2
    for c in cls:
        class_path = os.path.join(data_path,c)
        regex_glob = os.path.join(class_path,"*.txt")
        for i, file_path in enumerate(glob.glob(regex_glob)):
            if i == limit_per_class:
                break
            data.append((get_text(file_path),c))
    return pd.DataFrame(data=data,columns=['text', 'class'])
            
        
df = load_dataset(is_train=True, limit=100000).sample(frac=1)
df.head(10)

Unnamed: 0,text,class
8290,Fleet was released in 1936 during the middle o...,pos
19036,"As is often the case, films about self-loathin...",neg
773,"Modern, original, romantic story.<br /><br />V...",pos
1512,"Though I saw this movie years ago, its impact ...",pos
8269,"Generically speaking, Fay Grim is a highly ent...",pos
24699,"Now, i hired this movie because Brad Dourif wa...",neg
15520,Like watching a neighbor's summer camp home mo...,neg
2718,There's a great deal of material from the Mode...,pos
18087,Don't even ask me why I watched this! The only...,neg
3444,This is my favorite movie EVER. I have watched...,pos


In [18]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hgarnica\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [24]:
import numpy as np

# Se tomará el máximo en los embeddings de las palabras en el texto
def get_text_embedding(text):
    words = nltk.word_tokenize(text.lower())
    l = [model_en[w] for w in words if w in model_en]
    if not l:
        return np.zeros((300,))
    return np.array(l).max(axis=0)

In [25]:
import tqdm

def get_df_embeddings(df):
    embs = []
    for i, row in tqdm.tqdm(df.iterrows(), total=len(df)):
        embs.append(get_text_embedding(row['text']))
    embs=np.array(embs)
    return embs

In [26]:
x = get_df_embeddings(df)
y = (df['class']=='pos').astype(int)
x.shape, y.shape

100%|██████████| 25000/25000 [00:49<00:00, 504.58it/s]


((25000, 300), (25000,))

In [27]:
from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(x, y, test_size=0.2, random_state=42)
X_train.shape, X_valid.shape, y_train.shape, y_valid.shape

((20000, 300), (5000, 300), (20000,), (5000,))

In [28]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier()
rf_clf.fit(X_train, y_train)

In [31]:
pred_rf = rf_clf.predict(X_valid)
probs_rf = rf_clf.predict_proba(X_valid)

pred_rf.shape

(5000,)

In [32]:
((probs_rf[:,1]>0.5) == pred_rf).all()

True

In [33]:
from sklearn.metrics import accuracy_score
print(f'Random Forest acc: {accuracy_score(y_valid,pred_rf)}')

Random Forest acc: 0.7486


Al utilizar Random Forest y el max al hacer el calcular el embbeding, el acc: 0.7486

Al utilizar la media se habia obtenido un acc: 0.7774

Lo cual la tecnica del maximo no mejoro la del promedio!!!

#### Ejercicio 3: "Conjunto de test" (obligatorio)

Reportar los resultados en el conjunto de test.

Entrenar los resultados en toda la data de desarrollo (incluyendo x_valid), y volver a evaluar el test. Esto no se debería hacer, por qué?

En la práctica, no obstante es común entrenar la configuración elegida en toda la data de desarrollo y luego evaluar en el test. Notar que esto no supone un conflicto siempre y cuando evaluemos en test UNA SOLA VEZ (no vale elegir entre el modelo entrenado en toda la data de desarrollo.
Que ventajas se hace e

In [35]:
df_test = load_dataset(is_train=False, limit=100000).sample(frac=1)
df_test.head(10)

Unnamed: 0,text,class
14920,Secret Service agent Jay Killion (Charles Bron...,neg
11863,For the sake of propaganda during World War II...,pos
6750,I have to say I was pleasantly surprised by th...,pos
15424,"Okay, I like to give the benefit of the doubt....",neg
15306,"If you're a kid liking fairy tale ""real life"" ...",neg
2116,I love this movie and I recommend it to anybod...,pos
2799,"CONTAINS ""SPOILER"" INFORMATION. Watch this dir...",pos
4646,"I mean let's face it, all you have to do in mo...",pos
17410,Warning Might contain spoilers<br /><br />i ju...,neg
18525,What can be said about THIS? Truly one of the ...,neg


In [40]:
x_test = get_df_embeddings(df_test)
y_test = (df_test['class']=='pos').astype(int)
x_test.shape, y_test.shape

100%|██████████| 25000/25000 [00:47<00:00, 521.18it/s]


((25000, 300), (25000,))

In [41]:
pred_rf_test = rf_clf.predict(x_test)
probs_rf_test = rf_clf.predict_proba(x_test)

pred_rf_test.shape

(25000,)

In [42]:
print(f'Random Forest accuracy test: {accuracy_score(y_test,pred_rf_test)}')


Random Forest acc: 0.73616


El accuracy del modelo obtenido con los datos de test siguen siendo muy buenos. Muy cercano al obtenido con la validación.


Volvemos a entrenar con todos los datos del train y de validación

In [43]:
# Entranamod con todos los datos de train y valid

rf_clf2 = RandomForestClassifier()
rf_clf2.fit(x, y)

In [45]:
pred_rf2_test = rf_clf2.predict(x_test)
probs_rf2_test = rf_clf2.predict_proba(x_test)

pred_rf_test.shape

(25000,)

In [46]:
print(f'Random Forest acc: {accuracy_score(y_test,pred_rf2_test)}')


Random Forest acc: 0.73732


Se puede ver que el accuracy mejora. Pero esto no está bien hacerlo. Entrenar el modelo con todos los datos de desarrollo anularía el propósito del conjunto de validación y podría dar una evaluación sobreajustada del rendimiento del modelo. Mantener la separación entre estos conjuntos asegura que tengas una evaluación justa y precisa de cómo el modelo puede rendir en datos no vistos.

De todos modos se podria entrenar sumando los datos de validaciòn a los fines de poder evaluar el modelo con los datos que nunca vio. Luego testear con los datos de test y asi poder tener mejor metrica del modelo. Pero luego mantener el modelo inicial que no vio los datos de validación.