# Tarea 2: análisis de sentimientos usando aprendizaje supervisado

##### Por: Daniela Flores Villanueva 

## Sobre las librerías

En primer lugar, se cargan todas las librerías empleadas en esta tarea:
- `pandas`: librería utilizada para cargar la matriz GloVe y posteriormente, para confeccionar un `DataFrame` con palabras y su sentimiento asociado.
- `csv`: utilizada para cargar los vectores, según lo dispuesto en [este](https://stackoverflow.com/questions/37793118/load-pretrained-glove-vectors-in-python) sitio.
- `nltk`: se usó para cargar el *opinion lexicon* descrito en el enunciado de manera conveniente. Se probó además sus métodos para realizar lematización, proceso que consiste en, dada una palabra flexionada (en forma plural, verbo conjugado, etc), encontrar su lema, es decir, algo similar a la forma en que sería encontrada en un diccionario.

In [1]:
import pandas as pd
import csv
from nltk.stem import WordNetLemmatizer
import numpy as np
import nltk
nltk.download('opinion_lexicon')
from nltk.corpus import opinion_lexicon
from sklearn.externals import joblib
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

[nltk_data] Downloading package opinion_lexicon to
[nltk_data]     /Users/DanielaFlores/nltk_data...
[nltk_data]   Package opinion_lexicon is already up-to-date!


In [2]:
GLOVE_PATH = "./glove.42B.300d.txt"

La forma de cargar el opinion lexicon es la descrita en la [documentación](http://www.nltk.org/api/nltk.corpus.reader.html?highlight=wordnet) de NLTK.

In [3]:
positive_data = opinion_lexicon.positive()
negative_data = opinion_lexicon.negative()

Con el fin de tener una representación más general de las palabras, se convierte cada vocablo en las listas anteriores a minúsculas.

In [4]:
positive_data = [word.lower() for word in positive_data]
negative_data = [word.lower() for word in negative_data]

A continuación, se carga la matriz de *embeddings*:

In [5]:
glove_matrix = pd.read_csv(GLOVE_PATH, sep=" ", index_col=0, header=None, quoting=csv.QUOTE_NONE, na_values=None, keep_default_na=False)

En el mismo recurso para cargar la matriz en memoria (adjunto en la descripción de las librerías utilizadas), se menciona una función que, dada una palabra, retorna su *embedding*. Esta función es `vec(w)`, definida a continuación:

In [6]:
def vec(w):
    return glove_matrix.loc[w].as_matrix()

## Breve análisis exploratorio

No se puede empezar a trabajar sin tener al menos una noción básica de la composición de la matriz y de las palabras con etiqueta. Por esta razón, en primer lugar cabe preguntarse cuántas palabras hay en la matriz de *embeddings*.

In [7]:
glove_words = set(glove_matrix.index.tolist())
print(len(glove_words))

1917494


Podría ocurrir que no todas las palabras que tenemos etiquetadas según su polaridad tengan su representación vectorial en GloVe, por lo que conviene realizar el siguiente análisis:
Dada la unión entre las palabras de polaridad positiva y las de polaridad negativa, se revisa si están o no en la matriz. De no estar, se agregan a la lista `missing_words`, para decidir qué hacer con ellas futuramente.

In [8]:
missing_words = set()
for word in set(positive_data).union(set(negative_data)):
    if word not in glove_words:
        missing_words.add(word)
print(len(missing_words))

161


Es posible notar que hay 161 palabras del *opinion lexicon* para las que no se tiene una representación vectorial. Antes de decidir qué hacer con estas palabras faltantes, conviene preguntarse si existen palabras que estén etiquetadas tanto de polaridad positiva como de polaridad negativa.

In [9]:
wrong_tag = set(positive_data).intersection(negative_data)
print(wrong_tag)

{'enviousness', 'enviously', 'envious'}


Así, se evidencia que tres palabras relacionadas a la envidia parecen estar mal etiquetadas, pues no deberían aparecer entre las palabras positivas.

A continuación, se procede a realizar lematización de los vocablos positivos y negativos, para ver si existe algún cambio en la cantidad palabras sin *embedding* tras este cambio.

In [10]:
positive_data_lemmatized = {nltk.stem.WordNetLemmatizer().lemmatize(word) for word in positive_data}
negative_data_lemmatized = {nltk.stem.WordNetLemmatizer().lemmatize(word) for word in negative_data}

In [11]:
missing_words_lemmatized = set()
for word in positive_data_lemmatized.union(set(negative_data_lemmatized)):
    if word not in glove_words:
        missing_words_lemmatized.add(word)
print(len(missing_words_lemmatized))

160


In [12]:
wrong_tag_lemmatized = set(positive_data_lemmatized).intersection(negative_data_lemmatized)
print(wrong_tag_lemmatized)

{'plea', 'enviousness', 'enviously', 'envious'}


In [13]:
positive_data_lemmatized = positive_data_lemmatized - wrong_tag_lemmatized

Al lematizar, es posible notar que hay una palabra menos que no tiene representación vectorial. En la siguiente celda, podrá evidenciarse qué palabra es la que hace la diferencia:

In [14]:
print(missing_words - missing_words_lemmatized)

{'spoilages'}


## Preprocesamiento de los datos

https://github.com/stanfordnlp/GloVe/search?utf8=%E2%9C%93&q=unk&type=

In [15]:
positive_matrix = np.empty((0, 300))
for word in positive_data_lemmatized:
    if word in glove_words:
        positive_matrix = np.append(positive_matrix, [vec(word)], axis=0)
    else:
        positive_matrix = np.append(positive_matrix, [vec("unk")], axis=0)

In [16]:
negative_matrix = np.empty((0, 300))
for word in negative_data_lemmatized:
    if word in glove_words:
        negative_matrix = np.append(negative_matrix, [vec(word)], axis=0)
    else:
        negative_matrix = np.append(negative_matrix, [vec("unk")], axis=0)

In [17]:
print(positive_matrix.shape)
print(negative_matrix.shape)

(1951, 300)
(4492, 300)


In [18]:
positive_labels = [1] * positive_matrix.shape[0]
negative_labels = [0] * negative_matrix.shape[0]
all_labels = positive_labels + negative_labels

In [19]:
concatenated_matrix = np.concatenate([positive_matrix, negative_matrix], axis=0)
concatenated_matrix.shape

(6443, 300)

## Clasificación

### Separación entre entrenamiento y *testing*

In [20]:
X_train, X_test, y_train, y_test = train_test_split(concatenated_matrix, all_labels, test_size=0.2, random_state=0)

In [21]:
def estimator_grid_search(estimator, parameters):
    clf = GridSearchCV(estimator=estimator, param_grid=parameters, n_jobs=-1, cv=5)
    clf.fit(X_train, y_train)   
    print("Mejor accuracy: {}".format(clf.best_score_))
    return clf

In [22]:
def get_metrics(clf):
    metrics = {}
    predictions = clf.predict(X_test)
    metrics["accuracy"] = accuracy_score(y_test, predictions)
    metrics["precision"] = precision_score(y_test, predictions)
    metrics["recall"] = recall_score(y_test, predictions)
    metrics["f1-score"] = f1_score(y_test, predictions)
    return metrics

In [23]:
def save_model(clf, clf_name):
    joblib.dump(clf, "best_{}.pkl".format(clf_name))

### SVM

In [24]:
svm_params = {
    "C": [1, 10],
    "gamma": [0.001, 0.0001],
    "kernel": ["linear", "poly", "rbf", "sigmoid"]
}
tuning_svm = estimator_grid_search(SVC(), svm_params)
print("Mejor C: {}".format(tuning_svm.best_estimator_.C))
print("Mejor kernel: {}".format(tuning_svm.best_estimator_.kernel))
print("Mejor Gamma: {}".format(tuning_svm.best_estimator_.gamma))
final_svm = SVC(C=tuning_svm.best_estimator_.C, 
                kernel=tuning_svm.best_estimator_.kernel, 
                gamma=tuning_svm.best_estimator_.gamma, probability=True)
final_svm.fit(X_train, y_train)
svm_final_metrics = get_metrics(final_svm)
print(svm_final_metrics)
save_model(final_svm, "SVM")

Mejor accuracy: 0.93267365153279
Mejor C: 10
Mejor kernel: rbf
Mejor Gamma: 0.001
{'accuracy': 0.9588828549262994, 'precision': 0.9510869565217391, 'recall': 0.9090909090909091, 'f1-score': 0.9296148738379815}


### KNN

In [25]:
knn_params = {"n_neighbors": np.arange(5) + 1, "algorithm": ["kd_tree", "ball_tree"]}
tuning_knn = estimator_grid_search(KNeighborsClassifier(), knn_params)
print("Mejor K: {}".format(tuning_knn.best_estimator_.n_neighbors)) 
print("Mejor algoritmo de búsqueda de vecinos: {}".format(tuning_knn.best_estimator_.algorithm))
final_knn = KNeighborsClassifier(n_neighbors=tuning_knn.best_estimator_.n_neighbors, 
                                 algorithm=tuning_knn.best_estimator_.algorithm)
final_knn.fit(X_train, y_train)
knn_final_metrics = get_metrics(final_knn)
print(knn_final_metrics)
save_model(final_knn, "KNN")

Mejor accuracy: 0.9062863795110594
Mejor K: 5
Mejor algoritmo de búsqueda de vecinos: kd_tree
{'accuracy': 0.921644685802948, 'precision': 0.927710843373494, 'recall': 0.8, 'f1-score': 0.8591352859135286}


### Random Forest

In [26]:
rf_params = {
    "n_estimators": np.arange(10) + 1, 
    "criterion": ["gini", "entropy"], 
    "max_features": ["sqrt", "log2", None]}
tuning_rf = estimator_grid_search(RandomForestClassifier(), rf_params)
print("Mejor cantidad de árboles: {}".format(tuning_rf.best_estimator_.n_estimators))
print("Mejor criterio de división: {}".format(tuning_rf.best_estimator_.criterion))
print("Mejor cantidad máxima de features: {}".format(tuning_rf.best_estimator_.max_features))
final_rf = RandomForestClassifier(n_estimators=tuning_rf.best_estimator_.n_estimators,
                                 criterion=tuning_rf.best_estimator_.criterion,
                                 max_features=tuning_rf.best_estimator_.max_features)
final_rf.fit(X_train, y_train)
rf_final_metrics = get_metrics(final_rf)
print(rf_final_metrics)
save_model(final_rf, "RF")

Mejor accuracy: 0.8610787737679473
Mejor cantidad de árboles: 9
Mejor criterio de división: entropy
Mejor cantidad máxima de features: None
{'accuracy': 0.86966640806827, 'precision': 0.8258258258258259, 'recall': 0.7142857142857143, 'f1-score': 0.7660167130919221}


In [27]:
def model_predict(clf, test_set):
    return clf.predict_proba(test_set)

## Pequeña prueba de modelos

In [28]:
test_words = ["sex"]
test_words_matrix = np.empty((0, 300))
for word in test_words:
    test_words_matrix = np.append(test_words_matrix, [vec(word)], axis=0)
print(model_predict(final_rf, test_words_matrix))

[[0.77777778 0.22222222]]


In [29]:
final_knn.predict(test_words_matrix)

array([0])