# Machine Learning con atributos para clasificación de tweets por polaridad

En este laboratorio se trabajará con un corpus creado a partir de los corpus del TASS (2017 y 2018) (http://www.sepln.org/workshops/tass/).



In [0]:
# Ejecutar este fragmento si se ejecuta en colab
# Debes autorizar a colab a acceder a tus archivos
from google.colab import drive
import os
drive.mount('/lab')

# En esta variable va la carpeta donde están los laboratorios
carpeta_laboratorios = 'pln/AnaTex/lab aiala'

path_laboratorios = '/lab/My Drive/' + carpeta_laboratorios + '/'
print('Los archivos en tu carpeta de laboratoros son:')
os.listdir(path_laboratorios)

# Carga de la información de los tweets

Complete el siguiente código de modo de cargar un corpus (archivo csv) y retornar un vector con los tweets y un vector con las polaridades.

In [65]:
import csv
import numpy as np
        
def load_corpus(corpusFile):
    with open(corpusFile, encoding='utf8', newline='') as csvfile:
        tweets = list(csv.reader(csvfile, delimiter=','))
    polarities = [] # polaridades
    originalTweets = [] # tweets
    for t in tweets:
        polarities += [t[2]]
        originalTweets += [t[1]]

    return np.asarray(originalTweets), np.asarray(polarities)


# Bag of Words (BOW)

A continuación se generarán features de tipo Bag of Words para los primeros experimentos.

Para esto utilice la clase CountVectorizer de sklearn, use fit_transform y transform (https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html).



In [66]:

# cargar info de los corpus train (para entrenar) y devel (para evaluar experimentos) 
# origTrain, polTrain = load_corpus(path_laboratorios + 'train.csv')
# origDevel, polDevel = load_corpus(path_laboratorios + 'devel.csv')
origTrain, polTrain = load_corpus('train.csv')
origDevel, polDevel = load_corpus('devel.csv')

# imprima algunos tweets y su polaridad para verificar que la carga del corpus es correcta

print(origTrain[0])
print(polTrain[0])

# bag of words
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_selection import SelectKBest
from sklearn.pipeline import make_pipeline

vectorizer = CountVectorizer()
# genere las features de entrenamiento con fit_transform
train_features = vectorizer.fit_transform(origTrain)

# genere las features para el corpus 'devel' con transform
devel_features = vectorizer.transform(origDevel)

# imprima los tamaños de las matrices generadas 
print(np.shape(train_features))
print(np.shape(devel_features))

Impresionante las vistas por dentro del nicho del buda ... y mucho vértigo  #Afganistán #Bamiyán http://t.co/tFB8iknI
P
(8315, 24004)
(1133, 24004)


Saltee esta sección para probar los clasificadores con las features ya generadas (última sección del notebook).

Luego de hacer esos experimentos vuelva a esta sección y genere las features nuevamente, siguiendo las instrucciones siguientes:

Pruebe con diferentes cantidades de palabras como features usando la clase SelectKBest (10, 20, 50, 100, 200, 1000).

Imprima las palabras que selecciona SelectKBest (hasta 100).

Vuelva a probar los clasificadores de la sección siguiente.


In [67]:
kbest = {}
vectorizerKBest = {}
for i in [10, 20, 50, 100, 200, 1000]:
    kbest[i] = SelectKBest(k=i)
    vectorizerKBest[i] = make_pipeline(vectorizer, kbest[i])

    ## genere las features usando vectorizerKBest en vez de vectorizer
    feats = vectorizerKBest[i].fit_transform(origDevel, polDevel)


    ## imprima las k palabras seleccionadas por SelectKBest
    print('==>i: ',i,np.asarray(vectorizer.get_feature_names())[kbest[i].get_support()])


# kbest = SelectKBest(k=10)
# vectorizerKBest = make_pipeline(vectorizer, kbest)

# ## genere las features usando vectorizerKBest en vez de vectorizer
# feats = vectorizerKBest.fit_transform(origDevel, polDevel)


# ## imprima las k palabras seleccionadas por SelectKBest
# print(np.asarray(vectorizer.get_feature_names())[kbest.get_support()])


['co' 'gracias' 'http' 'no' 'peor' 'pero' 'portada' 'que' 'se' 'veo']


# Léxico subjetivo

Vamos a incluir features basadas en un léxico subjetivo, además de las features basadas en BOW.

El léxico contiene todas las formas correspondientes a cada lema. Está organizado en dos archivos csv, uno con palabras positivas y otro con palabras negativas.

Se provee una función para cargar el léxico.

Luego volvemos a probar los dos clasificadores de la última sección.

In [83]:
import scipy

def read_lexicon(lex_file):
    # cargo lexico
#     with open(path_laboratorios + lex_file, encoding='utf8') as lex:
    with open(lex_file, encoding='utf8') as lex:
        lex_list = []
        for word in lex:
            lex_list.append(word.rstrip('\r\n').lower())
    return lex_list

def getLexFeats(tweets, posLex, negLex):
    # calculo cantidad de lemas positivos y negativos en cada tweet del corpus
    res = np.zeros((np.shape(tweets)[0],2))
    print(np.shape(res))
    ### completar
    for i,t in enumerate(tweets):
        for w in t.split():
            if w in posLex:
                res[i,0] += 1
            if w in negLex:
                res[i,1] += 1
    return res


# construyo features basadas en léxicos para train y devel
# cargo léxicos
# posLex = set(read_lexicon('lexico_pos_lemas_grande.csv'))
# negLex = set(read_lexicon('lexico_neg_lemas_grande.csv'))

posLex = set(read_lexicon('lexico_pos_palabras_grande.csv'))
negLex = set(read_lexicon('lexico_neg_palabras_grande.csv'))

# obtengo features para train y devel
lexFeatsTrain = getLexFeats(origTrain, posLex, negLex)
lexFeatsDevel = getLexFeats(origDevel, posLex, negLex)

# verifico los valores obtenidos
print(origTrain[0])
print(lexFeatsTrain[0])
print(origTrain[11])
print(lexFeatsTrain[11])
print(origTrain[200])
print(lexFeatsTrain[200])
print(origDevel[0])
print(lexFeatsDevel[0])

# print('=>',np.shape(origTrain))
# print('=>',np.shape(train_features))
# print('=>',np.shape(lexFeatsTrain))

# print(train_features[0,:])
# print(np.shape(train_features[0,:]))
# print(lexFeatsTrain[0])

# combino features BOW con features basadas en léxico
# train_x = np.hstack((train_features, lexFeatsTrain))
# devel_x = np.hstack((devel_features, lexFeatsDevel))
train_x = scipy.sparse.hstack((train_features, lexFeatsTrain))
devel_x = scipy.sparse.hstack((devel_features, lexFeatsDevel))

# verifico dimensiones
print(train_x.shape)
print(devel_x.shape)
print(lexFeatsTrain.shape)
print(lexFeatsDevel.shape)



(8315, 2)
(1133, 2)
Impresionante las vistas por dentro del nicho del buda ... y mucho vértigo  #Afganistán #Bamiyán http://t.co/tFB8iknI
[ 1.  0.]
Al 90% en Asturias: PSOE: 16; FAC: 13; PP: 10: IU: 5; UPyD:1.
[ 0.  0.]
+1 RT @nuriarocagranel: Porqué utiliza Chacón ese tono????? A mí, la verdad, es que esa forma de hablar me parece bastante artificial
[ 1.  1.]
Estos días trataré de hacer deporte con mis amigos y desconectar.
[ 1.  0.]
(8315, 24006)
(1133, 24006)
(8315, 2)
(1133, 2)


# Clasificadores

Entrene dos clasificadores: Multinomial Naive Bayes y SVM para probar las diferentes configuraciones de features que desee.

Imprima accuracy de cada clasificador.


In [85]:
# clasificadores

# Multinomial Naive Bayes
from sklearn.naive_bayes import MultinomialNB

clf_nb = MultinomialNB()
## utilice fit para entrenar y score para obtener la accuracy
clf_nb.fit(train_features, polTrain)
print("NB Accuracy: ", clf_nb.score(devel_features, polDevel))

clf_nb_lex = MultinomialNB()
## utilice fit para entrenar y score para obtener la accuracy
clf_nb_lex.fit(train_x, polTrain)
print("NB Accuracy (+lex): ", clf_nb_lex.score(devel_x, polDevel))


# SVM
from sklearn.svm import SVC

clf_svm = SVC()
## utilice fit para entrenar y score para obtener la accuracy
clf_svm.fit(train_features, polTrain)
print("SVM Accuracy: ", clf_svm.score(devel_features, polDevel))

clf_svm_lex = SVC()
## utilice fit para entrenar y score para obtener la accuracy
clf_svm_lex.fit(train_x, polTrain)
print("SVM Accuracy (+lex): ", clf_svm_lex.score(devel_x, polDevel))

NB Accuracy:  0.554280670786
NB Accuracy (+lex):  0.573698146514
SVM Accuracy:  0.353045013239
SVM Accuracy (+lex):  0.374227714034


In [40]:
clf_nb.fit(feats, polDevel)
print("NB Accuracy(feats): ", clf_nb.score(feats, polDevel))
clf_svm.fit(feats, polDevel)
print("SVM Accuracy(feats): ", clf_svm.score(feats, polDevel))

NB Accuracy(feats):  0.463371579876
SVM Accuracy(feats):  0.470432480141


# Preguntas finales

1. ¿Qué features son mejores para cada clasificador?

2. ¿Qué puede decir sobre las palabras seleccionadas por SelectKBest?

3. Calcule precision, recall y F1 para cada clase, analice para qué clase se obtienen los mejores/peores resultados.

4. Elija los mejores atributos para cada clasificador y evalúe sobre el corpus 'test'.

5. Opcional: Pruebe otros clasificadores.
