# 3. Sentiment Analysis: Primer Experimento

Probaremos vectorizadores y clasificadores básicos sin tocar demasiado los parámetros.

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from util import load_datasets
train, dev, test = load_datasets()
X_train, y_train = train
X_dev, y_dev = dev
X_test, y_test = test

## CountVectorizer +  LinearSVC

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('clf', LinearSVC(random_state=0)),
])

In [4]:
pipeline.fit(X_train, y_train)



Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, vocabulary=None)),
                ('clf',
                 LinearSVC(C=1.0, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,
                           loss='squared_hinge', max_iter=1000,
                           multi_class='ovr', penalty='l2', random_state=0,
                           tol=0.0001, 

In [5]:
y_pred = pipeline.predict(X_dev),

In [6]:
from util import print_short_eval
print_short_eval(pipeline, X_train, y_train)

accuracy	1.00	macro f1	1.00


In [7]:
from util import print_eval
print_eval(pipeline, X_dev, y_dev)

accuracy	0.80

              precision    recall  f1-score   support

         neg       0.83      0.79      0.81       162
         pos       0.77      0.80      0.78       138

    accuracy                           0.80       300
   macro avg       0.80      0.80      0.80       300
weighted avg       0.80      0.80      0.80       300

[[128  34]
 [ 27 111]]


¡Bueno comienzo!

Suficientemente bueno como para hacer evaluación final y guardar.


In [8]:
print_eval(pipeline, X_test, y_test)
from util import save_model
save_model(pipeline, '2018-07-27_count_linearsvc')

accuracy	0.78

              precision    recall  f1-score   support

         neg       0.80      0.77      0.79       257
         pos       0.77      0.80      0.78       243

    accuracy                           0.78       500
   macro avg       0.78      0.78      0.78       500
weighted avg       0.78      0.78      0.78       500

[[198  59]
 [ 49 194]]


## Juguemos un Poco

Probemos nuestro clasificador con ejemplos de juguete.

In [9]:
pipeline.predict(['this movie sucks'])

array([0])

In [10]:
pipeline.predict(['this movie is good'])

array([0])

In [11]:
pipeline.predict(['this movie is very good'])

array([0])

In [12]:
pipeline.predict(['this movie is very very good'])

array([1])

In [13]:
pipeline.predict(['this movie'])

array([0])

La repetición de palabras afecta bastante.

## 1er Experimento: Binarizar Conteos

Probemos con **binary=True** a ver si se arregla.

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('vect', CountVectorizer(binary=True)),
    ('clf', LinearSVC(random_state=0)),
])
pipeline.fit(X_train, y_train)
print_eval(pipeline, X_dev, y_dev)

accuracy	0.84

              precision    recall  f1-score   support

         neg       0.85      0.86      0.86       162
         pos       0.84      0.82      0.83       138

    accuracy                           0.84       300
   macro avg       0.84      0.84      0.84       300
weighted avg       0.84      0.84      0.84       300

[[140  22]
 [ 25 113]]




¡Muy bueno! De 80% a 84% en un solo cambio.

Veamos si se arreglaron los ejemplos de juguete:

In [15]:
pipeline.predict(['this movie is very good'])

array([1])

In [16]:
pipeline.predict(['this movie is good'])

array([1])

In [17]:
pipeline.predict(['this movie is bad'])

array([0])

In [18]:
pipeline.predict(['this movie is very bad'])

array([0])

In [19]:
pipeline.predict(['this movie is not bad, it is good'])

array([0])

Acá hay un problema con la negación, y con la pérdida de información del orden de las palabras.

¿Qué se puede hacer con esto? **¡Ejercicio!**

Finalizamos el experimento evaluando en test y guardando el modelo:

In [20]:
print_eval(pipeline, X_test, y_test)
from util import save_model
save_model(pipeline, '2018-07-27_count_linearsvc_2')

accuracy	0.83

              precision    recall  f1-score   support

         neg       0.82      0.85      0.83       257
         pos       0.83      0.80      0.82       243

    accuracy                           0.83       500
   macro avg       0.83      0.83      0.83       500
weighted avg       0.83      0.83      0.83       500

[[218  39]
 [ 48 195]]


## ¿Ahora qué?

Algunas opciones:

- Vectorización:
  - ¿Explorar parámetros?
  - ¿Probar TF-IDF?
- Clasificador:
  - ¿Explorar parámetros de la SVM?
  - ¿Probar otros modelos de clasificación?

Y más opciones:

- Transformaciones:
  - ¿Probar reducción de dimensionalidad?
  - ¿Probar selección de features?

Y más:

- Análisis:
  - ¿Buscar ejemplos conflictivos?
  - ¿Hacer análisis de errores?
  - ¿Hacer inspección del modelo?

Y más:

- Features:
  - ¿Incorporar lexicones de palabras?
  - ¿Word embeddings?
