# Notas generales de Sentiment Analysis
---

## Introducción

Introducción al tema...

## Problemas a tener en cuenta

* En los reviews de productos suele haber una tendencia al sesgo de los comentarios positivos (p 100 P&L)

* P&L recomiendan extraer las frases subjetivas y no incluir las objetivas pero yo creo que eso es hacer un poco de trampa.

* Una posibilidad es seleccionar por tópicos o tipos de productos

* Podría considerarse el problema de resumen de sentimientos, además de la categorización, y para eso usar el título del review.

* Considerar diferentes momentos para obtener los reviews [ver](https://www.aaai.org/Papers/Symposia/Spring/2004/SS-04-07/SS04-07-003.pdf) 

## TO DO list:

* Armar el datasheet del dataset MeLiSA e ir definiendo las características del mismo a partir de éste. Para eso, sería recomendable leer P&L, el paper de IMDb y el paper de datasheets for datasets

* Ver la [clase de sesgos en NLP](https://www.youtube.com/watch?v=XR8YSRcuVLE&feature=youtu.be) y las de evaluation metrics [1](https://youtu.be/3UGti9Ju5j8) y [2](https://youtu.be/YygGzfkhtJc) y estudiarlas bien bien.

* Analizar los posibles sesgos del dataset y modificar el datasheet del primer punto hasta que quede bien armado.

* Ir armando el paper. Tratar de separar las tareas para darle cosas para hacer a Mati y a Leo.

---

# Resumen cap 3, 4 y 5 de Pang & Lee

## Capítulo 3: Desafíos generales

El capítulo habla de por qué las tarea de clasificación de sentimientos es distinta a la de clasificación de texto en general. Se argumenta que extraer palabras relacionadas con el significado o la connotación (positiva o negativa) no es un gran indicativo de si el documento pertenece a una categoría determinada, debido a que los sentimientos pueden expresarse de manera mucho más sutil que simplemente explicitando una palabra clave y a que las oraciones suelen ser muy dependientes del contexto. Además el orden en que se dicen las cosas importan mucho.

Como ejercicio podemos probar clasificar texto con NaiveBayes+BOW y con LogisticRegression+BODocs:

In [4]:
import tensorflow as tf
import tensorflow_datasets as tfds
import pandas as pd
import numpy as np
import torch

# Utilizo el dataset IMDb
ds, ds_info = tfds.load('imdb_reviews',
                        split=None, # Descargo todos los splits
                        download=True, # Si no está descargado, que se descargue
                        with_info=True, # Quiero que devuelva info del dataset
                       )

# Decodifico a dataframes con strings comunes
df_train = tfds.as_dataframe(ds['train'], ds_info)
df_train['text'] = df_train['text'].str.decode('utf-8')
df_test = tfds.as_dataframe(ds['test'], ds_info)
df_test['text'] = df_test['text'].str.decode('utf-8')

# Divido en train, val, test 
random_seed = 16254872
rs = np.random.RandomState(random_seed)
val_size = .1
mask = rs.rand(len(df_train)) < val_size
df_val = df_train[mask].copy()
df_train = df_train[~mask].copy()

# Tokenizo
df_train['text'] = df_train['text'].str.findall(r'[a-zA-Z0-9]+')
df_val['text'] = df_val['text'].str.findall(r'[a-zA-Z0-9]+')
df_test['text'] = df_test['text'].str.findall(r'[a-zA-Z0-9]+')

# Obtengo el vocabulario
vocab = df_train['text'].explode().value_counts()

the    262074
and    141788
a      141404
of     129873
to     121115
Name: text, dtype: int64

In [None]:
from collections import Counter, defaultdict
from itertools import tee, islice
from scipy.sparse import csr_matrix
from tqdm import tqdm

def get_ngrams(doc, ngram_range=(1,1)):

    for n in range(ngram_range[0],ngram_range[1]+1):
        tlst = doc
        while True:
            a, b = tee(tlst)
            l = tuple(islice(a, n))
            if len(l) == n:
                yield ' '.join(l)
                next(b)
                tlst = b
            else:
                break

def count_bag_of_ngrams(corpus, ngram_range=(1,1), tokenizer=None):

    if tokenizer is None:
        tokenizer = lambda x: x

    data = []
    indices = []
    indptr = [0]

    full_vocab = defaultdict()
    full_vocab.default_factory = full_vocab.__len__

    for doc in tqdm(corpus):
        features = dict(Counter(get_ngrams(tokenizer(doc),ngram_range)))
        data.extend(features.values())
        indices.extend([full_vocab[tk] for tk in features])
        indptr.append(len(indices))

    vocab_len = len(full_vocab)
    X = csr_matrix((data,indices,indptr),shape=(len(corpus),vocab_len))
    
    return X, dict(full_vocab)