# Prueba 2 - análisis de revisiones positivas y negativas

# Introducción

El objetivo es identificar cuando una reseña es positiva o negativa.

In [1]:
import pandas as pd
import spacy
import tensorflow as tf
import numpy as np

from sklearn.model_selection import train_test_split

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [2]:
df_rev = pd.read_csv('NLP prueba 2.csv', index_col=0)
df_rev

Unnamed: 0,text,tag
0,"in exotica everybody is watching , and what is...",pos
1,some of the gags are so carefully innocuous th...,neg
2,press junkets are a haven for control freaks .,neg
3,"then i realized he was , and i was watching it .",neg
4,uh huh .,neg
...,...,...
29405,"roro ( nicknamed "" jalla "" ) is having family ...",neg
29406,"in three days time , or something .",neg
29407,director nicholas hytner is guilty of encourag...,neg
29408,neighbor runs a small failing grocery store .,neg


Como las revisiones se encuentran en inglés, se carga el módulo de la librería de este lenguaje

In [16]:
# nlp = spacy.load("es_core_news_sm")
nlp = spacy.load("en_core_web_sm")
# stopwords = nlp.Defaults.stop_words

nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

## Revisando el estado de la informacion

La parte más importante de la clasificación se encuentra en la revisión de la información y la limpieza de los datos. 

En primer lugar se revisa si hay información faltante.

In [9]:
print('Valores faltantes por columnas del DataFrame:')
df_rev.isna().sum()

Valores faltantes por columnas del DataFrame:


text    17
tag      8
dtype: int64

La información faltante es pequeña en comparacion al número total de revisiones. 

Del total, hay 17 opiniones faltantes, algunas de las cuales tienen su etiqueta de positiva o negativa. Esta es una característica esencial, con etiqueta pero sin la opinión es inútil tomar esa muestra y no hay forma de completar esta información. Por otro lado sería posible asignar manualmente una etiqueta a partir del contenido, siempre y cuando el número de muestras sin etiquetas pero con texto sea bajo. 

En big data podría entrenarse el modelo **sin estos datos**, alcanzar un buen desempeño en datos de entrenamiento, y luego etiquetar las muestras faltantes. En este caso no se asignan etiquetas ya que es lo que se haría en un modelo de big data.

In [10]:
# Revisando las opiniones sin etiqueta
df_rev[df_rev.tag.isna()]

Unnamed: 0,text,tag
904,"A grandly ambitious, warmhearted, wildly uneve...",
1137,"Stunning visuals and imagery, exceptional dire...",
3936,If only the scares were better.,
3975,Candyman bolsters an already robust mythos wit...,
5011,"In short, a turkey.",
13436,The film's disarming romcom sensibilities are ...,
20433,I found this movie to be very engrossing and e...,
26480,this movie is a complete joke,


## Distribucion de las etiquetas

Para el análisis y posterior entrenamiento de modelos es extremadamente importante evaluar la distribución de las categorías, si una categoría es abrumadoramente mayoritaria este será un elemento muy importante para el proceso de análisis y desarrollo del modelo de predicción.

In [11]:
cat_dist = df_rev.tag.value_counts()
print(cat_dist)
print(f'\nDistribución de categorias \n Positivas: {cat_dist[1]/(np.sum(cat_dist)):.3f}, Negativas: {cat_dist[0]/(np.sum(cat_dist)):.3f}')

neg    25434
pos     3968
Name: tag, dtype: int64

Distribución de categorias 
 Positivas: 0.135, Negativas: 0.865


De esta forma es posible obtener información relevante, el 87% de las opiniones registradas fueron etiquetadas como negativas. Para entrenar un modelo debe usarse alguno de los métodos que lidian con imbalances, ya sea a través de métodos como el uso pesos, la reducción de la categoría mayoritaria, o la creación de nuevas muestras minoritarias (aunque en este caso es difícil).

# Análisis exploratorio

In [None]:
doc = nlp(df.text[0]) # spacys tokenizer
for token in doc:
    print(token.text, token.pos_, token.dep_)

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

# Entrenamiento del modelo

## Transformaciones para entrenamiento

In [13]:
print(df_rev)
df_rev = df_rev.dropna()
df_rev.tag = df_rev.tag.replace({'pos':1, 'neg':0})
print(df_rev)

                                                    text  tag
0      in exotica everybody is watching , and what is...  pos
1      some of the gags are so carefully innocuous th...  neg
2         press junkets are a haven for control freaks .  neg
3       then i realized he was , and i was watching it .  neg
4                                               uh huh .  neg
...                                                  ...  ...
29405  roro ( nicknamed " jalla " ) is having family ...  neg
29406                in three days time , or something .  neg
29407  director nicholas hytner is guilty of encourag...  neg
29408      neighbor runs a small failing grocery store .  neg
29409  what i admire most about city of angels is its...  pos

[29410 rows x 2 columns]
                                                    text  tag
0      in exotica everybody is watching , and what is...    1
1      some of the gags are so carefully innocuous th...    0
2         press junkets are a haven for cont

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_rev.tag = df_rev.tag.replace({'pos':1, 'neg':0})


In [19]:
for token in nlp("test sentence"):
    print(token)

test
sentence


In [20]:
df_rev['text'].values.tolist()

def clean_text(txt):
    # remove_emoticon()
    

['in exotica everybody is watching , and what is worse , everybody knows .',
 "some of the gags are so carefully innocuous they're annoying .",
 'press junkets are a haven for control freaks .',
 'then i realized he was , and i was watching it .',
 'uh huh .',
 "and my god , couldn't they have done something else with edie mcclurg ?",
 'cage , sinise , and yes , even de palma deserve better .',
 'they are like a couple of kids out exploring the empty lot at the end of the street .',
 '" idle hands " is bad , no matter the circumstances in the world outside .',
 "in this case , the object of darryl's amor is janice ( tamara taylor ) , a fellow student who won't have anything to do with darryl until he gains his super-senses .",
 'surprising really , when the effects are done by industrial light & magic , who did the effects for the lost world and twister .',
 "incidentally , if you're afraid i'm giving too much away , rest assured that all of this happens in the first 30 minutes of the 