# Cornell Sentiments Analisis Dataset

In [1]:
# Importamos las librerías
import re
import nltk
import pickle
import numpy as np
from nltk.corpus import stopwords
from sklearn.datasets import load_files

In [2]:
# Manera de actualizar el corpus que quiera, en este caso 'stopwords'
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\JMANU\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
# Cargar nuestros archivos para generar el Corpus
reviews = load_files(r'./txt_sentoken/')

In [4]:
# Extralendo los datos y los targets
textos, targets = reviews.data, reviews.target

_____
## NOTAS:
- En caso de ser necesario, es decir tener archivos muy grandes. Es mucho más eficiente guardar los archivos como binarios y luego cargarlos

In [5]:
# Guardamos como archivos binarios con pickle (son mucho más eficientes)
with open('textos.pickle', 'wb') as f:
    pickle.dump(textos, f)

with open('targets.pickle', 'wb') as f:
    pickle.dump(targets, f)

In [6]:
# Abriendo los archivos binarios
with open('textos.pickle', 'rb') as f:
    new_textos = pickle.load(f)

with open('targets.pickle', 'rb') as f:
    new_targets = pickle.load(f)

________________

In [7]:
# Vamos a cosntruir el corpus para poder entrenar nuestro modelo
corpus = []

for i in range(0, 2000):
    # Quitando todos los carácteres que no sean letras
    review = re.sub(r'[^\w\s]','',str(textos[i]))

    # Agregando el texto a nuestra lista corpus
    corpus.append(review)

## Usar Sklearn
- Se usará SkLearn para convertir los textos en vectores que serán utilizados para el entrenamiento del modelo

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

# Creando el Objeto vectorizador con los parámetros que le damos
vectorizer = CountVectorizer(max_features=2000, # Top 2000 de palabras
                             min_df=3, # Si una palabra sale en menos de 3 archivos no la pongas (Poco común)
                             max_df=0.6, # Si una palabra salen en más del 60% de los archivos no la pongas (Muy común)
                             stop_words=stopwords.words('english')) # Quitando todas los stopwords en inglés

In [9]:
# Ejecutando el objeto vectorizador
# Creando el BOW (Bag Of Words) con el vectorizador
my_bow = vectorizer.fit_transform(corpus).toarray()

In [10]:
# Vamos a transformar el BOW en un TF-IDF utilizando 'SkLearn'
from sklearn.feature_extraction.text import TfidfTransformer

# Creando el Objeto para TF-IDF
transformer = TfidfTransformer()
transformer = transformer.fit(my_bow)

# Ejecutando la transformación
my_tfidf = transformer.fit_transform(my_bow).toarray()

## Modelando

In [11]:
from sklearn.model_selection import train_test_split

# Diviendo el Dataset en Train y Test
X_train, X_test, y_train, y_test = train_test_split(my_tfidf, targets, test_size=0.2, random_state=0)

In [12]:
from sklearn.linear_model import LogisticRegression

# Entrenamos un modelo de Regresión Logística
model = LogisticRegression()
model.fit(X_train, y_train)

LogisticRegression()

In [13]:
# Guardando el modelo
with open('classifier.pickle', 'wb') as f:
    pickle.dump(model, f)

## Calificando el Modelo

In [14]:
# Probando el Modelo
# Lista con los sentimientos predichos
y_pred = model.predict(X_test)

# Evaluamos qué tan bueno es nuetro modelo con una matriz de confusión
from sklearn.metrics import confusion_matrix
matrix = confusion_matrix(y_test, y_pred)
matrix

array([[173,  35],
       [ 22, 170]], dtype=int64)

In [15]:
# Accuracy de nuestro modelo (TP+TN/4)
model.score(X_test, y_test)

0.8575

## Usando el Modelo

In [16]:
# Probando el modelo
sample_text = ['hot dogs is trash']

from sklearn.feature_extraction.text import TfidfVectorizer

# Vectorizando y Haciendo TD-IDF
tf_vectorizer = TfidfVectorizer(max_features=2000,
                                min_df=3,
                                max_df=0.6,
                                stop_words=stopwords.words('english'))

# Fiteando con el corpus
new_tf = tf_vectorizer.fit_transform(corpus).toarray()

# Transformamos el Textos sample
sample = tf_vectorizer.transform(sample_text).toarray()

# Prediciendo con el modelo si es positivo o negativo (1=Positivo, 0=Negativo)
print(model.predict(sample))

[1]


## Exportando el Modelo

In [20]:
# Guardando el modelo
with open('tf_idf_model.pickle', 'wb') as f:
    pickle.dump(tf_vectorizer, f)