# Clasificación de análisis de sentimientos

## Importación de librerías

In [1]:
import pandas as pd
datos = pd.read_csv("amazon_cells_labelled.txt", sep='\t', header=None)
datos.head()

Unnamed: 0,0,1
0,So there is no way for me to plug it in here i...,0
1,"Good case, Excellent value.",1
2,Great for the jawbone.,1
3,Tied to charger for conversations lasting more...,0
4,The mic is great.,1


In [2]:
# Vamos a separar los documentos y sus categorías. 
# docs y categs son series de Pandas
# Hay que separar las categorías de los documentos para usar 
# estos últimos y obtener la matriz BOW o Tf-idf

docs = datos.iloc[:,0] # extract column with review
categs = datos.iloc[:,-1] # extract column with sentiment

## Obtención de las matrices BOW y Tf-idf

In [3]:
# tokenizamos los documentos y convertimos en matriz BOW

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(stop_words='english')
docs_vec = vectorizer.fit_transform(docs) # fit_ transform coge todos los documentos que hay en esta lista de documentos.
docs_vec = docs_vec.todense() # convierte la matriz en densa
docs_vec

matrix([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]])

In [4]:
# Construimos la matriz formato Tf-idf

from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer() 
docs_tfidf = tfidf.fit_transform(docs_vec) 
docs_tfidf = docs_tfidf.todense()
docs_tfidf

matrix([[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]])

## Preparación de los subconjuntos de entrenamiento y test

In [5]:
# División mediante train_test_split. Test de 25%

from sklearn.model_selection import train_test_split
docs_train, docs_test, categs_train, categs_test = train_test_split(docs_tfidf, categs, test_size = 0.25, 
                                                                    random_state = 0)

## Clasificador ingenuo bayesiano

In [6]:
# Entrenamiento del clasificador NB

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(docs_train, categs_train)

MultinomialNB()

## Evaluación del modelo

In [7]:
# Predicción del set de test

categs_pred = clf.predict(docs_test)

In [8]:
# Confusion Matrix

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(categs_test, categs_pred)
cm

array([[ 87,  33],
       [ 20, 110]])