<h2> IMDB - Dataset</h2>

In [3]:
#importamos las librerias a usar
import pandas as pd

In [4]:
#importamos el dataset a usar
df_review= pd.read_csv('IMDB Dataset.csv')
df_review.head(2)


Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive


In [5]:
# Tamaño del dataset
df_review.shape

(50000, 2)

In [6]:
# Sabemos los valores que puede tomar
df_review['sentiment'].unique()

array(['positive', 'negative'], dtype=object)

In [7]:
# Vemos cuantos hay de cada valor
df_review['sentiment'].value_counts()

positive    25000
negative    25000
Name: sentiment, dtype: int64

In [8]:
# Creamos un dataset balanceado
df_positive= df_review[df_review['sentiment']=='positive'][:1000]
df_negative= df_review[df_review['sentiment']=='negative'][:1000]

df_bal= pd.concat([df_negative,df_positive])
df_bal.shape

(2000, 2)

<h3>Separamos Datos para entrenar y para testear</h3>

In [9]:
# Importamos de sklearn el separador de datos de entrenamiento y tensteo
from sklearn.model_selection import train_test_split

In [10]:
# Asignamos la cantidad de test y train con porcentaje
train,test = train_test_split(df_bal, test_size= 0.2, random_state=42)

In [11]:
x_train, y_train = train['review'],train['sentiment']

In [12]:
x_test, y_test = test['review'], test['sentiment']

 <h3>Representación de textos (Bag of words)</h3>

In [13]:
#Transformamos data str a float (de texto a número
from sklearn.feature_extraction.text import TfidfVectorizer

# stopwords es para que no agarre palabras irrelevantes
tfidf= TfidfVectorizer(stop_words='english')

# Obtenemos los mejores parametros y luego los aplicamos a esta data
x_train_vector = tfidf.fit_transform(x_train)

x_test_vector = tfidf.transform(x_test)

#con esto de arriba ya convertimos los datos de entrenamiento y testeo a texto

In [14]:
x_train_vector
# Ahora nuestro train tiene 1600 reviews y tiene 22321 palabras
# 139848 de las celdas de la matriz tienen valores diferentes a 0, o sea muy pocos

<1600x22321 sparse matrix of type '<class 'numpy.float64'>'
	with 139848 stored elements in Compressed Sparse Row format>

 <h2>Selección del Modelo</h2>
 

<h3 style="color:#0309a3">Support Vector Machines (SVM)</h3>

In [22]:
#Por los que sabemos este es un modelo supervisado y de clasificacion, ya que su output pueden ser solo 2
from sklearn.svm import SVC

svc= SVC()
#Le pasamos como primer instancia los imputs numericos y de segunda instancia los outputs
svc.fit(x_train_vector,y_train)

<h5>Test del modelo</h5>

In [38]:
# Creamos una opinión y la pasamos a data numérica
opinion_1=tfidf.transform(['A good movie,that is excellent'])
opinion_2=tfidf.transform(["I didn't like the movie, it's very boring"])
opinion_3=tfidf.transform(["the movie is very bad, I would like to gouge my eyes out"])

# Hacemos la predicción y vemos que sale
print(svc.predict(opinion_1))
print(svc.predict(opinion_2))
print(svc.predict(opinion_3))

['positive']
['negative']
['negative']


<h3 style="color:#12a60a">Desicion Tree</h3>

In [37]:
#Por los que sabemos este es un modelo supervisado y de clasificacion, ya que su output pueden ser solo 2
from sklearn.tree import DecisionTreeClassifier

dec_tree = DecisionTreeClassifier()
# Entrenamos el modelo
dec_tree.fit(x_train_vector,y_train)

<h5>Test del modelo</h5>

In [39]:
# Creamos una opinión y la pasamos a data numérica
opinion_1=tfidf.transform(['A good movie,that is excellent'])
opinion_2=tfidf.transform(["I didn't like the movie, it's very boring"])
opinion_3=tfidf.transform(["the movie is very bad, I would like to gouge my eyes out"])

# Hacemos la predicción y vemos que sale
print(dec_tree.predict(opinion_1))
print(dec_tree.predict(opinion_2))
print(dec_tree.predict(opinion_3))

['positive']
['negative']
['negative']


<h3 style="color:#ab4316">Naive Bayes</h3>

In [51]:
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
#cuando es GaussianNB tenemos que pasar X a un arreglo
gnb.fit(x_train_vector.toarray(),y_train)

<h5>Test del modelo</h5>

In [52]:
# Creamos una opinión y la pasamos a data numérica
opinion_1=tfidf.transform(['A good movie,that is excellent'])
opinion_2=tfidf.transform(["I didn't like the movie, it's very boring"])
opinion_3=tfidf.transform(["the movie is very bad, I would like to gouge my eyes out"])

# Hacemos la predicción y vemos que sale
print(gnb.predict(opinion_1.toarray()))
print(gnb.predict(opinion_2.toarray()))
print(dec_tree.predict(opinion_3.toarray()))

['negative']
['negative']
['negative']


<h3 style="color:#9c328a">Logistic Regression</h3>

In [53]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(x_train_vector,y_train)

<h5>Test del modelo</h5>

In [54]:
# Creamos una opinión y la pasamos a data numérica
opinion_1=tfidf.transform(['A good movie,that is excellent'])
opinion_2=tfidf.transform(["I didn't like the movie, it's very boring"])
opinion_3=tfidf.transform(["the movie is very bad, I would like to gouge my eyes out"])

# Hacemos la predicción y vemos que sale
print(lr.predict(opinion_1))
print(lr.predict(opinion_2))
print(lr.predict(opinion_3))

['positive']
['negative']
['negative']


 <h2>Evaluación del Modelo</h2>

 <h3>Score</h3>

In [83]:
score_svc = svc.score(x_test_vector,y_test)
score_dec_tree = dec_tree.score(x_test_vector,y_test)
score_gnb = gnb.score(x_test_vector.toarray(),y_test)
score_lr = lr.score(x_test_vector,y_test)

In [84]:
print('Scores')
print('scv = ',score_svc)
print('tree = ',score_dec_tree)
print('gnb = ',score_gnb)
print('lr = ',score_lr)

Scores
scv =  0.8175
tree =  0.695
gnb =  0.6075
lr =  0.8125


 <h3>F1 Score</h3>

In [91]:
from sklearn.metrics import f1_score

f1_score(y_test,svc.predict(x_test_vector),labels=['positive','negative'],average=None)
# nos va a decir el score de positivo y negativo

array([0.82324455, 0.81136951])

 <h3>Reporte de clasificación</h3>

In [95]:
from sklearn.metrics import classification_report

cr  = classification_report(y_test,svc.predict(x_test_vector),labels=['positive','negative'])
print(cr)

              precision    recall  f1-score   support

    positive       0.80      0.85      0.82       201
    negative       0.84      0.79      0.81       199

    accuracy                           0.82       400
   macro avg       0.82      0.82      0.82       400
weighted avg       0.82      0.82      0.82       400



 <h3>Confusion Matrix</h3>

In [97]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test,svc.predict(x_test_vector),labels=['positive','negative'])
# nos da una matriz con los verdaderos Positvos y Negativos y falsos Positivos y Negativos

# (verdadero_P)  (falso_P)
# (falso_N)      (verdadero_N)

array([[170,  31],
       [ 42, 157]], dtype=int64)

 <h2>Optimización del Modelo</h2>

 <h3>GrindSearchCV</h3>

In [101]:
from sklearn.model_selection import GridSearchCV

# Buscamos los mejores parametros para nuestro modelo

# C = es un parametro de pemalización, es como un término de error, el cual
# indica a la optimización del algoritmo cuanto error es soportable

# kernel= es parte de nuestro sistema que hace nuestro procesamiento y en el cual le especificamos
#que tipo de funcion tiene que usar(lineales,polinomicas,etc.)

parametros= {'C':[1,4,8,16,32] , 'kernel':['linear','rbf']}

# Ahora testeamos los parametros
# GrindSearchSV se va a encargar de buscar dentro los parámetros cuales son los mejores para nuestro
# modelo, va a optimizar nuestro modelo y nos va a dar los mejores parámetros

svc= SVC()
svc_grid = GridSearchCV(svc, parametros, cv=5)
svc_grid.fit(x_train_vector,y_train)

In [102]:
best_est = svc_grid.best_estimator_
best_param = svc_grid.best_params_

In [103]:
print('mejor estimador: ', best_est)
print('mejores parámetros: ',best_param)

mejor estimador:  SVC(C=4, kernel='linear')
mejores parámetros:  {'C': 4, 'kernel': 'linear'}


In [105]:
best_score = svc_grid.best_score_
print('el mejor score: ', best_score)

el mejor score:  0.835625
