# 1. Carga de datos

Cargamos el dataset con el comando load_files desde el directorio del programa.

In [3]:
from sklearn.datasets import load_files
archivos = load_files('txt_sentoken')

# 2. Creación del pipeline

Creamos el pipeline para clasificar las reviews de las películas. Despues de probar Naive Bayes y SVM como clasificadores, elegimos al primero por obtener mejores scores en la evaluacion de la precision, valores que estan detallados en la parte de analisis de datos.

In [4]:
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

clasificador = Pipeline([('vector', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clasif', MultinomialNB(alpha = 1.0))])
clasificador = clasificador.fit(archivos.data, archivos.target)

# 3. Configuración de parámetros - Grid Search

Hacemos una selección de parámetros a variar en el pipeline para el grid search.

In [7]:
parametros = {'vector__ngram_range': [(1, 1), (2, 3)], 'tfidf__use_idf': (True, False), 'clasif__alpha': (1e-2, 1e-3)}

Instanciamos el grid search y evaluamos el grado de exactitud del clasificador segun los parámetros elegidos, el cual es aproximadamente 0.85.

In [9]:
from sklearn.model_selection import GridSearchCV
gridS_clasif = GridSearchCV(clasificador, parametros, cv = 8, n_jobs = -1)
gridS_clasif = gridS_clasif.fit(archivos.data, archivos.target)

gridS_clasif.best_score_

0.8505

Vemos cuáles son, además, los mejores parámetros entre los elegidos.

In [5]:
gridS_clasif.best_params_

{'clasif__alpha': 0.01, 'tfidf__use_idf': False, 'vector__ngram_range': (2, 3)}

Buscamos diferentes maneras de aumentar la precisión del clasificador; la primera prueba fue bajar el valor de tolerancia del error, pero nos encontramos con que esto podía hasta disminuir la obtenida con los valores presentes.

Probamos luego con el aumento del cv; si bien observamos que había una mejora (leve) con esto, al darle valores muy altos, la precisión llegaba a un punto en que no mejoraba y ralentizaba la ejecución del programa. cv = 8 fue la mejor opción que encontramos en un equilibrio entre tiempo y valor.

Las diferentes pruebas nos llevaron a los parámetros presentes, logrando como mejor score 0.85. En la sección siguiente evaluaremos esta precisión con diferentes técnicas para obtener valores mas acercados a la ejecución real.

# 4. Evaluación del clasificador 

### Técnica: Hold Out

In [12]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(archivos.data, archivos.target, test_size = 0.25)

print("Cantidad de datos de entrenamiento: ",len(X_train))
print("Cantidad de datos de prueba: ",len(X_test))

Cantidad de datos de entrenamiento:  1500
Cantidad de datos de prueba:  500


In [13]:
clasificador = clasificador.fit(X_train, y_train)

predicted = clasificador.predict(X_test)

import numpy as np
print (np.mean (predicted == y_test))

0.788


### Técnica: Validación Cruzada

In [8]:
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer

clasif = MultinomialNB()
X = TfidfVectorizer()
X = X.fit_transform(archivos.data)
scores = cross_val_score(clasif, X, archivos.target, cv = 5, error_score = 'raise')

print (scores)                                              

[0.82   0.795  0.8075 0.81   0.7825]


Estos valores los conseguimos con la técnica simple de validación cruzada. A continuación probaremos las variantes no estratificada, estratificada y aleatoria.

##### No estratificada

In [9]:
from sklearn.model_selection import KFold

cv_no_estratificado = KFold(n_splits = 3)
scores = cross_val_score(clasif, X, archivos.target, cv = cv_no_estratificado, error_score = 'raise')

print (scores)

[0.83508246 0.77661169 0.77027027]


##### Estratificada

In [10]:
from sklearn.model_selection import StratifiedKFold

cv_estratificado = StratifiedKFold(n_splits = 3)
scores = cross_val_score(clasif, X, archivos.target, cv = cv_estratificado, error_score = 'raise')

print (scores)

[0.81586826 0.7987988  0.78528529]


##### Aleatoria

In [11]:
from sklearn.model_selection import ShuffleSplit

cv_aleatorio = ShuffleSplit(n_splits = 3)
scores = cross_val_score(clasif, X, archivos.target, cv = cv_aleatorio, error_score = 'raise')

print (scores)

[0.815 0.875 0.825]


Observamos que luego de realizar las pruebas obtenemos valores similares entre las técnicas, los cuales se encuentran todos en el intervalo (0.77 - 0.87).

# 5. Análisis de los datos obtenidos

- Exactitud del clasificador = 0.8505 (limite mayor)

Se ve como el clasificador implementado llega a tener una buena precision en la prediccion de datos en base al entrenamiento con el dataset. Si bien no se llega a una precision total, logramos acercarnos a un 85% (aproximadamente), lo que nos dice que los parametros elegidos fueron correctos.



- Valor del hold out = 0.788 

En una evaluacion sobre el total de las clasificaciones y utilizando la tecnica hold out, llegamos a un 78,8% de exactitud general del clasificador. Se ve reducida frente al limite mayor, pero sigue estando en un valor alto de precision. Igualmente es un valor que podria mejorarse y reducir la tasa de 25% de error.



- Valores de validacion cruzada = (0.77 - 0.87)

Con esta tecnica de evaluacion conseguimos valores de precision dentro del intervalo dado. Si se observa, es un valor parecido al obtenido con hold out, lo que es algo esperado si evaluamos con esta ultima tecnica primero.



-------------------------------------------------------------------------------------------------------------------------------

Concluyendo en base a los resultados obtenidos, podemos deducir que el clasificador tiene una precision de prediccion cercana al 78%, llegando en ocasiones a valores menores y mayores pero que, en general, se acercan a dicha magnitud. Es un valor bueno pero mejorable; la tasa de error del 22% es alta por lo que podria plantearse una serie diferente de parametros o aumentar el tamaño del dataset de entrenamiento.