# Clasificación supervisada

La clasificación supervisada en textos funciona conceptualmente de manera similar a la clasificación en otros problemas de Machine Learning con datos estructurados:

1. Se requiere preprocesar la información (en el caso de datos no estructurados, convertir los textos a TFIDF).
2. Dividir en entrenamiento y test el conjunto de textos.
3. Entrenar al modelo incluyendo el set de train.
4. Evaluación del modelo, lanzando la predicción sobre el conjunto de test y evaluándolo con los valores reales.

En este notebook, vamos a aplicar los distintos modelos que hemos visto en clase para clasificación. Puedes hacerlo en notebooks diferentes (cada uno de los modelos) o todos en el mismo. Sigue la secuencia de pasos anterior, aplicando correctamente las funciones necesarias en cada paso, para cada uno de los modelos:

- Clasificador ingenuo bayesiano
- SVM
- KNN
- Decision tree
- Random Forest

¿Cuál funciona mejor? ¿En qué métricas te has basado?

In [2]:
## Importación de librerías

import spacy
import pandas as pd

nlp_español = spacy.load('es_core_news_lg')  

In [3]:
## Lectura de datos

datos = pd.read_csv('data/hotel.csv')
print(datos.head())
print(datos.shape)
print(datos.columns)

                                                text  label
0  Es un gran hotel; el mejor de Asunción. Buenas...      3
1  hola. no suelo criticar jamas lo que paso pero...      3
2  Escogi meses antes de mi boda una habitacion p...      3
3  Voy a se Lo mas equitativo posible; porque soy...      3
4  Esta es una experiencia de septiembre de 2016;...      3
(200, 2)
Index(['text', 'label'], dtype='object')


### 1.1. Preprocesamiento y normalización
Vamos a separar los documentos y sus categorías. docs y categs son series de Pandas. Hay que separar las categorías de los documentos para usar estos últimos y obtener la matriz Tf-idf.

In [4]:
docs = datos.iloc[:,0] # extract column with review
categs = datos.iloc[:,-1] # extract column with sentiment

In [5]:
docs

0      Es un gran hotel; el mejor de Asunción. Buenas...
1      hola. no suelo criticar jamas lo que paso pero...
2      Escogi meses antes de mi boda una habitacion p...
3      Voy a se Lo mas equitativo posible; porque soy...
4      Esta es una experiencia de septiembre de 2016;...
                             ...                        
195    Excelente atención; instalaciones; comodidad; ...
196    Realmente disfrutamos en pareja por 2 noches d...
197    Muy buena excelente; muy buena ubicación; cerc...
198    Pasé con mi familia la celebración del Año Nue...
199    La amabilidad de todo el personal (sin excepci...
Name: text, Length: 200, dtype: object

In [6]:
print("Datos es tipo: ", type(datos))
print("Docs es tipo: ", type(docs))
print("Categs es tipo: ", type(categs))

Datos es tipo:  <class 'pandas.core.frame.DataFrame'>
Docs es tipo:  <class 'pandas.core.series.Series'>
Categs es tipo:  <class 'pandas.core.series.Series'>


### 1.2. Obtención de las matrices BOW y Tf-idf

Obten la matriz TFIDF de todos los textos. Se puede obtener a partir de la matriz BOW.

In [7]:
# tokenizamos los documentos y convertimos en matriz BOW

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
docs_bow = vectorizer.fit_transform(docs)


In [14]:
docs[0]

'Es un gran hotel; el mejor de Asunción. Buenas habitaciones; la gente es maravillosa; el servicio es excelente; la comida muy buena. Pero me cargaron doble mi estadia; una por expedia y una en el hotel al hacer el checkout. Tuve que llamar varias veces y estar en el teléfono horas para que me devolvieran el dinero. Lo único malo es el Gimnasio; ellos anuncian un Gimnasio pero es solo un pard e caminadoras; ojalá tuvieran mejores equipos.'

In [16]:
# Construimos la matriz formato Tf-idf

from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer() 
docs_tfidf = tfidf.fit_transform(docs_bow)
docs_tfidf_densa = docs_tfidf.todense()
docs_tfidf_densa

matrix([[0.        , 0.        , 0.        , ..., 0.        , 0.11515974,
         0.        ],
        [0.04403155, 0.        , 0.        , ..., 0.        , 0.        ,
         0.        ],
        [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
         0.        ],
        ...,
        [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
         0.        ],
        [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
         0.        ],
        [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
         0.        ]])

### 2. Preparación de los subconjuntos de entrenamiento y test

Divide entre train y test, utilizando train_test_split.

In [17]:
# División mediante train_test_split. Test de 25%

from sklearn.model_selection import train_test_split
docs_train, docs_test, categs_train, categs_test = train_test_split(docs_tfidf, categs, test_size = 0.25, 
                                                                    random_state = 50)

### 3. Entrenamiento del modelo: clasificador ingenuo bayesiano (MultinomialNB)

In [18]:
# Entrenamiento del clasificador NB

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(docs_train, categs_train)

MultinomialNB()

### 4. Evaluación del modelo.

Obtén la confusión matrix para evaluar el rendimiento del modelo, así como el accuracy (utilizando la función score).

In [19]:
# Predicción del set de test

categs_pred = clf.predict(docs_test)

In [20]:
# Confusion Matrix

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(categs_test, categs_pred)
cm

array([[25,  0],
       [23,  2]])

In [21]:
acc_train = clf.score(docs_train, categs_train)
acc_test = clf.score(docs_test, categs_test)

print("Accuracy entrenamiento: ", acc_train)
print("Accuracy PRUEBA: ", acc_test)
print("Fiabilidad: ", acc_test / acc_train)  

Accuracy entrenamiento:  0.9133333333333333
Accuracy PRUEBA:  0.54
Fiabilidad:  0.5912408759124088
