# Clasificación supervisada

La clasificación supervisada en textos funciona conceptualmente de manera similar a la clasificación en otros problemas de Machine Learning con datos estructurados:

1. Se requiere preprocesar la información (en el caso de datos no estructurados, convertir los textos a TFIDF).
2. Dividir en entrenamiento y test el conjunto de textos.
3. Entrenar al modelo incluyendo el set de train.
4. Evaluación del modelo, lanzando la predicción sobre el conjunto de test y evaluándolo con los valores reales.

En este notebook, vamos a aplicar los distintos modelos que hemos visto en clase para clasificación. Puedes hacerlo en notebooks diferentes (cada uno de los modelos) o todos en el mismo. Sigue la secuencia de pasos anterior, aplicando correctamente las funciones necesarias en cada paso, para cada uno de los modelos:

- Clasificador ingenuo bayesiano
- SVM
- KNN
- Decision tree
- Random Forest

¿Cuál funciona mejor? ¿En qué métricas te has basado?

In [1]:
## Importación de librerías

import spacy
import pandas as pd

nlp_español = spacy.load('es_core_news_lg')  

In [2]:
## Lectura de datos

datos = pd.read_csv("/Users/juan/Documents/Juan's MacBook Pro/CUNEF/Quinto/Informacion no Estructurada/Practica 1/hotel.csv")
print(datos.head())
print(datos.shape)
print(datos.columns)

                                                text  label
0  Es un gran hotel; el mejor de Asunción. Buenas...      3
1  hola. no suelo criticar jamas lo que paso pero...      3
2  Escogi meses antes de mi boda una habitacion p...      3
3  Voy a se Lo mas equitativo posible; porque soy...      3
4  Esta es una experiencia de septiembre de 2016;...      3
(200, 2)
Index(['text', 'label'], dtype='object')


### 1.1. Preprocesamiento y normalización
Vamos a separar los documentos y sus categorías. docs y categs son series de Pandas. Hay que separar las categorías de los documentos para usar estos últimos y obtener la matriz Tf-idf.

In [3]:
docs = datos.iloc[:,0] # extract column with review
categs = datos.iloc[:,-1] # extract column with sentiment

In [4]:
print("Datos es tipo: ", type(datos))
print("Docs es tipo: ", type(docs))
print("Categs es tipo: ", type(categs))

Datos es tipo:  <class 'pandas.core.frame.DataFrame'>
Docs es tipo:  <class 'pandas.core.series.Series'>
Categs es tipo:  <class 'pandas.core.series.Series'>


### 1.2. Obtención de las matrices BOW y Tf-idf

Obten la matriz TFIDF de todos los textos. Se puede obtener a partir de la matriz BOW.

In [20]:
# tokenizamos los documentos y convertimos en matriz BOW
vectorizer = CountVectorizer(max_features=20)
BOW = vectorizer.fit_transform(texto_hotel['text'])

vocab = vectorizer.get_feature_names_out()
pd.DataFrame(BOW.toarray(), columns=vocab)

In [1]:
# Construimos la matriz formato Tf-idf


### 2. Preparación de los subconjuntos de entrenamiento y test

Divide entre train y test, utilizando train_test_split.

In [2]:
# División mediante train_test_split. Test de 25%


### 3. Entrenamiento del modelo: clasificador ingenuo bayesiano (MultinomialNB)

In [3]:
# Entrenamiento del clasificador NB


### 4. Evaluación del modelo.

Obtén la confusión matrix para evaluar el rendimiento del modelo, así como el accuracy (utilizando la función score).

In [4]:
# Predicción del set de test


In [5]:
# Confusion Matrix

