## LAB: Clasificación de texto

Para entender el efecto de la cantidad de dimensiones en la capacidad predictiva del modelo vamos a trabajar en un clasificador de noticias de dos diarios argentinos para intentar distinguir entre uno y otro a partir del vocabulario que utilizan. <br />

Para esto vamos a implementar un modelo de tipo Naïve Bayes con vectorización de tipo TF-IDF.

In [1]:
import pandas as pd
df_clarin = pd.read_csv('../Data/clarin.csv')
df_clarin['class'] = 0

In [2]:
df_p12 = pd.read_csv('../Data/pagina12.csv')
df_p12['class'] = 1

In [3]:
df = pd.concat([df_clarin,df_p12])

In [4]:
df.sample(10)

Unnamed: 0.1,Unnamed: 0,cuerpo,fecha_hora,imagen,resumen,suplemento,titulo,url,class
6,6,“Síganlo buscando” fue la cínica respuesta de ...,08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Agentes de la Gendarmería ingresaron ayer a la...,El país,"""Síganlo buscando""",https://www.pagina12.com.ar/67881-siganlo-busc...,1
112,112,,,,,/tecnologia/,,http://www.clarin.com/tecnologia/frenan-produc...,0
183,183,Juan Martín Del Potro tuvo que esforzarse al m...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/width960...,,Deportes,Del Potro puso primera en Shanghai,https://www.pagina12.com.ar/68170-del-potro-pu...,1
157,157,Que la Selección esté en Rusia 2018 no es fá...,09/10/2017,//images.clarin.com/2017/10/09/rJJhWHYhb_930x5...,Si bien será determinante lo que suceda ante E...,/deportes/futbol/,Ecuador-Argentina: filtran la supuesta camiset...,http://www.clarin.com/deportes/futbol/ecuador-...,0
167,167,Con una nueva jornada de alegatos continúa hoy...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,,El país,Juicio a los jueces,https://www.pagina12.com.ar/68123-juicio-a-los...,1
69,69,El proyecto de presupuesto 2018 encendió las a...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Los fondos para el organismo serán 3102 millon...,Economía,Luces de alarma se encienden en la CNEA,https://www.pagina12.com.ar/67957-luces-de-ala...,1
367,367,La aerolínea neozelandesa Air New Zealand co...,09/10/2017,//images.clarin.com/2017/03/26/HkIm3HH3l_930x5...,Air New Zealand sumará frecuencias entre Bueno...,/viajes/,Más vuelos entre Argentina y Nueva Zelanda,http://www.clarin.com/viajes/vuelos-argentina-...,0
373,373,Ocho estudiantes de arquitectura de la Unive...,09/10/2017,//images.clarin.com/2017/10/09/SkYDoEtn-_930x5...,Estudiantes de la Universidad de Córdoba ganar...,/arq/,Cordobeses premiados en un certamen de arquite...,http://www.clarin.com/arq/arquitectura/cordobe...,0
339,339,AriesSigue la energía del Plenilunio operan...,09/10/2017,//images.clarin.com/2017/10/09/Hk3k3eFnW_930x5...,El ingreso de Júpiter a Escorpio es uno de los...,/entremujeres/,Horóscopo semanal: Júpiter ingresa a Escorpio ...,http://www.clarin.com/entremujeres/astrologia/...,0
227,227,"El dueño de los Cavaliers, Dan Gilbert, dijo...",30/09/2017,//images.clarin.com/2017/09/30/rkucYd6iZ_930x5...,Los deportistas estadounidenses están enfrenta...,/deportes/basquet/,Insultos y amenazas al dueño de los Cavaliers ...,http://www.clarin.com/deportes/basquet/insulto...,0


### 1. Limpieza

#### 1.1 Faltantes

A partir del dataset observamos que los campos que probablemente contengan el vocabulario relevante son "cuerpo", "título" y "resumen".
Sacar del análisis los registros que no tienen cuerpo o título disponible y completar los resúmenes faltantes con una campo en blanco


#### 1.2 Suplementos relevantes

Para mejorar la clasificación es conveniente retirar las secciones donde los dos diarios utilizan un vocabulario similar y muy específico del dominio como, por ejemplo, las relacionadas a deportes.

#### 1.3 Corpus

Construir la columna sobre la cual vamos a predecir concatenando el título, resumen y cuerpo de las distintas noticias.

#### 1.4 Normalización del texto

Primero es conveniente pasar todo el corpus a letras minúsculas.

Para mejorar el clasificador es importante sacar todos los acentos que pueden generar diferencias artificiales entre palabras según estén o no puestos. Hint: Utilizar el módulo unidecode

Una vez retirados los acentos, quitar todos los signos de puntuación para dejar únicamente palabras. Hint: utilizar una expresión regular, por ejemplo, r'([^\s\w]|_)+' para reemplazar todo lo que no sean palabras.

## 2. Modelo

Vectorizar el corpus resultante con TF-IDF y aplicar un modelo Naive Bayes con un split simple entre train y test. 
<br />
¿Cuál es la dimensión de la matriz de features? ¿Cuál es el accuracy obtenido? <br />
Dibujar la matriz de confusión.

## 3. Reducción de la dimensionalidad

¿Cuál es la relación entre la cantidad de features y la cantidad de casos de entrenamiento? De acuerdo a la maldición de la dimensionalidad esta relación es un problema.<br/>
Una de las técnicas más comunes para reducir dimensiones es utilizar "stopwords", una lista con las palabras de cada idioma que no tienen un peso semántico importante. <br />
Entrenen nuevamente el modelo quitando las stopwords del español que se encuentran en el archivo "stopwords.csv". <br />
¿Qué pasa con la cantidad de dimensiones de la matriz de features? ¿Y con el accuracy?

## 4. Avanzando en la reducción de dimensiones

El modelo mejora cuando quitamos las stopwords pero todavía tenemos una cantidad de dimensiones demasiado alta para 
la cantidad de datos que tenemos.

Pensemos lo siguiente ¿Qué valor tienen las palabras que aparecen una o dos veces en todo el corpus a la hora de discriminar? Para remover del análisis las palabras que ocurren menos de determinada cantidad de veces, la clase TfidfVectorizer tiene un parámetro min_df. 

Prueben setear el parámetro min_df en 6 y volver a correr el modelo.
<br />
<strong>
¿A cuánto se reduce la dimensión de la matriz de features?
<br />
¿Cuánto mejora la performance del algoritmo?
<strong />