## LAB: Clasificación de texto

Para entender el efecto de la cantidad de dimensiones en la capacidad predictiva del modelo vamos a trabajar en un clasificador de noticias de dos diarios argentinos para intentar distinguir entre uno y otro a partir del vocabulario que utilizan. <br />

Para esto vamos a implementar un modelo de tipo Naïve Bayes con vectorización de tipo TF-IDF.

In [1]:
import pandas as pd
df_clarin = pd.read_csv('../Data/clarin.csv')
df_clarin['class'] = 0

In [2]:
df_p12 = pd.read_csv('../Data/pagina12.csv')
df_p12['class'] = 1

In [3]:
df = pd.concat([df_clarin,df_p12])

In [4]:
df.sample(10)

Unnamed: 0.1,Unnamed: 0,cuerpo,fecha_hora,imagen,resumen,suplemento,titulo,url,class
53,53,"""Si volvés tarde, tomate un taxi"", es una fr...",10/10/2017,//images.clarin.com/2016/10/26/rkXGWlX7Z_930x5...,La creó una taxista de Rosario como opción par...,/ciudades/,Quieren que una app para pedir taxis conducido...,http://www.clarin.com/ciudades/quieren-app-ped...,0
109,109,“Queremos expresar nuestra severa preocupación...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Candidatos y representantes legales de Unidad ...,El país,Sin respuestas tras las maniobras de las PASO,https://www.pagina12.com.ar/68062-sin-respuest...,1
79,79,"Desde el principio de los tiempos, se sabe q...",28/09/2017,//images.clarin.com/2017/09/28/rkyAzWiob_930x5...,OTRAS CARTAS. Reclama a los políticos que escu...,/cartas_al_pais/,Espero que el Papa no le haga daño al país y d...,http://www.clarin.com/cartas-al-pais/espero-pa...,0
311,311,"""Qué es la vida?: Una taza de café ¿Qué es e...",10/10/2017,//images.clarin.com/2017/10/05/SJQEDC72-_930x5...,"""Sobre Mirjana y los que la rodean"", la nueva ...",/espectaculos/teatro/,La insoportable levedad de la vida cotidiana,http://www.clarin.com/espectaculos/teatro/inso...,0
68,68,El presupuesto 2018 prevé destinar a ciencia y...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,El presupuesto que reciben el Ministerio de Ci...,Economía,Un sector que no es prioridad,https://www.pagina12.com.ar/67958-un-sector-qu...,1
5,5,"En un nuevo acto de campaña, esta vez en Malv...",08 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,La ex presidenta y candidata a senadora encabe...,El país,“Están a un pasito de volver a hablar de campa...,https://www.pagina12.com.ar/67879-estan-a-un-p...,1
200,200,Desde Cochabamba\nLa conmemoración de los 50 a...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,Ayer concluyeron los cinco días de homenaje a ...,El mundo,“Vamos a morir como antiimperialistas”,https://www.pagina12.com.ar/68125-vamos-a-mori...,1
66,66,El sistema de Cobertura Universal de Salud que...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,El ex ministro advirtió que con el sistema de ...,Sociedad,“Un anuncio electoral”,https://www.pagina12.com.ar/67953-un-anuncio-e...,1
256,256,El seleccionado argentino masculino de hocke...,08/08/2017,//images.clarin.com/2017/08/08/ryepJFPPb_930x5...,Vencieron 12 a 0 a Venezuela y ganaron su grup...,/deportes/hockey/,Los Leones mantuvieron el ritmo arrollador y e...,http://www.clarin.com/deportes/hockey/leones-m...,0
195,195,La compañía de concesión de infraestructuras A...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,El traslado de la sede social garantiza a las ...,El mundo,Las empresas desconfían y se van,https://www.pagina12.com.ar/68141-las-empresas...,1


### 1. Limpieza

#### 1.1 Faltantes

A partir del dataset observamos que los campos que probablemente contengan el vocabulario relevante son "cuerpo", "título" y "resumen".
Sacar del análisis los registros que no tienen cuerpo o título disponible y completar los resúmenes faltantes con una campo en blanco


#### 1.2 Suplementos relevantes

Para mejorar la clasificación es conveniente retirar las secciones donde los dos diarios utilizan un vocabulario similar y muy específico del dominio como, por ejemplo, las relacionadas a deportes.

#### 1.3 Corpus

Construir la columna sobre la cual vamos a predecir concatenando el título, resumen y cuerpo de las distintas noticias.

#### 1.4 Normalización del texto

Primero es conveniente pasar todo el corpus a letras minúsculas.

Para mejorar el clasificador es importante sacar todos los acentos que pueden generar diferencias artificiales entre palabras según estén o no puestos. Hint: Utilizar el módulo unidecode

Una vez retirados los acentos, quitar todos los signos de puntuación para dejar únicamente palabras. Hint: utilizar una expresión regular, por ejemplo, r'([^\s\w]|_)+' para reemplazar todo lo que no sean palabras.

## 2. Modelo

Vectorizar el corpus resultante con TF-IDF y aplicar un modelo Naive Bayes con un split simple entre train y test. 
<br />
¿Cuál es la dimensión de la matriz de features? ¿Cuál es el accuracy obtenido? <br />
Dibujar la matriz de confusión.

## 3. Reducción de la dimensionalidad

¿Cuál es la relación entre la cantidad de features y la cantidad de casos de entrenamiento? De acuerdo a la maldición de la dimensionalidad esta relación es un problema.<br/>
Una de las técnicas más comunes para reducir dimensiones es utilizar "stopwords", una lista con las palabras de cada idioma que no tienen un peso semántico importante. <br />
Entrenen nuevamente el modelo quitando las stopwords del español que se encuentran en el archivo "stopwords.csv". <br />
¿Qué pasa con la cantidad de dimensiones de la matriz de features? ¿Y con el accuracy?

## 4. Avanzando en la reducción de dimensiones

El modelo mejora cuando quitamos las stopwords pero todavía tenemos una cantidad de dimensiones demasiado alta para 
la cantidad de datos que tenemos.

Pensemos lo siguiente ¿Qué valor tienen las palabras que aparecen una o dos veces en todo el corpus a la hora de discriminar? Para remover del análisis las palabras que ocurren menos de determinada cantidad de veces, la clase TfidfVectorizer tiene un parámetro min_df. 

Prueben setear el parámetro min_df en 6 y volver a correr el modelo.
<br />
<strong>
¿A cuánto se reduce la dimensión de la matriz de features?
<br />
¿Cuánto mejora la performance del algoritmo?
<strong />