## LAB: La maldición de la dimensionalidad

Para entender el efecto de la cantidad de dimensiones en la capacidad predictiva del modelo vamos a trabajar en un clasificador de noticias de dos diarios argentinos para intentar distinguir entre uno y otro a partir del vocabulario que utilizan. <br />

Para esto vamos a implementar un modelo de tipo Naïve Bayes con vectorización de tipo TF-IDF.

In [1]:
import pandas as pd
df_clarin = pd.read_csv('../Data/clarin.csv')
df_clarin['class'] = 0

In [2]:
df_p12 = pd.read_csv('../Data/pagina12.csv')
df_p12['class'] = 1

In [3]:
df = pd.concat([df_clarin,df_p12])

In [4]:
df.sample(10)

Unnamed: 0.1,Unnamed: 0,cuerpo,fecha_hora,imagen,resumen,suplemento,titulo,url,class
151,151,Varias especialistas en género criticaron al G...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,En la presentación del Observatorio de Igualda...,Sociedad,“No hay igualdad sin cambio”,https://www.pagina12.com.ar/68145-no-hay-igual...,1
125,125,El repudio a la cosificación de la mujer y a l...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/width960...,,,BAILARINAS,https://www.pagina12.com.ar/68094-bailarinas,1
126,126,Ya pasaron veinte años desde la noche de 199...,06/10/2017,,"Para empezar a festejar, la historia de un cer...",/revista-enie/,Los veinte años de un clásico,http://www.clarin.com/revista-enie/literatura/...,0
80,80,Una de las filminas más impactantes que presen...,09 de octubre de 2017,https://images.pagina12.com.ar/styles/width960...,,El país,Deuda: nos están avisando,https://www.pagina12.com.ar/67973-deuda-nos-es...,1
310,310,Fui a ver Zama con gran expectativa sobre qu...,06/10/2017,,,/espectaculos/musica/,"""Zama"" y los sonidos de la mente",http://www.clarin.com/espectaculos/musica/zama...,0
131,131,El Banco de Suecia anunció ayer el premio Nobe...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,El investigador estadounidense se alzó con el ...,Economía,Nobel a la teoría de moda,https://www.pagina12.com.ar/68134-nobel-a-la-t...,1
217,217,En la conferencia de prensa brindada hoy por l...,10 de octubre de 2017,https://images.pagina12.com.ar/styles/focal_16...,La ex presidenta fue crítica con el gobierno d...,El país,"""España está ante una encrucijada""",https://www.pagina12.com.ar/68237-espana-esta-...,1
130,130,"Las jubilaciones, el salario mínimo y la Asign...",10 de octubre de 2017,https://images.pagina12.com.ar/styles/width960...,,Economía,Ingresos devaluados,https://www.pagina12.com.ar/68135-ingresos-dev...,1
162,162,"Son más de 35 chicos y jóvenes, de ambos sex...",28/09/2017,//images.clarin.com/2017/09/24/HJPbK5HjW_930x5...,En el club de Villa Crespo funciona una escuel...,/deportes/ascenso/,Querido Ascenso: En Atlanta saben tirar parede...,http://www.clarin.com/deportes/ascenso/querido...,0
18,18,"Tras cinco días de bloqueo, crece la tensión...",10/10/2017,//images.clarin.com/2017/10/10/rJd2TE9hZ_930x5...,"Es la cooperativa Cotar, que por el conflicto ...",/politica/,Crece la tensión en la planta bloqueada por Ca...,http://www.clarin.com/politica/camioneros-llev...,0


### 1. Limpieza

#### 1.1 Faltantes

A partir del dataset observamos que los campos que probablemente contengan el vocabulario relevante son "cuerpo", "título" y "resumen".
Sacar del análisis los registros que no tienen cuerpo o título disponible y completar los resúmenes faltantes con una campo en blanco


#### 1.2 Suplementos relevantes

Para mejorar la clasificación es conveniente retirar las secciones donde los dos diarios utilizan un vocabulario similar y muy específico del dominio como, por ejemplo, las relacionadas a deportes.

#### 1.3 Corpus

Construir la columna sobre la cual vamos a predecir concatenando el título, resumen y cuerpo de las distintas noticias.

#### 1.4 Normalización del texto

Primero es conveniente pasar todo el corpus a letras minúsculas.

Para mejorar el clasificador es importante sacar todos los acentos que pueden generar diferencias artificiales entre palabras según estén o no puestos. Hint: Utilizar el módulo unidecode

Una vez retirados los acentos, quitar todos los signos de puntuación para dejar únicamente palabras. Hint: utilizar una expresión regular, por ejemplo, r'([^\s\w]|_)+' para reemplazar todo lo que no sean palabras.

## 2. Modelo

Vectorizar el corpus resultante con TF-IDF y aplicar un modelo Naive Bayes con un split simple entre train y test. 
<br />
¿Cuál es la dimensión de la matriz de features? ¿Cuál es el accuracy obtenido? <br />
Dibujar la matriz de confusión.

## 3. Reducción de la dimensionalidad

¿Cuál es la relación entre la cantidad de features y la cantidad de casos de entrenamiento? De acuerdo a la maldición de la dimensionalidad esta relación es un problema.<br/>
Una de las técnicas más comunes para reducir dimensiones es utilizar "stopwords", una lista con las palabras de cada idioma que no tienen un peso semántico importante. <br />
Entrenen nuevamente el modelo quitando las stopwords del español que se encuentran en el archivo "stopwords.csv". <br />
¿Qué pasa con la cantidad de dimensiones de la matriz de features? ¿Y con el accuracy?

## 4. Avanzando en la reducción de dimensiones

El modelo mejora cuando quitamos las stopwords pero todavía tenemos una cantidad de dimensiones demasiado alta para 
la cantidad de datos que tenemos.

Pensemos lo siguiente ¿Qué valor tienen las palabras que aparecen una o dos veces en todo el corpus a la hora de discriminar? Para remover del análisis las palabras que ocurren menos de determinada cantidad de veces, la clase TfidfVectorizer tiene un parámetro min_df. 

Prueben setear el parámetro min_df en 6 y volver a correr el modelo.
<br />
<strong>
¿A cuánto se reduce la dimensión de la matriz de features?
<br />
¿Cuánto mejora la performance del algoritmo?
<strong />