# Taller Evaluado de Classificación
## Minería de Datos 2020

### 1.- Cancer Cérvico Uterino

Más de 300.000 mujeres mueren anualmente a causa del Cáncer Cérvico Uterino (CaCu). Para detectar el CaCu se utilizan distintos métodos: el más conocido es el Frotis de Papanicolaou (PAP) que consiste en el raspado de células del cérvix, las que son analizadas en laboratorio para detectar anomalías (Citología). A pesar de todas las cualidades que el PAP ostenta, tiene bastantes falsos positivos y aún mas falsos negativos.  Otro exámen es la colposcopía (de Hinselmann y de Schiller) que son exámenes que realiza el mismo Ginecólogo en su consulta, y por lo tanto propensos a errores. La prueba más concluyente corresponde a la biopsia, pero al ser invasiva, dirigida y costosa, es el último método de confirmación del CaCu. El predecir los resultados de la biopsia basados en los examenes previos y los datos clínicos del paciente, ayuda a focalizar estos exámenes adecuadamente.

En este taller utilizaremos un dataset llamado `cacu.csv` que puede encontrar en el aula (junto a este archivo). Este dataset contiene variables que mayormente son autoexplicativas (e.g., edad, si es fumadora, si utiliza métodos anticonceptivos, etc.). Sin embargo, se utilizan siglas médicas que continuación se detallan:

* IUD - Intra Uterine Device (a form of contraceptive)
* STDs - Sexually Transmitted Diseases
* HPV - Human Papilloma Virus
* HIV - Human Immunodeficiency Virus
* AIDS - Acquired Immunodeficiency Syndrome (caused by HIV)
* CIN - Cervical Intraepithelial Neoplasia
* Dx - Medical Abbreviation for Diagnosis

Este estudio consta de 858 pacientes a las que se le realizaron los 4 exámenes (las 4 últimas columnas: Hinselmann, Schiller, Citology, Biopsy), y se les recolectaron los datos demográficos y clínicos. 

#### **1.1.** Carga de Datos

Naturalmente, no toda la información pudo ser recolectada, por lo que cuando se desconoce algún dato se reemplaza por '?'. Utilice pandas para cargar los datos y reemplazar los '?' por el ya conocido indicador NaN. Reporte cuantas entradas no están disponibles por cada columna.

In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt


In [12]:
df_cacu = pd.read_csv('cacu.csv')

df_cacu.head(10)

Unnamed: 0,Age,Number of sexual partners,First sexual intercourse,Num of pregnancies,Smokes,Smokes (years),Smokes (packs/year),Hormonal Contraceptives,Hormonal Contraceptives (years),IUD,...,STDs: Time since first diagnosis,STDs: Time since last diagnosis,Dx:Cancer,Dx:CIN,Dx:HPV,Dx,Hinselmann,Schiller,Citology,Biopsy
0,18,4.0,15.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
1,15,1.0,14.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
2,34,1.0,?,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
3,52,5.0,16.0,4.0,1.0,37.0,37.0,1.0,3.0,0.0,...,?,?,1,0,1,0,0,0,0,0
4,46,3.0,21.0,4.0,0.0,0.0,0.0,1.0,15.0,0.0,...,?,?,0,0,0,0,0,0,0,0
5,42,3.0,23.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,0,0,0,0,0,0,0,0
6,51,3.0,17.0,6.0,1.0,34.0,3.4,0.0,0.0,1.0,...,?,?,0,0,0,0,1,1,0,1
7,26,1.0,26.0,3.0,0.0,0.0,0.0,1.0,2.0,1.0,...,?,?,0,0,0,0,0,0,0,0
8,45,1.0,20.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,...,?,?,1,0,1,1,0,0,0,0
9,44,3.0,15.0,?,1.0,1.266972909,2.8,0.0,0.0,?,...,?,?,0,0,0,0,0,0,0,0


**PREGUNTA**: Elimine las columnas que tienen menos de 50% de datos validos y reporte la cantidad de pacientes que tienen al menos un campo en NaN. ¿Qué puede pasar si eliminamos las características que tienen algunos NaNs? ¿Qué puede pasar si eliminamos a las pacientes que tienen algunos NaNs? 

In [28]:
df_cacu.replace('?',np.nan)
df_cacu.isna().count()

Age                                   858
Number of sexual partners             858
First sexual intercourse              858
Num of pregnancies                    858
Smokes                                858
Smokes (years)                        858
Smokes (packs/year)                   858
Hormonal Contraceptives               858
Hormonal Contraceptives (years)       858
IUD                                   858
IUD (years)                           858
STDs                                  858
STDs (number)                         858
STDs:condylomatosis                   858
STDs:cervical condylomatosis          858
STDs:vaginal condylomatosis           858
STDs:vulvo-perineal condylomatosis    858
STDs:syphilis                         858
STDs:pelvic inflammatory disease      858
STDs:genital herpes                   858
STDs:molluscum contagiosum            858
STDs:AIDS                             858
STDs:HIV                              858
STDs:Hepatitis B                  

#### **1.2.** Imputación de Datos

Para evitar perder información valiosa, vamos inputar los datos faltantes. Genere un vector los nombres de las características incompletas (columnas con NaN) que son de tipo binarias, otro vector con las características de tipo numéricas, y otro con las características de tipo real. Reemplace los NaNs de las características binarias por -1 (representando el concepto de desconocido), y reemplace las variables naturales con su media.

In [None]:
# Ponga su código 

**PREGUNTA**: ¿Qué efectos puede tener esta estrategia de imputación? Justifique utilizando los estadísticos descriptivos (``describe()``) de pandas.

In [None]:
# Ponga su código 

**1.3** Preparación de Datos
Defina un subconjunto de testing del 20% de los datos de forma aleatoria, y separe la característica ``Biopsy`` como la variable target.  

In [None]:
# Ponga su código 

**PREGUNTA**: Genere un diagrama de dispersión entre la edad y el número de embarazos de las pacientes. Distinga en diferentes colores aquellos que pertenecen al conjunto de training y testing. ¿Cree que el testing es representativo? (puede correr el split varias veces). ¿A qué sesgos puede llevarnos un mal split?

In [None]:
# Ponga su código 

### 2.- Evaluación de Classificadores

Considere los siguientes clasificadores
1. Nearest Neighbors Classifier with 10 neighbors
1. Decision Tree with maximum depth of 10
1. Random Forest with maximum depth of 10 and 10 estimators 
1. Artificial Neural Network with $\alpha = 1$
1. Naive Bayes (parámetros por defecto)
1. Quadratic Discriminant Analysis (parámetros por defecto)

#### **2.1.-** Evalue el desempeño de los clasificadores

Imprima la curva ROC de cada clasificador y reporte su accuracy, F1-score y AUC utilizando los conjuntos seleccionados en la pregunta anterior. Además, mida el tiempo de entrenamiento y el tiempo de clasificación de cada uno.

In [12]:
# Ponga su código 

**PREGUNTA**: Fundamente la selección del mejor clasificador basandose tanto en las 3 métricas de rendimiento como en los tiempos de cómputo. ¿Cómo es posible tener valores elevados de AUC pero bajos en F1-score? ¿Podría pasar lo contrario (altos en F1-score, bajos en AUC)?

In [None]:
# Ponga su código 

####  **2.2.-** GridSearch

Realice un *gridsearch* para algún parámetro del clasificador seleccionado y reporte los resultados. Muestre las diferencias entre el parámetro original y su mejor resultado ocupando los datos de testing.

In [None]:
# Ponga su código 

**PREGUNTA**: ¿Puede usted argumentar que el mejor resultado que usted encontró con este *gridsearch* no es debido a simple variabilidad en los resultados?

In [None]:
# Ponga su código 

### 3. Análisis Libre

Escriba el código que usted estime conveniente para respaldar respuesta la pregunta final de este notebook.


In [None]:
# Ponga su código 

**PREGUNTA FINAL**: ¿Qué conclusión podría usted sacar respecto al objetivo de predecir el resultado de la biopsia? Imagine ahora que usted es parte de la autoridad sanitaria del país. ¿Tomaría usted una decisión de política pública con este análisis? Fundamente su respuesta basandose no solo en la calidad del análisis, sino que en la calidad de los datos.

In [None]:
# Ponga su código 