#  <center> Taller  de Aprendizaje Automático </center>
##  <center> Taller 1: Titanic  </center>

En esta actividad se trabajará con el dataset [Titanic](https://www.kaggle.com/c/titanic/overview) disponible en Kaggle. El objetivo es predecir si un pasajero sobrevivirá a partir de atributos personales. La descripción de los atributos se encuentra en la misma [página](https://www.kaggle.com/c/titanic/data) en que se pueden bajar los datos. 

## Objetivos
 - Abordar un problema de aprendizaje automático de punta a punta
 - Familiarizarse con la biblioteca **pandas** para levantar y explorar los datos
 - Familiarizarse con los **pipelines** de **scikit-learn** como una forma de resolver un problema en forma ordenada.

## Formas de trabajo

### Opción 1: Trabajar localmente

Descargar los datos en su máquina personal y trabajar en su propio ambiente de desarrollo. Ej: **conda environment**.  

*conda create -n TAA-py38 python=3.8*  
*pip install numpy matplotlib pandas scikit-learn notebook*     
*conda activate TAA-py38*    
*jupyter-notebook*    

Los paquetes faltantes se pueden instalar desde el notebook haciendo:     
*!pip install paquete_faltante*

### Opción 2:  Trabajar en *Colab*. 

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/TAA-fing/TAA-2021/blob/main/taller1_titanic.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Ejecutar en Google Colab</a>
  </td>
</table>

Se puede trabajar en Google Colab. Para ello es necesario contar con una cuenta de **google drive** y ejecutar un notebook almacenado en dicha cuenta. De lo contrario, no se conservarán los cambios realizados en la sesión. En caso de ya contar con una cuenta, se puede abrir el notebook y luego ir a *Archivo-->Guardar una copia en drive*.

En caso de estar trabajando desde un notebook en Colab, deberá:

a) Installar el paquete *kaggle* para acceder a los datos 

In [None]:
!pip install kaggle

b) realizar la configuración necesaria para obtener datos desde la plataforma Kaggle. Para ello deberá ir a la página de la competencia y en la sección *data* aceptar los términos. Luego ejecutar la siguiente celda y pasarle el *token* de su usuario (ver comentario en celda).

In [None]:
import warnings
warnings.filterwarnings('ignore')
from google.colab import files

# El archivo solicitado es para habilitar la API de Kaggle en el entorno que está trabajando.
# Este archivo se descarga entrando a su perfíl de Kaggle, en la sección API, presionando donde dice: Create New API Token

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))
  
#Then move kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json

Una vez guardado el *token* se pueden descargar los datos, en este caso se bajarán los datos de la competencia *titanic*.

In [None]:
!kaggle competitions download -c titanic

### Parte 1 - Carga de datos

Descargar los datos y levantar el conjunto de entrenamiento utilizando el método `read_csv()` de la biblioteca *pandas*. Luego ejecutar los métodos `head()`, `info()` y `describe()` de *pandas*. 

### Parte 2 - Exploración con pandas

Asegúrese que puede responder las siguientes preguntas:      
    - ¿Cuál es el atributo que se quiere predecir?     
    - ¿Cuáles son los atributos numéricos y cuáles los categóricos?     
    - ¿Cuál es el porcentaje de pasajeros del conjunto de entrenamiento que sobrevivió?      
    - ¿Cuál es el porcentaje de mujeres? ¿Y de hombres?        
    - ¿Hay datos faltantes?  

### Parte 3 - Correlaciones



Comente qué factores tuvieron mayor incidencia en la supervivencia o no de un pasajero. Se sugiere utilizar el método `corr()` de *pandas* así como [métodos de visualización](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html). Para graficar con *pandas* es necesario importar *matplotlib*. 

### Parte 4 - Un primer pipeline

Construir un *pipeline* que realice el preprocesamiento de los datos necesario para que éstos puedan ser utilizados por un clasificador de *sklearn*. Dicho preprocesamiento deberá en primera instancia realizar las siguientes tareas:

1. Descartar los atributos *Cabin*, *Name* y *Ticket*.
2. Relllenar datos faltantes con algún criterio elegido

### Parte 5 - Pipeline que usa un único atributo

Realizar un pipeline que se quede como único atributo el género del pasajero. 

### Parte 6 - Clasificador SVM

Entrenar para cada uno de los pipelines de preprocesamiento un clasificador *SVM linear* con parámetors por defecto y estimar el error mediante validación cruzada 5-folds.

### Parte 7: Grid Search

Utilizar *Grid Search* para encontrar el valor óptimo del parámetro *C* del clasificador *SVM* generado con el *pipeline* de la parte 4. 

### Parte 8: Guardar modelos

Es posible que la parte anterior haya demorado bastante en correr. Asegúrese de guardar el modelo que obtuvo. 

### Parte 9: Generar predicciones en conjunto de test

Levante el modelo guardado en la parte anterior y genere las predicciones con el conjunto de test.

### Parte 10: Generar Kaggle Submission

Dado que cuenta con un primer modelo entrenado está en condiciones de subir sus predicciones a la plataforma Kaggle. Si desea hacerlo [aquí](https://www.kaggle.com/alexisbcook/titanic-tutorial) encontrará un ejemplo. De todas formas, lo alentamos a trabajar en la siguiente parte para generar un mejor modelo. 

### Parte 11: Un mejor pipeline   

Generar un nuevo pipeline y evaluar si éste genera un mejor clasificador. Algunas de las opciones que se pueden explorar son las siguientes:
* ¿Pclass como dato numérico, ordinal o categórico?   
* ¿Escalar los atributos numéricos sirve? ¿Qué escalado?   
* Generación y/o sustitución de características:   
    - Reemplazar *SibSp* y *Parch* por la suma     
    - Discretizar algún atributo numérico, por ejemplo la edad.
* Constuir un pipeline que permita determinar automáticamente qué grupo de características utilizar y qué estrategia seguir para lidiar con datos faltantes.