[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/juansensio/elcursodeia-code/blob/master/ml/ejercicios/03_clasificacion.ipynb)

# El dataset Titanic

El conjunto de datos del Titanic es un excelente punto de partida para el aprendizaje automático. El objetivo es predecir si un pasajero sobrevivió o no basándose en atributos como su edad, sexo, clase de pasajero, lugar de embarque, entre otros.

También es una buena oportunidad para explorar Kaggle, una plataforma de competiciones de aprendizaje automático. Es un muy buen lugar para aprender, mejorar tus habilidades y descargar conjuntos de datos. Puedes encontrar la competición del Titanic en https://www.kaggle.com/c/titanic. ¡No dudes en registrarte y subir tus predicciones!

In [1]:
# download the data

import requests
import zipfile

def getData(url, path):
  r = requests.get(url)
  with open(path, 'wb') as f:
    f.write(r.content)  
  with zipfile.ZipFile(path,"r") as zip_ref:
    zip_ref.extractall()

getData("https://mymldatasets.s3.eu-de.cloud-object-storage.appdomain.cloud/titanic.zip", "titanic.zip")

In [2]:
import pandas as pd

train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

In [3]:
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Puedes aprender más sobre los datos y el significado de cada característica aquí: https://www.kaggle.com/c/titanic/data

## Missing values

Calcula el porcentaje de missing values para las diferentes características. ¿Qué harías en cada caso (eliminar entrada, eliminar característica, reemplazar)?

## Exploración de datos

¿Cuántos pasajeros sobrevivieron? ¿Cuánto costó la tarifa media? ¿Cuál fue la edad media de los pasajeros?

## Procesado de datos

Construye las siguientes pipelines:

- num_pipeline: Mantén las características numéricas e inputa los missing values.
- cat_pipeline: Mantén las características categóricas, inputa los missing values y codifica las categorías.
- process_pipeline: Une las dos pipelines anteriores.

In [11]:
from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names]

In [13]:
class MostFrequentImputer(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        self.most_frequent_ = pd.Series([X[c].value_counts().index[0] for c in X],
                                        index=X.columns)
        return self
    def transform(self, X, y=None):
        return X.fillna(self.most_frequent_)

## Entrena un Support Vector Classifier

¿Qué precisión de validación cruzada puedes lograr?

## Entrena un Random Forest Classifier

Alcanza una precisión de validación cruzada del 80% con un RandomForestClassifier.

## Compara ambos clasificadores

Haz un diagrama de caja (box plot) que visualice la precisión de cada pliegue en la validación cruzada para ambos clasificadores.

Consejo: https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html