## Aprendizaje supervisado: predicción de una variable de salida a partir de observaciones de alta dimensión

El aprendizaje supervisado (Supervised Learning) consiste en aprender el vínculo entre dos conjuntos de datos: los datos observados `X` y una variable externa `y` que estamos tratando de predecir, generalmente llamada "objetivo" o "etiquetas". La mayoría de las veces, y es una matriz 1D de longitud `n_samples`.

Todos los *estimadores* supervisados en scikit-learn implementan un método de ajuste `fit(X, y)` para ajustar el modelo y un método de predicción `predict(X)` que, dadas las observaciones sin etiquetar `X`, devuelve las etiquetas predichas `y`.

### Clasificación y regresión

Si la tarea de predicción es clasificar las observaciones en un conjunto de etiquetas finitas `labels`, en otras palabras, *"nombrar"* los objetos observados, se dice que la tarea es una **tarea de clasificación**. Por otro lado, si el objetivo es predecir una variable objetivo continua, se dice que es una **tarea de regresión**.

Al realizar la clasificación en scikit-learn, y es un vector de números enteros o cadenas.

### The Iris Dataset

Este conjunto de datos consta de 3 tipos diferentes de longitud de pétalos y sépalos de iris (Setosa, Versicolor y Virginica), almacenados en un numpy.ndarray de 150x4

Las filas son las muestras y las columnas son: longitud del sépalo, anchura del sépalo, longitud del pétalo y anchura del pétalo.

La siguiente gráfica usa las dos primeras características. Más información [aquí](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html)

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_dataset_001.png)

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_dataset_002.png)

In [1]:
import pandas as pd
import numpy as np
from sklearn import datasets


iris_X, iris_y = datasets.load_iris(return_X_y=True)
np.unique(iris_y)

array([0, 1, 2])

In [2]:
# Generar una semilla aleatoria
np.random.seed(0)


In [3]:
# Generar indices para el muestreo
indices = np.random.permutation(len(iris_X))


In [28]:
# Separamos la data en dos conjuntos train/test usando los indices

iris_X_train = iris_X[indices[:-10]]
iris_y_train = iris_y[indices[:-10]]
iris_X_test = iris_X[indices[-10:]]
iris_y_test = iris_y[indices[-10:]]


iris_X_test

array([[5.6, 3. , 4.1, 1.3],
       [5.9, 3.2, 4.8, 1.8],
       [6.3, 2.3, 4.4, 1.3],
       [5.5, 3.5, 1.3, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.9, 3.1, 1.5, 0.1],
       [6.3, 2.9, 5.6, 1.8],
       [5.8, 2.7, 4.1, 1. ],
       [7.7, 3.8, 6.7, 2.2],
       [4.6, 3.2, 1.4, 0.2]])

In [5]:
from sklearn.neighbors import KNeighborsClassifier

# cargamos el clasificador
knn = KNeighborsClassifier()


In [35]:
#Hacemos la predicción

knn.fit(iris_X_train, iris_y_train)

prediction = pd.DataFrame(knn.predict(iris_X_test))



In [36]:
df = pd.DataFrame(iris_X_test)
df['y']=pd.DataFrame(iris_y_test)
df['predict']=prediction

df

Unnamed: 0,0,1,2,3,y,predict
0,5.6,3.0,4.1,1.3,1,1
1,5.9,3.2,4.8,1.8,1,2
2,6.3,2.3,4.4,1.3,1,1
3,5.5,3.5,1.3,0.2,0,0
4,5.1,3.7,1.5,0.4,0,0
5,4.9,3.1,1.5,0.1,0,0
6,6.3,2.9,5.6,1.8,2,2
7,5.8,2.7,4.1,1.0,1,1
8,7.7,3.8,6.7,2.2,2,2
9,4.6,3.2,1.4,0.2,0,0


## Random Forest

Es un metaestimador que se ajusta a una serie de clasificadores de árboles de decisión en varias submuestras del conjunto de datos y utiliza el promedio para mejorar la precisión predictiva y controlar el ajuste excesivo. El tamaño de la submuestra se controla con el parámetro max_samples si `bootstrap=True` (predeterminado), de lo contrario, se utiliza todo el conjunto de datos para construir cada árbol.

### El reto
La competición es sencilla: queremos utilizar los datos de los pasajeros del Titanic (nombre, edad, precio del billete, etc.) para intentar predecir quién sobrevivirá y quién morirá.

In [41]:
from sklearn.ensemble import RandomForestClassifier

In [37]:
train_data = pd.read_csv(".\\data\\train.csv")
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
test_data = pd.read_csv(".\\data\\test.csv")
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


### Explora un patrón

Recuerde que el archivo de envío de muestra en `gender_submission.csv` asume que todas las pasajeras sobrevivieron (y todos los pasajeros varones murieron).

¿Es esta una primera suposición razonable? Verificaremos si este patrón se cumple en los datos (en `train.csv`).

In [39]:
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

print("% de mujeres sobrevivientes:", rate_women)

% de mujeres sobrevivientes: 0.7420382165605095


In [40]:
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print("% de hombres sobrevivientes:", rate_men)

% de hombres sobrevivientes: 0.18890814558058924


El código anterior calcula el porcentaje de pasajeros masculinos (en train.csv) que sobrevivieron.

De esto se puede ver que casi el 75% de las mujeres a bordo sobrevivieron, mientras que solo el 19% de los hombres sobrevivieron para contarlo. Dado que el género parece ser un indicador tan fuerte de supervivencia, **¡el archivo** `gender_submission.csv` **no es una mala suposición inicial!**

Pero al final del día, esta presentación basada en el género basa sus predicciones en una sola columna. Como puede imaginar, al considerar varias columnas, podemos descubrir patrones más complejos que potencialmente pueden generar predicciones mejor informadas. Dado que es bastante difícil considerar varias columnas a la vez (o tomaría mucho tiempo considerar todos los patrones posibles en muchas columnas diferentes simultáneamente), usaremos el aprendizaje automático para automatizar esto por nosotros.

### Modelo de aprendizaje automático

Crearemos lo que se conoce como modelo **random forest**. Este modelo está construido con varios "árboles" (hay tres árboles en la imagen de abajo, ¡pero construiremos 100!) que considerarán individualmente los datos de cada pasajero y votarán si el individuo sobrevivió. Luego, el modelo toma una decisión democrática: ¡el resultado con más votos gana!

![](https://i.imgur.com/AC9Bq63.png)

In [42]:
y = train_data["Survived"]

# Selección de Features
features = ["Pclass", "Sex", "SibSp", "Parch"]


In [43]:
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

X_test

Unnamed: 0,Pclass,SibSp,Parch,Sex_female,Sex_male
0,3,0,0,0,1
1,3,1,0,1,0
2,2,0,0,0,1
3,3,0,0,0,1
4,3,1,1,1,0
...,...,...,...,...,...
413,3,0,0,0,1
414,1,0,0,1,0
415,3,0,0,0,1
416,3,0,0,0,1


In [44]:

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)

# Predicción
predictions = model.predict(X_test)

In [45]:
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('resultados.csv', index=False)