# Aprendizaje Supervisado

En el aprendizaje de máquina, hay tres tipos de aprendizaje distintos:
* Aprendizaje Supervisado (Supervised Learning)
* Aprendizaje sin Supervisión (Unsupervised Learning)
* Aprendizaje de Refuerzo (Reinforcement Learning)


El aprendizaje supervisado es el primero que aprenderemos. Este se caracteriza por tener *labels* además de los datos, o sea, un dataset de entrenamiento que ya tenga las "respuestas".
Existen varias tareas que se pueden hacer usando aprendizaje de máquina, cada una de estas se puede hacer de forma supervisada, sin supervisión o con refuerzo. Comunmente, utilizaremos solamente seis tipos:
* Selección de características
* Clasificación
* Regresión
* Clustering
* Optimización
* Ranking

## Ejemplo simple de clasificación

Un dataset que se utiliza mucho cuando se enseña aprendizaje de máquia es el Iris Dataset: consiste de tres diferentes tipos de flores y sus características.

**Iris Setosa**

<img src="iris_setosa.jpg" width="20%">

**Iris Versicolor**
<img src="iris_versicolor.jpg" width="20%">

**Iris Virginica**
<img src="iris_virginica.jpg" width="20%">

Este dataset tiene características muy sencillas, por lo que es muy fácil de explicar y entender.

1. Las características que tiene son:
    - Longitud del sépalo en cm
    - Anchura del sépalo en cm
    - Longitud del pétalo en cm
    - Anchura del pétalo en cm


2. Y se tienen  que clasificar en tres diferentes clases:
    - Iris Setosa
    - Iris Versicolour
    - Iris Virginica

#### Primero tenemos que cargar los datos

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

Este es un objeto tipo `Bunch`. Se pueden ver las claves utilizando el método `keys()`.

In [None]:
type(iris)

In [None]:
iris.keys()

In [None]:
len(iris.data)

In [None]:
iris.data[0]

In [None]:
iris.feature_names

In [None]:
iris.target

In [None]:
iris.target_names

In [None]:
iris.data.shape

Los datos tienen cuatro características (a veces se dice que tiene cuatro dimensiones), pero se pueden graficar dos de ellas para que sea más fácil visualizarlo.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

x_index = 3
y_index = 0

print()
print(iris.feature_names[x_index])
print(iris.feature_names[y_index])

# this formatter will label the colorbar with the correct target names
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

plt.scatter(iris.data[:, x_index], iris.data[:, y_index], c=iris.target)
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index])

Como se puede ver en la gráfica, utilizando solamente dos de las cuatro características se pueden diferenciar mucho las diferentes flores.

#### Ejercicio rápido

Cambia los números en `x_index` y en `y_index` y ve los diferentes resultados.

## Entranamiento y pruebas

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.30)

# Vamos a utilizar una variación gaussiana de Naive Bayes
from sklearn.naive_bayes import GaussianNB

# Entrenamos el modelo de Naive Bayes
model = GaussianNB()
model.fit(X_train, y_train)

# Hacer las predicciones
expected = y_test
predicted = model.predict(X_test)

In [None]:
# Importamos  metrics de sklearn
from sklearn import metrics

# checamos cómo le fue al modelo

print(metrics.accuracy_score(expected, predicted))
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

# Práctica

Vamos a utilizar lo que aprendimos hoy y en las semanas anteriores en un dataset de Kaggle. Hagan un nuevo Jupyter Notebook y utilicen Pandas y sklearn para sacar predicciones sobre los ganadores en partidos de futbol de la fifa.