In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


En esta notebook, vamos a poner en práctica los conceptos de aprendizaje supervisado que aprendimos. El ejercicio será entrenar un modelo de Naive Bayes Gaussiano para clasificar distintas especies de flores. Trabajaremos sobre un dataset típico en _machine learning_ conocido como [Iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris), el cual provee información sobre 150 muestras de este tipo de flor. Contamos con estas características: ancho y largo de sépalos y pétalos y la etiqueta de la especie a la que corresponde cada muestra (Setosa, Versicolor y Virginica).

<img src="https://shahinrostami.com/images/ml-with-kaggle/iris-2338142_960_720-1.jpg">
<center><i>La flor iris</i></center>


Recordemos los pasos del _workflow_ típico de Scikit-Learn:

1. Seleccionar una clase de modelo
2. Elegir los hiperparámetros del modelo
3. Preparar los datos en una matriz de _features_ y un vector _target_
4. Separar los sets de entrenamiento y de testeo
5. Ajustar el modelo a los datos de entrenamiento
6. Predecir etiquetas para datos desconocidos
7. Evaluar la _performance_ del modelo

Comencemos cargando el dataset, inspeccionando la tabla y visualizando los datos:

In [None]:
import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()

In [None]:
iris.info()

In [None]:
iris.describe()

In [None]:
sns.pairplot(iris, hue='species');

<div id="caja10" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/para_seguir_pensando.png" style="align:left"/> </div>
  <br>
  <br>
  <div style="float:left;width: 85%;"><label><b>¿Qué destacamos de estas visualizaciones? ¿Existen variables que permitan distinguir entre especies?</b></label></div>
</div>

##### 1. Seleccionar una clase de modelo

In [None]:
from sklearn.naive_bayes import GaussianNB

##### 2. Elegir los hiperparámetros del modelo

In [None]:
model = GaussianNB()

##### 3. Preparar los datos en una matriz de _features_ y un vector _target_

In [None]:
# ¿Cuáles son las features y cuál es el target en este caso?
X = iris.drop('species', axis=1)
y = iris['species']

##### 4. Separar los sets de entrenamiento y de testeo

In [None]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y)

##### 5. Ajustar el modelo a los datos de entrenamiento

In [None]:
model.fit(Xtrain, ytrain)

##### 6. Predecir etiquetas para datos desconocidos

In [None]:
ypred = model.predict(Xtest)

##### 7. Evaluar la _performance_ del modelo

$$ \text{Accuracy}=\frac{\text{predicciones correctas}}{\text{casos totales}} $$

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(ytest, ypred)