<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Clasificación de las flores Iris

Crear un modelo de clasificación para la estimación de la espacie de iris<br>
v1.1

<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/iris_dataset.png" width="1000" align="center"></a>

In [None]:
import os
import platform

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

from  sklearn import  datasets

# Recolectar datos
<div align="center"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline1.png" width="1000" align="middle"></div>

In [None]:
iris=datasets.load_iris()
df_data = pd.DataFrame(data= iris.data, columns= iris.feature_names)
df_target = pd.DataFrame(data= iris.target, columns= ['species'])
print(df_data.head())
print(df_target.head())

In [None]:
# Generar una copia de df_target llamada "df_target_categorical" en el cual se almacenará los tipos de iris como variables categóricas (texto)
df_target_categorical = df_target.copy()

# Procesar datos
<div align="center"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline2.png" width="1000" align="middle"></div>

In [None]:
# Alumno: Utilizar apply y lambda expresion sobre df_target para modificar la columna "species" de df_target_categorical
# la lambda debe devolver:
# setosa --> si species = 0
# versicolor --> si species = 1
# virginica --> si species = 2

# Tip:
# df_target_categorical['species'] = df_target.apply(lambda...... 
df_target_categorical['species'] = df_target.apply(lambda x: 'setosa' if x.species == 0 else 'versicolor' if x.species == 1 else 'virginica', axis=1)

In [None]:
# Alumno: Observar las primeras filas del nuevo df_target_categorical para corroborar que haya sido correcto el cambio
df_target_categorical.head()

In [None]:
# Alumno: Contar cuantas especies de iris hay de cada una en el dataset df_target_categorical
df_target_categorical['species'].value_counts()

In [None]:
# Concatenar ambos dataset
df = pd.concat([df_data, df_target_categorical], axis= 1)
df.head()

In [None]:
# Alumno: Analice si hay elementos incompletos en el dataset "df_data" o "df_target"
des = df.describe()
des.loc['Nan'] = df.isna().sum()
des.loc['%Nan'] = (df.isna().mean())*100
des

In [None]:
# Alumno: ¿Cuántas filas/datos hay para analizar?
print('Datos disponibles para analizar: ', df.shape[0])

# Explorar datos
<div align="center"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline3.png" width="1000" align="middle"></div>

In [None]:
# Observar todas las relaciones entre todos los features
sns.pairplot(df, hue= 'species')
plt.show()

In [None]:
# Para la clasificación utilizaremos todos los features de entrada
# pero utilizaremos este gráfico en particular para ver como
# performa el clasificador
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'], hue=df['species'])
plt.show()

# Entrenar modelo
<div align="center"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline4.png" width="1000" align="middle"></div>

In [None]:
# Almuno: Crear un numpy array "X" con los features de entrada (todos excepto species)
# Crear un numpy array "Y" de la columna species
X = df.drop('species', axis=1).values
y = df['species'].values

In [None]:
# Alumno: Cree los dataset de entrenamiento (train) y evaluación (test)
# utilizando la herramienta train_test_split de scikit-learn, utilice la proporción
# 70%30%
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Alumno: Entrenar un clasificador utilizando algunos de los siguientes algoritmos
# - Random forest
# - KNN
# - SVM
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=5).fit(X_train, y_train)
y_hat = clf.predict(X_test)

# Validar modelo
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline5.png" width="1000" align="middle">

In [None]:
# Alumno: Calcular la exactitud (accuracy) del modelo base
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_hat, normalize=True)

In [None]:
# Alumno: Calcular la exactitud (accuracy) del clasificador
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_hat, normalize=True)

In [None]:
# Dibujar la matriz de confusión con y_test e y_hat_base. Colocar los "labels" (titulos) correspondientes
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
cm = confusion_matrix(y_test, y_hat)
cmd = ConfusionMatrixDisplay(cm, display_labels=clf.classes_)
cmd.plot(cmap=plt.cm.Blues)
plt.show()

# Utilizar modelo
<img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/Pipeline6.png" width="1000" align="middle">

In [None]:
# Alumno: realice la predicción de todos los "X" con su clasificador para obtener
# "y_graficar"
y_graficar = clf.predict(X)

In [None]:
# Alumno, volver a realizar el gráfico del scatter con las 3 especies, pero ahora
# utilice en el parámetro "hue" el y_graficar "calculado"
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'], hue=y_graficar)
plt.show()