# Aprendizaje supervisado

En el caso de estudio siguiente se plantea construir un modelo clasificador orientado a realizar la clasificación de la diferentes especies de flores iris. El dataset a partir del cual se efectuará el modelado es `iris.csv`

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#### Exploratory Data Analysis

In [None]:
df=pd.read_csv('Iris.csv', sep=',')
df.head(5)

In [None]:
#Eliminacion de columnas innecesarias
df.drop(columns='Id', inplace=True)
df

In [None]:
#Observamos la columna target
df['Species'].value_counts()

#### Observamos que el dataset esta distribuido de forma homogénea en tres grupos de especies: `setosa` - `versicolor` - `virgínica`. Ahora de forma gráfica analizaremos el comportamiento para las demas `features`.

In [None]:
# Diagrama de dispersion para diferentes tamaños de sepalo en cada categoria
sns.FacetGrid(df, hue = 'Species') \
    .map(sns.scatterplot,'SepalWidthCm', 'SepalLengthCm') \
    .add_legend()

In [None]:
# Diagrama de dispersion para diferentes tamaños de sepalo en cada categoria
sns.FacetGrid(df, hue = 'Species') \
    .map(sns.scatterplot,'PetalWidthCm', 'PetalLengthCm') \
    .add_legend()

In [None]:
#Ahora con diagramas de cajas y bigotes
sns.set_theme(rc={'figure.figsize':(8,4)})
sns.boxplot(x='PetalLengthCm', y='Species', hue='Species', data=df)

In [None]:
sns.boxplot(x='PetalWidthCm', y='Species', hue='Species', data=df)

In [None]:
sns.boxplot(x='SepalLengthCm', y='Species', hue='Species', data=df)

In [None]:
sns.boxplot(x='SepalWidthCm', y='Species', hue='Species', data=df)

In [None]:
#Finalmente analizamos la distribución de los datos para cada feature
df[df['Species']=='Iris-setosa'].describe()

In [None]:
df[df['Species']=='Iris-versicolor'].describe()

In [None]:
df[df['Species']=='Iris-virginica'].describe()

In [None]:
sns.kdeplot(data=df, x="SepalLengthCm", hue='Species')

In [None]:
sns.kdeplot(data=df, x="SepalWidthCm", hue='Species')

In [None]:
sns.kdeplot(data=df, x="PetalLengthCm", hue='Species')

In [None]:
sns.kdeplot(data=df, x="PetalWidthCm", hue='Species')

#### Model

In [None]:
#Verificamos algunas caracteristas adicionales del dataset
df.info()

In [None]:
#Matriz de correlación
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='cubehelix_r')

1. `SepalLengthCm` y `SepalWidthCm` NO se encuentran correlacionadas entre sí
2. `PetalLengthCm` y `PetalWidthCm` SI están altamente correlacionados
3. Entrenar un modelo con muchas **features** disminuye la exactitud (`accuracy`)
4. Es necesario elegir para el entrenamiento sólo aquellas **features** relevantes

## Entrenamos el modelo

In [None]:
#Debido a que solo disponemos de un único dataset, haremos un particionado para train & test
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.3, shuffle=True)

In [None]:
print('{0} registros para entrenamiento'.format(train.shape[0]))
print('{0} registros para entrenamiento'.format(test.shape[0]))

In [None]:
train.head(10)

In [None]:
test.head(10)

In [None]:
#Considerando solo PetalLengthCm y PetalWidthCm para la construcción del modelo a fin de tener un accuracy óptimo
train_x=train[['PetalLengthCm','PetalWidthCm']]
train_y=train.Species

In [None]:
test_x=test[['PetalLengthCm','PetalWidthCm']]
test_y=test.Species

#### Algoritmos de clasificación

In [None]:
from sklearn.linear_model import LogisticRegression # Regresion logistica
from sklearn.neighbors import KNeighborsClassifier # K vecinos más cercanos
from sklearn import svm # Support Vector Machine
from sklearn.tree import DecisionTreeClassifier # Arbol de decision

from sklearn import metrics # Para evaluar metricas

`Support Vector Machine (SVM)`

![](https://cdn.analyticsvidhya.com/wp-content/uploads/2024/08/1403824.webp)

In [None]:
model = svm.SVC()
model.fit(train_x, train_y)
prediction = model.predict(test_x)
print('The accuracy of the SVM is: ', metrics.accuracy_score(prediction, test_y))

`Logistic Regression`

![](https://miro.medium.com/v2/resize:fit:499/0*ENkZ5v28CDzuaoYU.png)

In [None]:
model = LogisticRegression()
model.fit(train_x, train_y)
prediction = model.predict(test_x)
print('The accuracy of Logistic Regression is: ', metrics.accuracy_score(prediction, test_y))

`Decision Tree`

![](https://miro.medium.com/v2/resize:fit:1400/0*EdaEBTFFLFnhOUrF.png)

In [None]:
model = DecisionTreeClassifier()
model.fit(train_x, train_y)
prediction = model.predict(test_x)
print('The accuracy of Decision Tree is: ', metrics.accuracy_score(prediction, test_y))

`K-Nearest Neighbors`

![](https://d3i71xaburhd42.cloudfront.net/8a4c6b320f8adcd91d54a8020efadc936433964c/2-Figure2-1.png)

In [None]:
model = KNeighborsClassifier(n_neighbors=3) 
model.fit(train_x, train_y)
prediction = model.predict(test_x)
print('The accuracy of KNN is: ', metrics.accuracy_score(prediction, test_y))