##**1.1**
###**Defición del problema.** Clasificar las flores iris en una de tres especies, setosa, versicolor o virginica. La clasificación se hace en base a la longitud y anchura de los sépalos y pétalos de la flor.

##**1.2**
###**Extracción y limpieza del conjunto de datos.** Los datos son extraídos del dataset *iris* contenido en la librería de sklearn.

In [None]:
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target

# Diccionario para mapear los códigos con el nombre de la especie.
specie = {0:'setosa', 1:'versicolor', 2:'virginica'}

df['specie'] = df['target'].map(specie)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,specie
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


In [None]:
#Conocer el tamaño del dataset y sus tipos de datos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    int64  
 5   specie             150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
#Buscamos datos faltantes.
df.isnull().sum()

Unnamed: 0,0
sepal length (cm),0
sepal width (cm),0
petal length (cm),0
petal width (cm),0
target,0
specie,0


##**1.3**
###**Análisis exploratorio.** Se calculan algunas medidas de tendencia central, de dispersión y de posición sepadas por especie.

In [None]:
#Estadísticos de la setosa
df[df['specie'] == 'setosa'].describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,50.0,50.0,50.0,50.0,50.0
mean,5.006,3.428,1.462,0.246,0.0
std,0.35249,0.379064,0.173664,0.105386,0.0
min,4.3,2.3,1.0,0.1,0.0
25%,4.8,3.2,1.4,0.2,0.0
50%,5.0,3.4,1.5,0.2,0.0
75%,5.2,3.675,1.575,0.3,0.0
max,5.8,4.4,1.9,0.6,0.0


In [None]:
#Estadísticos de la versicolor
df[df['specie'] == 'versicolor'].describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,50.0,50.0,50.0,50.0,50.0
mean,5.936,2.77,4.26,1.326,1.0
std,0.516171,0.313798,0.469911,0.197753,0.0
min,4.9,2.0,3.0,1.0,1.0
25%,5.6,2.525,4.0,1.2,1.0
50%,5.9,2.8,4.35,1.3,1.0
75%,6.3,3.0,4.6,1.5,1.0
max,7.0,3.4,5.1,1.8,1.0


In [None]:
#Estadísticos de la virginica
df[df['specie'] == 'virginica'].describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,50.0,50.0,50.0,50.0,50.0
mean,6.588,2.974,5.552,2.026,2.0
std,0.63588,0.322497,0.551895,0.27465,0.0
min,4.9,2.2,4.5,1.4,2.0
25%,6.225,2.8,5.1,1.8,2.0
50%,6.5,3.0,5.55,2.0,2.0
75%,6.9,3.175,5.875,2.3,2.0
max,7.9,3.8,6.9,2.5,2.0


In [None]:
df.groupby('specie').mean()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,5.006,3.428,1.462,0.246,0.0
versicolor,5.936,2.77,4.26,1.326,1.0
virginica,6.588,2.974,5.552,2.026,2.0


In [None]:
df.groupby('specie').median()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,5.0,3.4,1.5,0.2,0.0
versicolor,5.9,2.8,4.35,1.3,1.0
virginica,6.5,3.0,5.55,2.0,2.0


In [None]:
df.groupby('specie').std()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,0.35249,0.379064,0.173664,0.105386,0.0
versicolor,0.516171,0.313798,0.469911,0.197753,0.0
virginica,0.63588,0.322497,0.551895,0.27465,0.0


In [None]:
df.groupby('specie').describe()

Unnamed: 0_level_0,sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal width (cm),sepal width (cm),...,petal width (cm),petal width (cm),target,target,target,target,target,target,target,target
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
specie,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,0.3,0.6,50.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,1.5,1.8,50.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,2.3,2.5,50.0,2.0,0.0,2.0,2.0,2.0,2.0,2.0




##**1.4**
###**Características del extracto.** Los valores de las cuatro columnas que determinan la longitud y anchura tanto de los sépalos como de los pétalos son los definen la especie de la flor. Así que serán tomadas como las variables independientes o de entrada mientras que los valores de especie serán las variables dependientes o de salida.  

In [None]:
#Variables independientes (entrada)
X = df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']]

#Variables dependientes (salida)
y = df['specie']

##**1.5**
###**Modelado de datos.** El algoritmo para modelar estos datos es el de clasificación *K-Nearest Neighbours*. Se utilizará el 80% para entrenamiento y el 20% para prueba de ambos conjunto (X, y).

In [None]:
#Partición de datos 80%, prueba 20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

#Entrenamiento del modelo
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, y_train)

#Predicción
y_pred = knn.predict(X_test)

In [None]:
y_pred

array(['versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'versicolor', 'virginica', 'versicolor', 'versicolor',
       'virginica', 'setosa', 'setosa', 'setosa', 'setosa', 'versicolor',
       'virginica', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'virginica', 'setosa', 'virginica', 'virginica', 'virginica',
       'virginica', 'virginica', 'setosa', 'setosa'], dtype=object)

##**1.6**
###**Desarrollo e implementación de código.** Ahora que el modelo está entrenado podemos ponerlo a prueba introduciendo valores y comparar la salida que predice con el promedio de los datos de las variables independientes de la especie predicha.

In [None]:
#Introducimos valores de la nueva flor
new_flower = pd.DataFrame({
    'sepal length (cm)': [6.9],
    'sepal width (cm)': [3],
    'petal length (cm)': [6],
    'petal width (cm)': [1.5]})
new_flower

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,6.9,3,6,1.5


In [None]:
means = df.groupby('specie').mean()
means

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,5.006,3.428,1.462,0.246,0.0
versicolor,5.936,2.77,4.26,1.326,1.0
virginica,6.588,2.974,5.552,2.026,2.0


In [None]:
#Predicción de la especie
pred = knn.predict(new_flower)
print('La especie de la flor es: ', pred[0])
#print(new_flower)
print('              sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)')
print('Nueva flor      ',
      new_flower.loc[0]['sepal length (cm)'], '             ',
      new_flower.loc[0]['sepal width (cm)'], '              ',
      new_flower.loc[0]['petal length (cm)'], '             ',
      new_flower.loc[0]['petal width (cm)'])
print('Promedio        ',
      round(means.loc[pred[0]]['sepal length (cm)'], 3), '           ',
      round(means.loc[pred[0]]['sepal width (cm)'], 3), '            ',
      round(means.loc[pred[0]]['petal length (cm)'], 3), '           ',
      round(means.loc[pred[0]]['petal width (cm)'], 3))


La especie de la flor es:  virginica
              sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
Nueva flor       6.9               3.0                6.0               1.5
Promedio         6.588             2.974              5.552             2.026


##**1.7**
###**Revisión iterativa.** Se realiza un ajuste de los parámetros para lograr mayor precisión.

In [None]:
#Reentrenamiento del modelo
# Precisión de 1.0 con valores de n_neighboors de 1 - 45. Disminuye después de este raango.
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, y_train)

#Evaluación del modelo
y_pred = knn.predict(X_test)

print('Precisión: ', accuracy_score(y_test, y_pred))

Precisión:  1.0
