# Segmentación de Especies con Cluster Analysis

El conjunto de datos de la flor **Iris** es uno de los más populares para el Aprendizaje de Máquina (ML).  Si no o conocen, pueden leer sobre esta en:

https://en.wikipedia.org/wiki/Iris_flower_data_set

El conjunto de datos *iris-dataset.csv* tiene cuatro variables:  

* **sepal length** (longitud del sépalo), 
* **sepal width** (ancho del sépalo), 
* **petal length** (longitud del pétalo), 
* **petal width** (ancho del pétalo).

**SECCIÓN 1:**

Agrupen las flores por la forma de su sépalo:

Empiecen por crear 2 "clusters".  Luego estandaricen los datos e intenten de nuevo.  ¿Qué diferencias hay, si es que lo hay?

Utilicen el método del "codo" para determinar cuantos "clusters" hay. 

Basado en la gráfica del "codo" realicen varias gráficas con el número adecuado de clusters que Uds creen mejor se ajusten a los datos.

Comparen sus soluciones con los datos reales, archivo: *iris-with-answers.csv*
**Obviamente solo hay tres especies, porque ese es el archivo de datos reales!**

¿Funcionó el clustering con la forma del sépalo?

**Sección 2:**

Repitan el proceso pero ahora utilizando la forma del pétalo.  Respondan a las misma preguntas


**Sección 3:**

Utilicen la librería "kneed" y vean si el resultado coincide con el método del "codo" que hicieron manualmente.  ¿A que podría deberse la diferencia, si la hay?  ¿Les dió el número correcto de clusters, comparado a los datos reales?  

Basado en los resultado que tuvieron, ¿A qué conclusiones llegaron?


## Seccion 1

In [74]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
from quickda.explore_data import *
from quickda.clean_data import *
import plotly.express as px
import seaborn as sns
# Utilizar los estilos de Seaborn
sns.set()
# Importar el módulo KMeans para usar k-means clustering con sklearn
from sklearn.cluster import KMeans
from kneed import KneeLocator

#### Carga de datos

In [75]:
iris = pd.read_csv("iris-dataset.csv")

In [76]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### Agrupacion por forma de sepalo

In [77]:
iris_sepal = clean(iris, method = 'dropcols', columns = ['petal_length','petal_width'])
iris_sepal

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [78]:
kmeans = KMeans(2)

In [79]:
kmeans.fit(iris_sepal)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [80]:
clusters_identificados = kmeans.fit_predict(iris_sepal)
iris_sepal['Cluster'] = clusters_identificados

# Revisar el resultado
iris_sepal

Unnamed: 0,sepal_length,sepal_width,Cluster
0,5.1,3.5,0
1,4.9,3.0,0
2,4.7,3.2,0
3,4.6,3.1,0
4,5.0,3.6,0
...,...,...,...
145,6.7,3.0,1
146,6.3,2.5,1
147,6.5,3.0,1
148,6.2,3.4,1


In [81]:
iris_sepal["Cluster"] = iris_sepal["Cluster"].astype("category")

fig = px.scatter(iris_sepal, 
                 x = "sepal_length", 
                 y = "sepal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[4, 8])
fig.update_yaxes(range=[1, 5])

fig.show()

#### Estandarizando los datos

In [82]:
from sklearn.preprocessing import StandardScaler
escalador = StandardScaler()

In [83]:
iris_sepal_est = clean(iris, method = 'dropcols', columns = ['petal_length','petal_width'])
iris_sepal_est

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [84]:
escalador.fit(iris_sepal_est)
cols_std = escalador.transform(iris_sepal_est)

In [85]:
iris_sepal_est = pd.DataFrame(cols_std, columns=iris_sepal_est.columns)
iris_sepal_est.head()

Unnamed: 0,sepal_length,sepal_width
0,-0.900681,1.032057
1,-1.143017,-0.124958
2,-1.385353,0.337848
3,-1.506521,0.106445
4,-1.021849,1.26346


In [86]:
kmeans = KMeans(2)

In [87]:
kmeans.fit(iris_sepal_est)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [88]:
clusters_identificados = kmeans.fit_predict(iris_sepal_est)
iris_sepal_est['Cluster'] = clusters_identificados

# Revisar el resultado
iris_sepal_est

Unnamed: 0,sepal_length,sepal_width,Cluster
0,-0.900681,1.032057,1
1,-1.143017,-0.124958,1
2,-1.385353,0.337848,1
3,-1.506521,0.106445,1
4,-1.021849,1.263460,1
...,...,...,...
145,1.038005,-0.124958,0
146,0.553333,-1.281972,0
147,0.795669,-0.124958,0
148,0.432165,0.800654,0


In [89]:
iris_sepal_est["Cluster"] = iris_sepal_est["Cluster"].astype("category")

fig = px.scatter(iris_sepal_est, 
                 x = "sepal_length", 
                 y = "sepal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[-3, 3])
fig.update_yaxes(range=[-3, 3])

fig.show()

¿Qué diferencias hay, si es que lo hay?

Obviamente una de las diferencias se evidencia en los valores de las observaciones ya que ahora se encuentran entre -3 y 3. Ademas, se ve que se agrego una cantidad significante de observaciones al cluster rojo. En los clusters antes de estandarizar pareciera que solo se decidieron los clusters por el sepal_width mientras que aqui se ve una mejor separacion.

#### Metodo del codo

In [90]:
kmeans_kwargs = {
    "init": "random",
    "n_init": 10,
    "max_iter": 300,
    "random_state": 42,
}
sse_sepalo = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, **kmeans_kwargs)
    kmeans.fit(iris_sepal_est)
    sse_sepalo.append(kmeans.inertia_)

In [91]:
kmeans.fit(iris_sepal_est)

KMeans(algorithm='auto', copy_x=True, init='random', max_iter=300,
       n_clusters=10, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=42, tol=0.0001, verbose=0)

In [92]:
# El valor más bajo de SSE
kmeans.inertia_

27.615333147316026

In [93]:
#Asignaciones de clusters
kmeans.labels_[:5]

array([9, 3, 3, 3, 9])

In [94]:
sse_sepalo

[333.33333333333337,
 168.3926219836109,
 103.78982520596082,
 80.1264733963551,
 62.069399941884626,
 52.99381323496434,
 44.80672755369618,
 36.84149529254575,
 31.561514043005857,
 27.615333147316026]

In [95]:
#Grafica
datos_SSE = pd.DataFrame(range(1, 11), columns = ["K"])
datos_SSE["SSE"] = sse_sepalo
fig = px.line(datos_SSE, x = "K" , y = "SSE", title='SSE vrs K')
fig.show()

Elegimos 3 como el valor de k, ya que se puede observar en la grafica anterior que la diferencia entre k=3 y k=4 es menor.

In [96]:
kmeans = KMeans(3)

In [97]:
kmeans.fit(iris_sepal)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [98]:
clusters_identificados = kmeans.fit_predict(iris_sepal)
iris_sepal['Cluster'] = clusters_identificados

# Revisar el resultado
iris_sepal

Unnamed: 0,sepal_length,sepal_width,Cluster
0,5.1,3.5,0
1,4.9,3.0,0
2,4.7,3.2,0
3,4.6,3.1,0
4,5.0,3.6,0
...,...,...,...
145,6.7,3.0,1
146,6.3,2.5,1
147,6.5,3.0,1
148,6.2,3.4,1


In [99]:
iris_sepal["Cluster"] = iris_sepal["Cluster"].astype("category")

fig = px.scatter(iris_sepal, 
                 x = "sepal_length", 
                 y = "sepal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[4, 8])
fig.update_yaxes(range=[1, 5])

fig.show()

In [100]:
iris_solucion = pd.read_csv("iris-with-answers.csv")

In [101]:
iris_solucion

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [102]:
fig = px.scatter(iris_solucion, 
                 x = "sepal_length", 
                 y = "sepal_width", 
                 color = "species"
                )
fig.update_xaxes(range=[4, 8])
fig.update_yaxes(range=[1, 5])

fig.show()

¿Funcionó el clustering con la forma del sépalo?

La mayoria de las observaciones fueron clasificadas correctamente. La diferencia se nota con las versicolor y virginica porque se mezclan en el centro de la grafica mientras que en nuestro clustering es evidente la division de dichas especies.

## Seccion 2

In [103]:
iris_petal = clean(iris, method = 'dropcols', columns = ['sepal_length','sepal_width'])
iris_petal

Unnamed: 0,petal_length,petal_width
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2
...,...,...
145,5.2,2.3
146,5.0,1.9
147,5.2,2.0
148,5.4,2.3


In [104]:
kmeans = KMeans(2)

In [105]:
kmeans.fit(iris_petal)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [106]:
clusters_identificados = kmeans.fit_predict(iris_petal)
iris_petal['Cluster'] = clusters_identificados

# Revisar el resultado
iris_petal

Unnamed: 0,petal_length,petal_width,Cluster
0,1.4,0.2,0
1,1.4,0.2,0
2,1.3,0.2,0
3,1.5,0.2,0
4,1.4,0.2,0
...,...,...,...
145,5.2,2.3,1
146,5.0,1.9,1
147,5.2,2.0,1
148,5.4,2.3,1


In [107]:
iris_petal["Cluster"] = iris_petal["Cluster"].astype("category")

fig = px.scatter(iris_petal, 
                 x = "petal_length", 
                 y = "petal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[0, 8])
fig.update_yaxes(range=[0, 3.5])

fig.show()

#### Estandarizando los datos

In [108]:
escalador = StandardScaler()

In [109]:
iris_petal_est = clean(iris, method = 'dropcols', columns = ['sepal_length','sepal_width'])
iris_petal_est

Unnamed: 0,petal_length,petal_width
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2
...,...,...
145,5.2,2.3
146,5.0,1.9
147,5.2,2.0
148,5.4,2.3


In [110]:
escalador.fit(iris_petal_est)
cols_std = escalador.transform(iris_petal_est)

In [111]:
iris_petal_est = pd.DataFrame(cols_std, columns=iris_petal_est.columns)
iris_petal_est.head()

Unnamed: 0,petal_length,petal_width
0,-1.341272,-1.312977
1,-1.341272,-1.312977
2,-1.398138,-1.312977
3,-1.284407,-1.312977
4,-1.341272,-1.312977


In [112]:
kmeans = KMeans(2)

In [113]:
kmeans.fit(iris_petal_est)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [114]:
clusters_identificados = kmeans.fit_predict(iris_petal_est)
iris_petal_est['Cluster'] = clusters_identificados

# Revisar el resultado
iris_petal_est

Unnamed: 0,petal_length,petal_width,Cluster
0,-1.341272,-1.312977,1
1,-1.341272,-1.312977,1
2,-1.398138,-1.312977,1
3,-1.284407,-1.312977,1
4,-1.341272,-1.312977,1
...,...,...,...
145,0.819624,1.447956,0
146,0.705893,0.922064,0
147,0.819624,1.053537,0
148,0.933356,1.447956,0


In [115]:
iris_petal_est["Cluster"] = iris_petal_est["Cluster"].astype("category")

fig = px.scatter(iris_petal_est, 
                 x = "petal_length", 
                 y = "petal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[-2, 2])
fig.update_yaxes(range=[-2, 2])

fig.show()

¿Qué diferencias hay, si es que lo hay?

Igual que con el sepalo, una de las diferencias se evidencia en los valores de las observaciones ya que ahora se encuentran entre -2 y 2. Sin embargo, no se puede observar una diferencia significativa entre ambas graficas siendo solamente una observacion la que fue clasificada incorrectamente.

#### Metodo del codo

In [116]:
kmeans_kwargs = {
    "init": "random",
    "n_init": 10,
    "max_iter": 300,
    "random_state": 42,
}
sse_petalo = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, **kmeans_kwargs)
    kmeans.fit(iris_petal_est)
    sse_petalo.append(kmeans.inertia_)

In [117]:
kmeans.fit(iris_petal_est)

KMeans(algorithm='auto', copy_x=True, init='random', max_iter=300,
       n_clusters=10, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=42, tol=0.0001, verbose=0)

In [118]:
# El valor más bajo de SSE
kmeans.inertia_

4.061030967670669

In [119]:
#Asignaciones de clusters
kmeans.labels_[:5]

array([4, 4, 4, 4, 4])

In [120]:
sse_petalo

[333.3333333333333,
 54.145847013449895,
 18.04698389190627,
 12.307440251261845,
 9.181131495513899,
 7.2103108053491525,
 6.295342326851472,
 5.318623175016772,
 4.599830227705818,
 4.061030967670669]

In [121]:
#Grafica
datos_SSE = pd.DataFrame(range(1, 11), columns = ["K"])
datos_SSE["SSE"] = sse_petalo
fig = px.line(datos_SSE, x = "K" , y = "SSE", title='SSE vrs K')
fig.show()

Elegimos 3 como el valor de k, ya que se puede observar en la grafica anterior que la diferencia entre k=3 y k=4 es menor.

In [122]:
kmeans = KMeans(3)

In [123]:
kmeans.fit(iris_petal)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [124]:
clusters_identificados = kmeans.fit_predict(iris_petal)
iris_petal['Cluster'] = clusters_identificados

# Revisar el resultado
iris_petal

Unnamed: 0,petal_length,petal_width,Cluster
0,1.4,0.2,1
1,1.4,0.2,1
2,1.3,0.2,1
3,1.5,0.2,1
4,1.4,0.2,1
...,...,...,...
145,5.2,2.3,0
146,5.0,1.9,0
147,5.2,2.0,0
148,5.4,2.3,0


In [125]:
iris_petal["Cluster"] = iris_petal["Cluster"].astype("category")

fig = px.scatter(iris_petal, 
                 x = "petal_length", 
                 y = "petal_width", 
                 color = "Cluster"
                )
fig.update_xaxes(range=[0, 8])
fig.update_yaxes(range=[0, 3])

fig.show()

In [126]:
fig = px.scatter(iris_solucion, 
                 x = "petal_length", 
                 y = "petal_width", 
                 color = "species"
                )
fig.update_xaxes(range=[0, 8])
fig.update_yaxes(range=[0, 3])

fig.show()

¿Funcionó el clustering con la forma del pétalo?

Casi todas las observaciones fueron clasificadas correctamente con la exepcion de unas versicolor y virginica. Se obtuvo un mejor resultado a comparacion con el sepalo, pero ambos fueron exitosos.

## Seccion 3

#### Kneed para los sepalos

In [127]:
kl = KneeLocator(
    range(1, 11), sse_sepalo, curve="convex", direction="decreasing"
)

kl.elbow

3

#### Kneed para los petalos

In [128]:
kl = KneeLocator(
    range(1, 11), sse_petalo, curve="convex", direction="decreasing"
)

kl.elbow

2

#### ¿A que podría deberse la diferencia, si la hay?

Si encontramos diferencia entre la cantidad de clusters dependiendo si clasificamos por sepalo o petalo, esto se puede deber a que como estan distribuidos los datos, por ejemplo, al analizar la grafica de sepalos podemos ver que los datos estan muy cercanos entre si, la diferencia entre lenght y width entre las 3 especies no se ve tan segregada. En cambio, al observar la grafica de petal podemos ver que setosa es claramente diferente que versicolor y virginica, por lo que kneed solamente identificica 2 posibles clusters. Esto posiblemente se hubiese corregido al utilizar los datos estandarizados.

#### ¿Les dió el número correcto de clusters, comparado a los datos reales?

El kneed para los sepalos si dio el k correcto, el cual es 3, pero para los petalos no ya que deberia de ser 3 en lugar de 2.

#### Conclusiones

- La utilizacion de datos estandarizados evita la mala identificacion de clusters, asi mismo hace mas facil visualizar los datos ya que no hay que poner graficas de tanta escala.
- Para el caso de sepal al utilizar datos estandarizados pudimos observar que muchisimos mas datos se agregaron al cluster rojo, sin embargo, para petal este no fue el caso aqui solamente un dato cambio su cluster.
- Pudimos observar que la mayoria de nuestros metodos para elegir la cantidad de clusters fue correcta, eligiendo 3 clusters, el unico fallo sucedio al utilizar los datos de petal no estandarizados.
- En general nuestros modelos fueron bastante precisos al hacer los clusters, sin embargo, notamos que la variables relacionadas al petalo fueron mucho mejores que aquellas relacionadas al sepalo a la hora de crear los clusters.