## Bienvenidos a al ambiente de ejecución de código Colab!!!

# Presentación del Dataset Iris

En el presente ejemplo comenzaremos con un dataset **público** utilizado para la formación de **Machine Learning** denominado Iris dataset que se basa en describir las longitudes del sépalo y pétalo de tres tipos de flores: Setosa, virginica y versicolor. Este dataset es uno de los más básicos y usados para introducirnos en el mundo de la ciencia de datos.

Podemos ver una breve historia de este dataset [acá](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris)

In [0]:
#Importamos librerías útiles
import pandas as pd #Es una librería para manipulación de datos
import seaborn as sns  #Es una librería para poder hacer nuestros gráficos rápidos y atractivos

In [0]:
#Asignamos la variable iris 
iris = pd.read_csv('https://raw.githubusercontent.com/javalillo13689/hackspace/master/iris.csv')

In [0]:
#Mostramos los primeros cinco (5) registros del dataset iris con la instrucción head. Este número se muestra por defecto
iris.head() 

Como resultado hemos obtenido 5 filas con las observaciones de las características de los pétalos y el sépalo.
    Hay una columna a la izquierda (**en negrita**) que hace referencia a la posición de cada fila. A esto se le llama index (índice) y nos servirá para ubicar más rápidos nuestros datos. 
Hay una columna a la derecha denominada *species* que asigna el tipo de flor de cada observación. Esta columna es importante porque será la **variable objetivo** que vamos a predecir o tratar de acercarnos usando el algoritmo de aprendizaje supervisado: KNN (que nos formará clusters)

In [0]:
iris.describe()

In [0]:
iris.info()
#float, object, integer, hay más...

#Gráficando en Python

La primera gráfica que realizaremos hoy en clase será la **gráfica de dispersión** que requiere declarar antes **dos variables: x, y**

Para ello define dos columnas del dataset iris para graficar

In [0]:
x =iris['ancho_petalo']
y= iris['largo_petalo']
sns.scatterplot(x, y,data=iris)

La segunda gráfica que realizaremos hoy en clase será la **gráfica de distribución** que requiere declarar antes **solo una variable**

Para ello escoge una columna del dataset iris para graficar

In [0]:
#El parámetro bins te permite variar el número de intervalos en la gráfica
sns.distplot(iris["largo_sepalo"],bins=10)

La tercera gráfica que realizaremos hoy en clase será **pairplot** qu no requiere **declarar ninguna variable**.
Además puedes dibujar todas las relaciones entre todas las variables

In [0]:
#El parámetro hue le da nombre a la leyenda del gráfico y el size permite limitar el tamaño del gráfico (mientras más pequeño es más facil ver)
sns.pairplot(iris,hue='tipo_flor', size=2.0)

# Tratamiento de la Data

Identificamos como **variable objetivo** (target) como 'species'. Las demás variables serán las **predictoras** (features) para el modelo. También podemos obtener estadísticos básicos de estas variables.

In [0]:
#Creamos una variable y_iris para guardar la columna species del dataset iris
y_iris = iris['tipo_flor']

In [0]:
#Creamos una variable X_iris para guardar el resultado de eliminar la columna species del dataset iris
X_iris = iris.drop('tipo_flor', axis=1) 
#axis = 1 es para las columnas, axis = 0 es para las filas.

In [0]:
#Para visualizar el tamaño del dataset utilizamos el método shape, como resultado obtenemos el números de filas y columnas (en este orden)
X_iris.shape

Estos descriptivos verifican que las cuatro variables almacenan **150 observaciones**, todas ellas con datos numéricos. Para este ejemplo no contamos con datos *categóricos* (no numéricos) y tampoco aparecen vacíos o errores. Sobre el tratamiento de este tipo de datos profundizaremos en las siguientes sesiones de clase

## Haremos PCA para poder ver que una clusterización te agrupa de manera intuitiva los targets.


Para aplicar el modelo de *clustering* vamos a realizar una **reducción de dimensionalidad** donde las variables predictoras se reducen a solo dos (2) PCA -que son las iniciales de *Principal Component Analysis*- de esta manera vamos a visualizar el dataset iris en función de solo dos *nuevas variables predictoras* denominadas PCA1 y PCA2

In [0]:
#Importamos la librería PCA
from sklearn.decomposition import PCA

#Creamos  una variable feature_pca para asignar PCA, definimos el valor de n_components para limitar a dos las variables finales
features_pca = PCA(n_components=2)

In [0]:
#Adaptamos la variable creada feature_pca con la data guardada en X_iris
features_pca.fit(X_iris)

#Creamos una variable X_2D para guardar este último cambio
X_2D = features_pca.transform(X_iris)

In [0]:
print(X_2D)

Añadimos al dataset iris las dos dimensiones ya obtenidas: PCA 1 y PCA 2

In [0]:
#Añadimmos una columna denominada PCA1 al dataset iris usando la columna 0 de la variable X_2D, es decir la primera columna contando de izquierda a derecha
iris['PCA1'] = X_2D[:, 0]

#Añadimmos una columna denominada PCA2 al dataset iris usando la columna 1 de la variable X_2D, es decir la segunda columna contando de izquierda a derecha
iris['PCA2'] = X_2D[:, 1]

In [0]:
x =iris['PCA1']
y= iris['PCA2']
sns.scatterplot(x, y,hue='tipo_flor',data=iris)

# Selección y preparación del modelo

Ahora vamos a seleccionar un **modelo de clustering o agrupamiento** denominado *Kmeans*. Este modelo lo vamos a adaptar con las nuevas dos dimensiones que obtuvimos a partir de X_iris (PCA1, PCA2). Ambas variables están guardadas en X_2D

In [0]:
#Importamos la librería KMeans
from sklearn.cluster import KMeans

#Creamos una variable kmeans para guardar el modelo Kmeans
#Definimos los parámetros n_clusters para limitar solo tres agrupamientos, también podemos definir el máximo de iteraciones con max_iter
kmeans = KMeans(n_clusters=3, max_iter=600)

In [0]:
#Perfilamos el modelo kmeans con los datos guardados en X_2D
kmeans = kmeans.fit(X_iris)

In [0]:
#Creamos una variable predicciones para obtener las predicciones usando el modelo kmeans a partir de los datos guardados en X_2D
predicciones = kmeans.predict(X_iris)

In [0]:
predicciones

In [0]:
iris['predicciones'] = predicciones
sns.scatterplot(x = 'PCA1', y = 'PCA2', hue = 'predicciones',data = iris)

# KModes

In [0]:
pip install kmodes 

In [0]:
import numpy as np
from kmodes.kmodes import KModes

In [0]:
km=KModes(n_clusters=3,init='Huang',n_init=5,verbose=1)

In [0]:
import pandas as pd

In [0]:
X_test=pd.read_csv('people.csv')

In [0]:
X_test.dropna(inplace=True)
X_test.reset_index(drop=True,inplace=True)

In [0]:
data_kmodes=X_test
clusters=km.fit_predict(data_kmodes)

In [0]:
X_test['cluster']=clusters

In [0]:
X_test