# Elementos de cluster analysis

En este notebook exploramos cómo incluir **datos categóricos** en un algoritmo de clustering

## Importar las librerías relevantes

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
# Utilizar los estilos de Seaborn
sns.set()
# Importar el módulo KMeans para usar k-means clustering con sklearn
from sklearn.cluster import KMeans

## Cargar los datos

In [None]:
datos = pd.read_csv('Paises.csv')

In [None]:
# Darle un vistazo a los datos
datos

## Codificar el lenguaje

In [None]:
# Crear una copia del conjunto original de datos

datos_codificados = datos.copy()
datos_codificados["Language"] = datos_codificados["Language"].astype('category').cat.codes

# Otra forma es "Mapear" los lenguajes con 0, 1, and 2. No es lo óptimo pero funciona
#datos_codificados['Language']=datos_codificados['Language'].map({'English':0,'French':1,'German':2})

# Ver si lo hicimos correctamente

datos_codificados

In [None]:
datos_codificados.info()

## Elegir las características (features) para agrupar por ubicación y/o idioma

In [None]:
#X = datos_codificados.iloc[:, 3:4]   # Para hacer el clustering en base al lenguaje

X = datos_codificados.iloc[:, 1:4]   # Para hacer el clustering con ubicación y lenguaje

In [None]:
# Ver si lo hicimos bien
X

## Clustering

In [None]:
kmeans = KMeans(3)

In [None]:
kmeans.fit(X)

## Resultados del Clustering

In [None]:
# Crear una variable que contenga los clusters que se han predicho para cada observación

clusters_identificados = kmeans.fit_predict(X)

# Revisar los resultados

clusters_identificados

In [None]:
# Crear una copia de los datos

datos_con_clusters = datos.copy()

# Crear una nueva serie, que tenga el cluster identificado para cada observación

datos_con_clusters['Cluster'] = clusters_identificados

# Revisar el resultado

datos_con_clusters

In [None]:
datos_con_clusters.info()

In [None]:
#Graficar los datos utilizando la longitud y latitud
# color es un argumento que se puede codificar con una variable
# Todos los puntos en cada cluster tendran el mismo color

datos_con_clusters["Cluster"] = datos_con_clusters["Cluster"].astype("category")

fig = px.scatter(datos_con_clusters, 
                 x = "Longitude", 
                 y = "Latitude", 
                 color = "Cluster",
#                 color_discrete_sequence = ["red", "green", "orange"],
#                 size='', 
                 hover_data = ['Country']
                )
fig.update_xaxes(range=[-180, 180])
fig.update_yaxes(range=[-90, 90])

fig.show()

## ¿Qué está pasando cuando hacemos clustering con ambos ubicación y lenguaje, y con K = 2 o 3?

Pareciera que no hace caso del lenguaje.