# Elementos de cluster analysis

En este notebook exploramos cómo incluir datos categóricos en un algoritmo de clustering

## Importar las librerías relevantes

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
# Utilizar los estilos de Seaborn
sns.set()
# Importar el módulo KMeans para usar k-means clustering con sklearn
from sklearn.cluster import KMeans

## Cargar los datos

In [2]:
datos = pd.read_csv('Paises.csv')

In [3]:
# Darle un vistazo a los datos
datos

Unnamed: 0,Country,Latitude,Longitude,Language
0,USA,44.97,-103.77,English
1,Canada,62.4,-96.8,English
2,France,46.75,2.4,French
3,UK,54.01,-2.53,English
4,Germany,51.15,10.4,German
5,Australia,-25.45,133.11,English


## Codificar el lenguaje

In [4]:
# Crear una copia del conjunto original de datos

datos_codificados = datos.copy()
datos_codificados["Language"] = datos_codificados["Language"].astype('category').cat.codes

# Otra forma es "Mapear" los lenguajes con 0, 1, and 2. No es lo óptimo pero funciona
#datos_codificados['Language']=datos_codificados['Language'].map({'English':0,'French':1,'German':2})

# Ver si lo hicimos correctamente

datos_codificados

Unnamed: 0,Country,Latitude,Longitude,Language
0,USA,44.97,-103.77,0
1,Canada,62.4,-96.8,0
2,France,46.75,2.4,1
3,UK,54.01,-2.53,0
4,Germany,51.15,10.4,2
5,Australia,-25.45,133.11,0


## Elegir las características (features) para agrupar por ubicación y/o idioma

In [5]:
x = datos_codificados.iloc[:, 3:4]   # Para hacer el clustering en base al lenguaje

#x = datos_codificados.iloc[:, 1:4]   # Para hacer el clustering con ubicación y lenguaje

In [6]:
# Ver si lo hicimos bien
x

Unnamed: 0,Language
0,0
1,0
2,1
3,0
4,2
5,0


## Clustering

In [7]:
kmeans = KMeans(2)

In [8]:
kmeans.fit(x)



## Resultados del Clustering

In [9]:
# Crear una variable que contenga los clusters que se han predicho para cada observación

clusters_identificados = kmeans.fit_predict(x)

# Revisar los resultados

clusters_identificados



array([1, 1, 0, 1, 0, 1])

In [10]:
# Crear una copia de los datos

datos_con_clusters = datos.copy()

# Crear una nueva serie, que tenga el cluster identificado para cada observación

datos_con_clusters['Cluster'] = clusters_identificados

# Revisar el resultado

datos_con_clusters

Unnamed: 0,Country,Latitude,Longitude,Language,Cluster
0,USA,44.97,-103.77,English,1
1,Canada,62.4,-96.8,English,1
2,France,46.75,2.4,French,0
3,UK,54.01,-2.53,English,1
4,Germany,51.15,10.4,German,0
5,Australia,-25.45,133.11,English,1


In [11]:
#Graficar los datos utilizando la longitud y latitud
# color es un argumento que se puede codificar con una variable
# Todos los puntos en cada cluster tendran el mismo color

datos_con_clusters["Cluster"] = datos_con_clusters["Cluster"].astype("category")

fig = px.scatter(datos_con_clusters, 
                 x = "Longitude", 
                 y = "Latitude", 
                 color = "Cluster",
#                 color_discrete_sequence = ["red", "green", "orange"],
#                 size='', 
                 hover_data = ['Country']
                )
fig.update_xaxes(range=[-180, 180])
fig.update_yaxes(range=[-90, 90])

fig.show()

## ¿Qué está pasando cuando hacemos clustering con ambos ubicación y lenguaje, y con K = 2 o 3?

Pareciera que no hace caso del lenguaje.