# Elementos básicos del cluster analysis

En este "notebook" exploramos lo básico de cluster analysis con k-means

## Importar las librerías relevantes

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
# Utilizar los estilos de Seaborn
sns.set()
# Importar el módulo KMeans para usar k-means clustering con sklearn
from sklearn.cluster import KMeans

## cargar los datos

In [None]:
datos = pd.read_csv('Paises.csv')

In [None]:
# Darle un vistazo a los datos
datos.head()

## Graficar los datos

In [None]:
# Utilizar el código más simple posible para crear una gráfica de dispersión usando longitud y latitud
# Nótese que para obtener un resultado que se asemeje al mapa mundi, debemos usar la longitud como y, y la latitud como x

plt.scatter(datos['Longitude'],datos['Latitude'])

# Fijar límites a los ejes, a semejanza del mapa mundi

plt.xlim(-180,180)
plt.ylim(-90,90)
plt.show

## Elegir los atributos (features) para agrupar por ubicación

In [None]:
x = datos.filter(["Latitude", "Longitude"])
x

## Clustering

Esta es la parte donde empieza el agrupamiento

In [None]:
# Crear un objeto (que llamaremos kmeans)
# El número en los paréntesis es K, el número de grupos que deseamos

kmeans = KMeans(2)

In [None]:
# Ajustar o afinar el modelo con los datos de entrada (y el número de clusters especificados)

kmeans.fit(x)

## Resultados del Clustering

Hay muchas formas de realizar esta parte, esta es una de las más ilustrativas

In [None]:
# Crear una variable que contenga los clusters que se han predicho para cada observación

clusters_identificados = kmeans.fit_predict(x)

# Revisar los resultados

clusters_identificados

In [None]:
# Crear una copia de los datos

datos_con_clusters = datos.copy()

# Crear una nueva serie, que tenga el cluster identificado para cada observación

datos_con_clusters['Cluster'] = clusters_identificados

# Revisar el resultado

datos_con_clusters

### Uso de Plotly Express para generar gráfica interactiva

In [None]:
#Graficar los datos utilizando la longitud y latitud
# color es un argumento que se puede codificar con una variable
# Todos los puntos en cada cluster tendran el mismo color

datos_con_clusters["Cluster"] = datos_con_clusters["Cluster"].astype("category")

fig = px.scatter(datos_con_clusters, 
                 x = "Longitude", 
                 y = "Latitude", 
                 color = "Cluster",
#                 size = '', 
                 hover_data = ['Country']
                )
fig.update_xaxes(range=[-180, 180])
fig.update_yaxes(range=[-90, 90])

fig.show()

### Y, si queremos con tres grupos???

Lo único que hay que hacer es cambiar el 2 por el 3 y repetir todos los pasos