# Clustering con Datos Categóricos 2

Esta vez tenemos muchos más países.
    
También hay otros atributos: name y continent. 

## Importar las librerías relevantes

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
sns.set()
from sklearn.cluster import KMeans

## Cargar los Datos

Utilizar los datos del archivo csv: <i> 'Paises_Mundo.csv'</i>.

In [2]:
datos = pd.read_csv('Paises_Mundo.csv')

datos

Unnamed: 0,Country,Longitude,Latitude,continent
0,Aruba,-69.982677,12.520880,North America
1,Afghanistan,66.004734,33.835231,Asia
2,Angola,17.537368,-12.293361,Africa
3,Anguilla,-63.064989,18.223959,North America
4,Albania,20.049834,41.142450,Europe
...,...,...,...,...
236,Samoa,-172.164851,-13.753243,Oceania
237,Yemen,47.586762,15.909280,Asia
238,South Africa,25.083901,-29.000341,Africa
239,Zambia,27.774759,-13.458242,Africa


In [3]:
datos_copia = datos.copy()

## Mapear los datos

Se utilizará la categoría *continente* para este análisis

In [4]:
datos_mapeados = datos.copy()
datos_mapeados["continent"] = datos_mapeados["continent"].astype('category').cat.codes
#datos_mapeados['continent'] = datos_mapeados['continent'].map({'North America':0,'Europe':1,'Asia':2,'Africa':3,'South America':4, 'Oceania':5,'Seven seas (open ocean)':6, 'Antarctica':7})
datos_mapeados

Unnamed: 0,Country,Longitude,Latitude,continent
0,Aruba,-69.982677,12.520880,4
1,Afghanistan,66.004734,33.835231,2
2,Angola,17.537368,-12.293361,0
3,Anguilla,-63.064989,18.223959,4
4,Albania,20.049834,41.142450,3
...,...,...,...,...
236,Samoa,-172.164851,-13.753243,5
237,Yemen,47.586762,15.909280,2
238,South Africa,25.083901,-29.000341,0
239,Zambia,27.774759,-13.458242,0


## Seleccionar los atributos

In [5]:
x = datos_mapeados.iloc[:,3:4]

## Clustering

Inicialmente se utilizarán 4 clusters.

In [6]:
kmeans = KMeans(7)
kmeans.fit(x)



## Resultados del Clustering

In [7]:
clusters_identificados = kmeans.fit_predict(x)
clusters_identificados



array([1, 4, 0, 1, 2, 2, 2, 4, 3, 4, 6, 4, 6, 5, 1, 6, 2, 4, 0, 2, 0, 0,
       4, 2, 4, 1, 1, 2, 1, 2, 1, 1, 3, 3, 1, 4, 4, 0, 0, 2, 3, 4, 0, 0,
       0, 0, 6, 3, 0, 0, 1, 1, 1, 1, 4, 4, 2, 2, 0, 1, 2, 1, 0, 3, 0, 0,
       2, 2, 0, 2, 6, 3, 2, 2, 6, 0, 2, 4, 2, 0, 0, 0, 0, 0, 2, 1, 1, 1,
       6, 3, 4, 5, 1, 2, 1, 2, 4, 2, 4, 4, 5, 2, 4, 4, 2, 4, 2, 1, 2, 4,
       4, 4, 4, 0, 4, 4, 6, 1, 4, 2, 4, 4, 4, 0, 0, 1, 2, 4, 0, 2, 2, 2,
       4, 1, 0, 2, 2, 0, 5, 1, 6, 2, 0, 2, 4, 2, 4, 6, 0, 0, 1, 5, 0, 4,
       0, 6, 0, 6, 0, 1, 6, 2, 2, 4, 6, 6, 4, 4, 1, 6, 3, 4, 6, 6, 2, 1,
       4, 2, 3, 4, 6, 4, 2, 2, 0, 0, 4, 0, 0, 0, 4, 5, 5, 6, 0, 1, 2, 0,
       0, 1, 2, 0, 3, 2, 2, 2, 0, 1, 5, 4, 1, 0, 0, 4, 4, 4, 4, 6, 1, 0,
       4, 4, 0, 0, 2, 3, 1, 4, 2, 1, 3, 1, 1, 4, 6, 6, 6, 4, 0, 0, 0])

In [8]:
datos_con_clusters = datos_mapeados.copy()
datos_con_clusters['Cluster'] = clusters_identificados
datos_con_clusters

Unnamed: 0,Country,Longitude,Latitude,continent,Cluster
0,Aruba,-69.982677,12.520880,4,1
1,Afghanistan,66.004734,33.835231,2,4
2,Angola,17.537368,-12.293361,0,0
3,Anguilla,-63.064989,18.223959,4,1
4,Albania,20.049834,41.142450,3,2
...,...,...,...,...,...
236,Samoa,-172.164851,-13.753243,5,6
237,Yemen,47.586762,15.909280,2,4
238,South Africa,25.083901,-29.000341,0,0
239,Zambia,27.774759,-13.458242,0,0


## Graficar los datos

Graficar los datos utilizando la longitud y latitud

color es un argumento que se puede codificar con una variable

Todos los puntos en cada cluster tendran el mismo color

In [9]:
datos_con_clusters["Cluster"] = datos_con_clusters["Cluster"].astype("category")

fig = px.scatter(datos_con_clusters, 
                 x = "Longitude", 
                 y = "Latitude", 
                 color = "Cluster",
#                 color_discrete_sequence = ["red", "green", "orange"],
#                 size = '', 
                 hover_data = ['Country']
                )
fig.update_xaxes(range=[-180, 180])
fig.update_yaxes(range=[-90, 90])

fig.show()

Como ya se tiene todo el código necesario, regrese y pruebe con distintos valores de clusters.  Pruebe con 3, 7 and 8 y vea si los resultados satisfacen sus expectaciones. 

Solamente es necesario regresar al inicio de la sección de **Clustering** y cambiar kmeans = KMeans(4) a kmeans = KMeans(3).  Luego ejecute las celdas faltantes hasta el final...o ejecútelo todo de nuevo.