# Importando librerías

In [6]:
import numpy as np  
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

# Obteniendo datos

In [16]:
df = pd.read_csv('datos/indice_paz_mex_impacto-economico_2020.csv', encoding='latin1') 
df.head(3)

Unnamed: 0,Estados,Homicidio,Delitos_con_violencia,Delitos_con_armas_fuego,Delincuencia_organizada,Carcel_Sin_sentencia,Impacto_economico_de_la_violencia,Impacto_economico_per_capita_de_la_violencia,porcen_pib
0,AGUASCALIENTES,1.368,3.167,1.49,3.425,1.307,51.9,36158,14.5
1,BAJA_CALIFORNIA,5.0,3.296,5.0,5.0,2.11,259.6,71413,31.5
2,BAJA_CALIFORNIA_SUR,1.554,3.411,1.274,5.0,1.496,28.8,35761,13.4


In [18]:
#Cargamos el archivo ddatos/estados_id.csv en un DataFrame llamado df_estados
df_estados = pd.read_csv('datos/estados_id.csv',encoding='Latin-1') 
df_estados

Unnamed: 0,ENTIDAD,IDNAME
0,Aguascalientes,AS
1,Baja California,BC
2,Baja California Sur,BS
3,Campeche,CC
4,CDMX,DF
5,Chiapas,CS
6,Chihuahua,CH
7,Coahuila,CL
8,Colima,CM
9,Durango,DG


In [23]:
df_estados['ENTIDAD'] = 'CDMX'

In [None]:
df.dtypes

In [None]:
df['Impacto_economico_per_capita_de_la_violencia'] = pd.to_numeric(df['Impacto_economico_per_capita_de_la_violencia'].str.replace(',', ''))
df.dtypes

In [None]:
df.head(2)

In [None]:
#Principales parámetros estadísticos
df.describe().transpose()

In [None]:
# Correlación lineal de variables
sns.pairplot(df, kind="reg",  height=3 , aspect=1)

In [None]:
#Selección de caracteristicas para llevar a cabo el agrupamiento
features = ['Homicidio', 'Delitos_con_violencia', 'Delitos_con_armas_fuego', 
            'Delincuencia_organizada', 'Impacto_economico_de_la_violencia']

In [None]:
#Re-esalamiento de variables
from sklearn import preprocessing
df_standardized = preprocessing.scale(df[features])

In [None]:
# Data frame que servirá para la predicción de grupos
df_standardized = pd.DataFrame(df_standardized)
df_standardized.head()

In [None]:
# Llamamos al algoritmo y lo ejecutamos  para 1 cluster
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 1, init = 'k-means++', random_state = 42)
kmeans.fit(df_standardized)
# Valor de WCSS
kmeans.inertia_

# Método del codo

In [None]:
# Se obtienen los diferentes valores de WCSS 
wcss = []
for i in range(1, 20):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
    kmeans.fit(df_standardized)
    wcss.append(kmeans.inertia_)

In [None]:
wcss

## Grafica de los valores de WCSS 

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(range(1, 20), wcss,"go--")
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()

# Metodo Silhouette

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score

In [None]:
silhouette_score(df_standardized,  kmeans.labels_)

In [None]:
#creamos una lista de modelos de K-Means de un determinado número de clusters llamado kmeans2_sil
kmeans2_sil= [KMeans(n_clusters=i, random_state=11, init='k-means++').fit(df_standardized) for i in range(1,13)]

#calculamos el silhouette score a cada modelo (de diferente número de clusters)
sil_values = [ silhouette_score(df_standardized, model.labels_, random_state=11)
                    for model in kmeans2_sil[1:]
                   ]
#Guardamos los valores de los coeficientes en un arreglo de numpy
sil_values = np.array( sil_values )
sil_values

In [None]:
plt.figure( figsize=(10.5,6)       )

plt.plot(range(2, 13), sil_values,
         linestyle = ':', linewidth = 1.5,
         marker = 'o', markersize = 10,
         color = '#2F968B' ,
         label = 'The Silhoutte Method'
        )

#Maquillar la gráfica
plt.title('The Silhouette Method', size = 25, pad = 10)
plt.xlabel('Number of clusters', size = 20)
plt.ylabel('Silhoutte Coefficent', size = 20)
plt.tick_params( labelsize = 15 )

plt.grid(linestyle = 'dashed', alpha = 0.5 )

plt.show()

In [None]:
print( 'El valor máximo es:', sil_values[ np.argmax(sil_values) ] )
print( 'El número óptimo de clusters es:', np.argmax(sil_values) + 1 + 1 )