In [1]:
#Bibliotecas
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score

In [2]:
#Carregamento da base de dados
base = pd.read_csv('idh_classificado.csv')
base.head()

Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
0,África do Sul,0.004457,6.97,44,Médio
1,Albânia,0.000182,7.81,35,Médio
2,Alemanha,0.045774,7.91,80,Alto
3,Angola,0.001282,5.5,26,Médio
4,Arábia Saudita,0.008244,6.85,53,Alto


In [3]:
#Classe com ordenamento específico para IDH
classe_ordenada = pd.CategoricalDtype(categories = ['Alto', 'Médio', 'Baixo'], ordered = True)
base['ClassIDH'] = base['ClassIDH'].astype(classe_ordenada)

In [4]:
#Modificando o dataframe ordenando pelo IDH do maior para o menor
base.sort_values('ClassIDH', ascending = True, inplace = True)
base

Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
47,Emirados Árabes Unidos,0.005014,7.28,71,Alto
121,Polônia,0.007092,7.20,58,Alto
122,Portugal,0.002916,7.79,62,Alto
57,França,0.030892,7.55,69,Alto
56,Finlândia,0.000332,7.92,86,Alto
...,...,...,...,...,...
103,Moçambique,0.000174,6.15,26,Baixo
90,Libéria,0.000039,6.35,28,Baixo
98,Mali,0.000020,5.83,29,Baixo
33,Chade,0.000133,5.60,20,Baixo


In [5]:
#Visualizando a quantidade por categoria
base.groupby(['ClassIDH']).size()

ClassIDH
Alto     62
Médio    77
Baixo    17
dtype: int64

In [6]:
#Definindo variáveis independentes e variáveis dependentes
agrupadores = base.iloc[:, 2:4]
classe = base.iloc[:, 4]
classe

47      Alto
121     Alto
122     Alto
57      Alto
56      Alto
       ...  
103    Baixo
90     Baixo
98     Baixo
33     Baixo
126    Baixo
Name: ClassIDH, Length: 156, dtype: category
Categories (3, object): ['Alto' < 'Médio' < 'Baixo']

In [7]:
#Codificando a classe
labelencoder = LabelEncoder()
classe = labelencoder.fit_transform(classe)
classe

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

In [8]:
#Contagem de grupos e quantidade de cada grupo
grupos, quantidades = np.unique(classe, return_counts = True)

In [9]:
#Quantidade de grupos
grupos

array([0, 1, 2])

In [10]:
#Quantidade de dentro de cada grupo
quantidades

array([62, 17, 77], dtype=int64)

In [11]:
'''Definindo o número de clusters (grupos) e realizando o agrupamento com K-means utilizando 
ILE e IPC para o agrupamento'''
cluster = KMeans(n_clusters = 3)
cluster.fit(agrupadores)

KMeans(n_clusters=3)

In [12]:
#Visualizando os centros utilizados pelo agrupador
centroides = cluster.cluster_centers_ 
centroides

array([[ 7.24169811, 49.71698113],
       [ 6.37355263, 28.72368421],
       [ 7.9537037 , 76.96296296]])

In [13]:
#Visualizando o agrupamento realizado
agrupamento = cluster.labels_
agrupamento

array([2, 0, 0, 2, 2, 2, 2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 0, 1, 0, 2, 0,
       0, 0, 0, 2, 0, 0, 0, 2, 0, 2, 0, 2, 2, 2, 2, 0, 0, 2, 0, 0, 0, 2,
       1, 2, 2, 2, 2, 2, 0, 2, 0, 2, 1, 2, 2, 1, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 1, 1, 1, 0, 2, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

In [14]:
#Contagem de grupos e quantidades de cada grupo
grupos2, quantidades2 = np.unique(agrupamento, return_counts = True)

In [15]:
#Quantidade de grupos
grupos2

array([0, 1, 2])

In [16]:
#Quantidades dentro de cada grupo
quantidades2

array([53, 76, 27], dtype=int64)

In [17]:
#Analisando a matriz de confusão 
resultados = confusion_matrix(classe, agrupamento)
resultados

array([[32,  4, 26],
       [ 1, 16,  0],
       [20, 56,  1]], dtype=int64)

In [18]:
#Verificando a performance de acerto do agrupamento K-means
taxa_acerto = accuracy_score(classe, agrupamento)
taxa_acerto

0.3141025641025641