In [1]:
#Bibliotecas
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score

In [2]:
#Carregamento da base de dados
base = pd.read_csv('idh_classificado.csv')
base.head()

Unnamed: 0.1,Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
0,47,Emirados Árabes Unidos,0.005014,7.28,71,Alto
1,121,Polônia,0.007092,7.2,58,Alto
2,122,Portugal,0.002916,7.79,62,Alto
3,57,França,0.030892,7.55,69,Alto
4,56,Finlândia,0.000332,7.92,86,Alto


In [3]:
#Eliminando coluna Unnamed
base.drop(['Unnamed: 0'], axis = 1, inplace = True)

In [4]:
#Classe com ordenamento específico para IDH
classe_ordenada = pd.CategoricalDtype(categories = ['Alto', 'Médio', 'Baixo'], ordered = True)
base['ClassIDH'] = base['ClassIDH'].astype(classe_ordenada)

In [5]:
#Modificando o dataframe ordenando pelo IDH do maior para o menor
base.sort_values('ClassIDH', ascending = True, inplace = True)
base

Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
0,Emirados Árabes Unidos,0.005014,7.28,71,Alto
33,Hong Kong,0.004391,8.91,76,Alto
34,Holanda,0.010731,7.96,82,Alto
35,Nova Zelândia,0.002459,8.56,87,Alto
36,Islândia,0.000314,7.90,78,Alto
...,...,...,...,...,...
139,Burundi,0.000041,5.65,19,Baixo
138,Burkina Faso,0.000171,6.04,40,Baixo
153,Chade,0.000133,5.60,20,Baixo
145,Gâmbia,0.000019,7.04,37,Baixo


In [6]:
#Visualizando a quantidade por categoria
base.groupby(['ClassIDH']).size()

ClassIDH
Alto     62
Médio    76
Baixo    17
dtype: int64

In [7]:
#Definindo variáveis independentes e variáveis dependentes
agrupadores = base.iloc[:, 2:4]
classe = base.iloc[:, 4]
classe

0       Alto
33      Alto
34      Alto
35      Alto
36      Alto
       ...  
139    Baixo
138    Baixo
153    Baixo
145    Baixo
154    Baixo
Name: ClassIDH, Length: 155, dtype: category
Categories (3, object): ['Alto' < 'Médio' < 'Baixo']

In [8]:
#Codificando a classe
labelencoder = LabelEncoder()
classe = labelencoder.fit_transform(classe)
classe

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1])

In [9]:
#Contagem de grupos e quantidade de cada grupo
grupos, quantidades = np.unique(classe, return_counts = True)

In [10]:
#Quantidade de grupos
grupos

array([0, 1, 2])

In [11]:
#Quantidade de dentro de cada grupo
quantidades

array([62, 17, 76], dtype=int64)

In [12]:
'''Definindo o número de clusters (grupos) e realizando o agrupamento com K-means utilizando 
ILE e IPC para o agrupamento'''
cluster = KMeans(n_clusters = 3)
cluster.fit(agrupadores)

KMeans(n_clusters=3)

In [13]:
#Visualizando os centros utilizados pelo agrupador
centroides = cluster.cluster_centers_ 
centroides

array([[ 7.9537037 , 76.96296296],
       [ 6.4208    , 28.89333333],
       [ 7.24169811, 49.71698113]])

In [14]:
#Visualizando o agrupamento realizado
agrupamento = cluster.labels_
agrupamento

array([0, 0, 0, 0, 0, 2, 2, 0, 2, 2, 2, 0, 1, 0, 2, 0, 0, 2, 0, 2, 0, 1,
       0, 0, 1, 2, 2, 2, 2, 0, 0, 0, 0, 2, 2, 2, 0, 0, 0, 0, 2, 2, 0, 2,
       2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 0, 2, 1, 2, 2, 2, 1, 1,
       1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 2, 1, 1, 2,
       2, 1, 2, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 2, 1,
       1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 2, 1, 1,
       1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
       1])

In [15]:
#Contagem de grupos e quantidades de cada grupo
grupos2, quantidades2 = np.unique(agrupamento, return_counts = True)

In [16]:
#Quantidade de grupos
grupos2

array([0, 1, 2])

In [17]:
#Quantidades dentro de cada grupo
quantidades2

array([27, 75, 53], dtype=int64)

In [18]:
#Analisando a matriz de confusão 
resultados = confusion_matrix(classe, agrupamento)
resultados

array([[26,  4, 32],
       [ 0, 16,  1],
       [ 1, 55, 20]], dtype=int64)

In [19]:
#Verificando a performance de acerto do agrupamento K-means
taxa_acerto = accuracy_score(classe, agrupamento)
taxa_acerto

0.4