# Clusterização de municípios pelos indicadores do IBGE

Este notebook aplica o algoritmo *k-means* para agrupar os municípios por quatro variáveis socioeconômicas:

- IDHM 2010
- PIB per capita 2021
- Densidade demográfica 2010
- Taxa de escolarização (alfabetização) 2010

Esses clusters serão depois utilizados como variáveis *dummy* em modelos de regressão para controlar perfis municipais.


In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

base = pd.read_csv('../data/dados_unificados_prefeitos_200k.csv')
base.columns = [c.lstrip('﻿') for c in base.columns]

features = base[['idhm_2010', 'pib_per_capita_2021',
                 'densidade_demografica_2010', 'alfabetizacao_2010']]
features = features.dropna()


In [None]:
scaler = StandardScaler()
X = scaler.fit_transform(features)

k = 4  # número de clusters
kmeans = KMeans(n_clusters=k, random_state=42)
clusters = kmeans.fit_predict(X)

features = features.assign(cluster=clusters)
features.head()


In [None]:
cluster_dummies = pd.get_dummies(features['cluster'], prefix='cluster')
base_with_clusters = base.join(cluster_dummies)

base_with_clusters.filter(like='cluster_').head()


Os *clusters* gerados são transformados em variáveis dummy para cada município. O arquivo abaixo pode ser salvo para uso em etapas posteriores do TCC.

In [None]:
base_with_clusters.to_csv('../data/dados_com_clusters.csv', index=False)
