### Agrupar Mineradoras de acordo com os dados de Exploração Mineral

#### Dataset: Compensação Financeira pela Exploração de Recursos Minerais (CFEM)
#### Fonte: https://dados.gov.br/dataset/sistema-arrecadacao

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import pylab
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from scipy.spatial.distance import cdist, pdist
from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

In [2]:
# Carregando os dados
dataset = pd.read_csv('dados/exploracaoRecursosMinerais.csv', sep=',', encoding='latin-1')

In [3]:
dataset.head(100)

Unnamed: 0,Periodo,Processo,Ano do Processo,CPF/CNPJ,Pessoa Física/Jurídica,Fase do Processo,Substância,Uf,Município,Unidade de Medida,Quantidade Comercializada,Valor Recolhido (CFEM)
0,2002,,,***.000.000-**,Não Informado,,,,,,,174
1,2002,910262.0,2007.0,88.503.388/0001-94,PEDRAS BASALTO TRES DE MAIO LTDA ...,,BASALTO,RS,TRÊS DE MAIO,m3,0,20641
2,2003,,,,,,FERRO,SC,ARAQUARI,,,1194644
3,2003,,,,,,FERRO,SP,SÃO JOÃO DA BOA VISTA,,,8406
4,2003,,,***.000.000-**,Não Informado,,,,,,,546948363
...,...,...,...,...,...,...,...,...,...,...,...,...
95,2003,,,***.898.471-**,JOÃO TEIXEIRA SOBRINHO ...,,AREIA,GO,GOIANÉSIA,m3,416,8097
96,2003,,,***.907.421-**,ESTELITA CARNEIRO DA SILVA CASTRO,,AREIA,GO,ITAPURANGA,m3,3521,56537
97,2003,,,***.908.916-**,Enilson Sergio da Silva,,AREIA LAVADA,MG,CANA VERDE,m3,618,2021
98,2003,,,***.910.933-**,AROLDO JUCA DE QUEIROZ ...,,GRANITO ORNAMENTAL,CE,SANTA QUITÉRIA,m3,74,10433


In [4]:
dataset.shape

(202405, 12)

In [5]:
dataset.isnull().sum()

Periodo                          0
Processo                     17157
Ano do Processo              17157
CPF/CNPJ                        45
Pessoa Física/Jurídica          31
Fase do Processo             31316
Substância                      32
Uf                            1268
Município                     1268
Unidade de Medida              184
Quantidade Comercializada     1574
Valor Recolhido (CFEM)           0
dtype: int64

In [6]:
#Retirando espaços em branco do início e fim das variáveis
dataset = dataset.applymap(lambda x: x.strip() if isinstance(x, str) else x)

In [7]:
#Utilizando apenas as linhas que tem os dados que vou precisar para a análise
dataset.dropna(subset=["Fase do Processo"], inplace=True)
dataset.dropna(subset=["Substância"], inplace=True)
dataset.dropna(subset=["Uf"], inplace=True)
dataset.dropna(subset=["Município"], inplace=True)

In [8]:
#Passo a coluna Fase do Processo para um inteiro, índice,  da sua categoria
valores_unicos = dataset['Fase do Processo'].unique()
total_valores = len(valores_unicos)
mapeamento = dict(zip(valores_unicos, range(total_valores)))
dataset['Fase do Processo_cat'] = dataset['Fase do Processo'].replace(mapeamento)
dataset["Fase do Processo_cat"] = pd.Categorical(dataset["Fase do Processo_cat"])
dataset.dropna(subset=["Fase do Processo_cat"], inplace=True)

In [9]:
#Passo a coluna Substância para um inteiro, índice,  da sua categoria
valores_unicos = dataset['Substância'].unique()
total_valores = len(valores_unicos)
mapeamento = dict(zip(valores_unicos, range(total_valores)))
dataset['Substância_cat'] = dataset['Substância'].replace(mapeamento)
dataset["Substância_cat"] = pd.Categorical(dataset["Substância_cat"])
dataset.dropna(subset=["Substância_cat"], inplace=True)

In [10]:
#Passo a coluna Uf para um inteiro, índice,  da sua categoria
valores_unicos = dataset['Uf'].unique()
total_valores = len(valores_unicos)
mapeamento = dict(zip(valores_unicos, range(total_valores)))
dataset['Uf_cat'] = dataset['Uf'].replace(mapeamento)
dataset["Uf_cat"] = pd.Categorical(dataset["Uf_cat"])
dataset.dropna(subset=["Uf_cat"], inplace=True)

In [11]:
#Passo a coluna Municipio para um inteiro, índice,  da sua categoria
valores_unicos = dataset['Município'].unique()
total_valores = len(valores_unicos)
mapeamento = dict(zip(valores_unicos, range(total_valores)))
dataset['Município_cat'] = dataset['Município'].replace(mapeamento)
dataset["Município_cat"] = pd.Categorical(dataset["Município_cat"])
dataset.dropna(subset=["Município_cat"], inplace=True)

In [12]:
#Utilizando apenas as linhas que tem os dados que vou precisar para a análise

dataset["CPF/CNPJ"].fillna('***.000.000-**', inplace=True)
dataset.dropna(subset=["Pessoa Física/Jurídica"], inplace=True)

In [13]:
dataset['Valor Recolhido (CFEM)'] = dataset["Valor Recolhido (CFEM)"].str.replace(',','.')
dataset['Valor Recolhido (CFEM)'] = dataset['Valor Recolhido (CFEM)'].apply(pd.to_numeric)
dataset["Valor Recolhido (CFEM)"] = pd.to_numeric(dataset["Valor Recolhido (CFEM)"])

In [14]:
dataset.dropna(subset=["Valor Recolhido (CFEM)"], inplace=True)

In [15]:
dataset.head()

Unnamed: 0,Periodo,Processo,Ano do Processo,CPF/CNPJ,Pessoa Física/Jurídica,Fase do Processo,Substância,Uf,Município,Unidade de Medida,Quantidade Comercializada,Valor Recolhido (CFEM),Fase do Processo_cat,Substância_cat,Uf_cat,Município_cat
3470,2003,81.0,1948.0,29.627.007/0001-10,Estância Hidromineral Soledade LTDA ME,Concessão de Lavra,ÁGUA MINERAL,RJ,ITAPERUNA,l,1134240,728.25,0,0,0,0
3471,2003,135.0,1951.0,19.791.581/0001-55,COMPANHIA DE DESENVOLVIMENTO ECONOMICO DE MINAS G,Concessão de Lavra,ÁGUA MINERAL,MG,CAMBUQUIRA,l,686929,203.76,0,0,1,1
3472,2003,370.0,1956.0,60.580.396/0001-15,Companhia Geral de Minas,Concessão de Lavra,BAUXITA,MG,POÇOS DE CALDAS,t,852,61.66,0,1,1,2
3473,2003,397.0,1942.0,23.064.231/0001-64,Bemil Beneficiamento de Minérios Ltda,Concessão de Lavra,CALCÁRIO,MG,OURO PRETO,t,10899,2425.82,0,2,1,3
3474,2003,397.0,1942.0,23.064.231/0001-64,Bemil Beneficiamento de Minérios Ltda,Concessão de Lavra,DOLOMITO,MG,OURO PRETO,t,44370,12351.68,0,3,1,3


In [16]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 169858 entries, 3470 to 202339
Data columns (total 16 columns):
 #   Column                     Non-Null Count   Dtype   
---  ------                     --------------   -----   
 0   Periodo                    169858 non-null  int64   
 1   Processo                   169858 non-null  float64 
 2   Ano do Processo            169858 non-null  float64 
 3   CPF/CNPJ                   169858 non-null  object  
 4   Pessoa Física/Jurídica     169858 non-null  object  
 5   Fase do Processo           169858 non-null  object  
 6   Substância                 169858 non-null  object  
 7   Uf                         169858 non-null  object  
 8   Município                  169858 non-null  object  
 9   Unidade de Medida          169745 non-null  object  
 10  Quantidade Comercializada  168919 non-null  object  
 11  Valor Recolhido (CFEM)     169858 non-null  float64 
 12  Fase do Processo_cat       169858 non-null  category
 13  Substância_

In [17]:
#Passo a Quantidade Comercializada para uma coluna numérica
dataset['Quantidade Comercializada'] = pd.to_numeric(dataset['Quantidade Comercializada'], errors='coerce')

In [18]:
#Substituindo os valores em branco de variáveis por nulo para poder excluir a coluna.
dataset['Fase do Processo'].replace('', np.nan, inplace=True)
dataset.dropna(subset=["Fase do Processo"], inplace=True)

In [19]:
#Colocando na coluna Quantidade Comercializada a média agrupada pela substância
med = dataset.groupby('Substância')['Quantidade Comercializada'].transform('mean')

In [20]:
dataset['Quantidade Comercializada'].fillna(med, inplace=True)
dataset.dropna(subset=["Quantidade Comercializada"], inplace=True)

In [22]:
dataset = dataset.sample(frac=0.5)

In [23]:
nomesColunas = ["Fase do Processo_cat", "Substância_cat", "Uf_cat", "Município_cat", "Quantidade Comercializada", "Valor Recolhido (CFEM)"]
dataset_2 = dataset[nomesColunas]

In [24]:
dataset_2.head()

Unnamed: 0,Fase do Processo_cat,Substância_cat,Uf_cat,Município_cat,Quantidade Comercializada,Valor Recolhido (CFEM)
193322,2,42,14,1100,242962.992166,1514.4
127778,2,21,6,2096,18070.0,1341.79
18411,2,59,8,388,1967.0,247.76
80459,0,6,2,57,16813.314199,7415.83
25709,2,42,2,525,5345.0,1358.26


In [25]:
# Obter os valores dos atributos
dataset_atrib = dataset_2.values
dataset_atrib.shape

(84816, 6)

In [26]:
# Aplica redução de dimensionalidade
pca = PCA(n_components = 2).fit_transform(dataset_atrib)

In [27]:
# Determinando um range de K
k_range = range(1,12)

In [28]:
# Aplicando o modelo K-Means para cada valor de K 
k_means_var = [KMeans(n_clusters = k).fit(pca) for k in k_range]

In [29]:
# Ajustando o centróide do cluster para cada modelo
centroids = [X.cluster_centers_ for X in k_means_var]

In [30]:
# Calculando a distância euclidiana de cada ponto de dado para o centróide
k_euclid = [cdist(pca, cent, 'euclidean') for cent in centroids]
dist = [np.min(ke, axis = 1) for ke in k_euclid]

In [31]:
# Soma dos quadrados das distâncias dentro do cluster
soma_quadrados_intra_cluster = [sum(d**2) for d in dist]

In [None]:
# Soma total dos quadrados
soma_total = sum(pdist(pca)**2)/pca.shape[0]

In [None]:
# Soma dos quadrados entre clusters
soma_quadrados_inter_cluster = soma_total - soma_quadrados_intra_cluster

In [None]:
# Curva de Elbow
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(k_range, soma_quadrados_inter_cluster/soma_total * 100, 'b*-')
ax.set_ylim((0,100))
plt.grid(True)
plt.xlabel('Número de Clusters')
plt.ylabel('Percentual de Variância Explicada')
plt.title('Variância Explicada x Valor de K')

In [None]:
# Criando um modelo com K = 8
modelo = KMeans(n_clusters = 8)
modelo.fit(pca)

In [None]:
# Obtém os valores mínimos e máximos e organiza o shape
x_min, x_max = pca[:, 0].min() - 5, pca[:, 0].max() - 1
y_min, y_max = pca[:, 1].min() + 1, pca[:, 1].max() + 5
xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
Z = modelo_v1.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

In [None]:
# Plot das áreas dos clusters
plt.figure(1)
plt.clf()
plt.imshow(Z, 
           interpolation = 'nearest',
           extent = (xx.min(), xx.max(), yy.min(), yy.max()),
           cmap = plt.cm.Paired,
           aspect = 'auto', 
           origin = 'lower')

In [None]:
# Plot dos centróides
plt.plot(pca[:, 0], pca[:, 1], 'k.', markersize = 4)
centroids = modelo_v1.cluster_centers_
inert = modelo_v1.inertia_
plt.scatter(centroids[:, 0], centroids[:, 1], marker = 'x', s = 169, linewidths = 3, color = 'r', zorder = 8)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

In [None]:
# Silhouette Score
labels = modelo_v1.labels_
silhouette_score(pca, labels, metric = 'euclidean')

In [None]:
# Cria o cluster map
cluster_map = pd.DataFrame(amostra1, columns = names)
cluster_map['Global_active_power'] = pd.to_numeric(cluster_map['Global_active_power'])
cluster_map['cluster'] = modelo_v1.labels_

In [None]:
cluster_map