In [35]:
import pandas as pd
import numpy as np
import plotly.express as px # Criar gráficos dinâmicos
import plotly.graph_objects as go # Criação e concatenação de gráficos
#from sklearn.preprocessing import StandardScaler # Para realizar a padronização dos dados
from sklearn.cluster import KMeans

In [36]:
#buscando dados dos clientes
dados_clientes = pd.read_excel('dados_clientes.xlsx')
dados_clientes.head()

Unnamed: 0,id_cliente,peso,colesterol,genero,id_estado
0,1,102.0,111,Masculino,23
1,2,115.0,135,Masculino,7
2,3,115.0,136,Masculino,4
3,4,140.0,167,Feminino,24
4,5,130.0,158,Masculino,26


In [38]:
# Buscando os dados dos estados
dados_estados = pd.read_csv( 'estados_brasileiros.csv', sep = ';', encoding='latin-1')

In [39]:
dados_estados.head()

Unnamed: 0,id_estado,estado,sigla_estado,pais
0,1,Acre,ac,Brasil
1,2,Alagoas,al,
2,3,Amapá,ap,Brasil
3,4,Amazonas,am,
4,5,Bahia,ba,Brasil


In [41]:
#buscando dados de idade dos clientes
idade_clientes = pd.read_csv('idade_clientes.csv', sep = ';', encoding='latin-1')
idade_clientes.head()

Unnamed: 0,id_cliente,idade
0,1,17
1,2,28
2,3,62
3,4,55
4,5,44


### Analisando os dados estatísticos das bases de dados

In [42]:
dados_clientes.describe()

Unnamed: 0,id_cliente,peso,colesterol,id_estado
count,225.0,222.0,225.0,225.0
mean,113.0,142.315315,168.733333,13.711111
std,65.096083,31.198817,39.413671,7.562307
min,1.0,95.0,102.0,1.0
25%,57.0,115.0,135.0,7.0
50%,113.0,138.5,168.0,14.0
75%,169.0,170.0,204.0,20.0
max,225.0,203.0,235.0,27.0


In [43]:
dados_estados.describe()

Unnamed: 0,id_estado
count,27.0
mean,14.0
std,7.937254
min,1.0
25%,7.5
50%,14.0
75%,20.5
max,27.0


In [44]:
idade_clientes.describe()

Unnamed: 0,id_cliente,idade
count,547.0,547.0
mean,274.0,42.79159
std,158.04957,15.160209
min,1.0,16.0
25%,137.5,30.0
50%,274.0,42.0
75%,410.5,55.0
max,547.0,70.0


### Identificando os dados ausentes

In [45]:
dados_clientes.isna().sum()

id_cliente    0
peso          3
colesterol    0
genero        0
id_estado     0
dtype: int64

In [46]:
dados_estados.isna().sum()

id_estado       0
estado          0
sigla_estado    0
pais            5
dtype: int64

In [47]:
idade_clientes.isna().sum()

id_cliente    0
idade         0
dtype: int64

### Verificando os registros com valores nulos

In [48]:
dados_clientes.loc[dados_clientes['peso'].isnull()]

Unnamed: 0,id_cliente,peso,colesterol,genero,id_estado
32,33,,188,Masculino,22
41,42,,177,Masculino,20
87,88,,168,Feminino,12


In [49]:
dados_estados.loc[dados_estados['pais'].isnull()]

Unnamed: 0,id_estado,estado,sigla_estado,pais
1,2,Alagoas,al,
3,4,Amazonas,am,
7,8,Espírito Santo,es,
17,18,Piauí,pi,
23,24,Santa Catarina,sc,


### Eliminando os registros ausentes

In [50]:
dados_clientes.dropna(subset=['peso'], inplace=True)

In [51]:
dados_clientes.isna().sum()

id_cliente    0
peso          0
colesterol    0
genero        0
id_estado     0
dtype: int64

In [52]:
dados_estados.dropna(subset=['pais'], inplace=True)

In [53]:
dados_estados.isna().sum()

id_estado       0
estado          0
sigla_estado    0
pais            0
dtype: int64

### Refatorando valores estatísticos dos dados

In [54]:
dados_clientes.describe()

Unnamed: 0,id_cliente,peso,colesterol,id_estado
count,222.0,222.0,222.0,222.0
mean,113.792793,142.315315,168.612613,13.653153
std,65.1137,31.198817,39.654999,7.580128
min,1.0,95.0,102.0,1.0
25%,58.25,115.0,135.0,7.0
50%,114.5,138.5,167.5,13.5
75%,169.75,170.0,206.25,20.0
max,225.0,203.0,235.0,27.0


In [55]:
dados_estados.describe()

Unnamed: 0,id_estado
count,22.0
mean,14.636364
std,7.662807
min,1.0
25%,9.25
50%,14.5
75%,20.75
max,27.0


In [56]:
idade_clientes.describe()

Unnamed: 0,id_cliente,idade
count,547.0,547.0
mean,274.0,42.79159
std,158.04957,15.160209
min,1.0,16.0
25%,137.5,30.0
50%,274.0,42.0
75%,410.5,55.0
max,547.0,70.0


### Junção das tabelas

In [57]:
dados_clientes[:10]

Unnamed: 0,id_cliente,peso,colesterol,genero,id_estado
0,1,102.0,111,Masculino,23
1,2,115.0,135,Masculino,7
2,3,115.0,136,Masculino,4
3,4,140.0,167,Feminino,24
4,5,130.0,158,Masculino,26
5,6,198.0,227,Masculino,8
6,7,114.0,131,Masculino,26
7,8,145.0,176,Feminino,25
8,9,191.0,223,Feminino,16
9,10,186.0,221,Masculino,6


In [58]:
dados_estados[:10]

Unnamed: 0,id_estado,estado,sigla_estado,pais
0,1,Acre,ac,Brasil
2,3,Amapá,ap,Brasil
4,5,Bahia,ba,Brasil
5,6,Ceará,ce,Brasil
6,7,Distrito Federal,df,Brasil
8,9,Goiás,go,Brasil
9,10,Maranhão,ma,Brasil
10,11,Mato Grosso,mt,Brasil
11,12,Mato Grosso do Sul,ms,Brasil
12,13,Minas Gerais,mg,Brasil


In [59]:
clientes_estados = pd.merge(dados_clientes, dados_estados, on='id_estado')
clientes_estados.sort_values('id_cliente') # Ordena pelo valor do id do cliente

Unnamed: 0,id_cliente,peso,colesterol,genero,id_estado,estado,sigla_estado,pais
0,1,102.0,111,Masculino,23,Roraima,rr,Brasil
9,2,115.0,135,Masculino,7,Distrito Federal,df,Brasil
21,5,130.0,158,Masculino,26,Sergipe,se,Brasil
22,7,114.0,131,Masculino,26,Sergipe,se,Brasil
29,8,145.0,176,Feminino,25,São Paulo,sp,Brasil
...,...,...,...,...,...,...,...,...
33,220,181.0,219,Masculino,25,São Paulo,sp,Brasil
133,221,180.0,219,Masculino,20,Rio Grande do Norte,rn,Brasil
99,222,116.0,138,Feminino,15,Paraíba,pb,Brasil
50,224,102.0,116,Masculino,6,Ceará,ce,Brasil


In [60]:
# Junção das bases cliente e estado com as bases das idades
base_completa = pd.merge(idade_clientes, clientes_estados, on='id_cliente')
base_completa.sort_values('id_cliente')

Unnamed: 0,id_cliente,idade,peso,colesterol,genero,id_estado,estado,sigla_estado,pais
0,1,17,102.0,111,Masculino,23,Roraima,rr,Brasil
1,2,28,115.0,135,Masculino,7,Distrito Federal,df,Brasil
2,5,44,130.0,158,Masculino,26,Sergipe,se,Brasil
3,7,30,114.0,131,Masculino,26,Sergipe,se,Brasil
4,8,30,145.0,176,Feminino,25,São Paulo,sp,Brasil
...,...,...,...,...,...,...,...,...,...
174,220,32,181.0,219,Masculino,25,São Paulo,sp,Brasil
175,221,33,180.0,219,Masculino,20,Rio Grande do Norte,rn,Brasil
176,222,38,116.0,138,Feminino,15,Paraíba,pb,Brasil
177,224,31,102.0,116,Masculino,6,Ceará,ce,Brasil


In [61]:
# Organizando os nomes das colunas para uma melhor legibilidade
base_completa.rename(columns={'id_cliente': 'cod_cliente', 'id_estado': 'cod_estado', 'sigla_estado': 'sigla'}, inplace=True)
base_completa

Unnamed: 0,cod_cliente,idade,peso,colesterol,genero,cod_estado,estado,sigla,pais
0,1,17,102.0,111,Masculino,23,Roraima,rr,Brasil
1,2,28,115.0,135,Masculino,7,Distrito Federal,df,Brasil
2,5,44,130.0,158,Masculino,26,Sergipe,se,Brasil
3,7,30,114.0,131,Masculino,26,Sergipe,se,Brasil
4,8,30,145.0,176,Feminino,25,São Paulo,sp,Brasil
...,...,...,...,...,...,...,...,...,...
174,220,32,181.0,219,Masculino,25,São Paulo,sp,Brasil
175,221,33,180.0,219,Masculino,20,Rio Grande do Norte,rn,Brasil
176,222,38,116.0,138,Feminino,15,Paraíba,pb,Brasil
177,224,31,102.0,116,Masculino,6,Ceará,ce,Brasil


In [62]:
#Colocando estados com letra maiuscula
base_completa.sigla.str.upper()

0      RR
1      DF
2      SE
3      SE
4      SP
       ..
174    SP
175    RN
176    PB
177    CE
178    DF
Name: sigla, Length: 179, dtype: object

In [63]:
base_completa['sigla'] = base_completa.sigla.str.upper()
base_completa

Unnamed: 0,cod_cliente,idade,peso,colesterol,genero,cod_estado,estado,sigla,pais
0,1,17,102.0,111,Masculino,23,Roraima,RR,Brasil
1,2,28,115.0,135,Masculino,7,Distrito Federal,DF,Brasil
2,5,44,130.0,158,Masculino,26,Sergipe,SE,Brasil
3,7,30,114.0,131,Masculino,26,Sergipe,SE,Brasil
4,8,30,145.0,176,Feminino,25,São Paulo,SP,Brasil
...,...,...,...,...,...,...,...,...,...
174,220,32,181.0,219,Masculino,25,São Paulo,SP,Brasil
175,221,33,180.0,219,Masculino,20,Rio Grande do Norte,RN,Brasil
176,222,38,116.0,138,Feminino,15,Paraíba,PB,Brasil
177,224,31,102.0,116,Masculino,6,Ceará,CE,Brasil


In [64]:
# Alterando as disposições das colunas para uma melhor visuaização da base de dados
base_completa[['cod_cliente', 'cod_estado', 'genero', 'idade', 'peso', 'colesterol', 'estado', 'pais']]

Unnamed: 0,cod_cliente,cod_estado,genero,idade,peso,colesterol,estado,pais
0,1,23,Masculino,17,102.0,111,Roraima,Brasil
1,2,7,Masculino,28,115.0,135,Distrito Federal,Brasil
2,5,26,Masculino,44,130.0,158,Sergipe,Brasil
3,7,26,Masculino,30,114.0,131,Sergipe,Brasil
4,8,25,Feminino,30,145.0,176,São Paulo,Brasil
...,...,...,...,...,...,...,...,...
174,220,25,Masculino,32,181.0,219,São Paulo,Brasil
175,221,20,Masculino,33,180.0,219,Rio Grande do Norte,Brasil
176,222,15,Feminino,38,116.0,138,Paraíba,Brasil
177,224,6,Masculino,31,102.0,116,Ceará,Brasil


### Análise de dados - Seleção do algoritmo de Machine Learning
#### Agrupamento de pessoas baseados no peso e colesterol utilizando o método cotovelo

In [65]:
from re import X
def calcular_wcss(clientes):
  wcss = []
  for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, random_state = 0)
    kmeans.fit(X = clientes)
    wcss.append(kmeans.inertia_)
  return wcss

In [66]:
clientes = base_completa[['peso', 'colesterol']]
clientes.head()

Unnamed: 0,peso,colesterol
0,102.0,111
1,115.0,135
2,130.0,158
3,114.0,131
4,145.0,176


In [67]:
type(clientes)

pandas.core.frame.DataFrame

In [68]:
wcss_clientes = calcular_wcss(clientes)

In [69]:
type(wcss_clientes)

list

In [74]:
# Visualizando os dados obtidos do WCSS
for i in range(len(wcss_clientes)):
  print(f'O cluster {i} possui o valor de :', wcss_clientes[i])

O cluster 0 possui o valor de : 438401.74301675986
O cluster 1 possui o valor de : 107039.35592154894
O cluster 2 possui o valor de : 47311.79741707243
O cluster 3 possui o valor de : 25727.342368871432
O cluster 4 possui o valor de : 16731.474933155077
O cluster 5 possui o valor de : 12186.035368335368
O cluster 6 possui o valor de : 8565.007307692305
O cluster 7 possui o valor de : 6933.611137524499
O cluster 8 possui o valor de : 5561.561966941367
O cluster 9 possui o valor de : 4672.358732343433


In [75]:
# Visualizando o gráfico cotovelo
grafico_cliente = px.line( x = range(1, 11), y = wcss_clientes)
grafico_cliente.show()

In [76]:
#  defino o numero de clusters
kmeans_clientes = KMeans(n_clusters = 4, random_state = 0)
label_cluster_clientes = kmeans_clientes.fit_predict(clientes)

In [77]:
label_cluster_clientes

array([3, 0, 0, 3, 1, 2, 2, 3, 2, 3, 1, 0, 2, 3, 2, 1, 0, 1, 3, 1, 3, 2,
       3, 2, 2, 1, 1, 2, 3, 2, 3, 0, 2, 2, 2, 0, 2, 0, 0, 0, 1, 2, 1, 3,
       1, 2, 1, 3, 3, 2, 1, 1, 1, 2, 0, 0, 0, 1, 2, 3, 0, 2, 3, 0, 3, 2,
       0, 3, 0, 1, 0, 3, 1, 2, 3, 3, 0, 0, 1, 3, 3, 1, 0, 2, 1, 0, 2, 0,
       2, 3, 0, 1, 0, 0, 1, 2, 2, 3, 3, 0, 2, 3, 2, 1, 0, 1, 3, 2, 1, 3,
       2, 3, 1, 1, 1, 3, 2, 2, 3, 0, 2, 2, 0, 2, 2, 0, 0, 2, 2, 1, 2, 1,
       2, 0, 1, 3, 1, 3, 2, 1, 1, 1, 0, 1, 0, 1, 2, 3, 0, 2, 0, 0, 0, 0,
       2, 0, 3, 1, 1, 0, 3, 1, 2, 3, 3, 3, 0, 1, 3, 3, 1, 2, 3, 0, 2, 2,
       0, 3, 2], dtype=int32)

In [78]:
#Calculando os centroides de cada cluster
centroides_clientes = kmeans_clientes.cluster_centers_
centroides_clientes

array([[125.22727273, 150.11363636],
       [149.61904762, 182.97619048],
       [182.3       , 217.1       ],
       [104.8372093 , 116.6744186 ]])

In [79]:
#Inserindo os clusters como coluna
base_completa['cluster'] = label_cluster_clientes
base_completa.head()

Unnamed: 0,cod_cliente,idade,peso,colesterol,genero,cod_estado,estado,sigla,pais,cluster
0,1,17,102.0,111,Masculino,23,Roraima,RR,Brasil,3
1,2,28,115.0,135,Masculino,7,Distrito Federal,DF,Brasil,0
2,5,44,130.0,158,Masculino,26,Sergipe,SE,Brasil,0
3,7,30,114.0,131,Masculino,26,Sergipe,SE,Brasil,3
4,8,30,145.0,176,Feminino,25,São Paulo,SP,Brasil,1


In [80]:
#visualizando os dados de peso e colesterol
dados_clientes = clientes.iloc[:,[0,1]].values
dados_clientes[:10]

array([[102., 111.],
       [115., 135.],
       [130., 158.],
       [114., 131.],
       [145., 176.],
       [191., 223.],
       [186., 221.],
       [104., 116.],
       [188., 222.],
       [ 96., 102.]])

### Gráfico de agrupamentos dos valores de peso e colesterol

In [81]:
grafico_clientes = px.scatter(x = base_completa['peso'], y = base_completa['colesterol'], color = base_completa['cluster'])
grafico_centroides = px.scatter(x = centroides_clientes[:,0], y = centroides_clientes[:,1], size = [7,7,7,7])
grafico_final = go.Figure(data = grafico_clientes.data + grafico_centroides.data)
grafico_final.show()

# Visualizando e alterando layout do gráfico


In [82]:
grafico = px.scatter(x = base_completa['colesterol'], 
                     y = base_completa['peso'], 
                     color= base_completa['cluster'])
fig = go.Figure(grafico)

fig.update_layout(title='Análise de Clusters',
                  xaxis_title= 'Colesterol',
                  yaxis_title= 'peso',                  
                  ) 


fig.show()

In [84]:
#criando função plotar grafico
def plotar_grafico(x,y, xlabel, y_label):
  grafico = px.scatter(x = x, 
                      y = y, 
                      color= base_completa['cluster'])
  
  fig = go.Figure(grafico)

  fig.update_layout(title='Análise de Clusters',
                    xaxis_title= xlabel,
                    yaxis_title= y_label,                  
                    ) 

  fig.show()

In [85]:
plotar_grafico(base_completa['colesterol'], base_completa['peso'], 'colesterol', 'peso')

# Segmentando os clientes baseado na análise dos clusters

Agora vamos analisar os dados dos clusters referente aos atributos peso e colesterol e atribuir nomes que representam aquele agrupamento.

Vamos agrupar  em 3 tipos:


Alto risco: Peso e colesterol altos

Baixo risco: Baixo peso e colesterol baixo

Risco Moderado Alto: peso e colesterol medianos altos 

Risco Moderado Baixo : peso e colesterol medianos baixos

In [86]:
x = 'colesterol'
y = 'peso'

plotar_grafico(base_completa[x], base_completa[y], x, y)

In [87]:
cluster_clientes = base_completa

In [92]:
# Seguimentando os clientes baseado na análise dos clusters
cluster_clientes.loc[cluster_clientes['cluster']==3,'nome_cluster'] = 'Baixo Risco'
cluster_clientes.loc[cluster_clientes['cluster']==2,'nome_cluster'] = 'Alto Risco'
cluster_clientes.loc[cluster_clientes['cluster']==1,'nome_cluster'] = 'Risco Moderado Alto'
cluster_clientes.loc[cluster_clientes['cluster']==0,'nome_cluster'] = 'Risco Moderado Baixo'

In [93]:
cluster_clientes

Unnamed: 0,cod_cliente,idade,peso,colesterol,genero,cod_estado,estado,sigla,pais,cluster,nome_cluster
0,1,17,102.0,111,Masculino,23,Roraima,RR,Brasil,3,Baixo Risco
1,2,28,115.0,135,Masculino,7,Distrito Federal,DF,Brasil,0,Risco Moderado Baixo
2,5,44,130.0,158,Masculino,26,Sergipe,SE,Brasil,0,Risco Moderado Baixo
3,7,30,114.0,131,Masculino,26,Sergipe,SE,Brasil,3,Baixo Risco
4,8,30,145.0,176,Feminino,25,São Paulo,SP,Brasil,1,Risco Moderado Alto
...,...,...,...,...,...,...,...,...,...,...,...
174,220,32,181.0,219,Masculino,25,São Paulo,SP,Brasil,2,Alto Risco
175,221,33,180.0,219,Masculino,20,Rio Grande do Norte,RN,Brasil,2,Alto Risco
176,222,38,116.0,138,Feminino,15,Paraíba,PB,Brasil,0,Risco Moderado Baixo
177,224,31,102.0,116,Masculino,6,Ceará,CE,Brasil,3,Baixo Risco


In [94]:
 # Verifica os valores de idade por cluster
cluster_clientes.groupby('nome_cluster')['idade'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
nome_cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alto Risco,50.0,46.3,15.375902,16.0,34.0,49.0,59.5,69.0
Baixo Risco,43.0,42.837209,16.005847,17.0,29.0,43.0,57.0,70.0
Risco Moderado Alto,42.0,42.047619,13.961537,16.0,31.25,41.0,52.75,70.0
Risco Moderado Baixo,44.0,41.431818,14.007303,18.0,30.5,38.0,51.5,70.0


In [91]:
# Verifica os valores de estado por cluster
cluster_clientes.groupby('nome_cluster')['estado'].describe()

Unnamed: 0_level_0,count,unique,top,freq
nome_cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alto Risco,50,17,Distrito Federal,6
Baixo Risco,43,20,Amapá,4
Risco Moderado Alto,42,19,Pernambuco,4
Risco Moderado Baixo,44,20,Sergipe,5


In [95]:
cluster_clientes.groupby(['nome_cluster', 'genero'])['peso'].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
nome_cluster,genero,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alto Risco,Feminino,23.0,183.913043,8.409481,168.0,179.0,185.0,188.5,203.0
Alto Risco,Masculino,27.0,180.925926,10.673208,166.0,173.0,180.0,186.5,203.0
Baixo Risco,Feminino,20.0,106.7,6.42446,96.0,103.0,108.0,112.0,118.0
Baixo Risco,Masculino,23.0,103.217391,5.384798,95.0,100.0,102.0,105.5,114.0
Risco Moderado Alto,Feminino,25.0,149.4,7.36546,135.0,142.0,152.0,156.0,161.0
Risco Moderado Alto,Masculino,17.0,149.941176,6.814237,138.0,146.0,149.0,154.0,166.0
Risco Moderado Baixo,Feminino,25.0,126.0,6.639528,115.0,122.0,125.0,132.0,137.0
Risco Moderado Baixo,Masculino,19.0,124.210526,6.06977,115.0,120.5,124.0,129.0,134.0


In [96]:
#Exportando dados
cluster_clientes.to_csv('classificacao_clientes.csv', sep = ';', encoding='latin1') 