**Projeto de Segmentação de Clientes**

O presente projeto visa aplicar um modelo de Machine Learning para segmentar uma base de clientes em três grupos com base na idade, renda anual e pontuação de compras.

In [1]:
# Versão da Linguagem Python
from platform import python_version
print("Versão da Linguagem Python Usada Neste VS Code:", python_version())

Versão da Linguagem Python Usada Neste VS Code: 3.14.2


In [2]:
!pip install pandas



In [4]:
!pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp314-cp314-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.3-cp314-cp314-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp314-cp314-win_amd64.whl (8.8 MB)
   ---------------------------------------- 0.0/8.8 MB ? eta -:--:--
   -- ------------------------------------- 0.5/8.8 MB 5.2 MB/s eta 0:00:02
   ---- ----------------------------------- 1.0/8.8 MB 2.6 MB/s eta 0:00:03
   --------- ------------------------------ 2.1/8.8 MB 3.2 MB/s eta 0:00:03
   -------------- ------------------------- 3.1/8.8 MB 3.6 MB/s eta 0:00:02
   ----------------- ---------------------- 3.9/8.8 MB 3.7 MB/s eta 0:00:02
   ---------------------- ----------------- 

**Pacotes**

In [5]:
# Imports
import pandas as pd 
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

**Importação dos Dados**

In [7]:
# Carrega os dados
df_clientes = pd.read_csv(r"C:\Users\acer\Downloads\2-Cap16\dados\dados_clientes.csv")

In [9]:
type(df_clientes)

pandas.core.frame.DataFrame

In [8]:
df_clientes.head(5)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos
0,1,56,94740,90
1,2,69,136352,50
2,3,46,86617,62
3,4,32,114841,97
4,5,60,36896,51


**Análise Exploratória dos Dados**

In [11]:
# Resumo estatístico
df_clientes[["idade", "renda_anual","pontuacao_gastos"]].describe()

Unnamed: 0,idade,renda_anual,pontuacao_gastos
count,500.0,500.0,500.0
mean,44.732,81557.166,48.512
std,15.239707,36764.379945,29.556946
min,18.0,20384.0,0.0
25%,32.0,49172.75,24.0
50%,45.0,79219.0,48.5
75%,57.0,113017.25,73.25
max,70.0,149695.0,100.0


**Pré-Processamento dos Dados**

In [12]:
# Criar o padronizador dos dados
padronizador = StandardScaler()

In [13]:
# Aplica o padronizador somente nas colunas de interesse
dados_padronizados = padronizador.fit_transform(df_clientes[["idade","renda_anual","pontuacao_gastos"]])

In [14]:
# Vizualiza os dados
print(dados_padronizados)

[[ 0.74012478  0.35893538  1.40506904]
 [ 1.59401387  1.49192537  0.05039391]
 [ 0.08328703  0.13776654  0.45679645]
 ...
 [-0.31081563  0.32661636  0.18586143]
 [-1.23038848 -1.48706069  1.43893592]
 [-1.03333716 -0.96992912 -0.59307677]]


**Construção do Modelo de Machine Learning Para Segmentação de Clientes**

In [15]:
# Difinição do número de clusters (k)
k = 3

In [16]:
# Criação do modelo k-means
kmeans = KMeans(n_clusters = k)

In [17]:
# Treinamento do modelo com os dados padronizados 
kmeans.fit(dados_padronizados)

0,1,2
,n_clusters,3
,init,'k-means++'
,n_init,'auto'
,max_iter,300
,tol,0.0001
,verbose,0
,random_state,
,copy_x,True
,algorithm,'lloyd'


In [18]:
# Atribuição dos rótulos dos clusters aos clientes
df_clientes['cluster'] = kmeans.labels_

In [19]:
# Exibe o resultado (5 primeiras linhas)
df_clientes.head(5)

Unnamed: 0,id,idade,renda_anual,pontuacao_gastos,cluster
0,1,56,94740,90,1
1,2,69,136352,50,2
2,3,46,86617,62,1
3,4,32,114841,97,0
4,5,60,36896,51,1


In [23]:
# Salva os resultados
df_clientes.to_csv(r'C:\Users\acer\Downloads\2-Cap16\dados\segmentos.csv', index = False)