# 📊 Projeto: Segmentação Inteligente de Clientes
### Datacorp AI Lab - Setor de Marketing  
**Professor:** Ms. Alex Lima  
**Disciplina:** Aprendizado de Máquina  
**Aluno:** [SEU NOME AQUI]

## 1. Introdução
**Objetivo:** Aplicar técnicas de machine learning não supervisionado (clustering) para segmentar clientes da Datacorp, permitindo campanhas de marketing personalizadas.

In [None]:
# 2. Importação de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

In [None]:
# 3. Carregamento e visualização dos dados
df = pd.read_csv('marketing_campaign.csv', sep='\t')
print("Shape do dataset:", df.shape)
df.head()

In [None]:
# 4. Pré-processamento
from datetime import datetime
df['Age'] = datetime.now().year - df['Year_Birth']
colunas_remover = ['ID', 'Year_Birth', 'Z_CostContact', 'Z_Revenue', 'Dt_Customer']
df.drop(columns=colunas_remover, inplace=True)
df.dropna(inplace=True)

In [None]:
# 5. Seleção e normalização das variáveis
features = ['Income', 'Age', 'MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds']
X = df[features]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# 6. Encontrando o número ideal de clusters
scores = []
k_range = range(2, 11)
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    score = silhouette_score(X_scaled, kmeans.labels_)
    scores.append(score)

plt.plot(k_range, scores, marker='o')
plt.title('Silhouette Score por número de clusters')
plt.xlabel('Número de clusters')
plt.ylabel('Silhouette Score')
plt.grid()
plt.show()

In [None]:
# 7. Aplicando K-Means com k definido (ex: k=4)
k = 4
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_scaled)
df['Cluster'] = kmeans.labels_

In [None]:
# 8. Análise dos clusters
cluster_summary = df.groupby('Cluster')[features].mean()
print("Resumo dos clusters:\n")
print(cluster_summary)

sns.pairplot(df, hue='Cluster', vars=['Income', 'Age', 'MntWines'])
plt.show()

## 9. Conclusão
- Cada cluster representa um perfil distinto de cliente
- Permite campanhas personalizadas e mais eficientes
- Pode aumentar conversão, engajamento e reduzir custos de marketing

**Próximos passos:**
- Incluir variáveis comportamentais
- Aplicar PCA para visualização em 2D

## 10. Dicionário de Dados
- `Income`: Renda anual
- `Age`: Idade estimada
- `MntWines`: Gasto com vinhos
- `MntFruits`: Gasto com frutas
- `MntMeatProducts`: Gasto com carnes
- `MntFishProducts`: Gasto com peixes
- `MntSweetProducts`: Gasto com doces
- `MntGoldProds`: Gasto com produtos premium
- `Cluster`: Grupo atribuído pelo modelo K-Means