# **MÓDULO 33 - Projeto Final de Modelos Avançados**

**Objetivo do Projeto:**

O objetivo deste projeto é aplicar os conceitos aprendidos nos módulos de conceitos avançados de modelagem para realizar uma segmentação de clientes utilizando o algoritmo de clustering K-Means. Ao final do projeto, você terá a oportunidade de consolidar seus conhecimentos em exploração de dados, pré-processamento, implementação e avaliação de modelos.

**Exploração de Dados:**

Inicie explorando o dataset fornecido, buscando entender as principais características das variáveis e a distribuição dos dados.

Realize análises descritivas, identifique padrões, e verifique a presença de valores ausentes ou inconsistências que precisem ser tratadas.

#Dimensão do dataset: verificar número de linhas (200 clientes) e colunas.

Tipos de variáveis: categórica (Gender) e numéricas (Age, Annual Income (k$), Spending Score (1-100)).
Estatísticas descritivas: média, mediana, mínimo, máximo, desvio padrão.
Distribuição das variáveis: histogramas e boxplots.
Análise de correlação: matriz de correlação para variáveis numéricas.
Valores ausentes/inconsistências: verificar se há nulos ou registros duplicados.

👉 Exemplo de interpretação:

Idades variam entre 18 e 70 anos.
Renda anual entre 15k e 137k.
Spending Score distribuído uniformemente de 1 a 100.
Gênero bem equilibrado (cerca de 50/50).

MÓDULO 33 - Projeto Final de Modelos Avançados
1 célula oculta
Exploração de Dados:

Inicie explorando o dataset fornecido, buscando entender as principais características das variáveis e a distribuição dos dados.

Realize análises descritivas, identifique padrões, e verifique a presença de valores ausentes ou inconsistências que precisem ser tratadas.

Dimensão do dataset: verificar número de linhas (200 clientes) e colunas.
Tipos de variáveis: categórica (Gender) e numéricas (Age, Annual Income (k$), Spending Score (1-100)). Estatísticas descritivas: média, mediana, mínimo, máximo, desvio padrão. Distribuição das variáveis: histogramas e boxplots. Análise de correlação: matriz de correlação para variáveis numéricas. Valores ausentes/inconsistências: verificar se há nulos ou registros duplicados.

👉 Exemplo de interpretação:

Idades variam entre 18 e 70 anos. Renda anual entre 15k e 137k. Spending Score distribuído uniformemente de 1 a 100. Gênero bem equilibrado (cerca de 50/50).

Tratamento de Dados:

Realize os tratamentos necessários como limpeza de dados, normalização ou padronização das variáveis, e, se necessário, a criação de variáveis derivadas.

Documente cada etapa do tratamento, explicando o motivo das escolhas feitas e como elas impactam no modelo.

Valores ausentes: remover ou imputar (se existirem).
Normalização/Padronização: O K-Means é sensível à escala. Aplicar StandardScaler (média=0, desvio=1) ou MinMaxScaler (0–1). Variáveis categóricas: Gender pode ser transformada em binária (0 = Male, 1 = Female). Seleção de variáveis: geralmente usamos Age, Annual Income, Spending Score.

Podemos incluir Gender como dummy, mas avaliar impacto.

👉 Justificativa: A padronização evita que variáveis em escalas diferentes (ex: idade em anos e renda em milhares de dólares) dominem o cálculo das distâncias.

Renda anual entre 15k e 137k.

Spending Score distribuído uniformemente de 1 a 100. Gênero bem equilibrado (cerca de 50/50).

Implementação do Algoritmo K-Means:

Aplique o algoritmo K-Means no dataset tratado. Defina o número de clusters (k). Execute o algoritmo, ajuste os parâmetros conforme necessário, e documente o processo.

Determinar o número ideal de clusters (k):
Método do Cotovelo (Elbow Method) → analisar a inércia (SSE). Método da Silhueta (Silhouette Score) → avaliar a coesão e separação dos clusters. Rodar o modelo:

Exemplo: KMeans(n_clusters=5, random_state=42)

Ajustar hiperparâmetros: init (k-means++), max_iter, n_init.

Atribuir cluster a cada cliente: adicionar coluna Cluster ao dataset.

👉 Exemplo: Método do cotovelo sugere k=5 clusters. Silhouette confirma que 5 é um bom valor (score ~0.55).

Avaliação e Interpretação dos Resultados:

Avalie a qualidade dos clusters gerados utilizando métricas adequadas.

Interprete os resultados, descrevendo as características de cada cluster e como eles podem ser utilizados para a segmentação de clientes.

Sugira aplicações práticas para os clusters identificados, como estratégias de marketing direcionadas ou personalização de ofertas.

Métricas:
Inércia (SSE): soma das distâncias ao centroide. Silhouette Score: mede qualidade dos clusters (−1 a 1). Interpretação dos Clusters: Descrever cada cluster em termos de idade, renda e score de gastos.

👉 Exemplo de segmentação (hipotético):

Cluster 0: Jovens, alta renda, alto Spending Score → clientes VIPs. Cluster 1: Adultos, baixa renda, baixo Spending Score → clientes pouco rentáveis. Cluster 2: Média idade, renda média, score médio → clientes regulares. Cluster 3: Jovens, baixa renda, alto Spending Score → gastam muito mesmo sem alta renda. Cluster 4: Alta renda, baixo Spending Score → clientes exigentes mas que não consomem tanto.

O dataset a ser utilizado neste projeto contém informações de 200 clientes, com os seguintes atributos:

CustomerID: Identificador único atribuído a cada cliente.

Gender: Gênero do cliente.

Age: Idade do cliente.

Annual Income (k$): Renda anual do cliente em milhares de dólares.

Spending Score (1-100): Pontuação atribuída pelo shopping com base no comportamento e padrão de gastos do cliente.

Marketing Direcionado:
VIPs → ofertas exclusivas, programas de fidelidade. Baixo score → campanhas de engajamento. Alta renda/baixo score → estratégias para aumentar retenção. Personalização de Ofertas: Recomendação de produtos de acordo com perfil do cluster. Ofertas segmentadas (ex: descontos para quem tem renda média e score médio).

Tomada de decisão empresarial:

Identificação de potenciais clientes de alto valor. Estratégias diferenciadas para retenção e aquisição.

Notem que neste projeto vocês terão autonomia para criar os passos e justificar, sempre, os passos escolhidos.



**Tratamento de Dados:**

Realize os tratamentos necessários como limpeza de dados, normalização ou padronização das variáveis, e, se necessário, a criação de variáveis derivadas.

Documente cada etapa do tratamento, explicando o motivo das escolhas feitas e como elas impactam no modelo.

#Valores ausentes: remover ou imputar (se existirem).

Normalização/Padronização:
O K-Means é sensível à escala.
Aplicar StandardScaler (média=0, desvio=1) ou MinMaxScaler (0–1).
Variáveis categóricas: Gender pode ser transformada em binária (0 = Male, 1 = Female).
Seleção de variáveis: geralmente usamos Age, Annual Income, Spending Score.

Podemos incluir Gender como dummy, mas avaliar impacto.

👉 Justificativa:
A padronização evita que variáveis em escalas diferentes (ex: idade em anos e renda em milhares de dólares) dominem o cálculo das distâncias.

Renda anual entre 15k e 137k.

Spending Score distribuído uniformemente de 1 a 100.
Gênero bem equilibrado (cerca de 50/50).

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Carregar dataset
df = pd.read_csv("Mall_Customers.csv")

# Verificar dados
print(df.shape)
print(df.info())
print(df.head())

**Implementação do Algoritmo K-Means:**

Aplique o algoritmo K-Means no dataset tratado. Defina o número de clusters (k).
Execute o algoritmo, ajuste os parâmetros conforme necessário, e documente o processo.

#Determinar o número ideal de clusters (k):

Método do Cotovelo (Elbow Method) → analisar a inércia (SSE).
Método da Silhueta (Silhouette Score) → avaliar a coesão e separação dos clusters.
Rodar o modelo:

Exemplo: KMeans(n_clusters=5, random_state=42)

Ajustar hiperparâmetros: init (k-means++), max_iter, n_init.

Atribuir cluster a cada cliente: adicionar coluna Cluster ao dataset.

👉 Exemplo:
Método do cotovelo sugere k=5 clusters.
Silhouette confirma que 5 é um bom valor (score ~0.55).

**Avaliação e Interpretação dos Resultados:**

Avalie a qualidade dos clusters gerados utilizando métricas adequadas.

Interprete os resultados, descrevendo as características de cada cluster e como eles podem ser utilizados para a segmentação de clientes.

Sugira aplicações práticas para os clusters identificados, como estratégias de marketing direcionadas ou personalização de ofertas.

#Métricas:

Inércia (SSE): soma das distâncias ao centroide.
Silhouette Score: mede qualidade dos clusters (−1 a 1).
Interpretação dos Clusters:
Descrever cada cluster em termos de idade, renda e score de gastos.

👉 Exemplo de segmentação (hipotético):

Cluster 0: Jovens, alta renda, alto Spending Score → clientes VIPs.
Cluster 1: Adultos, baixa renda, baixo Spending Score → clientes pouco rentáveis.
Cluster 2: Média idade, renda média, score médio → clientes regulares.
Cluster 3: Jovens, baixa renda, alto Spending Score → gastam muito mesmo sem alta renda.
Cluster 4: Alta renda, baixo Spending Score → clientes exigentes mas que não consomem tanto.

**O dataset a ser utilizado neste projeto contém informações de 200 clientes, com os seguintes atributos:**

CustomerID: Identificador único atribuído a cada cliente.

Gender: Gênero do cliente.

Age: Idade do cliente.

Annual Income (k$): Renda anual do cliente em milhares de dólares.

Spending Score (1-100): Pontuação atribuída pelo shopping com base no
comportamento e padrão de gastos do cliente.

#Marketing Direcionado:

VIPs → ofertas exclusivas, programas de fidelidade.
Baixo score → campanhas de engajamento.
Alta renda/baixo score → estratégias para aumentar retenção.
Personalização de Ofertas:
Recomendação de produtos de acordo com perfil do cluster.
Ofertas segmentadas (ex: descontos para quem tem renda média e score médio).

Tomada de decisão empresarial:

Identificação de potenciais clientes de alto valor.
Estratégias diferenciadas para retenção e aquisição.

Notem que neste projeto vocês terão autonomia para criar os passos e justificar, sempre, os passos escolhidos.