# PROPOSTA DE PROJETO

## Segmentação de Clientes

## 1. DESCRIÇÃO DO PROBLEMA

O setor varejista de shopping centers enfrenta o desafio de compreender o comportamento diversificado de seus clientes. A ausência de estratégias de segmentação adequadas resulta em campanhas de marketing genéricas, baixa conversão e desperdício de recursos.

**Problema Central:** Como segmentar clientes de shopping centers utilizando características demográficas e comportamentais, e identificar regras de associação que orientem estratégias de marketing personalizadas?

## 2. PROPOSTA DE TRABALHO

### Objetivo Geral
Desenvolver um modelo de segmentação de clientes utilizando técnicas de agrupamento e descobrir regras de associação entre atributos dos clientes.

### Objetivos Específicos
1. Realizar pré-processamento e análise exploratória dos dados
2. Aplicar algoritmos de agrupamento (K-means e Hierárquico)
3. Utilizar o algoritmo Apriori para descoberta de regras de associação
4. Propor estratégias de negócio baseadas nos insights

### Resultados Esperados
- 3 a 5 segmentos distintos de clientes com perfis detalhados
- Regras de associação com alta confiança para cada segmento
- Recomendações estratégicas para marketing direcionado

## 3. JUSTIFICATIVA

A segmentação baseada em dados aumenta até 30% a efetividade de campanhas de marketing (Kumar e Rajan, 2019). A mineração de dados oferece técnicas robustas para descobrir padrões ocultos: o clustering identifica segmentos naturais, enquanto o Apriori revela associações não-óbvias entre atributos.

**Relevância do Projeto:**
- **Aplicabilidade Prática:** Resultados aplicáveis em CRM e marketing personalizado
- **Valor Acadêmico:** Aplicação de conceitos teóricos em dados reais
- **Decisões Data-Driven:** Contribui para tomada de decisão baseada em evidências

## 4. REVISÃO DA LITERATURA

**Segmentação e Clustering:** Wedel e Kamakura (2000) consolidaram técnicas estatísticas para segmentação. Turkmen e Dogan (2021) demonstram eficácia do K-means na segmentação de clientes de shopping centers.

**Algoritmo Apriori:** Agrawal e Srikant (1994) desenvolveram o algoritmo para descoberta de regras de associação. Chen et al. (2005) aplicaram o Apriori para análise de comportamento no varejo, identificando padrões de co-ocorrência entre características demográficas e preferências.

**Pré-processamento:** Han et al. (2011) enfatizam que a qualidade dos resultados depende do pré-processamento, incluindo normalização e tratamento de outliers.

## 5. METODOLOGIA

### 5.1 Base de Dados

**Dataset:** Mall Customers  
**Fonte:** Kaggle  
**Tamanho:** 200 registros  

**Atributos:**
- CustomerID: Identificador único
- Gender: Gênero (Male/Female)
- Age: Idade (18-70 anos)
- Annual Income: Renda anual (15k-137k dólares)
- Spending Score: Pontuação de gastos (1-100)

### 5.2 Pré-processamento

**Etapas:**
1. **Análise Exploratória:** Estatísticas descritivas, correlações e visualizações
2. **Tratamento de Dados:**
   - Verificação de dados faltantes
   - Detecção de outliers (boxplots e Z-score)
   - Codificação de Gender (Label Encoding)
   - Normalização Min-Max das variáveis numéricas
3. **Discretização para Apriori:**
   - Age: Jovem, Adulto, Sênior
   - Annual Income: Baixa, Média, Alta
   - Spending Score: Baixo, Médio, Alto

### 5.3 Agrupamento de Dados

**5.3.1 K-means**
- Determinar K ótimo: Método do Cotovelo e Coeficiente de Silhueta
- Analisar centróides e perfis dos clusters
- **Métricas:** Inércia, Silhueta, Davies-Bouldin

**5.3.2 Clustering Hierárquico**
- Gerar dendrograma com método Ward
- Determinar corte ótimo
- Comparar com resultados do K-means

### 5.4 Algoritmo Apriori

**Preparação:**
- Transformar dataset em formato transacional
- Exemplo: {Male, Age_Young, Income_Medium, Spending_High}

**Parâmetros:**
- Suporte mínimo: 10-20%
- Confiança mínima: 60-70%
- Lift mínimo: > 1.0

**Processo:**
1. Identificar itemsets frequentes
2. Gerar regras: {Antecedente} → {Consequente}
3. Calcular Suporte, Confiança e Lift
4. Aplicar Apriori em cada cluster para regras específicas

### 5.5 Ferramentas

**Python 3.x:** Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn, mlxtend  
**Ambiente:** Jupyter Notebook

## REFERÊNCIAS

AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules. In: Proceedings of the 20th International Conference on Very Large Data Bases, VLDB. 1994. p. 487-499.

CHEN, Y. L. et al. Market basket analysis in a multiple store environment. Decision Support Systems, v. 40, n. 2, p. 339-354, 2005.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. 3rd ed. Morgan Kaufmann, 2011.

KUMAR, V.; RAJAN, B. Social coupons as a marketing strategy: a multifaceted perspective. Journal of the Academy of Marketing Science, v. 47, p. 467-492, 2019.

TURKMEN, A. C.; DOGAN, O. Customer segmentation of a shopping center by using k-means clustering. International Journal of Science and Research, v. 10, n. 2, p. 501-507, 2021.

WEDEL, M.; KAMAKURA, W. A. Market segmentation: Conceptual and methodological foundations. 2nd ed. Kluwer Academic Publishers, 2000.