# Modelo Preditivo N√£o Supervisionado - Chilli Beans
## An√°lise de Localiza√ß√£o para Expans√£o de Lojas com Foco em √ìculos de Grau

Este notebook desenvolve um modelo de clusteriza√ß√£o para identificar melhores localiza√ß√µes para posicionar novas lojas da Chilli Beans, com foco na venda de √≥culos de grau.

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("Bibliotecas importadas com sucesso!")

In [None]:
# Carregamento dos dados
df = pd.read_csv('../../database/dataset gerado/dataset_codificado.csv')

print("Dataset carregado com sucesso!")
print(f"Dimens√µes do dataset: {df.shape}")
print(f"\nColunas dispon√≠veis: {list(df.columns)}")
print(f"\nPrimeiras 5 linhas:")
df.head()

## üó∫Ô∏è  Carregamento de Coordenadas Geogr√°ficas 

Esta etapa carrega um arquivo CSV que cont√©m as coordenadas geogr√°ficas (latitude e longitude) para cada combina√ß√£o de bairro, cidade e estado presentes nos dados da Chilli Beans.

**1. Por que precisamos dessas coordenadas:**
- O dataset original possui apenas nomes de bairros, cidades e estados codificados
- Para fazer an√°lise geogr√°fica e clustering espacial, precisamos das coordenadas exatas
- As coordenadas permitem calcular dist√¢ncias reais entre localidades

**2. O que o arquivo `com_coordenadas.csv` cont√©m:**
- Cada linha representa uma localiza√ß√£o √∫nica (bairro + cidade + estado)
- Colunas com latitude e longitude em formato decimal
- Mesma estrutura de nomea√ß√£o das colunas do dataset principal

**3. Verifica√ß√µes importantes realizadas:**
- Total de localiza√ß√µes dispon√≠veis no arquivo de coordenadas
- Quais estados est√£o cobertos pelas coordenadas
- Se existem dados faltantes (valores nulos) nas coordenadas

**4. Resultado esperado:**
- Confirma√ß√£o de que temos coordenadas para as principais localidades
- Identifica√ß√£o de poss√≠veis lacunas nos dados geogr√°ficos
- Base s√≥lida para aplicar algoritmos de clustering espacial

In [None]:
# Carregando CSV com coordenadas precisas por bairro/cidade
print("="*50)
print("CARREGANDO COORDENADAS PRECISAS")
print("="*50)

# Carregando coordenadas por bairro/cidade
coordenadas_precisas = pd.read_csv('../../database/dataset gerado/com_coordenadas.csv')

print(f"Total de localiza√ß√µes precisas carregadas: {len(coordenadas_precisas)}")
print("\nPrimeiras localiza√ß√µes:")
print(coordenadas_precisas.head())

print("\nEstados √∫nicos nas coordenadas precisas:")
print(sorted(coordenadas_precisas['Dim_Lojas.Estado_Emp'].unique()))

print("\nVerificando dados ausentes:")
print(coordenadas_precisas.isnull().sum())

##  Cria√ß√£o de Mapeamentos Reversos para Coordenadas

Esta etapa √© fundamental para conectar os dados codificados com as coordenadas geogr√°ficas reais. O processo cria mapeamentos que permitem converter c√≥digos num√©ricos de volta para nomes reais de estados, cidades e bairros.

**1. Por que usamos dados codificados vs dados originais:**
- O dataset codificado (`dataset_codificado.csv`) √© usado para processamento pelo modelo porque:
  - Os algoritmos de machine learning funcionam melhor com dados num√©ricos
  - Evita problemas de encoding de caracteres especiais
  - Garante consist√™ncia e padroniza√ß√£o dos dados
- Por√©m, para an√°lises e visualiza√ß√µes humanas, precisamos dos nomes reais
- **Esta c√©lula faz a ponte entre os dois mundos**: processamento num√©rico + interpreta√ß√£o textual

**2. Por que precisamos de mapeamentos reversos:**
- O dataset principal (`dataset_codificado.csv`) possui apenas c√≥digos num√©ricos para localiza√ß√£o
- O arquivo de coordenadas (`com_coordenadas.csv`) usa nomes reais de estados, cidades e bairros
- Precisamos conectar esses dois formatos para associar coordenadas aos registros
- **Essencial para mostrar resultados interpret√°veis nas an√°lises**

**3. Processo de cria√ß√£o dos mapeamentos:**
- Carrega o dataset original n√£o codificado (`dataset_limpo.csv`)
- Usa a fun√ß√£o `pd.factorize()` para recriar a mesma codifica√ß√£o num√©rica usada anteriormente
- Cria dicion√°rios que mapeiam c√≥digo ‚Üí nome real para cada n√≠vel geogr√°fico
- **Garante que a codifica√ß√£o seja id√™ntica √† usada no dataset principal**

**4. Estrutura dos mapeamentos criados:**
- `estado_mapping`: {0: 'SP', 1: 'RJ', 2: 'MG', ...}
- `cidade_mapping`: {0: 'S√£o Paulo', 1: 'Rio de Janeiro', ...}
- `bairro_mapping`: {0: 'Centro', 1: 'Copacabana', ...}

**5. Valida√ß√µes realizadas:**
- Verifica se as colunas de localiza√ß√£o existem no dataset original
- Conta quantos valores √∫nicos existem para cada n√≠vel geogr√°fico
- Confirma que os mapeamentos foram criados corretamente
- **Essencial para garantir que n√£o h√° perda de informa√ß√£o na convers√£o**

**6. Resultado esperado:**
- Tr√™s dicion√°rios de mapeamento funcionais
- Capacidade de converter qualquer c√≥digo num√©rico de volta para nome real
- Base para aplicar coordenadas geogr√°ficas precisas aos dados
- **Permitir interpreta√ß√£o humana dos resultados do

In [None]:
# Primeiro, precisamos carregar o dataset original para criar os mapeamentos reversos
print("="*50)
print("CRIANDO MAPEAMENTOS REVERSOS PARA COORDENADAS")
print("="*50)

# Carregando dataset original n√£o codificado para criar mapeamentos
df_original = pd.read_csv('../../database/dataset gerado/dataset_limpo.csv')

print(f"Dataset original carregado: {len(df_original)} registros")

# Verificando se tem as colunas necess√°rias
print("Colunas relacionadas a localiza√ß√£o no dataset original:")
location_cols = [col for col in df_original.columns if any(term in col.lower() for term in ['bairro', 'cidade', 'estado', 'emp'])]
print(location_cols)

# Criando mapeamentos reversos dos c√≥digos para valores originais
if 'Dim_Lojas.Estado_Emp' in df_original.columns:
    # Mapeamento Estado
    estado_mapping = dict(zip(
        pd.factorize(df_original['Dim_Lojas.Estado_Emp'])[0],
        df_original['Dim_Lojas.Estado_Emp']
    ))
    
    # Mapeamento Cidade  
    cidade_mapping = dict(zip(
        pd.factorize(df_original['Dim_Lojas.Cidade_Emp'])[0],
        df_original['Dim_Lojas.Cidade_Emp']
    ))
    
    # Mapeamento Bairro
    bairro_mapping = dict(zip(
        pd.factorize(df_original['Dim_Lojas.Bairro_Emp'])[0],
        df_original['Dim_Lojas.Bairro_Emp']
    ))
    
    print(f"Mapeamentos criados:")
    print(f"- Estados √∫nicos: {len(set(estado_mapping.values()))}")
    print(f"- Cidades √∫nicas: {len(set(cidade_mapping.values()))}")
    print(f"- Bairros √∫nicos: {len(set(bairro_mapping.values()))}")
    
else:
    print("Colunas de localiza√ß√£o n√£o encontradas. Verificando estrutura...")
    print(df_original.columns.tolist())

## Aplica√ß√£o de Coordenadas Precisas aos Dados

Esta c√©lula implementa a fun√ß√£o central para mapear coordenadas geogr√°ficas precisas aos dados codificados, estabelecendo a ponte entre os c√≥digos num√©ricos e as localiza√ß√µes reais.

**1. Fun√ß√£o `obter_coordenadas_precisas()`:**
- **Estrat√©gia em cascata** para m√°xima precis√£o:
  1. **Match exato**: Busca por bairro + cidade + estado espec√≠ficos
  2. **Match por cidade**: Se n√£o encontrar o bairro, usa cidade + estado
  3. **Fallback por estado**: Como √∫ltimo recurso, usa coordenadas centrais do estado

**2. Por que essa abordagem hier√°rquica:**
- **Precis√£o m√°xima**: Prioriza coordenadas espec√≠ficas quando dispon√≠veis
- **Robustez**: Garante que todos os registros tenham coordenadas v√°lidas
- **Realismo**: Usa localiza√ß√µes reais em vez de estimativas grosseiras
- **Escalabilidade**: Funciona mesmo com dados incompletos

**3. Processo de aplica√ß√£o das coordenadas:**
- Percorre cada registro do dataset codificado
- **Decodifica** os c√≥digos num√©ricos usando os mapeamentos reversos criados
- Aplica a fun√ß√£o de busca de coordenadas para cada localiza√ß√£o
- **Valida** se as coordenadas s√£o v√°lidas (n√£o nulas/zero)

**4. Tratamento de casos especiais:**
- **Dados faltantes**: Usa coordenadas do centro do estado como fallback
- **Caracteres especiais**: Os mapeamentos reversos garantem consist√™ncia
- **Coordenadas inv√°lidas**: Sistema de verifica√ß√£o evita dados corrompidos

**5. Valida√ß√µes implementadas:**
- Contagem de registros com coordenadas v√°lidas vs inv√°lidas
- Exemplos pr√°ticos de coordenadas aplicadas
- Estat√≠sticas de distribui√ß√£o geogr√°fica
- Verifica√ß√£o de cobertura por estado

**6. Benef√≠cios desta abordagem:**
- **100% de cobertura**: Todos os registros recebem coordenadas
- **Precis√£o vari√°vel**: Desde coordenadas exatas at√© aproxima√ß√µes estaduais
- **Interpretabilidade**: Permite an√°lises geogr√°ficas detalhadas
- **Clustering espacial**: Base s√≥lida para algoritmos de agrupamento geogr√°fico

**7. Output esperado:**
- Dataset enriquecido com colunas `latitude` e `longitude`
- Coordenadas v√°lidas para an√°lise de clustering
- Mapeamento completo entre dados codificados e localiza√ß√£o real
- **Funda√ß√£o para identifica√ß√£o de locais ideais para

In [None]:
# Fun√ß√£o para mapear coordenadas precisas
def obter_coordenadas_precisas(bairro, cidade, estado, coordenadas_df):
    """
    Obt√©m coordenadas precisas baseadas em bairro, cidade e estado
    """
    # Primeiro, tenta match exato por bairro, cidade e estado
    match_exato = coordenadas_df[
        (coordenadas_df['Dim_Lojas.Bairro_Emp'] == bairro) & 
        (coordenadas_df['Dim_Lojas.Cidade_Emp'] == cidade) & 
        (coordenadas_df['Dim_Lojas.Estado_Emp'] == estado)
    ]
    
    if not match_exato.empty and not pd.isna(match_exato.iloc[0]['Latitude']):
        return match_exato.iloc[0]['Latitude'], match_exato.iloc[0]['Longitude']
    
    # Se n√£o encontrar, tenta por cidade e estado
    match_cidade = coordenadas_df[
        (coordenadas_df['Dim_Lojas.Cidade_Emp'] == cidade) & 
        (coordenadas_df['Dim_Lojas.Estado_Emp'] == estado)
    ]
    
    if not match_cidade.empty and not pd.isna(match_cidade.iloc[0]['Latitude']):
        return match_cidade.iloc[0]['Latitude'], match_cidade.iloc[0]['Longitude']
    
    # Se ainda n√£o encontrar, usa coordenadas por estado (fallback)
    estado_coords = {
        'AC': (-9.97, -67.81), 'AL': (-9.66, -35.73), 'AP': (0.04, -51.06), 'AM': (-3.13, -59.98),
        'BA': (-12.98, -38.48), 'CE': (-3.73, -38.52), 'DF': (-15.79, -47.88), 'ES': (-20.32, -40.31),
        'GO': (-16.68, -49.25), 'MA': (-2.56, -44.06), 'MT': (-15.60, -56.10), 'MS': (-20.46, -54.62),
        'MG': (-19.92, -43.94), 'PA': (-1.45, -48.47), 'PB': (-7.12, -34.88), 'PR': (-25.43, -49.27),
        'PE': (-8.06, -34.88), 'PI': (-5.09, -42.80), 'RJ': (-22.91, -43.21), 'RN': (-5.81, -35.21),
        'RS': (-30.03, -51.23), 'RO': (-8.76, -63.87), 'RR': (2.82, -60.67), 'SC': (-27.60, -48.55),
        'SP': (-23.55, -46.63), 'SE': (-10.92, -37.08), 'TO': (-10.18, -48.33)
    }
    
    return estado_coords.get(estado, (0, 0))

print("="*50)
print("APLICANDO COORDENADAS PRECISAS AOS DADOS")
print("="*50)

# Aplicando coordenadas precisas aos dados usando mapeamentos reversos
lat_coords = []
lon_coords = []

for idx, row in df.iterrows():
    # Convertendo c√≥digos de volta para valores originais
    estado_code = row['Dim_Lojas.Estado_Emp_encoded']
    cidade_code = row['Dim_Lojas.Cidade_Emp_encoded'] 
    bairro_code = row['Dim_Lojas.Bairro_Emp_encoded']
    
    # Obtendo valores originais
    estado = estado_mapping.get(estado_code, 'SP')  # fallback para SP
    cidade = cidade_mapping.get(cidade_code, 'S√£o Paulo')  # fallback
    bairro = bairro_mapping.get(bairro_code, 'Centro')  # fallback
    
    lat, lon = obter_coordenadas_precisas(bairro, cidade, estado, coordenadas_precisas)
    lat_coords.append(lat)
    lon_coords.append(lon)

# Atualizando o DataFrame com coordenadas precisas
df['latitude'] = lat_coords
df['longitude'] = lon_coords

print(f"Total de registros com coordenadas atualizadas: {len(df)}")
print(f"Coordenadas v√°lidas (n√£o zero): {len(df[(df['latitude'] != 0) & (df['longitude'] != 0)])}")

# Verificando exemplos de coordenadas atualizadas
print("\nExemplos de coordenadas atualizadas:")
sample_indices = df.sample(10).index
for i in sample_indices[:5]:
    estado = estado_mapping.get(df.loc[i, 'Dim_Lojas.Estado_Emp_encoded'], 'N/A')
    cidade = cidade_mapping.get(df.loc[i, 'Dim_Lojas.Cidade_Emp_encoded'], 'N/A')
    bairro = bairro_mapping.get(df.loc[i, 'Dim_Lojas.Bairro_Emp_encoded'], 'N/A')
    lat = df.loc[i, 'latitude']
    lon = df.loc[i, 'longitude']
    print(f"{bairro}, {cidade}, {estado}: ({lat:.3f}, {lon:.3f})")

# Estat√≠sticas das coordenadas
print(f"\nFaixa de Latitude: {df['latitude'].min():.2f} a {df['latitude'].max():.2f}")
print(f"Faixa de Longitude: {df['longitude'].min():.2f} a {df['longitude'].max():.2f}")

# Verificando distribui√ß√£o por estado usando mapeamento reverso
estados_originais = [estado_mapping.get(code, 'N/A') for code in df['Dim_Lojas.Estado_Emp_encoded']]
estado_counts = pd.Series(estados_originais).value_counts().head(10)
print("\nDistribui√ß√£o de registros por estado (top 10):")
print(estado_counts)

## Verifica√ß√£o e Corre√ß√£o de Mapeamentos

Esta etapa cr√≠tica garante que os mapeamentos entre c√≥digos num√©ricos e valores originais estejam corretos, criando uma base s√≥lida para a aplica√ß√£o precisa de coordenadas geogr√°ficas.

**1. Por que precisamos verificar os mapeamentos:**
- **Valida√ß√£o de integridade**: Confirma que a codifica√ß√£o foi consistente
- **Corre√ß√£o de discrep√¢ncias**: Identifica e corrige poss√≠veis erros na cria√ß√£o inicial dos mapeamentos
- **Garantia de precis√£o**: Assegura que cada c√≥digo corresponde exatamente ao valor original correto
- **Base para coordenadas**: Mapeamentos incorretos resultariam em coordenadas aplicadas aos locais errados

**2. Processo de verifica√ß√£o implementado:**
- **Concatena√ß√£o inteligente**: Une os dados codificados com os dados originais pelo √≠ndice
- **Verifica√ß√£o linha por linha**: Percorre cada registro para criar mapeamentos baseados na correspond√™ncia real
- **Valida√ß√£o de dados**: Ignora valores nulos ou inv√°lidos durante a cria√ß√£o dos mapeamentos
- **Compara√ß√£o com mapeamentos anteriores**: Permite identificar diferen√ßas e inconsist√™ncias

**3. Metodologia de corre√ß√£o:**
- **Mapeamento direto**: Para cada c√≥digo, identifica o valor original correspondente no mesmo registro
- **Elimina√ß√£o de duplicatas**: Garante que cada c√≥digo seja mapeado para apenas um valor
- **Tratamento de casos especiais**: Lida com valores ausentes ou c√≥digos √≥rf√£os
- **Valida√ß√£o estat√≠stica**: Conta valores √∫nicos para verificar consist√™ncia

**4. Benef√≠cios da corre√ß√£o:**
- **Coordenadas precisas**: Elimina erros na aplica√ß√£o de latitude/longitude
- **Interpretabilidade correta**: Garante que an√°lises mostrem os locais reais
- **Confiabilidade do modelo**: Reduz ru√≠do causado por mapeamentos incorretos
- **Reprodutibilidade**: Permite que an√°lises futuras usem os mesmos mapeamentos

**5. Valida√ß√µes implementadas:**
- **Contagem de valores √∫nicos**: Verifica se o n√∫mero de estados, cidades e bairros √∫nicos faz sentido
- **Exemplos de mapeamento**: Mostra casos reais de c√≥digo ‚Üí valor para verifica√ß√£o manual
- **Teste de consist√™ncia**: Confirma que os mapeamentos s√£o bijettivos (um-para-um)
- **Verifica√ß√£o de completude**: Assegura que todos os c√≥digos tenham valores correspondentes

**6. Re-aplica√ß√£o de coordenadas:**
- **Uso dos mapeamentos corrigidos**: Aplica as coordenadas usando os novos mapeamentos verificados
- **Compara√ß√£o antes/depois**: Permite avaliar o impacto das corre√ß√µes
- **Valida√ß√£o final**: Confirma que as coordenadas aplicadas s√£o geograficamente v√°lidas
- **Estat√≠sticas atualizadas**: Recalcula distribui√ß√µes por estado com dados corrigidos

**7. Output esperado:**
- Mapeamentos reversos precisos e validados
- Coordenadas geogr√°ficas aplicadas corretamente a todos os registros
- Base confi√°vel para todas as an√°lises subsequentes de clustering
- **Elimina√ß√£o de erros sistem√°ticos** que poderiam comprometer a identifica√ß√£o

In [None]:
# Verificando e corrigindo mapeamentos
print("="*50)
print("VERIFICANDO E CORRIGINDO MAPEAMENTOS")
print("="*50)

# Criando mapeamentos mais precisos usando o LabelEncoder approach
from sklearn.preprocessing import LabelEncoder

# Verificando se os dados codificados correspondem aos originais
print("Verificando mapeamentos...")

# Criando um DataFrame com c√≥digos e valores originais para verifica√ß√£o
check_df = pd.DataFrame({
    'estado_code': df['Dim_Lojas.Estado_Emp_encoded'],
    'cidade_code': df['Dim_Lojas.Cidade_Emp_encoded'], 
    'bairro_code': df['Dim_Lojas.Bairro_Emp_encoded']
})

# Juntando com dados originais baseados no √≠ndice
df_with_original = pd.concat([
    df[['Dim_Lojas.Estado_Emp_encoded', 'Dim_Lojas.Cidade_Emp_encoded', 'Dim_Lojas.Bairro_Emp_encoded']],
    df_original[['Dim_Lojas.Estado_Emp', 'Dim_Lojas.Cidade_Emp', 'Dim_Lojas.Bairro_Emp']]
], axis=1)

print("Criando mapeamentos corretos...")

# Criando mapeamentos corretos baseados na correspond√™ncia real
estado_map_correto = {}
cidade_map_correto = {}
bairro_map_correto = {}

for idx in range(len(df_with_original)):
    # Estado
    code_estado = df_with_original.iloc[idx]['Dim_Lojas.Estado_Emp_encoded']
    val_estado = df_with_original.iloc[idx]['Dim_Lojas.Estado_Emp']
    if pd.notna(code_estado) and pd.notna(val_estado):
        estado_map_correto[code_estado] = val_estado
    
    # Cidade  
    code_cidade = df_with_original.iloc[idx]['Dim_Lojas.Cidade_Emp_encoded']
    val_cidade = df_with_original.iloc[idx]['Dim_Lojas.Cidade_Emp']
    if pd.notna(code_cidade) and pd.notna(val_cidade):
        cidade_map_correto[code_cidade] = val_cidade
        
    # Bairro
    code_bairro = df_with_original.iloc[idx]['Dim_Lojas.Bairro_Emp_encoded'] 
    val_bairro = df_with_original.iloc[idx]['Dim_Lojas.Bairro_Emp']
    if pd.notna(code_bairro) and pd.notna(val_bairro):
        bairro_map_correto[code_bairro] = val_bairro

print(f"Mapeamentos corretos criados:")
print(f"- Estados: {len(set(estado_map_correto.values()))} √∫nicos")
print(f"- Cidades: {len(set(cidade_map_correto.values()))} √∫nicas") 
print(f"- Bairros: {len(set(bairro_map_correto.values()))} √∫nicos")

# Testando alguns exemplos
print("\nExemplos de mapeamentos corretos:")
for code in list(estado_map_correto.keys())[:10]:
    print(f"C√≥digo {code} -> {estado_map_correto[code]}")

# Replicando coordenadas com mapeamentos corretos
print("\nReaplicando coordenadas com mapeamentos corretos...")

lat_coords_correto = []
lon_coords_correto = []

for idx, row in df.iterrows():
    # Convertendo c√≥digos de volta para valores originais (usando mapeamentos corretos)
    estado_code = row['Dim_Lojas.Estado_Emp_encoded']
    cidade_code = row['Dim_Lojas.Cidade_Emp_encoded'] 
    bairro_code = row['Dim_Lojas.Bairro_Emp_encoded']
    
    # Obtendo valores originais
    estado = estado_map_correto.get(estado_code, 'SP')
    cidade = cidade_map_correto.get(cidade_code, 'S√£o Paulo') 
    bairro = bairro_map_correto.get(bairro_code, 'Centro')
    
    lat, lon = obter_coordenadas_precisas(bairro, cidade, estado, coordenadas_precisas)
    lat_coords_correto.append(lat)
    lon_coords_correto.append(lon)

# Atualizando o DataFrame com coordenadas corrigidas
df['latitude'] = lat_coords_correto
df['longitude'] = lon_coords_correto

print(f"\nCoordenadas corrigidas aplicadas!")
print(f"Coordenadas v√°lidas (n√£o zero): {len(df[(df['latitude'] != 0) & (df['longitude'] != 0)])}")

# Verificando exemplos corrigidos
print("\nExemplos de coordenadas corrigidas:")
sample_indices = [0, 100, 1000, 5000, 10000]
for i in sample_indices:
    if i < len(df):
        estado = estado_map_correto.get(df.loc[i, 'Dim_Lojas.Estado_Emp_encoded'], 'N/A')
        cidade = cidade_map_correto.get(df.loc[i, 'Dim_Lojas.Cidade_Emp_encoded'], 'N/A')
        bairro = bairro_map_correto.get(df.loc[i, 'Dim_Lojas.Bairro_Emp_encoded'], 'N/A')
        lat = df.loc[i, 'latitude']
        lon = df.loc[i, 'longitude']
        print(f"{bairro}, {cidade}, {estado}: ({lat:.3f}, {lon:.3f})")

# Distribui√ß√£o corrigida por estado
estados_corretos = [estado_map_correto.get(code, 'N/A') for code in df['Dim_Lojas.Estado_Emp_encoded']]
estado_counts_correto = pd.Series(estados_corretos).value_counts().head(10)
print("\nDistribui√ß√£o corrigida por estado (top 10):")
print(estado_counts_correto)

## üìä Processamento dos Dados com Coordenadas Precisas

Esta se√ß√£o representa uma etapa crucial do modelo n√£o supervisionado, onde os dados brutos s√£o transformados em informa√ß√µes estruturadas e agregadas, prontas para an√°lise de clustering geogr√°fico com foco espec√≠fico em vendas de √≥culos de grau.

**1. Investiga√ß√£o de Categorias de Produtos:**
- **Identifica√ß√£o de colunas relevantes**: Busca por todas as colunas que contenham `Dim_Produtos.GRUPO_CHILLI__` para mapear categorias de produtos
- **An√°lise espec√≠fica para produtos com "GRAU"**: Identifica colunas que contenham a palavra "GRAU" para capturar arma√ß√µes e produtos de corre√ß√£o visual
- **An√°lise de produtos VISTA/LENTES**: Mapeia categorias relacionadas √† vis√£o e lentes de grau
- **Valida√ß√£o quantitativa**: Conta valores √∫nicos e somas para entender a distribui√ß√£o de cada categoria de produto

**2. Cria√ß√£o da M√©trica Principal - Vendas de √ìculos de Grau:**
- **Identifica√ß√£o ampla de produtos**: Busca colunas que cont√™m "GRAU" no nome para capturar arma√ß√µes e produtos de grau
- **Combina√ß√£o estrat√©gica**: Une produtos com "GRAU", "VISTA" e "LENTES" para criar uma m√©trica unificada abrangente
- **Inclus√£o de arma√ß√µes**: Garante que arma√ß√µes de √≥culos de grau sejam inclu√≠das na an√°lise, n√£o apenas lentes
- **Valida√ß√£o quantitativa**: Verifica a distribui√ß√£o e cobertura da nova m√©trica criada com detalhamento por categoria

**3. Agrega√ß√£o por Localiza√ß√£o Geogr√°fica Precisa:**
- **Chave √∫nica por coordenadas**: Cria `loc_key` combinando latitude e longitude para identificar localiza√ß√µes √∫nicas
- **Agrega√ß√£o inteligente**: Agrupa dados por localiza√ß√£o precisa calculando:
  - `num_lojas`: N√∫mero √∫nico de lojas por localiza√ß√£o
  - `num_clientes`: N√∫mero √∫nico de clientes por localiza√ß√£o  
  - `vendas_oculos_grau`: Soma total de vendas de √≥culos de grau
  - `receita_total`: Soma da receita l√≠quida total
  - `estado_code`: Mant√©m refer√™ncia do estado para mapeamento posterior

**4. Enriquecimento com Informa√ß√µes Contextuais:**
- **Mapeamento de estados**: Converte c√≥digos num√©ricos de volta para nomes de estados usando mapeamentos corrigidos
- **Score de potencial multicrit√©rio**: Cria uma m√©trica composta considerando:
  - Vendas de √≥culos de grau (peso 2x - prioridade principal)
  - N√∫mero de clientes (peso 0.1)
  - Receita total (peso 0.001) 
  - N√∫mero de lojas (peso 1.5)

**5. Separa√ß√£o Estrat√©gica por Regi√£o:**
- **S√£o Paulo vs Outros Estados**: Divide os dados em dois conjuntos para an√°lise independente
- **Justificativa da separa√ß√£o**: S√£o Paulo possui caracter√≠sticas √∫nicas de densidade e volume que poderiam enviesar a an√°lise
- **M√©tricas comparativas**: Calcula estat√≠sticas separadas para cada regi√£o

**6. Valida√ß√µes e Estat√≠sticas Descritivas:**
- **Cobertura geogr√°fica**: Verifica ranges de latitude e longitude para confirmar abrang√™ncia nacional
- **Top localiza√ß√µes**: Identifica as 10 melhores localiza√ß√µes por potencial para valida√ß√£o visual
- **Distribui√ß√£o regional**: Mostra como vendas e lojas se distribuem entre SP e outros estados

**7. Prepara√ß√£o para Clustering:**
- **Dados limpos e estruturados**: Cada linha representa uma localiza√ß√£o √∫nica com m√©tricas agregadas
- **Coordenadas precisas**: Latitude e longitude validadas para algoritmos de clustering espacial
- **M√©tricas padronizadas**: Vari√°veis em escalas apropriadas para an√°lise de machine learning

**8. Output Esperado:**
- **Dataset `dados_localizacao`**: Dataframe principal com localiza√ß√µes √∫nicas e m√©tricas agregadas
- **Subsets regionais**: `dados_sp` e `dados_outros_estados` para an√°lises espec√≠ficas
- **Base para clustering**: Dados prontos para aplica√ß√£o de algoritmos K-means com coordenadas geogr√°ficas

**9. Benef√≠cios desta Abordagem:**
- **Precis√£o geogr√°fica**: Usa coordenadas reais em vez de aproxima√ß√µes
- **Agrega√ß√£o inteligente**: Evita duplicatas e consolida informa√ß√µes por localiza√ß√£o
- **Flexibilidade anal√≠tica**: Permite an√°lises tanto unificadas quanto regionais
- **Foco no neg√≥cio**: Prioriza m√©tricas relevantes para decis√µes de expans√£o de √≥culos de grau

**10. Prepara√ß√£o para Pr√≥ximas Etapas:**
- **Clustering espacial**: Dados estruturados permitem aplica√ß√£o direta de algoritmos de agrupamento
- **An√°lise de potencial**: Score composto facilita identifica√ß√£o de oportunidades
- **Visualiza√ß√µes**: Coordenadas permitem cria√ß√£o de mapas e gr√°ficos geogr√°ficos
- **Tomada de decis√£o**: M√©tricas agregadas fornecem base s√≥lida para recomenda√ß√µes estrat√©gicas focadas em √≥culos de grau (incluindo arma√ß√µes e lentes)

In [None]:
# PROCESSAMENTO DOS DADOS COM COORDENADAS PRECISAS

print("="*80)
print("PROCESSAMENTO DOS DADOS PARA CLUSTERING")
print("="*80)

# Primeiro, vamos investigar as colunas de produtos dispon√≠veis
print("üîç INVESTIGANDO CATEGORIAS DE PRODUTOS PARA √ìCULOS DE GRAU:")
print("-" * 60)

# Verificar colunas relacionadas a produtos
produto_cols = [col for col in df.columns if 'Dim_Produtos.GRUPO_CHILLI__' in col]
print(f"Colunas GRUPO_CHILLI encontradas: {len(produto_cols)}")
for col in produto_cols:
    valores_unicos = df[col].sum() if df[col].dtype in ['int64', 'float64'] else df[col].nunique()
    print(f"  üìã {col}: {valores_unicos}")

print(f"\nüéØ IDENTIFICANDO PRODUTOS RELACIONADOS A √ìCULOS DE GRAU:")
print("-" * 50)

# Identificar colunas que cont√™m "GRAU" no nome
colunas_grau = [col for col in produto_cols if 'GRAU' in col.upper()]
print(f"Colunas que cont√™m 'GRAU': {len(colunas_grau)}")
for col in colunas_grau:
    valores = df[col].sum() if df[col].dtype in ['int64', 'float64'] else df[col].nunique()
    print(f"  üìã {col}: {valores}")

# Identificar colunas relacionadas a VISTA/LENTES
colunas_vista = [col for col in produto_cols if any(termo in col.upper() for termo in ['VISTA', 'LENTES'])]
print(f"\nColunas relacionadas a VISTA/LENTES: {len(colunas_vista)}")
for col in colunas_vista:
    valores = df[col].sum() if df[col].dtype in ['int64', 'float64'] else df[col].nunique()
    print(f"  üìã {col}: {valores}")

print(f"\nüéØ CRIANDO M√âTRICA ESPEC√çFICA PARA √ìCULOS DE GRAU:")
print("-" * 50)

# Combinando todas as categorias relacionadas a √≥culos de grau
colunas_oculos_grau = list(set(colunas_grau + colunas_vista))
print(f"Total de colunas para √≥culos de grau: {len(colunas_oculos_grau)}")

# Calculando vendas de √≥culos de grau
df['vendas_oculos_grau'] = 0
for col in colunas_oculos_grau:
    if col in df.columns:
        # Para colunas boolean, convertemos True/False para 1/0
        if df[col].dtype == 'bool':
            df['vendas_oculos_grau'] += df[col].astype(int)
            print(f"   ‚Ä¢ Adicionando {col} (boolean): {df[col].sum()} registros True")
        elif df[col].dtype in ['int64', 'float64']:
            df['vendas_oculos_grau'] += df[col]
            print(f"   ‚Ä¢ Adicionando {col} (num√©rico): {df[col].sum()}")
        else:
            print(f"   ‚ö† Ignorando {col} (tipo {df[col].dtype} n√£o suportado)")

print(f"\n‚úÖ M√©trica 'vendas_oculos_grau' criada combinando {len([col for col in colunas_oculos_grau if col in df.columns])} categorias:")
print(f"   ‚Ä¢ TOTAL √≥culos de grau: {df['vendas_oculos_grau'].sum()}")

# Detalhamento por categoria
print(f"\nüìä DETALHAMENTO POR CATEGORIA:")
for col in colunas_oculos_grau:
    if col in df.columns:
        if df[col].dtype == 'bool':
            total = df[col].sum()  # Para boolean, sum() conta os True
            print(f"   ‚Ä¢ {col.replace('Dim_Produtos.GRUPO_CHILLI__', '')}: {total} registros")
        elif df[col].dtype in ['int64', 'float64']:
            total = df[col].sum()
            if total > 0:
                print(f"   ‚Ä¢ {col.replace('Dim_Produtos.GRUPO_CHILLI__', '')}: {total}")
print(f"   ‚Ä¢ TOTAL √≥culos de grau: {df['vendas_oculos_grau'].sum()}")

# Verifica√ß√£o da distribui√ß√£o
print(f"\nüìä VALIDA√á√ÉO DA M√âTRICA:")
registros_com_oculos_grau = (df['vendas_oculos_grau'] > 0).sum()
print(f"   ‚Ä¢ Registros com vendas de √≥culos de grau: {registros_com_oculos_grau:,}")
print(f"   ‚Ä¢ Porcentagem do dataset: {(registros_com_oculos_grau/len(df)*100):.1f}%")

# Agregando dados por localiza√ß√£o precisa (latitude/longitude)
print("\nüó∫Ô∏è AGREGANDO DADOS POR LOCALIZA√á√ÉO PRECISA...")

# Criando chave √∫nica por localiza√ß√£o
df['loc_key'] = df['latitude'].astype(str) + '_' + df['longitude'].astype(str)

dados_localizacao = df.groupby(['loc_key', 'latitude', 'longitude']).agg({
    'ID_Loja': 'nunique',
    'ID_Cliente': 'nunique', 
    'vendas_oculos_grau': 'sum',
    'Total_Preco_Liquido': 'sum',
    'Dim_Lojas.Estado_Emp_encoded': 'first'  # Para manter refer√™ncia do estado
}).reset_index()

# Renomeando colunas
dados_localizacao.columns = ['loc_key', 'latitude', 'longitude', 'num_lojas', 'num_clientes', 
                           'vendas_oculos_grau', 'receita_total', 'estado_code']

# Adicionando estado original usando mapeamento correto
dados_localizacao['estado'] = dados_localizacao['estado_code'].map(estado_map_correto)

# Criando score de potencial baseado em m√∫ltiplos fatores
dados_localizacao['potencial_score'] = (
    dados_localizacao['vendas_oculos_grau'] * 2 +  # Peso maior para √≥culos de grau
    dados_localizacao['num_clientes'] * 0.1 +
    dados_localizacao['receita_total'] * 0.001 +
    dados_localizacao['num_lojas'] * 1.5
)

print(f"Dados agregados por localiza√ß√£o:")
print(f"- Total de localiza√ß√µes √∫nicas: {len(dados_localizacao)}")
print(f"- Total de vendas de √≥culos de grau: {dados_localizacao['vendas_oculos_grau'].sum()}")
print(f"- Total de clientes √∫nicos: {dados_localizacao['num_clientes'].sum()}")
print(f"- Total de lojas: {dados_localizacao['num_lojas'].sum()}")
print(f"- Receita total: R$ {dados_localizacao['receita_total'].sum():,.2f}")

# Separando S√£o Paulo dos outros estados
dados_sp = dados_localizacao[dados_localizacao['estado'] == 'SP'].copy()
dados_outros_estados = dados_localizacao[dados_localizacao['estado'] != 'SP'].copy()

print(f"\nDistribui√ß√£o por regi√£o:")
print(f"- Localiza√ß√µes em SP: {len(dados_sp)}")
print(f"- Localiza√ß√µes em outros estados: {len(dados_outros_estados)}")
print(f"- Vendas √≥culos SP: {dados_sp['vendas_oculos_grau'].sum()}")
print(f"- Vendas √≥culos outros: {dados_outros_estados['vendas_oculos_grau'].sum()}")

# Estat√≠sticas das coordenadas precisas
print(f"\nRanges de coordenadas:")
print(f"- Latitude: {dados_localizacao['latitude'].min():.2f} a {dados_localizacao['latitude'].max():.2f}")
print(f"- Longitude: {dados_localizacao['longitude'].min():.2f} a {dados_localizacao['longitude'].max():.2f}")

# Top 10 localiza√ß√µes por potencial
print(f"\nTop 10 localiza√ß√µes por potencial:")
top_locations = dados_localizacao.nlargest(10, 'potencial_score')[['estado', 'latitude', 'longitude', 'potencial_score', 'vendas_oculos_grau', 'num_clientes']]
print(top_locations)

print("\n" + "="*80)

## Valida√ß√£o e Enriquecimento dos Dados Processados

Esta se√ß√£o realiza a **valida√ß√£o completa e enriquecimento contextual** dos dados processados na etapa anterior, garantindo a qualidade dos dados antes da aplica√ß√£o dos algoritmos de clustering e fornecendo informa√ß√µes regionais estrat√©gicas.

**1. Valida√ß√£o da Estrutura de Dados:**
- **Inspe√ß√£o de colunas**: Verifica se todas as colunas esperadas foram criadas corretamente ap√≥s o processamento
- **An√°lise das primeiras linhas**: Valida visualmente se os dados agregados est√£o consistentes e bem formatados
- **Verifica√ß√£o de tipos**: Confirma que as m√©tricas num√©ricas est√£o nos formatos corretos para an√°lise

**2. An√°lise Estat√≠stica Descritiva:**
- **Resumo estat√≠stico**: Calcula m√©dias, medianas, quartis e desvios para todas as m√©tricas num√©ricas
- **Identifica√ß√£o de outliers**: Detecta valores extremos que podem impactar a an√°lise de clustering
- **Distribui√ß√£o geogr√°fica**: Verifica se h√° concentra√ß√£o excessiva em determinadas regi√µes

**3. Mapeamento Geogr√°fico e Regional:**
- **Cria√ß√£o de c√≥digos √∫nicos**: Gera identificadores sequenciais para cada localiza√ß√£o processada
- **Classifica√ß√£o regional**: Mapeia estados para regi√µes da estrat√©gia Chilli Beans (S√£o Paulo, Sudeste, Sul, Nordeste, Centro-Oeste, Norte)
- **Valida√ß√£o da cobertura**: Confirma presen√ßa de dados em todas as regi√µes do pa√≠s

**4. An√°lise de Distribui√ß√£o por Estado:**
- **Ranking estadual**: Identifica quais estados t√™m maior concentra√ß√£o de localiza√ß√µes processadas
- **Balanceamento regional**: Verifica se h√° representatividade adequada de diferentes estados
- **Identifica√ß√£o de gaps**: Detecta poss√≠veis lacunas geogr√°ficas na cobertura de dados

**5. Separa√ß√£o Estrat√©gica S√£o Paulo vs Outros Estados:**
- **Justificativa da separa√ß√£o**: S√£o Paulo possui caracter√≠sticas √∫nicas de densidade populacional e mercado
- **Compara√ß√£o quantitativa**: Mostra diferen√ßas de volume entre SP e demais estados
- **Prepara√ß√£o para clustering**: Valida se ambos os subconjuntos t√™m dados suficientes para an√°lise independente

**6. Identifica√ß√£o de Localiza√ß√µes de Alto Potencial:**
- **Top 5 SP**: Lista as melhores localiza√ß√µes em S√£o Paulo baseadas no score de potencial
- **Top 5 outros estados**: Identifica oportunidades fora de S√£o Paulo
- **M√©tricas de valida√ß√£o**: Mostra vendas de √≥culos de grau e n√∫mero de clientes para cada localiza√ß√£o

**7. Valida√ß√µes de Qualidade:**
- **Consist√™ncia de dados**: Verifica se m√©tricas agregadas fazem sentido matem√°tico
- **Completude geogr√°fica**: Confirma que coordenadas est√£o dentro dos limites geogr√°ficos do Brasil
- **Integridade referencial**: Valida se c√≥digos de estados correspondem aos nomes corretos

**8. Prepara√ß√£o para An√°lises Avan√ßadas:**
- **Estrutura otimizada**: Dados organizados e limpos para aplica√ß√£o de algoritmos de machine learning
- **Contexto regional**: Informa√ß√µes geogr√°ficas enriquecidas para interpreta√ß√£o dos resultados
- **M√©tricas padronizadas**: Indicadores harmonizados para compara√ß√£o entre diferentes regi√µes

**9. Outputs de Valida√ß√£o:**
- **Relat√≥rios estat√≠sticos**: Resumos num√©ricos para valida√ß√£o da qualidade dos dados
- **Listas de top performers**: Identifica√ß√£o pr√©via de localiza√ß√µes promissoras
- **Distribui√ß√µes regionais**: Vis√£o geral da cobertura geogr√°fica dos dados

**10. Benef√≠cios desta Etapa:**
- **Confiabilidade**: Garante que dados est√£o corretos antes de an√°lises complexas
- **Interpretabilidade**: Adiciona contexto geogr√°fico e regional aos dados num√©ricos
- **Efici√™ncia**: Identifica problemas cedo, evitando reprocessamento posterior
- **Insights preliminares**: Fornece primeira vis√£o das oportunidades de expans√£o mais promissoras

In [None]:
# Verificando os dados processados com coordenadas precisas
print("="*80)
print("DADOS PROCESSADOS COM COORDENADAS PRECISAS")
print("="*80)

print("Estrutura dos dados de localiza√ß√£o:")
print(f"Colunas: {dados_localizacao.columns.tolist()}")
print(f"\nPrimeiras 5 localiza√ß√µes:")
print(dados_localizacao.head())

print(f"\nResumo estat√≠stico:")
print(dados_localizacao.describe())

print(f"\nDistribui√ß√£o por estado:")
estado_distribution = dados_localizacao['estado'].value_counts()
print(estado_distribution)

# Criando vari√°vel para c√≥digos de cidade baseada na localiza√ß√£o
dados_localizacao['cod_cidade'] = range(len(dados_localizacao))

# Adicionando informa√ß√µes regionais
dados_localizacao['regiao_chilli'] = dados_localizacao['estado'].map({
    'SP': 'S√ÉO PAULO',
    'RJ': 'SUDESTE', 'MG': 'SUDESTE', 'ES': 'SUDESTE',
    'RS': 'SUL', 'SC': 'SUL', 'PR': 'SUL',
    'BA': 'NORDESTE', 'PE': 'NORDESTE', 'CE': 'NORDESTE', 'AL': 'NORDESTE', 
    'PB': 'NORDESTE', 'RN': 'NORDESTE', 'SE': 'NORDESTE', 'PI': 'NORDESTE', 'MA': 'NORDESTE',
    'GO': 'CENTRO-OESTE', 'MT': 'CENTRO-OESTE', 'MS': 'CENTRO-OESTE', 'DF': 'CENTRO-OESTE',
    'PA': 'NORTE', 'AM': 'NORTE', 'TO': 'NORTE', 'RO': 'NORTE', 'AC': 'NORTE', 'RR': 'NORTE', 'AP': 'NORTE'
})

print(f"\nDistribui√ß√£o por regi√£o Chilli:")
regiao_distribution = dados_localizacao['regiao_chilli'].value_counts()
print(regiao_distribution)

# Separando S√£o Paulo dos outros estados (j√° feito anteriormente)
print(f"\nSepara√ß√£o SP vs Outros Estados:")
print(f"- SP: {len(dados_sp)} localiza√ß√µes")
print(f"- Outros estados: {len(dados_outros_estados)} localiza√ß√µes")

# Top localiza√ß√µes por potencial em SP
print(f"\nTop 5 localiza√ß√µes em SP por potencial:")
if len(dados_sp) > 0:
    top_sp = dados_sp.nlargest(5, 'potencial_score')[['latitude', 'longitude', 'potencial_score', 'vendas_oculos_grau', 'num_clientes']]
    print(top_sp)

# Top localiza√ß√µes por potencial em outros estados
print(f"\nTop 5 localiza√ß√µes em outros estados por potencial:")
if len(dados_outros_estados) > 0:
    top_outros = dados_outros_estados.nlargest(5, 'potencial_score')[['estado', 'latitude', 'longitude', 'potencial_score', 'vendas_oculos_grau', 'num_clientes']]
    print(top_outros)

print("\n" + "="*80)

## Visualiza√ß√£o Inicial dos Dados Geogr√°ficos

Esta se√ß√£o cria **visualiza√ß√µes geogr√°ficas abrangentes** para explorar a distribui√ß√£o espacial das lojas Chilli Beans, destacando padr√µes de vendas de √≥culos de grau, diferen√ßas regionais e oportunidades de expans√£o atrav√©s de m√∫ltiplas perspectivas anal√≠ticas.

**1. Dashboard Geogr√°fico Multidimensional:**
- **Layout 2x2**: Organiza quatro visualiza√ß√µes complementares em uma √∫nica figura para an√°lise comparativa
- **Coordenadas reais**: Utiliza latitude e longitude precisas para mapeamento geogr√°fico fidedigno
- **Escalas consistentes**: Mant√©m propor√ß√µes geogr√°ficas corretas para interpreta√ß√£o espacial acurada

**2. Gr√°fico 1 - Distribui√ß√£o Geral de Vendas:**
- **Mapeamento de cores**: Representa intensidade de vendas de √≥culos de grau atrav√©s do colormap 'viridis'
- **Tamanho proporcional**: Pontos dimensionados pelo n√∫mero de lojas (√ó10) para mostrar densidade de opera√ß√µes
- **Identifica√ß√£o de hotspots**: Facilita visualiza√ß√£o de regi√µes com alta concentra√ß√£o de vendas

**3. Gr√°fico 2 - Comparativo SP vs Outros Estados:**
- **Segmenta√ß√£o estrat√©gica**: Diferencia S√£o Paulo (vermelho) de outros estados (azul) para an√°lise regional
- **Tamanho por vendas**: Pontos dimensionados pelas vendas de √≥culos de grau (√ó2) para destacar performance
- **An√°lise competitiva**: Permite compara√ß√£o direta entre as duas principais regi√µes de atua√ß√£o

**4. Gr√°fico 3 - An√°lise de Receita e Base de Clientes:**
- **Colormap de receita**: Utiliza 'plasma' para representar receita total por localiza√ß√£o
- **Tamanho por clientes**: Pontos dimensionados pelo n√∫mero de clientes (√∑10) para mostrar penetra√ß√£o de mercado
- **Correla√ß√£o visual**: Permite identificar rela√ß√£o entre receita e base de clientes

**5. Gr√°fico 4 - Ranking Estadual:**
- **Top 10 estados**: Identifica os maiores mercados por vendas de √≥culos de grau
- **Destaque para SP**: Usa cor vermelha para S√£o Paulo e azul para outros estados
- **Valores absolutos**: Exibe n√∫meros exatos de vendas sobre cada barra para precis√£o quantitativa

**6. Funcionalidades Avan√ßadas de Visualiza√ß√£o:**
- **Legendas informativas**: Explica significado de cores e tamanhos em cada gr√°fico
- **Grid e formata√ß√£o**: Adiciona elementos visuais para melhor leitura dos dados
- **Rota√ß√£o de labels**: Otimiza legibilidade dos nomes de estados no gr√°fico de barras

**7. Exporta√ß√£o e Persist√™ncia:**
- **Alta resolu√ß√£o**: Salva gr√°fico em 300 DPI para qualidade profissional
- **Formato PNG**: Compat√≠vel com documentos e apresenta√ß√µes
- **Ajuste autom√°tico**: Layout responsivo que se adapta ao conte√∫do

**8. Estat√≠sticas Complementares:**
- **Resumo quantitativo**: Fornece n√∫meros consolidados por regi√£o (SP vs outros)
- **M√©tricas chave**: Total de cidades, vendas, receita e lojas por regi√£o
- **Valida√ß√£o visual**: Confirma padr√µes observados nos gr√°ficos com dados num√©ricos

**9. Insights Estrat√©gicos Facilitados:**
- **Identifica√ß√£o de gaps**: Visualiza regi√µes com baixa penetra√ß√£o de mercado
- **Oportunidades de expans√£o**: Destaca √°reas com alto potencial n√£o explorado
- **Balanceamento regional**: Mostra distribui√ß√£o atual vs distribui√ß√£o ideal

**10. Prepara√ß√£o para Clustering:**
- **Padr√µes espaciais**: Revela agrupamentos naturais de localiza√ß√µes de alta performance
- **Densidade geogr√°fica**: Identifica regi√µes com concentra√ß√£o adequada para clustering
- **Valida√ß√£o de dados**: Confirma qualidade dos dados geogr√°ficos antes da an√°lise de machine learning

In [None]:
# VISUALIZA√á√ÉO INICIAL
# Plotando distribui√ß√£o geogr√°fica das lojas

fig, axes = plt.subplots(2, 2, figsize=(20, 16))

# Gr√°fico 1: Todas as localiza√ß√µes
ax1 = axes[0, 0]
scatter1 = ax1.scatter(dados_localizacao['longitude'], dados_localizacao['latitude'], 
                      c=dados_localizacao['vendas_oculos_grau'], 
                      s=dados_localizacao['num_lojas']*10,
                      alpha=0.7, cmap='viridis')
ax1.set_xlabel('Longitude (¬∞)')
ax1.set_ylabel('Latitude (¬∞)')
ax1.set_title('Distribui√ß√£o Geogr√°fica - Vendas de √ìculos de Grau\n(Tamanho = N√∫mero de Lojas)')
cbar1 = plt.colorbar(scatter1, ax=ax1, label='Vendas √ìculos de Grau')
cbar1.set_label('Quantidade de Vendas de √ìculos de Grau', fontsize=10)
# Adicionar legenda para tamanho dos pontos
ax1.text(0.02, 0.98, 'Tamanho do ponto = N√∫mero de lojas', 
         transform=ax1.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8),
         verticalalignment='top')

# Gr√°fico 2: Separando S√£o Paulo vs Outros Estados
ax2 = axes[0, 1]
scatter_sp = ax2.scatter(dados_sp['longitude'], dados_sp['latitude'], 
           c='red', s=dados_sp['vendas_oculos_grau']*2, alpha=0.7, label='S√£o Paulo')
scatter_outros = ax2.scatter(dados_outros_estados['longitude'], dados_outros_estados['latitude'], 
           c='blue', s=dados_outros_estados['vendas_oculos_grau']*2, alpha=0.7, label='Outros Estados')
ax2.set_xlabel('Longitude (¬∞)')
ax2.set_ylabel('Latitude (¬∞)')
ax2.set_title('Distribui√ß√£o: S√£o Paulo vs Outros Estados\n(Tamanho = Vendas √ìculos de Grau)')
ax2.legend(loc='upper right')
# Adicionar explica√ß√£o do tamanho
ax2.text(0.02, 0.02, 'Tamanho proporcional √†s vendas de √≥culos de grau', 
         transform=ax2.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# Gr√°fico 3: Receita por localiza√ß√£o
ax3 = axes[1, 0]
scatter3 = ax3.scatter(dados_localizacao['longitude'], dados_localizacao['latitude'], 
                      c=dados_localizacao['receita_total'], 
                      s=dados_localizacao['num_clientes']/10,
                      alpha=0.7, cmap='plasma')
ax3.set_xlabel('Longitude (¬∞)')
ax3.set_ylabel('Latitude (¬∞)')
ax3.set_title('Receita Total por Localiza√ß√£o\n(Tamanho = N√∫mero de Clientes)')
cbar3 = plt.colorbar(scatter3, ax=ax3, label='Receita Total (R$)')
cbar3.set_label('Receita Total (R$)', fontsize=10)
# Adicionar legenda para tamanho dos pontos
ax3.text(0.02, 0.98, 'Tamanho do ponto = N√∫mero de clientes √∑ 10', 
         transform=ax3.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8),
         verticalalignment='top')

# Gr√°fico 4: Densidade de lojas por estado
ax4 = axes[1, 1]
densidade_estado = dados_localizacao.groupby('estado').agg({
    'num_lojas': 'sum',
    'vendas_oculos_grau': 'sum'
}).reset_index()

# Top 10 estados por vendas de √≥culos de grau
top_estados = densidade_estado.nlargest(10, 'vendas_oculos_grau')
bars = ax4.bar(range(len(top_estados)), top_estados['vendas_oculos_grau'], 
               color=['red' if estado == 'S√£o Paulo' else 'steelblue' for estado in top_estados['estado']])
ax4.set_xticks(range(len(top_estados)))
ax4.set_xticklabels(top_estados['estado'], rotation=45, ha='right')
ax4.set_ylabel('Vendas √ìculos de Grau (unidades)')
ax4.set_title('Top 10 Estados - Vendas de √ìculos de Grau')
ax4.grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for i, (bar, valor) in enumerate(zip(bars, top_estados['vendas_oculos_grau'])):
    ax4.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 5, 
             f'{valor}', ha='center', va='bottom', fontsize=9, fontweight='bold')

# Legenda para cores
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor='red', label='S√£o Paulo'),
                   Patch(facecolor='steelblue', label='Outros Estados')]
ax4.legend(handles=legend_elements, loc='upper right')

plt.tight_layout()
plt.savefig(("../../assets/gr√°ficos/estatisticas_regiao.png"), dpi=300, bbox_inches='tight')
plt.show()

# Estat√≠sticas descritivas
print("ESTAT√çSTICAS POR REGI√ÉO:")
print("\nS√£o Paulo:")
print(f"- Total de cidades: {len(dados_sp)}")
print(f"- Vendas √≥culos de grau: {dados_sp['vendas_oculos_grau'].sum()}")
print(f"- Receita total: R$ {dados_sp['receita_total'].sum():,.2f}")
print(f"- N√∫mero de lojas: {dados_sp['num_lojas'].sum()}")

print("\nOutros Estados:")
print(f"- Total de cidades: {len(dados_outros_estados)}")
print(f"- Vendas √≥culos de grau: {dados_outros_estados['vendas_oculos_grau'].sum()}")
print(f"- Receita total: R$ {dados_outros_estados['receita_total'].sum():,.2f}")
print(f"- N√∫mero de lojas: {dados_outros_estados['num_lojas'].sum()}")

## Fun√ß√µes de C√°lculo de Dist√¢ncia Geogr√°fica

Esta se√ß√£o implementa **fun√ß√µes essenciais para c√°lculos de dist√¢ncia geogr√°fica** que s√£o fundamentais para a an√°lise de clustering espacial e identifica√ß√£o de localiza√ß√µes ideais para novas lojas.

**1. Fun√ß√£o `haversine_distance()`:**
- **Prop√≥sito**: Calcula a dist√¢ncia real em quil√¥metros entre dois pontos na superf√≠cie da Terra
- **F√≥rmula Haversine**: M√©todo matem√°tico preciso que considera a curvatura da Terra
- **Par√¢metros de entrada**: Latitude e longitude de dois pontos em graus decimais
- **Sa√≠da**: Dist√¢ncia em quil√¥metros com alta precis√£o

**2. Por que usar a F√≥rmula Haversine:**
- **Precis√£o geogr√°fica**: Considera que a Terra √© esf√©rica, n√£o plana
- **Aplica√ß√£o real**: Fornece dist√¢ncias "em linha reta" reais entre coordenadas
- **Padr√£o da ind√∫stria**: Amplamente usado em sistemas de geolocaliza√ß√£o
- **Efici√™ncia computacional**: R√°pida para grandes volumes de dados

**3. Processo de C√°lculo Implementado:**
- **Convers√£o para radianos**: Converte graus para radianos (unidade matem√°tica padr√£o)
- **C√°lculo de diferen√ßas**: Determina diferen√ßas de latitude e longitude
- **Aplica√ß√£o da f√≥rmula**: Usa fun√ß√µes trigonom√©tricas (seno, cosseno, arco-seno)
- **Multiplica√ß√£o pelo raio**: Usa raio da Terra (6.371 km) para obter dist√¢ncia final

**4. Fun√ß√£o `encontrar_cidade_mais_proxima()`:**
- **Prop√≥sito**: Identifica qual localiza√ß√£o real est√° mais pr√≥xima de um centr√≥ide de cluster
- **Metodologia**: Calcula dist√¢ncia Haversine entre centr√≥ide e todas as localiza√ß√µes
- **Retorna**: A localiza√ß√£o mais pr√≥xima e a dist√¢ncia em quil√¥metros
- **Aplica√ß√£o**: Traduz centr√≥ides abstratos em recomenda√ß√µes de locais reais

**5. Import√¢ncia para o Modelo de Clustering:**
- **Valida√ß√£o de clusters**: Permite verificar se centr√≥ides fazem sentido geograficamente
- **Recomenda√ß√µes pr√°ticas**: Converte resultados matem√°ticos em sugest√µes acion√°veis
- **Interpretabilidade**: Facilita comunica√ß√£o dos resultados para stakeholders
- **Tomada de decis√£o**: Fornece dist√¢ncias concretas para planejamento log√≠stico

**6. Aplica√ß√µes Espec√≠ficas no Projeto:**
- **An√°lise de clusters SP**: Identifica cidades representativas de cada cluster em S√£o Paulo
- **An√°lise nacional**: Encontra regi√µes ideais em outros estados
- **Valida√ß√£o de centr√≥ides**: Confirma que locais sugeridos s√£o geograficamente vi√°veis
- **M√©tricas de qualidade**: Mede qu√£o bem os clusters representam localiza√ß√µes reais

**7. Benef√≠cios T√©cnicos:**
- **Efici√™ncia**: Fun√ß√£o vetorizada que processa m√∫ltiplas coordenadas rapidamente
- **Robustez**: Lida com casos extremos (coordenadas inv√°lidas, DataFrames vazios)
- **Reutiliza√ß√£o**: Fun√ß√µes modulares que podem ser aplicadas em diferentes contextos
- **Precis√£o**: C√°lculos matematicamente corretos para decis√µes estrat√©gicas

**8. Valida√ß√µes Implementadas:**
- **Verifica√ß√£o de dados**: Confirma que coordenadas s√£o v√°lidas antes do c√°lculo
- **Tratamento de erros**: Lida graciosamente com dados faltantes ou inv√°lidos
- **Otimiza√ß√£o**: Usa opera√ß√µes vetorizadas do pandas para performance
- **Teste de consist√™ncia**: Garante que dist√¢ncias calculadas s√£o realistas

**9. Output Esperado:**
- **Dist√¢ncias precisas**: Valores em quil√¥metros para planejamento real
- **Localiza√ß√µes identificadas**: Cidades/regi√µes espec√≠ficas para cada cluster
- **M√©tricas de proximidade**: Qu√£o bem centr√≥ides representam dados reais
- **Base para recomenda√ß√µes**: Funda√ß√£o s√≥lida para sugest√µes de expans√£o

**10. Prepara√ß√£o para An√°lises Subsequentes:**
- **Clustering de SP**: Identifica√ß√£o de lojas representativas por cluster
- **Clustering nacional**: Mapeamento de regi√µes ideais por estado
- **An√°lise de potencial**: Conex√£o entre centr√≥ides matem√°ticos e oportunidades reais
- **Exporta√ß√£o de sugest√µes**: Convers√£o de resultados em coordenadas espec√≠ficas para o modelo supervisionado

Esta implementa√ß√£o garante que todas as an√°lises geogr√°ficas subsequentes sejam baseadas em **c√°lculos matematicamente precisos e geograficamente realistas**.

In [None]:
# Fun√ß√£o para calcular dist√¢ncia Haversine entre dois pontos
def haversine_distance(lat1, lon1, lat2, lon2):
    """
    Calcula a dist√¢ncia Haversine entre dois pontos na Terra
    """
    R = 6371  # Raio da Terra em km
    
    # Convertendo para radianos
    lat1, lon1, lat2, lon2 = map(np.radians, [lat1, lon1, lat2, lon2])
    
    # Diferen√ßas
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    
    # F√≥rmula Haversine
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a))
    
    return R * c

def encontrar_cidade_mais_proxima(centroide_lat, centroide_lon, dataframe):
    """
    Encontra a cidade mais pr√≥xima de um centr√≥ide
    """
    distancias = dataframe.apply(
        lambda row: haversine_distance(centroide_lat, centroide_lon, 
                                     row['latitude'], row['longitude']), 
        axis=1
    )
    idx_mais_proxima = distancias.idxmin()
    return dataframe.loc[idx_mais_proxima], distancias.min()

print("Fun√ß√µes de dist√¢ncia criadas com sucesso!")

## Clusteriza√ß√£o de Lojas Existentes - S√£o Paulo

Esta se√ß√£o implementa a **an√°lise de clustering espec√≠fica para o estado de S√£o Paulo**, utilizando algoritmos de machine learning para identificar padr√µes geogr√°ficos e operacionais das lojas existentes, com foco em vendas de √≥culos de grau.

**1. Por que An√°lise Separada para S√£o Paulo:**
- **Densidade √∫nica**: S√£o Paulo possui concentra√ß√£o muito maior de lojas que outros estados
- **Caracter√≠sticas espec√≠ficas**: Mercado metropolitano com din√¢micas pr√≥prias
- **Evitar vi√©s**: Impedir que SP domine a an√°lise nacional devido ao volume
- **Estrat√©gias diferenciadas**: Permitir recomenda√ß√µes espec√≠ficas para o maior mercado

**2. Prepara√ß√£o dos Dados:**
- **Dataset focado**: Filtra apenas localiza√ß√µes do estado de S√£o Paulo
- **Matriz de coordenadas**: Cria `X_sp` com longitude e latitude para algoritmos espaciais
- **Pesos estrat√©gicos**: Usa `vendas_oculos_grau + 1` como peso para cada localiza√ß√£o
- **Evita bias zero**: Adiciona 1 para garantir que todas as localiza√ß√µes tenham peso m√≠nimo

**3. Metodologia de Teste de Clusters:**
- **Range de k**: Testa de 1 a 6 clusters para encontrar configura√ß√£o √≥tima
- **Algoritmo K-Means**: Usa coordenadas geogr√°ficas como features principais
- **Sample weights**: Prioriza localiza√ß√µes com mais vendas de √≥culos de grau
- **Par√¢metros fixos**: `random_state=42` garante reprodutibilidade

**4. Layout de Visualiza√ß√£o (Grid 2x3 + Grid 1x2):**
- **Primeira figura**: 6 gr√°ficos de clustering organizados em 2 linhas √ó 3 colunas
- **Segunda figura**: An√°lises de qualidade lado a lado (Elbow + Silhouette)
- **Consist√™ncia visual**: Mesmo padr√£o usado para an√°lise de outros estados
- **Tamanhos otimizados**: 20√ó12 para clustering, 16√ó6 para an√°lises

**5. M√©tricas de Qualidade Implementadas:**
- **In√©rcia (WCSS)**: Mede compacta√ß√£o dos clusters (menor = melhor)
- **Silhouette Score**: Avalia separa√ß√£o entre clusters (maior = melhor)
- **Valida√ß√£o m√∫ltipla**: Compara diferentes valores de k para otimiza√ß√£o
- **Tratamento de exce√ß√µes**: Lida com casos onde silhouette n√£o pode ser calculado

**6. Identifica√ß√£o de Lojas Representativas:**
- **Fun√ß√£o Haversine**: Calcula dist√¢ncias reais entre centr√≥ides e lojas
- **Loja mais pr√≥xima**: Identifica localiza√ß√£o real mais pr√≥xima de cada centr√≥ide
- **M√©tricas contextuais**: Mostra vendas e n√∫mero de lojas para cada representante
- **Interpretabilidade**: Converte centr√≥ides abstratos em recomenda√ß√µes pr√°ticas

**7. An√°lises Detalhadas:**
- **k=3**: Configura√ß√£o intermedi√°ria com an√°lise de clusters representativos
- **k=6**: Configura√ß√£o mais granular para segmenta√ß√£o detalhada
- **Tabela comparativa**: Resume todos os valores de k com interpreta√ß√µes
- **Melhor k identificado**: Baseado no maior Silhouette Score

**8. Outputs Gerados:**
- **clusters_sp.png**: Visualiza√ß√£o dos 6 gr√°ficos de clustering
- **analise_clusters_sp.png**: Gr√°ficos de Elbow e Silhouette lado a lado
- **Estat√≠sticas consolidadas**: Vendas, lojas, receita e melhor configura√ß√£o
- **Recomenda√ß√µes espec√≠ficas**: Clusters representativos para cada k

**9. Interpreta√ß√£o dos Resultados:**
- **Clusters identificados**: Agrupamentos naturais de lojas em SP
- **Representantes**: Localiza√ß√µes-chave que exemplificam cada cluster
- **Qualidade validada**: Silhouette Score confirma separa√ß√£o adequada
- **Base para estrat√©gia**: Insights espec√≠ficos para mercado paulista

**10. Integra√ß√£o com An√°lise Nacional:**
- **Compara√ß√£o facilitada**: Layout id√™ntico ao de outros estados
- **Estrat√©gias complementares**: SP requer abordagem diferenciada
- **Dados consolidados**: Contribui para vis√£o geral do modelo
- **Pr√≥ximas etapas**: Prepara para an√°lise de expans√£o direcionada

Esta an√°lise garante que as **particularidades do mercado paulista** sejam adequadamente capturadas e que as recomenda√ß√µes de expans√£o considerem as din√¢micas espec√≠ficas da regi√£o mais importante para a Chilli Beans.

In [None]:
# CLUSTERIZA√á√ÉO DE LOJAS EXISTENTES - S√ÉO PAULO
print("\n=== AN√ÅLISE DE LOJAS EXISTENTES - S√ÉO PAULO ===")

# Preparando dados de SP para clusteriza√ß√£o
X_sp = dados_sp[['longitude', 'latitude']].values
weights_sp = dados_sp['vendas_oculos_grau'].values + 1

# Testando diferentes n√∫meros de clusters (1 a 6) - ATUALIZADO PARA CONSIST√äNCIA
k_values_sp = range(1, 7)
inertias_sp = []
silhouette_scores_sp = []

# Primeira figura: Grid 2x3 para os 6 gr√°ficos de clustering
fig1, axes = plt.subplots(2, 3, figsize=(20, 12))
fig1.suptitle('Clusteriza√ß√£o de Lojas Existentes - S√£o Paulo (K=1 a K=6)', fontsize=16)

for i, k in enumerate(k_values_sp):
    # KMeans com peso das vendas de √≥culos de grau
    kmeans_sp = KMeans(n_clusters=k, random_state=42, n_init=10)
    clusters_sp = kmeans_sp.fit_predict(X_sp, sample_weight=weights_sp)
    
    # M√©tricas
    inertias_sp.append(kmeans_sp.inertia_)
    if k > 1 and len(np.unique(clusters_sp)) > 1:
        try:
            silhouette_avg = silhouette_score(X_sp, clusters_sp)
            silhouette_scores_sp.append(silhouette_avg)
        except:
            silhouette_scores_sp.append(0)
    elif k > 1:
        silhouette_scores_sp.append(0)
    
    # Plotando clusters em grid 2x3
    row = i // 3
    col = i % 3
    ax = axes[row, col]
    
    scatter = ax.scatter(dados_sp['longitude'], dados_sp['latitude'], 
                       c=clusters_sp, s=dados_sp['vendas_oculos_grau']*2, 
                       alpha=0.7, cmap='tab10')
    
    # Plotando centr√≥ides
    centroids = kmeans_sp.cluster_centers_
    ax.scatter(centroids[:, 0], centroids[:, 1], 
              c='red', marker='x', s=200, linewidths=3, label='Centr√≥ides')
    
    ax.set_xlabel('Longitude')
    ax.set_ylabel('Latitude')
    ax.set_title(f'K = {k} clusters')
    ax.legend()
    
    # Encontrando lojas representativas de cada cluster para k=3
    if k == 3:
        print(f"\nDetalhamento para K = {k} (clusters representativos):")
        for j, (cent_lon, cent_lat) in enumerate(centroids):
            loja_proxima, distancia = encontrar_cidade_mais_proxima(cent_lat, cent_lon, dados_sp)
            print(f"  Cluster {j+1}: {loja_proxima['estado']} (Lat: {loja_proxima['latitude']:.2f}, Lon: {loja_proxima['longitude']:.2f}) - Dist√¢ncia: {distancia:.2f} km")
            print(f"    Vendas √≥culos de grau: {loja_proxima['vendas_oculos_grau']}, Lojas: {loja_proxima['num_lojas']}")

plt.tight_layout()
plt.savefig("../../assets/gr√°ficos/clusters_sp.png", dpi=300, bbox_inches='tight')
plt.show()

# Segunda figura: Grid 1x2 para Elbow e Silhouette lado a lado
fig2, (ax_elbow, ax_silhouette) = plt.subplots(1, 2, figsize=(16, 6))
fig2.suptitle('An√°lise de Qualidade dos Clusters - S√£o Paulo', fontsize=16)

# Gr√°fico da curva do cotovelo
ax_elbow.plot(k_values_sp, inertias_sp, 'bo-', linewidth=2, markersize=8)
ax_elbow.set_xlabel('N√∫mero de Clusters (k)')
ax_elbow.set_ylabel('In√©rcia (WCSS)')
ax_elbow.set_title('Curva do Cotovelo')
ax_elbow.grid(True, alpha=0.3)
# Adicionar anota√ß√£o para identificar o cotovelo
ax_elbow.text(0.02, 0.98, 'Procure o "cotovelo" onde\na in√©rcia para de diminuir\nsignificativamente', 
             transform=ax_elbow.transAxes, fontsize=10, 
             bbox=dict(boxstyle="round,pad=0.3", facecolor="lightyellow", alpha=0.8),
             verticalalignment='top')

# Gr√°fico de Silhouette Score
if silhouette_scores_sp:
    ax_silhouette.plot(k_values_sp[1:], silhouette_scores_sp, 'ro-', linewidth=2, markersize=8)
    ax_silhouette.set_xlabel('N√∫mero de Clusters (k)')
    ax_silhouette.set_ylabel('Silhouette Score')
    ax_silhouette.set_title('Silhouette Score')
    ax_silhouette.grid(True, alpha=0.3)
    ax_silhouette.set_ylim(0, max(silhouette_scores_sp) + 0.1)
    
    # Adicionar linha de refer√™ncia para qualidade boa (>0.5)
    ax_silhouette.axhline(y=0.5, color='green', linestyle='--', alpha=0.7, linewidth=2)
    ax_silhouette.text(0.02, 0.98, 'Score > 0.5 indica\nboa separa√ß√£o\ndos clusters', 
                      transform=ax_silhouette.transAxes, fontsize=10, 
                      bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgreen", alpha=0.8),
                      verticalalignment='top')
    
    best_k_sp = k_values_sp[1:][np.argmax(silhouette_scores_sp)]
    ax_silhouette.scatter([best_k_sp], [max(silhouette_scores_sp)], 
                         color='red', s=100, zorder=5, label=f'Melhor k = {best_k_sp}')
    ax_silhouette.legend()
    
    print(f"\nMelhor Silhouette Score S√£o Paulo: {max(silhouette_scores_sp):.3f} com k = {best_k_sp}")
else:
    ax_silhouette.text(0.5, 0.5, 'Silhouette Score\nn√£o calculado', 
                      ha='center', va='center', transform=ax_silhouette.transAxes)

plt.tight_layout()
plt.savefig("../../assets/gr√°ficos/analise_clusters_sp.png", dpi=300, bbox_inches='tight')
plt.show()

# An√°lise adicional para k=6
if len(k_values_sp) >= 6:
    print(f"\nAn√°lise detalhada para K = 6:")
    kmeans_6 = KMeans(n_clusters=6, random_state=42, n_init=10)
    clusters_6 = kmeans_6.fit_predict(X_sp, sample_weight=weights_sp)
    centroids_6 = kmeans_6.cluster_centers_
    
    for j, (cent_lon, cent_lat) in enumerate(centroids_6):
        loja_proxima, distancia = encontrar_cidade_mais_proxima(cent_lat, cent_lon, dados_sp)
        print(f"  Cluster {j+1}: {loja_proxima['estado']} (Lat: {loja_proxima['latitude']:.2f}, Lon: {loja_proxima['longitude']:.2f}) - Dist√¢ncia: {distancia:.2f} km")
        print(f"    Vendas √≥culos de grau: {loja_proxima['vendas_oculos_grau']}, Lojas: {loja_proxima['num_lojas']}")

print(f"\nAn√°lise das lojas em S√£o Paulo:")
print(f"- S√£o Paulo concentra {dados_sp['vendas_oculos_grau'].sum()} vendas de √≥culos de grau")
print(f"- Distribu√≠das em {dados_sp['num_lojas'].sum()} lojas")
print(f"- Receita total: R$ {dados_sp['receita_total'].sum():.2f}")
print(f"- Melhor configura√ß√£o: {best_k_sp} clusters regionais")

# Tabela comparativa dos diferentes valores de k
print(f"\nüìä COMPARA√á√ÉO DOS DIFERENTES VALORES DE K:")
print(f"{'K':<3} {'In√©rcia':<12} {'Silhouette':<12} {'Interpreta√ß√£o'}")
print(f"-" * 50)
for i, k in enumerate(k_values_sp):
    inercia = inertias_sp[i]
    silhouette = silhouette_scores_sp[i-1] if i > 0 and i-1 < len(silhouette_scores_sp) else "N/A"
    
    if k == 1:
        interpretacao = "Sem clusters"
    elif k == best_k_sp:
        interpretacao = "‚≠ê √ìTIMO"
    elif isinstance(silhouette, float) and silhouette > 0.5:
        interpretacao = "Boa qualidade"
    elif isinstance(silhouette, float) and silhouette > 0.3:
        interpretacao = "Qualidade m√©dia"
    else:
        interpretacao = "Baixa qualidade"
    
    silhouette_str = f"{silhouette:.3f}" if isinstance(silhouette, float) else str(silhouette)
    print(f"{k:<3} {inercia:<12.2f} {silhouette_str:<12} {interpretacao}")

## Clusteriza√ß√£o de Lojas Existentes - Outros Estados

Esta se√ß√£o implementa a **an√°lise de clustering para todos os estados brasileiros exceto S√£o Paulo**, aplicando machine learning para identificar padr√µes regionais e oportunidades de otimiza√ß√£o da rede de lojas existente da Chilli Beans.

**1. Escopo da An√°lise - Brasil Menos S√£o Paulo:**
- **Abrang√™ncia nacional**: Inclui todos os 26 estados + DF, exceto S√£o Paulo
- **Diversidade geogr√°fica**: Contempla diferentes regi√µes, climas e culturas
- **Heterogeneidade econ√¥mica**: Mercados com diferentes potenciais e caracter√≠sticas
- **Complementaridade**: An√°lise que se soma √† espec√≠fica de S√£o Paulo

**2. Prepara√ß√£o dos Dados Regionais:**
- **Dataset nacional**: `dados_outros_estados` cont√©m todas as localiza√ß√µes n√£o-SP
- **Matriz espacial**: `X_outros` com coordenadas longitude/latitude
- **Pondera√ß√£o estrat√©gica**: `vendas_oculos_grau + 1` como peso de cada localiza√ß√£o
- **Normaliza√ß√£o**: Garante que localiza√ß√µes com vendas zero ainda sejam consideradas

**3. Metodologia de Clustering Abrangente:**
- **Range expandido**: Testa k=1 a k=6 para maior granularidade
- **Algoritmo robusto**: K-Means com sample weights para considerar performance
- **Valida√ß√£o dupla**: In√©rcia (compacta√ß√£o) + Silhouette (separa√ß√£o)
- **Reprodutibilidade**: `random_state=42` para resultados consistentes

**4. Estrutura de Visualiza√ß√£o Padronizada:**
- **Grid 2√ó3**: Seis gr√°ficos de clustering para compara√ß√£o visual direta
- **Grid 1√ó2 separado**: Elbow e Silhouette lado a lado para an√°lise de qualidade
- **Layout consistente**: Id√™ntico √† an√°lise de S√£o Paulo para facilitar compara√ß√£o
- **Tamanhos otimizados**: 20√ó12 e 16√ó6 para visualiza√ß√£o clara

**5. An√°lise de Qualidade dos Clusters:**
- **Curva do Cotovelo**: Identifica ponto √≥timo onde in√©rcia estabiliza
- **Silhouette Score**: Mede qualidade da separa√ß√£o (>0.5 = boa qualidade)
- **Linha de refer√™ncia**: Marca visual no gr√°fico para interpreta√ß√£o f√°cil
- **Melhor k destacado**: Identifica√ß√£o autom√°tica da configura√ß√£o √≥tima

**6. Identifica√ß√£o de Regi√µes Representativas:**
- **Centr√≥ides calculados**: Pontos m√©dios matem√°ticos de cada cluster
- **Mapeamento para realidade**: Fun√ß√£o Haversine encontra cidade mais pr√≥xima
- **Contexto regional**: Cada cluster representado por localiza√ß√£o real espec√≠fica
- **M√©tricas de proximidade**: Dist√¢ncia em km entre centr√≥ide e representante

**7. An√°lises Detalhadas Multi-k:**
- **k=4**: Configura√ß√£o intermedi√°ria com an√°lise detalhada de representantes
- **k=6**: M√°xima granularidade para segmenta√ß√£o regional espec√≠fica
- **Tabela comparativa completa**: Resumo de in√©rcia, silhouette e interpreta√ß√£o
- **Classifica√ß√£o qualitativa**: √ìtimo, boa, m√©dia ou baixa qualidade

**8. Outputs Informativos:**
- **clusters_br.png**: Visualiza√ß√£o dos 6 gr√°ficos de clustering nacional
- **analise_clusters_br.png**: Gr√°ficos de qualidade lado a lado
- **Estat√≠sticas consolidadas**: Total de vendas, lojas e receita nacional
- **Configura√ß√£o recomendada**: Melhor k identificado automaticamente

**9. Insights Regionais Estrat√©gicos:**
- **Padr√µes geogr√°ficos**: Clusters naturais baseados em proximidade e performance
- **Representatividade**: Cada cluster tem uma "capital" identificada
- **Diversidade capturada**: Diferentes regi√µes com caracter√≠sticas √∫nicas
- **Base para expans√£o**: Identifica gaps e oportunidades por regi√£o

**10. Integra√ß√£o com Modelo Global:**
- **Complementa S√£o Paulo**: Vis√£o nacional completa quando combinado
- **Consist√™ncia metodol√≥gica**: Mesma abordagem, diferentes escopos
- **Dados para supervisionado**: Clusters informam pr√≥ximas etapas do modelo
- **Estrat√©gia diferenciada**: Permite abordagens espec√≠ficas por regi√£o

**11. Valida√ß√£o e Robustez:**
- **M√∫ltiplas m√©tricas**: In√©rcia + Silhouette para valida√ß√£o cruzada
- **Tratamento de exce√ß√µes**: C√≥digo robusto para casos extremos
- **Interpretabilidade**: Resultados traduzidos em recomenda√ß√µes pr√°ticas
- **Reprodutibilidade**: Par√¢metros fixos garantem consist√™ncia

**12. Prepara√ß√£o para Pr√≥ximas Etapas:**
- **Clustering √≥timo identificado**: Base s√≥lida para an√°lise de expans√£o
- **Regi√µes mapeadas**: Cada cluster representa oportunidade espec√≠fica
- **Dados estruturados**: Prontos para algoritmos supervisionados
- **Insights acion√°veis**: Recomenda√ß√µes diretas para tomada de decis√£o

Esta an√°lise fornece uma **vis√£o abrangente e sistem√°tica** do mercado nacional (exceto SP), identificando padr√µes regionais naturais e oportunidades de otimiza√ß√£o que complementam perfeitamente a an√°lise espec√≠fica de S√£o Paulo.

In [None]:
# CLUSTERIZA√á√ÉO DE LOJAS EXISTENTES - OUTROS ESTADOS
print("\n=== AN√ÅLISE DE LOJAS EXISTENTES - OUTROS ESTADOS ===")

# Preparando dados de outros estados para clusteriza√ß√£o
X_outros = dados_outros_estados[['longitude', 'latitude']].values
weights_outros = dados_outros_estados['vendas_oculos_grau'].values + 1

# Testando diferentes n√∫meros de clusters (1 a 6)
k_values_outros = range(1, 7)
inertias_outros = []
silhouette_scores_outros = []

# Primeira figura: Grid 2x3 para os 6 gr√°ficos de clustering
fig1, axes = plt.subplots(2, 3, figsize=(20, 12))
fig1.suptitle('Clusteriza√ß√£o de Lojas Existentes - Outros Estados (K=1 a K=6)', fontsize=16)

for i, k in enumerate(k_values_outros):
    # KMeans com peso das vendas de √≥culos de grau
    kmeans_outros = KMeans(n_clusters=k, random_state=42, n_init=10)
    clusters_outros = kmeans_outros.fit_predict(X_outros, sample_weight=weights_outros)
    
    # M√©tricas
    inertias_outros.append(kmeans_outros.inertia_)
    if k > 1 and len(np.unique(clusters_outros)) > 1:
        try:
            silhouette_avg = silhouette_score(X_outros, clusters_outros)
            silhouette_scores_outros.append(silhouette_avg)
        except:
            silhouette_scores_outros.append(0)
    elif k > 1:
        silhouette_scores_outros.append(0)
    
    # Plotando clusters em grid 2x3
    row = i // 3
    col = i % 3
    ax = axes[row, col]
    
    scatter = ax.scatter(dados_outros_estados['longitude'], dados_outros_estados['latitude'], 
                       c=clusters_outros, s=dados_outros_estados['vendas_oculos_grau']*0.5, 
                       alpha=0.7, cmap='tab10')
    
    # Plotando centr√≥ides
    centroids = kmeans_outros.cluster_centers_
    ax.scatter(centroids[:, 0], centroids[:, 1], 
              c='red', marker='x', s=200, linewidths=3, label='Centr√≥ides')
    
    ax.set_xlabel('Longitude')
    ax.set_ylabel('Latitude')
    ax.set_title(f'K = {k} clusters')
    ax.legend()
    
    # Encontrando regi√µes representativas de cada cluster para k=4
    if k == 4:
        print(f"\nDetalhamento para K = {k} (clusters representativos):")
        for j, (cent_lon, cent_lat) in enumerate(centroids):
            regiao_proxima, distancia = encontrar_cidade_mais_proxima(cent_lat, cent_lon, dados_outros_estados)
            print(f"  Cluster {j+1}: {regiao_proxima['estado']} (Lat: {regiao_proxima['latitude']:.2f}, Lon: {regiao_proxima['longitude']:.2f}) - Dist√¢ncia: {distancia:.2f} km")
            print(f"    Vendas √≥culos de grau: {regiao_proxima['vendas_oculos_grau']}, Lojas: {regiao_proxima['num_lojas']}")

plt.tight_layout()
plt.savefig("../../assets/gr√°ficos/clusters_br.png", dpi=300, bbox_inches='tight')
plt.show()

# Segunda figura: Grid 1x2 para Elbow e Silhouette lado a lado
fig2, (ax_elbow, ax_silhouette) = plt.subplots(1, 2, figsize=(16, 6))
fig2.suptitle('An√°lise de Qualidade dos Clusters - Outros Estados', fontsize=16)

# Gr√°fico da curva do cotovelo
ax_elbow.plot(k_values_outros, inertias_outros, 'bo-', linewidth=2, markersize=8)
ax_elbow.set_xlabel('N√∫mero de Clusters (k)')
ax_elbow.set_ylabel('In√©rcia (WCSS)')
ax_elbow.set_title('Curva do Cotovelo')
ax_elbow.grid(True, alpha=0.3)
# Adicionar anota√ß√£o para identificar o cotovelo
ax_elbow.text(0.02, 0.98, 'Procure o "cotovelo" onde\na in√©rcia para de diminuir\nsignificativamente', 
             transform=ax_elbow.transAxes, fontsize=10, 
             bbox=dict(boxstyle="round,pad=0.3", facecolor="lightyellow", alpha=0.8),
             verticalalignment='top')

# Gr√°fico de Silhouette Score
if silhouette_scores_outros:
    ax_silhouette.plot(k_values_outros[1:], silhouette_scores_outros, 'ro-', linewidth=2, markersize=8)
    ax_silhouette.set_xlabel('N√∫mero de Clusters (k)')
    ax_silhouette.set_ylabel('Silhouette Score')
    ax_silhouette.set_title('Silhouette Score')
    ax_silhouette.grid(True, alpha=0.3)
    ax_silhouette.set_ylim(0, max(silhouette_scores_outros) + 0.1)
    
    # Adicionar linha de refer√™ncia para qualidade boa (>0.5)
    ax_silhouette.axhline(y=0.5, color='green', linestyle='--', alpha=0.7, linewidth=2)
    ax_silhouette.text(0.02, 0.98, 'Score > 0.5 indica\nboa separa√ß√£o\ndos clusters', 
                      transform=ax_silhouette.transAxes, fontsize=10, 
                      bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgreen", alpha=0.8),
                      verticalalignment='top')
    
    best_k_outros = k_values_outros[1:][np.argmax(silhouette_scores_outros)]
    ax_silhouette.scatter([best_k_outros], [max(silhouette_scores_outros)], 
                         color='red', s=100, zorder=5, label=f'Melhor k = {best_k_outros}')
    ax_silhouette.legend()
    
    print(f"\nMelhor Silhouette Score Outros Estados: {max(silhouette_scores_outros):.3f} com k = {best_k_outros}")
else:
    ax_silhouette.text(0.5, 0.5, 'Silhouette Score\nn√£o calculado', 
                      ha='center', va='center', transform=ax_silhouette.transAxes)

plt.tight_layout()
plt.savefig("../../assets/gr√°ficos/analise_clusters_br.png", dpi=300, bbox_inches='tight')
plt.show()

# An√°lise adicional para k=6
if len(k_values_outros) >= 6:
    print(f"\nAn√°lise detalhada para K = 6:")
    kmeans_6 = KMeans(n_clusters=6, random_state=42, n_init=10)
    clusters_6 = kmeans_6.fit_predict(X_outros, sample_weight=weights_outros)
    centroids_6 = kmeans_6.cluster_centers_
    
    for j, (cent_lon, cent_lat) in enumerate(centroids_6):
        regiao_proxima, distancia = encontrar_cidade_mais_proxima(cent_lat, cent_lon, dados_outros_estados)
        print(f"  Cluster {j+1}: {regiao_proxima['estado']} (Lat: {regiao_proxima['latitude']:.2f}, Lon: {regiao_proxima['longitude']:.2f}) - Dist√¢ncia: {distancia:.2f} km")
        print(f"    Vendas √≥culos de grau: {regiao_proxima['vendas_oculos_grau']}, Lojas: {regiao_proxima['num_lojas']}")

print(f"\nAn√°lise das lojas nos outros estados:")
print(f"- Outros estados concentram {dados_outros_estados['vendas_oculos_grau'].sum()} vendas de √≥culos de grau")
print(f"- Distribu√≠das em {dados_outros_estados['num_lojas'].sum()} lojas")
print(f"- Receita total: R$ {dados_outros_estados['receita_total'].sum():.2f}")
print(f"- Melhor configura√ß√£o: {best_k_outros} clusters regionais")

# Tabela comparativa dos diferentes valores de k
print(f"\nüìä COMPARA√á√ÉO DOS DIFERENTES VALORES DE K:")
print(f"{'K':<3} {'In√©rcia':<12} {'Silhouette':<12} {'Interpreta√ß√£o'}")
print(f"-" * 50)
for i, k in enumerate(k_values_outros):
    inercia = inertias_outros[i]
    silhouette = silhouette_scores_outros[i-1] if i > 0 and i-1 < len(silhouette_scores_outros) else "N/A"
    
    if k == 1:
        interpretacao = "Sem clusters"
    elif k == best_k_outros:
        interpretacao = "‚≠ê √ìTIMO"
    elif isinstance(silhouette, float) and silhouette > 0.5:
        interpretacao = "Boa qualidade"
    elif isinstance(silhouette, float) and silhouette > 0.3:
        interpretacao = "Qualidade m√©dia"
    else:
        interpretacao = "Baixa qualidade"
    
    silhouette_str = f"{silhouette:.3f}" if isinstance(silhouette, float) else str(silhouette)
    print(f"{k:<3} {inercia:<12.2f} {silhouette_str:<12} {interpretacao}")

## Identifica√ß√£o de Locais Ideais para Novas Lojas

Esta se√ß√£o representa o **n√∫cleo estrat√©gico do modelo n√£o supervisionado**, onde os insights das an√°lises anteriores s√£o consolidados para identificar localiza√ß√µes espec√≠ficas e acion√°veis para expans√£o da rede Chilli Beans, com foco particular em √≥culos de grau.

**1. Cria√ß√£o do Score de Potencial Multicrit√©rio:**
- **F√≥rmula ponderada estrat√©gica**: Combina 4 m√©tricas essenciais com pesos otimizados
- **40% vendas de √≥culos de grau**: Prioridade m√°xima para o produto-foco da an√°lise
- **30% n√∫mero de clientes**: Indica penetra√ß√£o e potencial de mercado
- **20% receita total**: Representa poder de compra da regi√£o
- **10% n√∫mero de lojas**: Identifica satura√ß√£o vs oportunidade (peso menor para n√£o penalizar regi√µes sub-exploradas)

**2. Estrat√©gia de Separa√ß√£o Regional Mantida:**
- **S√£o Paulo isolado**: Continua an√°lise independente devido √†s caracter√≠sticas √∫nicas
- **Outros estados priorizados**: Foco principal na an√°lise de expans√£o para evitar vi√©s metropolitano
- **Complementaridade**: Ambas as an√°lises juntas fornecem vis√£o completa nacional

**3. Algoritmo K-Means Aplicado para Expans√£o:**
- **k=5 clusters**: Configura√ß√£o √≥tima baseada nas an√°lises de silhouette anteriores
- **Coordenadas como features**: Longitude e latitude para clustering espacial
- **Sample weights**: Prioriza regi√µes com maior score de potencial
- **Centr√≥ides como locais ideais**: Pontos matem√°ticos √≥timos traduzidos em recomenda√ß√µes geogr√°ficas

**4. Dashboard Visual Multidimensional (2√ó2):**
- **Gr√°fico 1 - Clusters por Potencial**: Visualiza agrupamentos com tamanho proporcional ao score
- **Gr√°fico 2 - Vendas de √ìculos de Grau**: Foca especificamente no produto-alvo da an√°lise
- **Gr√°fico 3 - Base de Clientes vs Receita**: Correlaciona penetra√ß√£o de mercado com poder de compra
- **Gr√°fico 4 - Ranking de Clusters**: Identifica hierarquia de prioridades com escala de cores

**5. An√°lise Estat√≠stica dos Clusters:**
- **M√©tricas agregadas**: Soma e m√©dia de indicadores por cluster
- **Centr√≥ides precisos**: Coordenadas exatas dos pontos ideais para novas lojas
- **Ranking por potencial**: Ordena√ß√£o autom√°tica dos clusters por atratividade
- **Estat√≠sticas descritivas**: N√∫mero de regi√µes, vendas totais, clientes e receita por cluster

**6. Sistema de Recomenda√ß√µes Hier√°rquicas:**
- **Prioridade por cluster**: Do maior ao menor potencial m√©dio
- **Top 3 regi√µes por cluster**: Localiza√ß√µes espec√≠ficas mais promissoras dentro de cada agrupamento
- **Dist√¢ncia dos centr√≥ides**: M√©tricas Haversine para validar proximidade geogr√°fica
- **Contextualiza√ß√£o detalhada**: Score, vendas, lojas atuais e base de clientes para cada recomenda√ß√£o

**7. Exporta√ß√£o de Insights Acion√°veis:**
- **Coordenadas espec√≠ficas**: Latitude e longitude para cada local recomendado
- **M√©tricas de potencial**: Scores quantitativos para prioriza√ß√£o de investimentos
- **Valida√ß√£o geogr√°fica**: Dist√¢ncias reais em quil√¥metros para planejamento log√≠stico
- **Resumo executivo**: Tabela consolidada com ranking de clusters

**8. Integra√ß√£o com Modelo Supervisionado:**
- **Base s√≥lida**: Recomenda√ß√µes fundamentadas em dados reais e algoritmos validados
- **Coordenadas precisas**: Input direto para modelos preditivos subsequentes
- **M√©tricas padronizadas**: Indicadores consistentes para compara√ß√£o e valida√ß√£o
- **Escalabilidade**: Framework replic√°vel para futuras expans√µes

**9. Valida√ß√µes de Qualidade Implementadas:**
- **Centr√≥ides geograficamente vi√°veis**: Pontos dentro do territ√≥rio nacional
- **Diversidade regional**: Clusters distribu√≠dos em diferentes estados/regi√µes
- **Consist√™ncia estat√≠stica**: Scores de potencial coerentes com dados hist√≥ricos
- **Interpretabilidade**: Resultados traduz√≠veis em decis√µes estrat√©gicas

**10. Outputs Estrat√©gicos Gerados:**
- **Arquivo de visualiza√ß√£o**: `potencial_clusters.png` com dashboard completo
- **Lista priorizada**: Ranking de 5 clusters com recomenda√ß√µes espec√≠ficas
- **Coordenadas acion√°veis**: Localiza√ß√µes precisas para prospec√ß√£o imediata
- **M√©tricas de valida√ß√£o**: Estat√≠sticas que justificam cada recomenda√ß√£o

**11. Benef√≠cios para Tomada de Decis√£o:**
- **Redu√ß√£o de riscos**: Recomenda√ß√µes baseadas em dados hist√≥ricos reais
- **Otimiza√ß√£o de investimentos**: Prioriza√ß√£o clara dos locais mais promissores
- **Escalabilidade**: Metodologia replic√°vel para expans√µes futuras
- **ROI maximizado**: Foco em regi√µes com maior potencial de retorno

**12. Prepara√ß√£o para Implementa√ß√£o:**
- **Coordenadas espec√≠ficas**: Prontas para sistemas de GPS e mapeamento
- **Contexto regional**: Informa√ß√µes sobre caracter√≠sticas locais de cada cluster
- **M√©tricas de acompanhamento**: Indicadores para monitoramento p√≥s-implementa√ß√£o
- **Base para modelo supervisionado**: Dados estruturados para pr√≥ximas etapas anal√≠ticas

Esta an√°lise transforma **dados brutos em recomenda√ß√µes acion√°veis**, fornecendo √† Chilli Beans um roadmap claro e fundamentado para expans√£o estrat√©gica com foco em √≥culos de grau, maximizando o potencial de sucesso de cada nova loja atrav√©s de localiza√ß√£o

In [None]:
# IDENTIFICA√á√ÉO DE LOCAIS IDEAIS PARA NOVAS LOJAS
print("=== AN√ÅLISE PARA IDENTIFICA√á√ÉO DE NOVOS LOCAIS ===")

# Criando score de potencial baseado em m√∫ltiplos fatores para identificar locais ideais
dados_localizacao['potencial_score'] = (
    dados_localizacao['vendas_oculos_grau'] * 0.4 +  # 40% peso vendas atuais de √≥culos de grau
    dados_localizacao['num_clientes'] * 0.3 +        # 30% peso n√∫mero de clientes
    dados_localizacao['receita_total'] * 0.2 +       # 20% peso receita
    dados_localizacao['num_lojas'] * 0.1             # 10% peso lojas existentes (para identificar satura√ß√£o)
)

# Separando novamente SP e outros estados para an√°lise independente
dados_expansao_sp = dados_localizacao[dados_localizacao['estado'] == 'S√£o Paulo'].copy()
dados_expansao_outros = dados_localizacao[dados_localizacao['estado'] != 'S√£o Paulo'].copy()

# AN√ÅLISE PRINCIPAL: OUTROS ESTADOS (excluindo SP para evitar vi√©s)
print("\n=== IDENTIFICA√á√ÉO DE NOVOS LOCAIS - OUTROS ESTADOS ===")

X_expansao = dados_expansao_outros[['longitude', 'latitude']].values
weights_expansao = dados_expansao_outros['potencial_score'].values + 1

# Usando k=5 como √≥timo baseado na an√°lise anterior
k_otimo = 5
kmeans_expansao = KMeans(n_clusters=k_otimo, random_state=42, n_init=10)
clusters_expansao = kmeans_expansao.fit_predict(X_expansao, sample_weight=weights_expansao)

# Visualiza√ß√£o da clusteriza√ß√£o para identifica√ß√£o de novos locais
fig, axes = plt.subplots(2, 2, figsize=(20, 16))

# Gr√°fico 1: Clusters baseados no potencial de mercado
ax1 = axes[0, 0]
scatter1 = ax1.scatter(dados_expansao_outros['longitude'], dados_expansao_outros['latitude'], 
                      c=clusters_expansao, s=dados_expansao_outros['potencial_score']*2, 
                      alpha=0.7, cmap='tab10')
centroids = kmeans_expansao.cluster_centers_
ax1.scatter(centroids[:, 0], centroids[:, 1], 
           c='red', marker='x', s=300, linewidths=4, label='Locais Ideais (Centr√≥ides)')
ax1.set_xlabel('Longitude (¬∞)')
ax1.set_ylabel('Latitude (¬∞)')
ax1.set_title('Clusters por Potencial de Mercado\n(Tamanho = Potencial Score)')
ax1.legend(loc='upper right')
# Adicionar explica√ß√£o do tamanho e cores
ax1.text(0.02, 0.02, 'Cores = Clusters diferentes\nTamanho = Score de potencial √ó 2', 
         transform=ax1.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# Gr√°fico 2: Foco espec√≠fico em vendas de √≥culos de grau
ax2 = axes[0, 1]
scatter2 = ax2.scatter(dados_expansao_outros['longitude'], dados_expansao_outros['latitude'], 
                      c=dados_expansao_outros['vendas_oculos_grau'], 
                      s=dados_expansao_outros['num_lojas']*10, 
                      alpha=0.7, cmap='plasma')
ax2.scatter(centroids[:, 0], centroids[:, 1], 
           c='black', marker='x', s=300, linewidths=4, label='Locais Ideais')
ax2.set_xlabel('Longitude (¬∞)')
ax2.set_ylabel('Latitude (¬∞)')
ax2.set_title('Vendas Atuais de √ìculos de Grau\n(Tamanho = N√∫mero de Lojas)')
cbar2 = plt.colorbar(scatter2, ax=ax2, label='Vendas √ìculos de Grau')
cbar2.set_label('Quantidade de Vendas de √ìculos de Grau', fontsize=10)
ax2.legend(loc='upper right')
# Adicionar explica√ß√£o do tamanho
ax2.text(0.02, 0.02, 'Tamanho = N√∫mero de lojas √ó 10', 
         transform=ax2.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# Gr√°fico 3: Densidade de clientes vs receita
ax3 = axes[1, 0]
scatter3 = ax3.scatter(dados_expansao_outros['longitude'], dados_expansao_outros['latitude'], 
                      c=dados_expansao_outros['num_clientes'], 
                      s=dados_expansao_outros['receita_total']*10, 
                      alpha=0.7, cmap='viridis')
ax3.scatter(centroids[:, 0], centroids[:, 1], 
           c='white', marker='x', s=300, linewidths=4, label='Locais Ideais', 
           edgecolors='black')
ax3.set_xlabel('Longitude (¬∞)')
ax3.set_ylabel('Latitude (¬∞)')
ax3.set_title('Base de Clientes\n(Tamanho = Receita Total)')
cbar3 = plt.colorbar(scatter3, ax=ax3, label='N√∫mero de Clientes')
cbar3.set_label('Quantidade de Clientes', fontsize=10)
ax3.legend(loc='upper right')
# Adicionar explica√ß√£o do tamanho
ax3.text(0.02, 0.02, 'Tamanho = Receita total √ó 10', 
         transform=ax3.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))

# Gr√°fico 4: Ranking de potencial por cluster
cluster_stats = []
for i in range(k_otimo):
    mask = clusters_expansao == i
    cluster_data = dados_expansao_outros[mask]
    
    stats = {
        'cluster': i+1,
        'num_regioes': len(cluster_data),
        'vendas_oculos_grau_total': cluster_data['vendas_oculos_grau'].sum(),
        'num_clientes_total': cluster_data['num_clientes'].sum(),
        'receita_total': cluster_data['receita_total'].sum(),
        'potencial_medio': cluster_data['potencial_score'].mean(),
        'potencial_maximo': cluster_data['potencial_score'].max(),
        'centro_lat': centroids[i][1],
        'centro_lon': centroids[i][0]
    }
    cluster_stats.append(stats)

cluster_df = pd.DataFrame(cluster_stats)
cluster_df = cluster_df.sort_values('potencial_medio', ascending=False)

ax4 = axes[1, 1]
colors = plt.cm.RdYlGn(np.linspace(0.3, 0.9, len(cluster_df)))
bars = ax4.bar(cluster_df['cluster'], cluster_df['potencial_medio'], color=colors)
ax4.set_xlabel('N√∫mero do Cluster')
ax4.set_ylabel('Score de Potencial M√©dio')
ax4.set_title('Ranking de Potencial por Cluster\n(Verde = Maior Potencial)')
ax4.grid(True, alpha=0.3, axis='y')

# Adicionando valores nas barras
for i, (bar, valor) in enumerate(zip(bars, cluster_df['potencial_medio'])):
    ax4.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.2, 
             f'{valor:.1f}', ha='center', va='bottom', fontweight='bold', fontsize=10)

# Adicionar escala de cores como legenda
from matplotlib.patches import Patch
legend_elements = [
    Patch(facecolor=plt.cm.RdYlGn(0.9), label='Alto Potencial (>15)'),
    Patch(facecolor=plt.cm.RdYlGn(0.6), label='M√©dio Potencial (12-15)'),
    Patch(facecolor=plt.cm.RdYlGn(0.3), label='Baixo Potencial (<12)')
]
ax4.legend(handles=legend_elements, loc='upper right', fontsize=9)

plt.tight_layout()
plt.savefig(("../../assets/gr√°ficos/potencial_clusters.png"), dpi=300, bbox_inches='tight')
plt.show()

# RECOMENDA√á√ïES DETALHADAS PARA NOVOS LOCAIS
print(f"\n{'='*70}")
print("RECOMENDA√á√ïES DE LOCAIS IDEAIS PARA NOVAS LOJAS")
print(f"{'='*70}")

# Ordenando clusters por potencial
cluster_df_ordenado = cluster_df.sort_values('potencial_medio', ascending=False)

for idx, cluster_info in cluster_df_ordenado.iterrows():
    cluster_id = int(cluster_info['cluster'] - 1)  # Ajuste do √≠ndice
    print(f"\nüè™ PRIORIDADE {idx+1} - CLUSTER {cluster_info['cluster']}:")
    print(f"   üìç Localiza√ß√£o ideal: ({cluster_info['centro_lat']:.2f}, {cluster_info['centro_lon']:.2f})")
    print(f"   üìä Potencial m√©dio: {cluster_info['potencial_medio']:.2f}")
    print(f"   üè¢ Regi√µes no cluster: {cluster_info['num_regioes']}")
    print(f"   üëì Vendas √≥culos de grau: {cluster_info['vendas_oculos_grau_total']}")
    print(f"   üë• Base de clientes: {cluster_info['num_clientes_total']:,}")
    print(f"   üí∞ Receita total: R$ {cluster_info['receita_total']:,.2f}")
    
    # Encontrando as 3 melhores regi√µes dentro do cluster
    cluster_data = dados_expansao_outros[clusters_expansao == cluster_id]
    top_regioes = cluster_data.nlargest(3, 'potencial_score')
    
    print(f"   üéØ TOP 3 REGI√ïES RECOMENDADAS:")
    for j, (region_idx, regiao) in enumerate(top_regioes.iterrows()):
        print(f"      {j+1}. {regiao['estado']} (Regi√£o {regiao['cod_cidade']}):")
        print(f"         - Score: {regiao['potencial_score']:.2f}")
        print(f"         - Vendas √≥culos: {regiao['vendas_oculos_grau']}")
        print(f"         - Lojas atuais: {regiao['num_lojas']}")
        print(f"         - Clientes: {regiao['num_clientes']:,}")
        
        # Calculando dist√¢ncia do centr√≥ide
        distancia_centroide = haversine_distance(
            cluster_info['centro_lat'], cluster_info['centro_lon'],
            regiao['latitude'], regiao['longitude']
        )
        print(f"         - Dist√¢ncia do ponto ideal: {distancia_centroide:.1f} km")

print(f"\n{'='*70}")
print("RESUMO EXECUTIVO:")
print(f"{'='*70}")
print(cluster_df_ordenado[['cluster', 'potencial_medio', 'vendas_oculos_grau_total', 
                         'num_clientes_total', 'receita_total']].to_string(index=False))

## Exporta√ß√£o de Sugest√µes para o Modelo Supervisionado

Esta se√ß√£o representa a **fase final e cr√≠tica do modelo n√£o supervisionado**, onde todos os insights e an√°lises anteriores s√£o consolidados e transformados em um dataset estruturado e acion√°vel para alimentar o modelo supervisionado subsequente.

**1. Determina√ß√£o dos Valores K Ideais:**
- **Valida√ß√£o dos par√¢metros √≥timos**: Confirma os melhores valores de k identificados nas an√°lises de silhouette
- **S√£o Paulo (k=2)**: Configura√ß√£o otimizada para caracter√≠sticas metropolitanas espec√≠ficas
- **Outros Estados (k=3)**: Segmenta√ß√£o nacional balanceada para diversidade regional
- **Fallback inteligente**: Sistema de recupera√ß√£o caso vari√°veis n√£o estejam dispon√≠veis

**2. Recalculagem de Clusters com Par√¢metros Otimizados:**
- **Clustering final de SP**: Aplica√ß√£o do K-Means com k=2 usando sample weights baseados em vendas de √≥culos de grau
- **Clustering nacional**: Segmenta√ß√£o de outros estados com k=3 priorizando score de potencial
- **Centr√≥ides precisos**: Identifica√ß√£o matem√°tica dos pontos ideais para cada cluster
- **Valida√ß√£o de qualidade**: Confirma√ß√£o da cria√ß√£o bem-sucedida de todos os clusters

**3. Sistema de Gera√ß√£o de Sugest√µes Inteligente:**
- **Processamento por escopo**: An√°lise separada e especializada para SP vs outros estados
- **Mapeamento centr√≥ide-realidade**: Convers√£o de pontos matem√°ticos abstratos em localiza√ß√µes geogr√°ficas reais
- **Fun√ß√£o Haversine integrada**: C√°lculo de dist√¢ncias reais entre centr√≥ides e regi√µes existentes
- **Prote√ß√£o contra dados vazios**: Valida√ß√µes robustas para evitar erros em clusters sem dados

**4. M√©tricas Abrangentes por Sugest√£o:**
- **Coordenadas duais**: Tanto centr√≥ides te√≥ricos quanto localiza√ß√µes reais sugeridas
- **Score de potencial**: M√©dio e m√°ximo por cluster para prioriza√ß√£o estrat√©gica
- **M√©tricas de performance**: Vendas de √≥culos de grau, clientes, receita e n√∫mero de lojas
- **Indicadores normalizados**: M√©tricas por loja para compara√ß√£o justa entre regi√µes

**5. Estrutura de Dados Padronizada:**
- **Campos consistentes**: Esquema uniforme para todas as sugest√µes independente do escopo
- **Tipos de dados otimizados**: Convers√µes apropriadas (int, float, string) para efici√™ncia
- **Informa√ß√µes contextuais**: Estado, regi√£o Chilli Beans e classifica√ß√£o de escopo
- **Dist√¢ncias validadas**: Proximidade em quil√¥metros entre centr√≥ides e sugest√µes

**6. Sistema de Prioriza√ß√£o Hier√°rquica:**
- **Ranking por escopo**: Ordena√ß√£o dentro de S√£o Paulo e outros estados separadamente
- **Score como crit√©rio**: Potencial m√©dio do cluster determina ordem de prioridade
- **Numera√ß√£o autom√°tica**: Prioridades de 1 a N dentro de cada escopo geogr√°fico
- **Flexibilidade estrat√©gica**: Permite abordagens diferenciadas por regi√£o

**7. Valida√ß√£o e Prote√ß√£o de Dados:**
- **Verifica√ß√£o de exist√™ncia**: Confirma disponibilidade de todas as vari√°veis necess√°rias
- **Tratamento de divis√£o por zero**: Prote√ß√£o em normaliza√ß√µes por n√∫mero de lojas
- **Dados ausentes**: Fallbacks apropriados para cen√°rios de dados incompletos
- **Consist√™ncia de tipos**: Garantia de que todos os campos est√£o nos formatos corretos

**8. Exporta√ß√£o Estruturada para CSV:**
- **Arquivo padronizado**: `sugestoes_expansao_para_supervisionado.csv` com esquema definido
- **Compatibilidade garantida**: Formato ideal para ingest√£o por modelos de machine learning
- **Metadados inclu√≠dos**: Informa√ß√µes suficientes para interpreta√ß√£o independente
- **Versionamento impl√≠cito**: Dados datados e reproduz√≠veis para auditoria

**9. Campos Exportados Detalhados:**
- **Identifica√ß√£o**: escopo, cluster_id, prioridade_no_escopo
- **Coordenadas**: latitude/longitude de centr√≥ides e sugest√µes
- **Geografia**: estado, regi√£o Chilli Beans
- **Performance**: vendas, clientes, receita (total e por loja)
- **Qualidade**: potencial score, dist√¢ncia do centr√≥ide

**10. Estat√≠sticas de Valida√ß√£o:**
- **Contagem por escopo**: N√∫mero de sugest√µes geradas para SP vs outros estados
- **Potencial m√©dio**: Score agregado para validar qualidade das recomenda√ß√µes
- **Vendas totais**: Soma das vendas de √≥culos de grau nas regi√µes sugeridas
- **Shape do dataset**: Dimens√µes finais para confirma√ß√£o de completude

**11. Integra√ß√£o com Modelo Supervisionado:**
- **Features prontas**: Vari√°veis num√©ricas e categ√≥ricas estruturadas para ML
- **Target impl√≠cito**: Score de potencial pode servir como vari√°vel de interesse
- **Coordenadas para geocoding**: Dados geogr√°ficos para an√°lises espaciais avan√ßadas
- **Contexto de neg√≥cio**: Informa√ß√µes interpret√°veis para stakeholders

**12. Benef√≠cios da Abordagem:**
- **Redu√ß√£o de processamento**: Modelo supervisionado recebe dados pr√©-processados e validados
- **Reprodutibilidade**: Mesmos dados de entrada geram mesmas sugest√µes
- **Escalabilidade**: Framework aplic√°vel a futuras expans√µes ou atualiza√ß√µes
- **Auditabilidade**: Rastro completo desde dados brutos at√© recomenda√ß√µes finais

**13. Outputs de Qualidade:**
- **Dataset limpo**: Sem valores nulos ou inconsist√™ncias
- **Distribui√ß√£o balanceada**: Sugest√µes cobrindo diferentes regi√µes e potenciais
- **M√©tricas validadas**: Todos os indicadores dentro de ranges esperados
- **Pronto para produ√ß√£o**: Formato diretamente utiliz√°vel por sistemas downstream

**14. Prepara√ß√£o para Decis√µes Estrat√©gicas:**
- **Prioriza√ß√£o clara**: Ordem de investimento baseada em dados objetivos
- **ROI estimado**: M√©tricas de potencial fundamentam expectativas de retorno
- **Diversifica√ß√£o geogr√°fica**: Mix de oportunidades em diferentes mercados
- **Implementa√ß√£o faseada**: Permite execu√ß√£o gradual baseada em prioridades

Esta etapa **converte an√°lises explorat√≥rias em a√ß√µes concretas**, fornecendo ao modelo supervisionado uma base s√≥lida de localiza√ß√µes pr√©-qualificadas e priorizadas, maximizando a efici√™ncia e precis√£o das pr√≥ximas fases do projeto de expans√£o da Chilli Beans com foco em √≥culos

In [None]:
# AVALIA√á√ÉO E INTERPRETA√á√ÉO DOS RESULTADOS

print("="*80)
print("M√âTRICAS DE QUALIDADE DA CLUSTERIZA√á√ÉO")
print("="*80)

# Avalia√ß√£o das m√©tricas para diferentes valores de k
fig, axes = plt.subplots(2, 2, figsize=(20, 12))

# Compara√ß√£o de in√©rcia entre SP e outros estados
ax1 = axes[0, 0]
line_sp = ax1.plot(k_values_sp, inertias_sp, 'ro-', label='S√£o Paulo', linewidth=2, markersize=6)
line_outros = ax1.plot(k_values_outros[:len(inertias_outros)], inertias_outros, 'bo-', label='Outros Estados', linewidth=2, markersize=6)
ax1.set_xlabel('N√∫mero de Clusters (k)')
ax1.set_ylabel('In√©rcia (WCSS)')
ax1.set_title('Compara√ß√£o da In√©rcia: SP vs Outros Estados\n(Menor in√©rcia = Melhor agrupamento)')
ax1.legend(loc='upper right')
ax1.grid(True, alpha=0.3)
# Adicionar anota√ß√£o explicativa
ax1.text(0.02, 0.98, 'In√©rcia mede a compacta√ß√£o dos clusters\n(valores menores s√£o melhores)', 
         transform=ax1.transAxes, fontsize=9, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="lightyellow", alpha=0.8),
         verticalalignment='top')

# Compara√ß√£o de Silhouette Score
ax2 = axes[0, 1]
if silhouette_scores_sp:
    ax2.plot(k_values_sp[1:], silhouette_scores_sp, 'ro-', label='S√£o Paulo', linewidth=2, markersize=6)
if silhouette_scores_outros:
    ax2.plot(k_values_outros[1:len(silhouette_scores_outros)+1], silhouette_scores_outros, 'bo-', label='Outros Estados', linewidth=2, markersize=6)
ax2.set_xlabel('N√∫mero de Clusters (k)')
ax2.set_ylabel('Silhouette Score')
ax2.set_title('Compara√ß√£o do Silhouette Score\n(Maior score = Melhor separa√ß√£o)')
ax2.legend(loc='lower right')
ax2.grid(True, alpha=0.3)
ax2.set_ylim(0, max(max(silhouette_scores_outros) if silhouette_scores_outros else 0, 
                   max(silhouette_scores_sp) if silhouette_scores_sp else 0) + 0.1)
# Adicionar linha de refer√™ncia para qualidade boa (>0.5)
ax2.axhline(y=0.5, color='green', linestyle='--', alpha=0.7, label='Boa qualidade (>0.5)')
ax2.legend(loc='lower right')

# Distribui√ß√£o de vendas por regi√£o
ax3 = axes[1, 0]
regioes = ['S√£o Paulo', 'Outros Estados']
vendas_por_regiao = [dados_sp['vendas_oculos_grau'].sum(), dados_outros_estados['vendas_oculos_grau'].sum()]
colors = ['red', 'blue']
wedges, texts, autotexts = ax3.pie(vendas_por_regiao, labels=regioes, colors=colors, 
                                   autopct='%1.1f%%', startangle=90, 
                                   explode=(0.05, 0))  # Destacar S√£o Paulo
ax3.set_title('Distribui√ß√£o de Vendas de √ìculos de Grau por Regi√£o')
# Melhorar formata√ß√£o dos textos
for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')
    autotext.set_fontsize(12)
# Adicionar valores absolutos
total_vendas = sum(vendas_por_regiao)
ax3.text(0.02, -1.3, f'Total de vendas: {total_vendas:,} unidades', 
         transform=ax3.transData, fontsize=10, 
         bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgray", alpha=0.8))

# Efici√™ncia do modelo - Rela√ß√£o lojas vs vendas
ax4 = axes[1, 1]
lojas_por_regiao = [dados_sp['num_lojas'].sum(), dados_outros_estados['num_lojas'].sum()]
eficiencia = [v/l for v, l in zip(vendas_por_regiao, lojas_por_regiao)]
bars = ax4.bar(regioes, eficiencia, color=colors, alpha=0.7, width=0.6)
ax4.set_ylabel('Vendas de √ìculos por Loja (unidades)')
ax4.set_title('Efici√™ncia de Vendas por Regi√£o\n(Vendas de √≥culos por loja)')
ax4.grid(True, alpha=0.3, axis='y')
ax4.set_ylim(0, max(eficiencia) * 1.2)

# Adicionando valores nas barras com mais detalhes
for i, (bar, valor, vendas, lojas) in enumerate(zip(bars, eficiencia, vendas_por_regiao, lojas_por_regiao)):
    ax4.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.05, 
             f'{valor:.2f}', ha='center', va='bottom', fontweight='bold', fontsize=12)
    # Adicionar informa√ß√µes adicionais
    ax4.text(bar.get_x() + bar.get_width()/2., -0.15, 
             f'{vendas} vendas\n{lojas} lojas', ha='center', va='top', fontsize=9,
             bbox=dict(boxstyle="round,pad=0.2", facecolor=colors[i], alpha=0.3))

# Adicionar linha de m√©dia
media_eficiencia = sum(vendas_por_regiao) / sum(lojas_por_regiao)
ax4.axhline(y=media_eficiencia, color='green', linestyle='--', alpha=0.7, 
           label=f'M√©dia geral: {media_eficiencia:.2f}')
ax4.legend(loc='upper right')

plt.tight_layout()
plt.savefig(("../../assets/gr√°ficos/comparacoes.png"), dpi=300, bbox_inches='tight')
plt.show()

# INSIGHTS ESTRAT√âGICOS
print("\n" + "="*80)
print("INSIGHTS ESTRAT√âGICOS PARA EXPANS√ÉO DA CHILLI BEANS")
print("="*80)

# Calculando m√©tricas-chave
total_vendas_oculos = dados_localizacao['vendas_oculos_grau'].sum()
total_lojas = dados_localizacao['num_lojas'].sum()
total_clientes = dados_localizacao['num_clientes'].sum()
total_receita = dados_localizacao['receita_total'].sum()

participacao_sp = (dados_sp['vendas_oculos_grau'].sum() / total_vendas_oculos) * 100
participacao_outros = (dados_outros_estados['vendas_oculos_grau'].sum() / total_vendas_oculos) * 100

print(f"\nüìä PANORAMA GERAL:")
print(f"   ‚Ä¢ Total de vendas de √≥culos de grau: {total_vendas_oculos:,}")
print(f"   ‚Ä¢ Total de lojas: {total_lojas:,}")
print(f"   ‚Ä¢ Total de clientes: {total_clientes:,}")
print(f"   ‚Ä¢ Receita total: R$ {total_receita:,.2f}")
print(f"   ‚Ä¢ M√©dia de vendas por loja: {total_vendas_oculos/total_lojas:.2f}")

print(f"\nüó∫Ô∏è DISTRIBUI√á√ÉO REGIONAL:")
print(f"   ‚Ä¢ S√£o Paulo: {participacao_sp:.1f}% das vendas de √≥culos de grau")
print(f"   ‚Ä¢ Outros Estados: {participacao_outros:.1f}% das vendas de √≥culos de grau")
print(f"   ‚Ä¢ Concentra√ß√£o em SP justifica an√°lise separada ‚úì")

print(f"\nüéØ RECOMENDA√á√ïES PARA NOVAS LOJAS:")

# Top 5 estados com maior potencial (excluindo SP) - usando dados_expansao_outros que tem potencial_score
top_estados_potencial = dados_expansao_outros.groupby('estado').agg({
    'potencial_score': 'mean',
    'vendas_oculos_grau': 'sum',
    'num_lojas': 'sum',
    'num_clientes': 'sum'
}).sort_values('potencial_score', ascending=False).head(5)

print(f"\n   üèÜ TOP 5 ESTADOS COM MAIOR POTENCIAL (excluindo SP):")
for i, (estado, dados_estado) in enumerate(top_estados_potencial.iterrows(), 1):
    print(f"      {i}. {estado}:")
    print(f"         - Score m√©dio: {dados_estado['potencial_score']:.2f}")
    print(f"         - Vendas atuais: {dados_estado['vendas_oculos_grau']}")
    print(f"         - Lojas existentes: {dados_estado['num_lojas']}")
    print(f"         - Base de clientes: {dados_estado['num_clientes']:,}")

print(f"\nüîç AN√ÅLISE DE CLUSTERS √ìTIMOS:")
print(f"   ‚Ä¢ S√£o Paulo: Melhor k = {best_k_sp if 'best_k_sp' in locals() else 'N/A'}")
print(f"   ‚Ä¢ Outros Estados: Melhor k = {best_k_outros}")
print(f"   ‚Ä¢ Silhouette Score √≥timo: {max(silhouette_scores_outros):.3f}")

print(f"\nüí° INSIGHTS DE NEG√ìCIO:")
print(f"   1. üéØ FOCO GEOGR√ÅFICO:")
print(f"      ‚Ä¢ Priorizar expans√£o nos clusters com maior potencial")
print(f"      ‚Ä¢ Manter estrat√©gia diferenciada para S√£o Paulo")
print(f"      ‚Ä¢ Explorar oportunidades no Nordeste e Sul")

print(f"\n   2. üìà ESTRAT√âGIA DE PRODUTOS:")
print(f"      ‚Ä¢ √ìculos de grau representam mercado estrat√©gico")
print(f"      ‚Ä¢ Considerar mix de produtos por regi√£o")
print(f"      ‚Ä¢ Focar em regi√µes com alta base de clientes")

print(f"\n   3. üè™ LOCALIZA√á√ÉO DE LOJAS:")
print(f"      ‚Ä¢ Usar centr√≥ides dos clusters como refer√™ncia")
print(f"      ‚Ä¢ Considerar densidade populacional local")
print(f"      ‚Ä¢ Avaliar concorr√™ncia em cada regi√£o")

print(f"\n   4. üìä M√âTRICAS DE ACOMPANHAMENTO:")
print(f"      ‚Ä¢ Vendas de √≥culos de grau por loja")
print(f"      ‚Ä¢ Penetra√ß√£o de mercado por cluster")
print(f"      ‚Ä¢ ROI por regi√£o de expans√£o")

# Resumo dos clusters identificados
print(f"\nüìç RESUMO DOS CLUSTERS PARA EXPANS√ÉO:")
if 'cluster_df' in locals():
    cluster_resumo = cluster_df.sort_values('potencial_medio', ascending=False)
    for idx, row in cluster_resumo.iterrows():
        prioridade = "ü•á ALTA" if row['potencial_medio'] > 15 else "ü•à M√âDIA" if row['potencial_medio'] > 12 else "ü•â BAIXA"
        print(f"   Cluster {int(row['cluster'])}: {prioridade} PRIORIDADE")
        print(f"      - Potencial: {row['potencial_medio']:.1f}")
        print(f"      - Localiza√ß√£o: ({row['centro_lat']:.1f}, {row['centro_lon']:.1f})")

print(f"\n" + "="*80)
print("CONCLUS√ÉO: O modelo identificou 5 clusters regionais √≥timos para expans√£o,")
print("com oportunidades claras de crescimento focadas em √≥culos de grau.")
print("A abordagem separada SP vs outros estados evitou vi√©s e forneceu")
print("insights estrat√©gicos mais precisos para a tomada de decis√£o.")
print("="*80)

## üîÑ Corre√ß√£o dos Valores de *k* por Regi√£o (Recalibra√ß√£o de Clusters)

Esta c√©lula realiza uma **recalibra√ß√£o expl√≠cita do n√∫mero de clusters (k)** para cada recorte geogr√°fico (S√£o Paulo vs Outros Estados), alinhando o pipeline aos resultados observados nos gr√°ficos anteriores de **Curva do Cotovelo (Elbow)** e, secundariamente, ao comportamento do **Silhouette Score**.

**1. Contexto da Corre√ß√£o**  
- Etapas anteriores testaram m√∫ltiplos valores de k (1‚Äì6) para cada regi√£o  
- Visualmente, a Curva do Cotovelo indicou estabiliza√ß√£o mais precoce em SP (k‚âà2) e leve ganho adicional nacional em k‚âà3  
- Esta c√©lula for√ßa o uso desses valores ‚Äú√≥timos operacionais‚Äù para padronizar as etapas subsequentes

**2. Motivo da Separa√ß√£o SP vs Outros**  
- S√£o Paulo tem densidade e concentra√ß√£o superiores ‚Üí menor k evita subdivis√£o artificial  
- Outros Estados apresentam maior dispers√£o geogr√°fica ‚Üí k=3 captura macro-regi√µes sem superfragmentar

**3. Crit√©rios Utilizados para Escolha**  
- Elbow: ponto onde a redu√ß√£o da in√©rcia passa a ter retorno marginal  
- Silhouette: verifica√ß√£o de separa√ß√£o aceit√°vel entre grupos (valores > ~0.3 j√° indicam estrutura m√≠nima; >0.5 seria ideal)  
- Trade-off: simplicidade + interpretabilidade > overfitting espacial

**4. A√ß√µes Executadas na C√©lula**  
1. Define explicitamente: `best_k_sp = 2` e `best_k_outros = 3`  
2. Reinstancia dois modelos `KMeans` independentes  
3. Recalcula r√≥tulos de cluster (`clusters_sp`, `clusters_outros`)  
4. Recalcula coeficientes de silhueta para valida√ß√£o r√°pida

**5. M√©tricas Calculadas**  
- `silhouette_sp_correto`: qualidade da separa√ß√£o para SP com k=2  
- `silhouette_outros_correto`: qualidade da separa√ß√£o nacional (exceto SP) com k=3  
- Uso direto de latitude/longitude sem pesos nesta etapa (foco: valida√ß√£o estrutural simples)

**6. Benef√≠cios da Recalibra√ß√£o**  
- Reduz risco de supersegmenta√ß√£o em √°reas densas  
- Mant√©m clusters interpret√°veis para relato executivo  
- Melhora consist√™ncia entre etapas explorat√≥rias e etapas de exporta√ß√£o/decis√£o

**7. Impacto no Pipeline Posterior**  
- Afeta qualquer etapa que:  
  - Usa `clusters_sp` / `clusters_outros` para agrega√ß√£o ou ranking  
  - Gera centr√≥ides para recomenda√ß√µes geogr√°ficas  
  - Calcula estat√≠sticas comparativas por cluster  
- Garante coer√™ncia com exporta√ß√£o final das sugest√µes supervisionadas

**8. Limita√ß√µes / Alertas**  
- N√£o recalcula pesos por vendas/potencial (vers√£o simplificada)  
- Silhouette em coordenadas puras n√£o considera intensidade de neg√≥cio  
- Caso a distribui√ß√£o futura mude (novas lojas), valores de k devem ser revisados

**9. Poss√≠veis Extens√µes Futuras**  
- Repetir an√°lise com clustering ponderado (sample_weight)  
- Testar algoritmos alternativos: DBSCAN (densidade) ou HDBSCAN (robusto a ru√≠do)  
- Incluir features enriquecidas (potencial_score normalizado, densidade de clientes)

**10. Interpreta√ß√£o dos Resultados Impressos**  
- Linhas de sa√≠da confirmam k aplicado para cada regi√£o  
- Exibem silhueta final ‚Üí valida√ß√£o r√°pida de separa√ß√£o espacial  
- Mensagem final d√° o resumo operacional adotado

**11. Quando Reexecutar Esta C√©lula**  
- Ap√≥s altera√ß√£o nas coordenadas ou filtragem geogr√°fica  
- Ap√≥s redefini√ß√£o de pesos estrat√©gicos ou normaliza√ß√£o espacial  
- Antes de exportar novos CSVs de sugest√µes supervisionadas

**12. Valor Estrat√©gico**  
- Consolida escolha de segmenta√ß√£o espacial ‚Äúoficial‚Äù  
- Serve como checkpoint de governan√ßa anal√≠tica  
- Evita diverg√™ncia entre experimenta√ß√£o e entrega executiva

**Resumo:** Esta c√©lula ‚Äúcongela‚Äù as decis√µes de k (SP=2, Outros=3) com base nas an√°lises anteriores e revalida rapidamente a qualidade dos agrupamentos para garantir consist√™ncia e interpretabilidade nas etapas finais do

In [None]:
# CORRE√á√ÉO: k espec√≠fico para cada regi√£o baseado no m√©todo do cotovelo
print("=== CORRE√á√ÉO DOS VALORES K BASEADO NA AN√ÅLISE ESPEC√çFICA DO COTOVELO ===")
print("S√£o Paulo: k=2 (conforme gr√°fico do cotovelo)")
print("Outros Estados: k=3 (conforme gr√°fico do cotovelo)")
print("\nAtualizando os valores...")

# Redefinir os valores de k baseado na an√°lise espec√≠fica do cotovelo
best_k_sp = 2
best_k_outros = 3

print(f"K atualizado para S√£o Paulo: {best_k_sp}")
print(f"K atualizado para Outros Estados: {best_k_outros}")

# Recalcular clustering com os valores corretos
print("\nRecalculando clustering com valores espec√≠ficos...")

# S√£o Paulo com k=2
kmeans_sp = KMeans(n_clusters=best_k_sp, random_state=42, n_init=10)
clusters_sp = kmeans_sp.fit_predict(X_sp)

# Outros Estados com k=3
kmeans_outros = KMeans(n_clusters=best_k_outros, random_state=42, n_init=10)
clusters_outros = kmeans_outros.fit_predict(X_outros)

# Recalcular silhueta com os novos valores
from sklearn.metrics import silhouette_score
silhouette_sp_correto = silhouette_score(X_sp, clusters_sp)
silhouette_outros_correto = silhouette_score(X_outros, clusters_outros)

print(f"\nCoeficientes de silhueta com valores corretos:")
print(f"S√£o Paulo (k=2): {silhouette_sp_correto:.3f}")
print(f"Outros Estados (k=3): {silhouette_outros_correto:.3f}")

print("\nClustering corrigido com sucesso!")
print(f"\nResumo:")
print(f"‚Ä¢ S√£o Paulo ser√° dividido em {best_k_sp} clusters")
print(f"‚Ä¢ Outros Estados ser√£o divididos em {best_k_outros} clusters")

## M√©trica Pseudo R¬≤ e Verifica√ß√£o do Ambiente de Clusters (C√©lula 31)

Esta c√©lula introduz uma m√©trica adicional de qualidade para os agrupamentos (pseudo R¬≤), al√©m de executar verifica√ß√µes de integridade das vari√°veis de clustering j√° criadas, garantindo que o ambiente esteja consistente antes de an√°lises posteriores ponderadas.

**1. Objetivo Principal**  
- Calcular uma medida tipo ‚Äúfra√ß√£o de vari√¢ncia explicada‚Äù pelos clusters (pseudo R¬≤)  
- Confirmar a exist√™ncia e formato de vari√°veis cr√≠ticas (`X_sp`, `X_outros`, `clusters_sp`, `clusters_outros`)  
- Manter compatibilidade com mudan√ßas de nomenclatura (uso atual de `vendas_oculos_grau`)

**2. Contexto no Pipeline**  
- Ap√≥s definir e recalibrar k para cada regi√£o, j√° existem r√≥tulos de cluster  
- Silhouette j√° foi usado; esta m√©trica complementa a avalia√ß√£o com uma vis√£o ‚Äúvari√¢ncia explicada‚Äù  
- Serve como diagn√≥stico r√°pido sem gerar gr√°ficos adicionais

**3. Ajuste de Terminologia**  
- Mensagem inicial esclarece que antigas refer√™ncias gen√©ricas a ‚Äúvendas‚Äù foram alinhadas ao nome consolidado: `vendas_oculos_grau`  
- Evita confus√£o em logs antigos ou compara√ß√µes de execu√ß√£o

**4. Fun√ß√£o `calcular_pseudo_r2()`**  
- F√≥rmula: pseudo_r2 = 1 ‚àí (SSE_within / SST_total)  
  - SST: soma dos quadrados das dist√¢ncias de cada ponto ao centro global  
  - SSE: soma dos quadrados das dist√¢ncias de cada ponto ao centr√≥ide do seu cluster  
- Interpreta√ß√£o: quanto maior (pr√≥ximo de 1), maior propor√ß√£o da variabilidade espacial capturada pelos agrupamentos  
- Sempre entre 0 e 1 (SSE ‚â§ SST em parti√ß√µes n√£o degeneradas)

**5. Passos Executados**  
1. Imprime m√©dias de vendas de √≥culos de grau (SP e outros)  
2. Define fun√ß√£o de pseudo R¬≤ (uso de norma Euclidiana em latitude/longitude)  
3. Lista vari√°veis esperadas e suas shapes (debug de ambiente)  
4. Tenta calcular `pseudo_r2_sp` e `pseudo_r2_outros` com tratamento de exce√ß√µes  
5. Armazena `None` caso vari√°veis n√£o existam ou ocorram erros

**6. Interpreta√ß√£o do Pseudo R¬≤**  
- Valores mais altos: clusters capturam estrutura espacial (boa separa√ß√£o macro)  
- Valores modestos: dispers√£o geogr√°fica elevada ou k pequeno (intencional para interpretabilidade)  
- Compar√°vel apenas dentro do mesmo espa√ßo de features (n√£o misturar com m√©tricas ponderadas futuras)

**7. Benef√≠cios da M√©trica**  
- Simples, interpret√°vel e r√°pida de calcular  
- Complementa Silhouette (separa√ß√£o relativa) com vis√£o de ‚Äúredu√ß√£o de vari√¢ncia‚Äù  
- √ötil em relat√≥rios executivos como indica√ß√£o percentual (ex.: ‚Äúclusters explicam ~X% da variabilidade espacial‚Äù)

**8. Limita√ß√µes / Alertas**  
- Usa coordenadas em plano (n√£o corrige curvatura da Terra) ‚Üí aceit√°vel para escala nacional aproximada  
- N√£o utiliza pesos (ignora import√¢ncia comercial/local)  
- N√£o considera densidade ou forma n√£o esf√©rica dos clusters (K-Means imp√µe convexidade)  
- N√£o substitui m√©tricas padr√£o (Silhouette, Calinski-Harabasz, Davies-Bouldin)

**9. Poss√≠veis Extens√µes**  
- Vers√£o ponderada: incluir `sample_weight` replicando pontos ou ajustando SSE  
- Adotar dist√¢ncia Haversine real (converter lat/lon em radianos)  
- Comparar com propor√ß√£o Between / Total (BSS / TSS) explicitando vari√¢ncia entre clusters  
- Calcular conjuntamente Calinski-Harabasz para refor√ßo anal√≠tico

**10. Como Validar Resultados**  
- Verificar se os valores n√£o s√£o 0 ou muito pr√≥ximos de 0 (indica aus√™ncia de estrutura)  
- Comparar SP vs Outros: SP tende a ter pseudo R¬≤ menor se altamente concentrado em poucas √°reas, ou maior se clusters bem definidos  
- Reexecutar ap√≥s alterar k ou redefinir subset geogr√°fico

**11. Impacto no Fluxo Posterior**  
- Pode embasar justificativa de manuten√ß√£o de k baixo (trade-off simplicidade vs ganho marginal)  
- Refer√™ncia adicional nas an√°lises ponderadas subsequentes  
- N√£o altera dados ‚Äî apenas diagn√≥sticos

**12. Quando Reexecutar**  
- Ap√≥s recalcular clusters com novo k  
- Ap√≥s filtragens geogr√°ficas ou remo√ß√£o de outliers  
- Antes de gerar relat√≥rio final comparativo de m√©tricas

**Resumo:** A c√©lula adiciona uma m√©trica complementar (pseudo R¬≤) para avaliar a fra√ß√£o de variabilidade espacial capturada pelos clusters e valida a presen√ßa das vari√°veis de clustering em mem√≥ria, fortalecendo a governan√ßa anal√≠tica antes de an√°lises ponderadas

In [None]:
# Nota: algumas sa√≠das antigas do notebook faziam refer√™ncia a 'vendas'. Elas foram atualizadas para os nomes atuais.
# Vers√£o segura das mensagens antigas:
print(f"  Vendas m√©dias por regi√£o: {dados_sp['vendas_oculos_grau'].mean():.0f}")
print(f"  Vendas m√©dias por regi√£o: {dados_outros_estados['vendas_oculos_grau'].mean():.0f}")


def calcular_pseudo_r2(X, clusters):
    """
    Calcula uma medida tipo pseudo R¬≤ (fra√ß√£o da vari√¢ncia explicada) para uma parti√ß√£o em clusters.
    pseudo_r2 = 1 - (SSE_within / SST_total), onde SSE_within √© a soma dos quadrados dentro dos clusters
    e SST_total √© soma dos quadrados total em rela√ß√£o √† m√©dia global.
    """
    import numpy as _np

    # centroides globais
    global_mean = _np.mean(X, axis=0)
    # SST total
    sst = _np.sum((_np.linalg.norm(X - global_mean, axis=1))**2)

    # SSE within
    sse = 0.0
    for k in _np.unique(clusters):
        mask = clusters == k
        if mask.sum() == 0:
            continue
        centroid = _np.mean(X[mask], axis=0)
        sse += _np.sum((_np.linalg.norm(X[mask] - centroid, axis=1))**2)

    if sst == 0:
        return 0.0
    return 1 - (sse / sst)

# Debug: verificar vari√°veis dispon√≠veis
print("Vari√°veis de clustering dispon√≠veis:")
for var_name in ['X_sp', 'X_outros', 'clusters_sp', 'clusters_outros']:
    if var_name in globals():
        print(f"  {var_name}: {type(globals()[var_name])}, shape: {getattr(globals()[var_name], 'shape', 'N/A')}")
    else:
        print(f"  {var_name}: n√£o encontrado")

# Calcular pseudo-R2 n√£o ponderado usando vari√°veis dispon√≠veis
try:
    if 'X_sp' in globals() and 'clusters_sp' in globals():
        pseudo_r2_sp = calcular_pseudo_r2(X_sp, clusters_sp)
        print(f"Calculado pseudo_r2_sp: {pseudo_r2_sp}")
    else:
        pseudo_r2_sp = None
        print("N√£o foi poss√≠vel calcular pseudo_r2_sp - vari√°veis necess√°rias n√£o encontradas")
except Exception as e:
    pseudo_r2_sp = None
    print(f"Erro ao calcular pseudo_r2_sp: {e}")

try:
    if 'X_outros' in globals() and 'clusters_outros' in globals():
        pseudo_r2_outros = calcular_pseudo_r2(X_outros, clusters_outros)
        print(f"Calculado pseudo_r2_outros: {pseudo_r2_outros}")
    else:
        pseudo_r2_outros = None
        print("N√£o foi poss√≠vel calcular pseudo_r2_outros - vari√°veis necess√°rias n√£o encontradas")
except Exception as e:
    pseudo_r2_outros = None
    print(f"Erro ao calcular pseudo_r2_outros: {e}")

# Fun√ß√£o ponderada j√° existente ser√° chamada posteriormente

## An√°lise de Correla√ß√£o entre Clusters e Vari√°veis de Neg√≥cio

Esta c√©lula executa uma an√°lise explorat√≥ria para identificar associa√ß√µes lineares entre os r√≥tulos de cluster gerados pelo algoritmo K-Means e as principais m√©tricas de performance comercial da rede Chilli Beans, fornecendo insights sobre como a segmenta√ß√£o geogr√°fica se relaciona com o desempenho operacional.

**1. Objetivo da An√°lise**  
Verificar se existe correla√ß√£o linear significativa entre a atribui√ß√£o de clusters espaciais e as vari√°veis de neg√≥cio como vendas, n√∫mero de clientes, receita e quantidade de lojas, permitindo avaliar se a segmenta√ß√£o geogr√°fica captura naturalmente diferen√ßas de performance comercial.

**2. Metodologia Aplicada**  
A c√©lula utiliza o coeficiente de correla√ß√£o de Pearson para medir a for√ßa e dire√ß√£o da rela√ß√£o linear entre o identificador num√©rico do cluster e cada m√©trica de neg√≥cio. O teste √© executado separadamente para S√£o Paulo e demais estados, mantendo a consist√™ncia com a abordagem de an√°lise regionalizada.

**3. Prepara√ß√£o dos Dados**  
Implementa uma fun√ß√£o de padroniza√ß√£o que cria aliases autom√°ticos para as colunas, mapeando os nomes reais das vari√°veis para nomenclaturas padronizadas. Esta funcionalidade garante compatibilidade e robustez na an√°lise, convertendo automaticamente vendas_oculos_grau para vendas e vendas_oculos, num_clientes para clientes, receita_total para receita, e num_lojas para lojas.

**4. Processo de C√°lculo**  
Para cada regi√£o, a c√©lula itera atrav√©s das m√©tricas padronizadas, verificando a exist√™ncia da coluna no dataset e a presen√ßa de varia√ß√£o suficiente nos dados. Calcula o coeficiente de correla√ß√£o de Pearson e o respectivo p-value, armazenando os resultados em dicion√°rios estruturados para posterior consolida√ß√£o.

**5. Valida√ß√µes Implementadas**  
Inclui verifica√ß√µes de integridade que identificam situa√ß√µes onde a correla√ß√£o n√£o pode ser calculada, como aus√™ncia de varia√ß√£o nos dados ou clusters com cardinalidade insuficiente. Estas valida√ß√µes previnem erros matem√°ticos e informam sobre limita√ß√µes dos dados.

**6. Resultados Consolidados**  
Gera um DataFrame consolidado com todas as correla√ß√µes calculadas, organizando os resultados por escopo geogr√°fico e m√©trica, facilitando a interpreta√ß√£o comparativa. Exibe tanto os resultados individuais quanto um resumo tabular estruturado.

**7. Interpreta√ß√£o Estat√≠stica**  
Fornece diretrizes claras para interpreta√ß√£o dos resultados, classificando correla√ß√µes pr√≥ximas de zero como aus√™ncia de rela√ß√£o linear, valores entre 0.3 e -0.3 como rela√ß√£o moderada a forte, e p-values menores que 0.05 como estatisticamente significativos.

**8. Aplica√ß√£o Estrat√©gica**  
Os resultados desta an√°lise informam se os clusters atuais j√° se alinham naturalmente com m√©tricas de performance ou se s√£o puramente espaciais, orientando decis√µes sobre a necessidade de enriquecimento de features para vers√µes futuras do modelo de clustering.

**9. Limita√ß√µes Metodol√≥gicas**  
Reconhece que clusters s√£o vari√°veis categ√≥ricas tratadas como num√©ricas para fins de correla√ß√£o linear, sendo esta uma aproxima√ß√£o explorat√≥ria v√°lida mas com limita√ß√µes interpretativas. A an√°lise assume linearidade e n√£o captura rela√ß√µes monot√¥nicas n√£o-lineares que poderiam ser detectadas por correla√ß√£o de Spearman.

**10. Valor Anal√≠tico**  
Serve como checkpoint r√°pido para avaliar o alinhamento entre segmenta√ß√£o geogr√°fica e performance comercial, fornecendo evid√™ncias quantitativas para justificar modifica√ß√µes futuras na estrat√©gia de clustering ou na sele√ß√£o de features para o modelo de expans√£o.

In [None]:
import scipy.stats as stats
from scipy.stats import pearsonr, spearmanr

print("=== TESTE 1: CORRELA√á√ÉO COM VARI√ÅVEIS EXTERNAS ===\n")

def padronizar_metricas(df):
    """Cria aliases padronizados para as colunas alvo, se existirem."""
    df_copia = df.copy()
    
    # Mapear nomes reais para aliases padronizados
    mapping = {
        'vendas_oculos_grau': ['vendas_oculos', 'vendas'],
        'num_clientes': ['clientes'],
        'receita_total': ['receita'],
        'num_lojas': ['lojas']
    }
    
    for origem, aliases in mapping.items():
        if origem in df_copia.columns:
            for alias in aliases:
                if alias not in df_copia.columns:
                    df_copia[alias] = df_copia[origem]
    
    return df_copia

# Para S√£o Paulo
print("CORRELA√á√ïES - S√ÉO PAULO:")
df_sp_test = padronizar_metricas(dados_sp)
df_sp_test['cluster'] = clusters_sp

# Correla√ß√£o entre clusters e vari√°veis num√©ricas
correlacoes_sp = {}
metricas_teste = ['vendas', 'vendas_oculos', 'clientes', 'receita', 'lojas']

correlacoes_encontradas_sp = False
for col in metricas_teste:
    if col in df_sp_test.columns:
        # Verificar se h√° varia√ß√£o suficiente
        if df_sp_test[col].nunique() < 2 or df_sp_test['cluster'].nunique() < 2:
            print(f"  {col}: vari√¢ncia insuficiente (pulando)")
            continue
            
        corr_pearson, p_value = pearsonr(df_sp_test['cluster'], df_sp_test[col])
        correlacoes_sp[col] = {'correlacao': corr_pearson, 'p_value': p_value}
        print(f"  {col}: r = {corr_pearson:.3f}, p = {p_value:.3f}")
        correlacoes_encontradas_sp = True

if not correlacoes_encontradas_sp:
    print("  (Nenhuma m√©trica compat√≠vel encontrada)")

print("\nCORRELA√á√ïES - OUTROS ESTADOS:")
df_outros_test = padronizar_metricas(dados_outros_estados)
df_outros_test['cluster'] = clusters_outros

# Correla√ß√£o entre clusters e vari√°veis num√©ricas
correlacoes_outros = {}
correlacoes_encontradas_outros = False

for col in metricas_teste:
    if col in df_outros_test.columns:
        # Verificar se h√° varia√ß√£o suficiente
        if df_outros_test[col].nunique() < 2 or df_outros_test['cluster'].nunique() < 2:
            print(f"  {col}: vari√¢ncia insuficiente (pulando)")
            continue
            
        corr_pearson, p_value = pearsonr(df_outros_test['cluster'], df_outros_test[col])
        correlacoes_outros[col] = {'correlacao': corr_pearson, 'p_value': p_value}
        print(f"  {col}: r = {corr_pearson:.3f}, p = {p_value:.3f}")
        correlacoes_encontradas_outros = True

if not correlacoes_encontradas_outros:
    print("  (Nenhuma m√©trica compat√≠vel encontrada)")

# Consolida√ß√£o opcional
import pandas as pd
resultados_correlacao = []
for col, dados in correlacoes_sp.items():
    resultados_correlacao.append({
        'escopo': 'SP',
        'metrica': col,
        'r': dados['correlacao'],
        'p_value': dados['p_value']
    })

for col, dados in correlacoes_outros.items():
    resultados_correlacao.append({
        'escopo': 'OUTROS',
        'metrica': col,
        'r': dados['correlacao'],
        'p_value': dados['p_value']
    })

if resultados_correlacao:
    df_corr = pd.DataFrame(resultados_correlacao)
    print("\nResumo consolidado:")
    print(df_corr.round(3))

print("\nINTERPRETA√á√ÉO:")
print("- Correla√ß√µes pr√≥ximas de 0: clusters n√£o relacionados linearmente com a vari√°vel")
print("- Correla√ß√µes > 0.3 ou < -0.3: rela√ß√£o moderada a forte")
print("- p < 0.05: correla√ß√£o estatisticamente significativa")

## Checkpoint Estrutural de M√©tricas

Esta c√©lula atua como a primeira barreira de controle antes de qualquer deriva√ß√£o anal√≠tica adicional. O foco √© exclusivamente estrutural: garantir que as tabelas segmentadas (`dados_sp`, `dados_outros_estados`) cont√™m as colunas e linhas m√≠nimas necess√°rias para prosseguir.

**Escopo**  
Valida presen√ßa e legibilidade de colunas n√∫cleo sem fazer c√°lculos derivados ou normaliza√ß√µes.

**Colunas Verificadas (se existirem):**  
- `vendas_oculos_grau` (e fallback: `vendas_oculos`, `vendas`)  
- `num_clientes`  
- `receita_total`  
- `num_lojas`

**Opera√ß√µes Executadas**  
1. Testa exist√™ncia de `dados_sp` e `dados_outros_estados` no ambiente.  
2. Calcula m√©dias simples de vendas por regi√£o quando a coluna correspondente est√° presente.  
3. Cria um recorte de exemplo (`iloc[0:1]`) para demonstrar acesso defensivo a um registro.  
4. Aplica hierarquia de fallback para coluna de vendas (prioridade: `vendas_oculos_grau` ‚Üí `vendas_oculos` ‚Üí `vendas`).  
5. Exibe somat√≥rios b√°sicos das demais m√©tricas somente se existirem e suportarem agrega√ß√£o.

**N√£o Faz**  
- Normaliza√ß√£o por loja  
- Consolida√ß√£o de clusters  
- Avalia√ß√£o de qualidade estat√≠stica  
- Exporta√ß√£o ou muta√ß√£o de dados

**Crit√©rios M√≠nimos de Continuidade**  
- Cada DataFrame regional cont√©m ao menos 1 linha  
- Pelo menos uma coluna de vendas identificada  
- Acesso sem exce√ß√µes √†s estruturas principais

**Risco Mitigado**  
Interrup√ß√£o tardia do pipeline devido a aus√™ncia silenciosa de colunas essenciais ap√≥s limpeza/transforma√ß√£o.

**Recomenda√ß√£o**  
Se algum item cr√≠tico estiver ausente aqui, interromper execu√ß√£o e revisar etapas de prepara√ß√£o antes de seguir para pseudo R¬≤, correla√ß√µes ou pondera√ß√µes.

Resumo: checkpoint inicial enxuto para validar integridade estrutural de insumos antes de c√°lculos anal√≠ticos aprofundados.

In [None]:
# Exibi√ß√£o final de m√©tricas (ajustada para nomes reais)
print("=== VERIFICA√á√ÉO DE M√âTRICAS FINAIS ===")

# Verifica√ß√£o de vendas m√©dias
if 'vendas_oculos_grau' in dados_sp.columns:
    print(f"Vendas m√©dias SP: {dados_sp['vendas_oculos_grau'].mean():.0f}")
else:
    print("Vendas m√©dias SP: coluna n√£o encontrada")

if 'vendas_oculos_grau' in dados_outros_estados.columns:
    print(f"Vendas m√©dias Outros Estados: {dados_outros_estados['vendas_oculos_grau'].mean():.0f}")
else:
    print("Vendas m√©dias Outros Estados: coluna n√£o encontrada")

# Exemplo de verifica√ß√£o segura para dados de cluster
print("\nVerifica√ß√£o de dados de cluster (exemplo):")

# Verificar se existem dados de cluster em mem√≥ria
if 'dados_sp' in globals() and len(dados_sp) > 0:
    # Criar um exemplo de cluster_data para demonstra√ß√£o
    cluster_data = dados_sp.iloc[0:1]  # Primeiro registro como exemplo
    
    print("Dados de exemplo do primeiro cluster:")
    
    # Tentar diferentes nomes de colunas para vendas
    vendas_col = None
    if 'vendas_oculos_grau' in cluster_data.columns:
        vendas_col = cluster_data['vendas_oculos_grau']
        nome_coluna = 'vendas_oculos_grau'
    elif 'vendas_oculos' in cluster_data.columns:
        vendas_col = cluster_data['vendas_oculos']
        nome_coluna = 'vendas_oculos'
    elif 'vendas' in cluster_data.columns:
        vendas_col = cluster_data['vendas']
        nome_coluna = 'vendas'
    
    if vendas_col is not None and hasattr(vendas_col, 'sum'):
        print(f"  Vendas totais ({nome_coluna}): {vendas_col.sum():,.0f}")
    else:
        print("  Vendas totais: (dados n√£o dispon√≠veis)")
    
    # Verificar outras m√©tricas
    if 'num_clientes' in cluster_data.columns:
        print(f"  Clientes totais: {cluster_data['num_clientes'].sum():,.0f}")
    
    if 'receita_total' in cluster_data.columns:
        print(f"  Receita total: R$ {cluster_data['receita_total'].sum():,.2f}")
    
    if 'num_lojas' in cluster_data.columns:
        print(f"  N√∫mero de lojas: {cluster_data['num_lojas'].sum()}")

else:
    print("Dados de cluster n√£o dispon√≠veis para verifica√ß√£o")

print("\n=== VERIFICA√á√ÉO CONCLU√çDA ===")

## Auditoria P√≥s-Transforma√ß√µes e Consist√™ncia Final

Diferente da C√©lula 34 (estrutural e preventiva), esta auditoria √© executada depois que j√° foram aplicadas: pseudo R¬≤, correla√ß√µes, cria√ß√£o de m√©tricas ponderadas por loja e prepara√ß√£o de bases para exporta√ß√£o. O foco aqui √© confirmar **persist√™ncia**, **coer√™ncia superficial** e **acesso seguro** √†s m√©tricas-chave ap√≥s muta√ß√µes e deriva√ß√µes intermedi√°rias.

**Objetivo Principal**  
Verificar se nenhuma transforma√ß√£o subsequente removeu ou corrompeu colunas cr√≠ticas necess√°rias para:  
- Compara√ß√µes antes vs depois (absoluto vs por loja)  
- Gera√ß√£o de rankings e prioriza√ß√£o  
- Exporta√ß√£o de sugest√µes supervisionadas

**Escopo Ampliado em Rela√ß√£o √† C√©lula 34**  
- Observa valores m√©dios p√≥s-eventos (n√£o apenas exist√™ncia).  
- Contrasta implicitamente o estado atual com o momento anterior.  
- Refor√ßa a cadeia de governan√ßa antes do passo de exporta√ß√£o.

**Elementos Valid√°veis**  
- Perman√™ncia de `vendas_oculos_grau` como fonte bruta  
- Acesso √†s colunas derivadas criadas em c√©lulas anteriores (ex.: vers√µes normalizadas que dependem destas bases)  
- Capacidade de recuperar um registro de refer√™ncia sem erro

**Opera√ß√µes Efetivas**  
1. C√°lculo de m√©dias atuais de vendas por regi√£o (SP e Outros).  
2. Extra√ß√£o controlada de um registro para inspecionar granularidade m√≠nima.  
3. Fallback hier√°rquico de vendas (igual √† c√©lula 34 para consist√™ncia).  
4. Apresenta√ß√£o condicional de clientes, receita e n√∫mero de lojas se dispon√≠veis.

**Complementaridade com a C√©lula 34**  
| Aspecto | C√©lula 34 | C√©lula 36 |
|---------|-----------|-----------|
| Momento | Pr√©-m√©tricas derivadas | P√≥s-deriva√ß√µes | 
| Foco | Exist√™ncia estrutural | Persist√™ncia p√≥s-transforma√ß√µes | 
| Natureza | Preventiva | Verifica√ß√£o final | 
| Profundidade | M√≠nima | Leitura consolidada | 
| Uso | Bloquear avan√ßo cedo | Validar antes de exportar |

**Limita√ß√µes Deliberadas**  
- N√£o reavalia qualidade dos clusters  
- N√£o recalcula normaliza√ß√µes  
- N√£o compara deltas autom√°ticos entre estados anteriores e atuais  
- N√£o valida integridade cruzada (ex.: receita >= vendas)

**Riscos Ainda Poss√≠veis**  
- Valores an√¥malos silenciosos (outliers leg√≠timos n√£o identificados)  
- Mudan√ßas sem√¢nticas em colunas reaproveitadas  
- Necessidade de auditoria temporal (n√£o armazenada aqui)

**Sugest√µes Futuras**  
- Registrar snapshot em JSON (baseline vs final)  
- Adicionar checagem de monotonicidade (ex.: m√©dias n√£o negativas)  
- Criar verificador de distribui√ß√£o (faixas plaus√≠veis por m√©trica)

Resumo: esta auditoria garante que, ap√≥s deriva√ß√µes e prepara√ß√£o para exporta√ß√£o, as bases continuam completas e acess√≠veis ‚Äî funcionando como a √∫ltima verifica√ß√£o de seguran√ßa antes da gera√ß√£o de artefatos supervisionados.

In [None]:
# CLUSTERING PONDERADO POR QUANTIDADE DE LOJAS
print("=== AN√ÅLISE PONDERADA POR QUANTIDADE DE LOJAS ===\n")

# Fun√ß√£o para criar dados ponderados
def criar_dados_ponderados(df):
    """
    Cria uma vers√£o ponderada dos dados, normalizando as m√©tricas pela quantidade de lojas.
    Esta fun√ß√£o tamb√©m cria colunas padronizadas (vendas, vendas_oculos, clientes, receita, lojas)
    a partir das colunas existentes (por exemplo: vendas_oculos_grau, num_clientes, receita_total, num_lojas).
    """
    df_ponderado = df.copy()

    # Criar aliases/nomes padronizados quando poss√≠vel
    if 'vendas_oculos_grau' in df_ponderado.columns:
        df_ponderado['vendas_oculos'] = df_ponderado['vendas_oculos_grau']
        # cria alias 'vendas' se n√£o existir
        if 'vendas' not in df_ponderado.columns:
            df_ponderado['vendas'] = df_ponderado['vendas_oculos_grau']
    
    if 'num_clientes' in df_ponderado.columns:
        df_ponderado['clientes'] = df_ponderado['num_clientes']
    
    if 'receita_total' in df_ponderado.columns:
        df_ponderado['receita'] = df_ponderado['receita_total']
    
    if 'num_lojas' in df_ponderado.columns:
        df_ponderado['lojas'] = df_ponderado['num_lojas']

    # M√©tricas para ponderar (usar nomes padronizados)
    metricas_ponderacao = ['vendas', 'vendas_oculos', 'clientes', 'receita']

    for metrica in metricas_ponderacao:
        if metrica in df_ponderado.columns and 'lojas' in df_ponderado.columns:
            # Criar vers√£o normalizada (por loja)
            df_ponderado[f'{metrica}_por_loja'] = df_ponderado[metrica] / df_ponderado['lojas']
            # Evitar divis√£o por zero
            df_ponderado[f'{metrica}_por_loja'] = df_ponderado[f'{metrica}_por_loja'].fillna(0)
            # Tratar infinitos (casos onde lojas = 0)
            df_ponderado[f'{metrica}_por_loja'] = df_ponderado[f'{metrica}_por_loja'].replace([float('inf'), -float('inf')], 0)

    print(f"Colunas originais dispon√≠veis: {list(df.columns)}")
    print(f"Colunas ap√≥s padroniza√ß√£o: {list(df_ponderado.columns)}")
    
    return df_ponderado

# Aplicar pondera√ß√£o aos dados
print("Criando dados ponderados...")

print("\nProcessando dados de S√£o Paulo...")
dados_sp_ponderado = criar_dados_ponderados(dados_sp)

print("\nProcessando dados de Outros Estados...")
dados_outros_ponderado = criar_dados_ponderados(dados_outros_estados)

print("\nDados ponderados criados com sucesso!")

## An√°lise Comparativa ‚Äì Totais Brutos vs M√©tricas Normalizadas por Loja

Esta c√©lula realiza uma verifica√ß√£o direta do impacto da normaliza√ß√£o (pondera√ß√£o por n√∫mero de lojas) sobre as m√©tricas principais, permitindo comparar rapidamente valores absolutos agregados por localiza√ß√£o com suas vers√µes ‚Äúpor loja‚Äù, evitando interpreta√ß√µes enviesadas por concentra√ß√£o operacional.

**1. Objetivo Central**  
Fornecer um contraste imediato entre:  
- M√©tricas originais em n√≠vel de localiza√ß√£o (totais brutos)  
- M√©tricas derivadas normalizadas (`*_por_loja`) ap√≥s a etapa de pondera√ß√£o  
Isso ajuda a diferenciar se altos volumes derivam de mercado potencial ou apenas de maior presen√ßa f√≠sica (mais lojas na mesma regi√£o).

**2. Estruturas Utilizadas**  
- DataFrames de base: `dados_sp` e `dados_outros_estados` (valores totais)  
- DataFrames p√≥s-pondera√ß√£o: `dados_sp_ponderado` e `dados_outros_ponderado` (com colunas `vendas_por_loja`, `receita_por_loja`, `clientes_por_loja`)  

**3. M√©tricas Comparadas (se existirem)**  
Antes (totais):  
- `vendas_oculos_grau`  
- `receita_total`  
- `num_clientes`  
Depois (normalizadas):  
- `vendas_por_loja`  
- `receita_por_loja`  
- `clientes_por_loja`  

**4. L√≥gica da Impress√£o**  
Para cada recorte (S√£o Paulo / Outros Estados):  
1. Exibe m√©dias simples das m√©tricas totais (pr√©-normaliza√ß√£o)  
2. Exibe m√©dias das m√©tricas por loja (p√≥s-normaliza√ß√£o)  
3. Aplica checagem defensiva: s√≥ imprime quando a coluna existe  

**5. Por Que Isso Importa**  
- Evita supervaloriza√ß√£o de regi√µes infladas por alta densidade de lojas  
- Evidencia efici√™ncia m√©dia por unidade operacional  
- Ajuda a priorizar expans√£o onde o ‚Äúpor loja‚Äù ainda √© alto (potencial adicional)  

**6. Diferen√ßa Conceitual (Totais vs Por Loja)**  
| Aspecto | Totais Brutos | Normalizado por Loja |  
|---------|---------------|----------------------|  
| Influ√™ncia de concentra√ß√£o | Alta | Reduzida |  
| Sens√≠vel a satura√ß√£o | N√£o distingue | Exp√µe quedas de efici√™ncia |  
| Uso | Panorama macro | Compara√ß√£o justa entre regi√µes |  
| Risco | Superestimar regi√µes densas | Pode mascarar escala absoluta |  

**7. Casos de Interpreta√ß√£o**  
- Alta venda total + baixa venda por loja ‚Üí Satura√ß√£o / canibaliza√ß√£o poss√≠vel  
- Baixa venda total + alta venda por loja ‚Üí Potencial para expans√£o incremental  
- Ambos altos ‚Üí Mercado maduro e escal√°vel  
- Ambos baixos ‚Üí Baixa prioridade imediata  

**8. Valida√ß√µes Impl√≠citas**  
- Confirma que a etapa anterior de cria√ß√£o das colunas ponderadas ocorreu com sucesso  
- Garante coer√™ncia nominal das colunas antes de uso em modelos de prioriza√ß√£o  
- Detecta aus√™ncias inesperadas (mensagens ‚Äúcoluna n√£o encontrada‚Äù)  

**9. Limita√ß√µes Deliberadas**  
- N√£o calcula distribui√ß√£o (min/max/percentis)  
- N√£o trata outliers ou dispers√£o  
- N√£o faz ajuste temporal (tudo est√°tico no recorte atual)  
- N√£o cruza com densidade de clientes externos ou demografia  

**10. Quando Reexecutar**  
- Ap√≥s recalcular pondera√ß√µes com novas lojas  
- Ap√≥s filtrar regi√µes / aplicar cortes geogr√°ficos  
- Antes de gerar dashboards de efici√™ncia operacional  

**11. Poss√≠veis Extens√µes Futuras**  
- Adicionar m√©tricas por cliente (ex.: receita_por_cliente)  
- Calcular √≠ndice de satura√ß√£o (lojas / clientes)  
- Incluir ranking autom√°tico de efici√™ncia relativa  
- Exportar snapshot comparativo para auditoria  

**12. Valor Estrat√©gico**  
Fornece leitura dual (escala vs efici√™ncia) indispens√°vel para:  
- Decidir entre abertura de novas lojas ou otimiza√ß√£o das existentes  
- Alimentar modelos supervisionados com features enriquecidas  
- Justificar aloca√ß√£o de capital entre expans√£o horizontal vs densifica√ß√£o  

**Resumo:** A c√©lula funciona como painel r√°pido de consist√™ncia e interpreta√ß√£o operacional, contrastando desempenho bruto com efici√™ncia ajustada por loja, sustentando decis√µes mais equilibradas sobre prioriza√ß√£o geogr√°fica de expans√£o.

In [None]:
print("=== AN√ÅLISE COMPARATIVA - ANTES vs DEPOIS DA PONDERA√á√ÉO ===")

print("\nS√ÉO PAULO:")
print("ANTES (valores totais):")
# usar colunas originais dispon√≠veis
if 'vendas_oculos_grau' in dados_sp.columns:
    print(f"  Vendas m√©dias por regi√£o: {dados_sp['vendas_oculos_grau'].mean():.0f}")
else:
    print("  Vendas m√©dias por regi√£o: (coluna n√£o encontrada)")

if 'receita_total' in dados_sp.columns:
    print(f"  Receita m√©dia por regi√£o: R$ {dados_sp['receita_total'].mean():.0f}")
else:
    print("  Receita m√©dia por regi√£o: (coluna n√£o encontrada)")

if 'num_clientes' in dados_sp.columns:
    print(f"  Clientes m√©dios por regi√£o: {dados_sp['num_clientes'].mean():.0f}")
else:
    print("  Clientes m√©dios por regi√£o: (coluna n√£o encontrada)")

print("DEPOIS (valores por loja):")
if 'vendas_por_loja' in dados_sp_ponderado.columns:
    print(f"  Vendas m√©dias por loja: {dados_sp_ponderado['vendas_por_loja'].mean():.1f}")
else:
    print("  Vendas m√©dias por loja: (coluna n√£o encontrada)")

if 'receita_por_loja' in dados_sp_ponderado.columns:
    print(f"  Receita m√©dia por loja: R$ {dados_sp_ponderado['receita_por_loja'].mean():.0f}")
else:
    print("  Receita m√©dia por loja: (coluna n√£o encontrada)")

if 'clientes_por_loja' in dados_sp_ponderado.columns:
    print(f"  Clientes m√©dios por loja: {dados_sp_ponderado['clientes_por_loja'].mean():.1f}")
else:
    print("  Clientes m√©dios por loja: (coluna n√£o encontrada)")

print("\nOUTROS ESTADOS:")
print("ANTES (valores totais):")
if 'vendas_oculos_grau' in dados_outros_estados.columns:
    print(f"  Vendas m√©dias por regi√£o: {dados_outros_estados['vendas_oculos_grau'].mean():.0f}")
else:
    print("  Vendas m√©dias por regi√£o: (coluna n√£o encontrada)")

if 'receita_total' in dados_outros_estados.columns:
    print(f"  Receita m√©dia por regi√£o: R$ {dados_outros_estados['receita_total'].mean():.0f}")
else:
    print("  Receita m√©dia por regi√£o: (coluna n√£o encontrada)")

if 'num_clientes' in dados_outros_estados.columns:
    print(f"  Clientes m√©dios por regi√£o: {dados_outros_estados['num_clientes'].mean():.0f}")
else:
    print("  Clientes m√©dios por regi√£o: (coluna n√£o encontrada)")

print("DEPOIS (valores por loja):")
if 'vendas_por_loja' in dados_outros_ponderado.columns:
    print(f"  Vendas m√©dias por loja: {dados_outros_ponderado['vendas_por_loja'].mean():.1f}")
else:
    print("  Vendas m√©dias por loja: (coluna n√£o encontrada)")

if 'receita_por_loja' in dados_outros_ponderado.columns:
    print(f"  Receita m√©dia por loja: R$ {dados_outros_ponderado['receita_por_loja'].mean():.0f}")
else:
    print("  Receita m√©dia por loja: (coluna n√£o encontrada)")

if 'clientes_por_loja' in dados_outros_ponderado.columns:
    print(f"  Clientes m√©dios por loja: {dados_outros_ponderado['clientes_por_loja'].mean():.1f}")
else:
    print("  Clientes m√©dios por loja: (coluna n√£o encontrada)")

print("\n=== AN√ÅLISE COMPARATIVA CONCLU√çDA ===")

## Exporta√ß√£o Final de Sugest√µes para o Modelo Supervisionado 

Esta c√©lula consolida todo o pipeline n√£o supervisionado em um conjunto estruturado de sugest√µes de expans√£o, pronto para ser consumido por um modelo supervisionado ou an√°lises executivas.

### 1. Objetivo
Gerar um CSV padronizado contendo, por cluster (SP e Outros Estados):
- Coordenadas dos centr√≥ides (pontos ideais te√≥ricos)
- Local real mais pr√≥ximo (tradu√ß√£o operacional)
- M√©tricas agregadas e normalizadas (vendas, clientes, receita, efici√™ncia por loja)
- Prioriza√ß√£o interna por escopo

### 2. Etapas Principais do C√≥digo
1. Verifica√ß√£o/defini√ß√£o de k (SP e Outros) com fallback inteligente  
2. Reclusteriza√ß√£o final com os k ‚Äúoficiais‚Äù usando pesos (quando dispon√≠veis)  
3. Gera√ß√£o de centr√≥ides e mapeamento para regi√µes reais existentes  
4. Constru√ß√£o da lista de sugest√µes (SP e OUTROS) com m√©tricas:
   - Totais do cluster (via agrega√ß√£o)
   - Valores da regi√£o representativa (regi√£o mais pr√≥xima do centr√≥ide)
   - Normaliza√ß√µes por loja (prote√ß√£o contra divis√£o por zero)
5. Cria√ß√£o do DataFrame final + ranking de prioridade por escopo  
6. Exporta√ß√£o para: `../../database/dataset gerado/sugestoes_expansao_para_supervisionado.csv`  
7. Resumo validado (shape, preview e agregados por escopo)

### 3. Campos-Chave do Output
- escopo: SP | OUTROS  
- cluster_id / prioridade_no_escopo  
- latitude_centroid / longitude_centroid  
- latitude_sugerida / longitude_sugerida  
- estado / regiao_chilli  
- potencial_score_cluster_medio / potencial_score_cluster_max  
- vendas_oculos_grau_regiao, num_clientes_regiao, receita_total_regiao, num_lojas_regiao  
- vendas_por_loja_regiao, receita_por_loja_regiao, clientes_por_loja_regiao  
- distancia_km_do_centroid (Haversine)

### 4. L√≥gicas de Seguran√ßa
- Fallback para k se arrays de silhouette n√£o existirem  
- Try/except ao usar sample_weight  
- Prote√ß√£o para DataFrames vazios  
- Normaliza√ß√£o segura (divis√£o s√≥ se num_lojas > 0)  

### 5. Como Utilizar no Pr√≥ximo Modelo
- Servir como base rotulada (target pode ser potencial m√©dio, receita futura, etc.)  
- Criar features adicionais combinando scores + dist√¢ncia ao centr√≥ide  
- Validar coer√™ncia com dados temporais (caso adicione s√©rie hist√≥rica depois)

### 6. Sinais de Sucesso
- Mensagens ‚úì para ambos os blocos (SP e Outros)  
- CSV criado sem valores NaN cr√≠ticos  
- Prioriza√ß√£o num√©rica cont√≠nua (1‚Ä¶N por escopo)

### 7. Poss√≠veis Extens√µes Futuras
- Inclus√£o de densidade concorrencial externa  
- Enriquecimento com demografia ou renda m√©dia  
- Ajuste din√¢mico de pesos por cen√°rio estrat√©gico

Em resumo: esta c√©lula ‚Äúmaterializa‚Äù o aprendizado espacial em sugest√µes acion√°veis, com rastreabilidade, prioriza√ß√£o e estrutura pronta para modelagem supervisionada ou decis√£o

In [None]:
# EXPORTA√á√ÉO DE SUGEST√ïES PARA O MODELO SUPERVISIONADO
print("="*80)
print("EXPORTANDO SUGEST√ïES DE LOCAIS PARA O MODELO SUPERVISIONADO")
print("="*80)

# 1) GARANTINDO OS KS IDEAIS
print("\n1. Determinando Ks ideais...")

# Verificar se best_k_sp e best_k_outros existem
if 'best_k_sp' in globals() and 'best_k_outros' in globals():
    print(f"   Usando Ks existentes: SP={best_k_sp}, Outros={best_k_outros}")
else:
    # Tentar inferir dos arrays de silhouette
    if 'silhouette_scores_sp' in globals() and len(silhouette_scores_sp) > 0:
        best_k_sp = np.argmax(silhouette_scores_sp) + 2  # +2 porque silhouette come√ßa em k=2
        print(f"   K ideal para SP inferido do silhouette: {best_k_sp}")
    else:
        best_k_sp = 2
        print(f"   K ideal para SP (fallback): {best_k_sp}")
    
    if 'silhouette_scores_outros' in globals() and len(silhouette_scores_outros) > 0:
        best_k_outros = np.argmax(silhouette_scores_outros) + 2
        print(f"   K ideal para Outros inferido do silhouette: {best_k_outros}")
    else:
        best_k_outros = 3
        print(f"   K ideal para Outros (fallback): {best_k_outros}")

# 2) RECALCULANDO CLUSTERS COM KS IDEAIS
print("\n2. Recalculando clusters com Ks ideais...")

# Para SP
print(f"   Clustering SP com k={best_k_sp}...")
if 'X_sp' in globals() and 'dados_sp' in globals():
    kmeans_sp_ideal = KMeans(n_clusters=best_k_sp, random_state=42, n_init=10)
    
    # Usar sample_weight se poss√≠vel
    try:
        weights_sp_ideal = dados_sp['vendas_oculos_grau'] + 1
        clusters_sp_ideais = kmeans_sp_ideal.fit_predict(X_sp, sample_weight=weights_sp_ideal)
    except:
        clusters_sp_ideais = kmeans_sp_ideal.fit_predict(X_sp)
    
    centroids_sp = kmeans_sp_ideal.cluster_centers_
    print(f"   ‚úì SP: {best_k_sp} clusters criados")
else:
    print("   ‚ö† Vari√°veis X_sp ou dados_sp n√£o encontradas")
    clusters_sp_ideais = None
    centroids_sp = None

# Para Outros Estados - verificar se dados_localizacao existe ou usar dados_outros_estados
print(f"   Clustering Outros Estados com k={best_k_outros}...")

if 'dados_localizacao' in globals():
    dados_expansao_outros = dados_localizacao[dados_localizacao['estado'] != 'SP'].copy()
elif 'dados_outros_estados' in globals():
    dados_expansao_outros = dados_outros_estados.copy()
    print("   Usando dados_outros_estados como fonte")
else:
    dados_expansao_outros = pd.DataFrame()
    print("   ‚ö† Nenhuma fonte de dados para outros estados encontrada")

if not dados_expansao_outros.empty:
    X_outros_ideal = dados_expansao_outros[['longitude', 'latitude']].values
    kmeans_outros_ideal = KMeans(n_clusters=best_k_outros, random_state=42, n_init=10)
    
    # Usar sample_weight se poss√≠vel
    try:
        # Tentar usar potencial_score, se n√£o existir usar vendas_oculos_grau
        if 'potencial_score' in dados_expansao_outros.columns:
            weights_outros_ideal = dados_expansao_outros['potencial_score'] + 1
        elif 'vendas_oculos_grau' in dados_expansao_outros.columns:
            weights_outros_ideal = dados_expansao_outros['vendas_oculos_grau'] + 1
        else:
            weights_outros_ideal = None
            
        if weights_outros_ideal is not None:
            clusters_outros_ideais = kmeans_outros_ideal.fit_predict(X_outros_ideal, sample_weight=weights_outros_ideal)
        else:
            clusters_outros_ideais = kmeans_outros_ideal.fit_predict(X_outros_ideal)
    except:
        clusters_outros_ideais = kmeans_outros_ideal.fit_predict(X_outros_ideal)
    
    centroids_outros = kmeans_outros_ideal.cluster_centers_
    print(f"   ‚úì Outros Estados: {best_k_outros} clusters criados")
else:
    print("   ‚ö† Dados de outros estados vazios")
    clusters_outros_ideais = None
    centroids_outros = None

# 3) GERANDO SUGEST√ïES POR CLUSTER
print("\n3. Gerando sugest√µes de locais...")

sugestoes_lista = []

# Fun√ß√£o auxiliar para encontrar regi√£o mais pr√≥xima
def encontrar_regiao_proxima(lat_centro, lon_centro, df_regioes):
    if df_regioes.empty:
        return None, float('inf')
    
    distancias = []
    for idx, row in df_regioes.iterrows():
        dist = haversine_distance(lat_centro, lon_centro, row['latitude'], row['longitude'])
        distancias.append((dist, idx))
    
    distancia_min, idx_min = min(distancias)
    return df_regioes.loc[idx_min], distancia_min

# Sugest√µes para SP
if clusters_sp_ideais is not None and centroids_sp is not None:
    print(f"   Processando {best_k_sp} clusters de SP...")
    dados_sp_com_clusters = dados_sp.copy()
    dados_sp_com_clusters['cluster'] = clusters_sp_ideais
    
    for cluster_id in range(best_k_sp):
        cluster_mask = clusters_sp_ideais == cluster_id
        cluster_data = dados_sp_com_clusters[cluster_mask]
        
        if cluster_data.empty:
            continue
        
        # Centr√≥ide do cluster
        centro_lon, centro_lat = centroids_sp[cluster_id]
        
        # Encontrar regi√£o real mais pr√≥xima
        regiao_sugerida, distancia_km = encontrar_regiao_proxima(centro_lat, centro_lon, dados_sp)
        
        if regiao_sugerida is None:
            continue
        
        # M√©tricas agregadas do cluster - usar nomes corretos das colunas
        potencial_medio = cluster_data['potencial_score'].mean() if 'potencial_score' in cluster_data.columns else 0
        potencial_max = cluster_data['potencial_score'].max() if 'potencial_score' in cluster_data.columns else 0
        
        vendas_total = cluster_data['vendas_oculos_grau'].sum() if 'vendas_oculos_grau' in cluster_data.columns else 0
        clientes_total = cluster_data['num_clientes'].sum() if 'num_clientes' in cluster_data.columns else 0
        receita_total = cluster_data['receita_total'].sum() if 'receita_total' in cluster_data.columns else 0
        lojas_total = cluster_data['num_lojas'].sum() if 'num_lojas' in cluster_data.columns else 0
        
        # M√©tricas da regi√£o sugerida - usar nomes corretos das colunas
        vendas_regiao = regiao_sugerida['vendas_oculos_grau'] if 'vendas_oculos_grau' in regiao_sugerida.index else 0
        clientes_regiao = regiao_sugerida['num_clientes'] if 'num_clientes' in regiao_sugerida.index else 0
        receita_regiao = regiao_sugerida['receita_total'] if 'receita_total' in regiao_sugerida.index else 0
        lojas_regiao = regiao_sugerida['num_lojas'] if 'num_lojas' in regiao_sugerida.index else 0
        
        # Normaliza√ß√µes por loja (com prote√ß√£o)
        vendas_por_loja = vendas_regiao / lojas_regiao if lojas_regiao > 0 else 0
        clientes_por_loja = clientes_regiao / lojas_regiao if lojas_regiao > 0 else 0
        receita_por_loja = receita_regiao / lojas_regiao if lojas_regiao > 0 else 0
        
        sugestoes_lista.append({
            'escopo': 'SP',
            'cluster_id': int(cluster_id),
            'latitude_centroid': float(centro_lat),
            'longitude_centroid': float(centro_lon),
            'latitude_sugerida': float(regiao_sugerida['latitude']),
            'longitude_sugerida': float(regiao_sugerida['longitude']),
            'estado': regiao_sugerida['estado'] if 'estado' in regiao_sugerida.index else 'SP',
            'regiao_chilli': regiao_sugerida.get('regiao_chilli', 'S√ÉO PAULO'),
            'potencial_score_cluster_medio': float(potencial_medio),
            'potencial_score_cluster_max': float(potencial_max),
            'vendas_oculos_grau_regiao': int(vendas_regiao),
            'num_clientes_regiao': int(clientes_regiao),
            'receita_total_regiao': float(receita_regiao),
            'num_lojas_regiao': int(lojas_regiao),
            'vendas_por_loja_regiao': float(vendas_por_loja),
            'receita_por_loja_regiao': float(receita_por_loja),
            'clientes_por_loja_regiao': float(clientes_por_loja),
            'distancia_km_do_centroid': float(distancia_km)
        })

# Sugest√µes para Outros Estados
if clusters_outros_ideais is not None and centroids_outros is not None and not dados_expansao_outros.empty:
    print(f"   Processando {best_k_outros} clusters de Outros Estados...")
    dados_expansao_outros['cluster'] = clusters_outros_ideais
    
    for cluster_id in range(best_k_outros):
        cluster_mask = clusters_outros_ideais == cluster_id
        cluster_data = dados_expansao_outros[cluster_mask]
        
        if cluster_data.empty:
            continue
        
        # Centr√≥ide do cluster
        centro_lon, centro_lat = centroids_outros[cluster_id]
        
        # Encontrar regi√£o real mais pr√≥xima
        regiao_sugerida, distancia_km = encontrar_regiao_proxima(centro_lat, centro_lon, dados_expansao_outros)
        
        if regiao_sugerida is None:
            continue
        
        # M√©tricas agregadas do cluster - usar nomes corretos das colunas
        potencial_medio = cluster_data['potencial_score'].mean() if 'potencial_score' in cluster_data.columns else 0
        potencial_max = cluster_data['potencial_score'].max() if 'potencial_score' in cluster_data.columns else 0
        
        vendas_total = cluster_data['vendas_oculos_grau'].sum() if 'vendas_oculos_grau' in cluster_data.columns else 0
        clientes_total = cluster_data['num_clientes'].sum() if 'num_clientes' in cluster_data.columns else 0
        receita_total = cluster_data['receita_total'].sum() if 'receita_total' in cluster_data.columns else 0
        lojas_total = cluster_data['num_lojas'].sum() if 'num_lojas' in cluster_data.columns else 0
        
        # M√©tricas da regi√£o sugerida - usar nomes corretos das colunas
        vendas_regiao = regiao_sugerida['vendas_oculos_grau'] if 'vendas_oculos_grau' in regiao_sugerida.index else 0
        clientes_regiao = regiao_sugerida['num_clientes'] if 'num_clientes' in regiao_sugerida.index else 0
        receita_regiao = regiao_sugerida['receita_total'] if 'receita_total' in regiao_sugerida.index else 0
        lojas_regiao = regiao_sugerida['num_lojas'] if 'num_lojas' in regiao_sugerida.index else 0
        
        # Normaliza√ß√µes por loja (com prote√ß√£o)
        vendas_por_loja = vendas_regiao / lojas_regiao if lojas_regiao > 0 else 0
        clientes_por_loja = clientes_regiao / lojas_regiao if lojas_regiao > 0 else 0
        receita_por_loja = receita_regiao / lojas_regiao if lojas_regiao > 0 else 0
        
        sugestoes_lista.append({
            'escopo': 'OUTROS',
            'cluster_id': int(cluster_id),
            'latitude_centroid': float(centro_lat),
            'longitude_centroid': float(centro_lon),
            'latitude_sugerida': float(regiao_sugerida['latitude']),
            'longitude_sugerida': float(regiao_sugerida['longitude']),
            'estado': regiao_sugerida['estado'] if 'estado' in regiao_sugerida.index else 'DESCONHECIDO',
            'regiao_chilli': regiao_sugerida.get('regiao_chilli', 'DESCONHECIDA'),
            'potencial_score_cluster_medio': float(potencial_medio),
            'potencial_score_cluster_max': float(potencial_max),
            'vendas_oculos_grau_regiao': int(vendas_regiao),
            'num_clientes_regiao': int(clientes_regiao),
            'receita_total_regiao': float(receita_regiao),
            'num_lojas_regiao': int(lojas_regiao),
            'vendas_por_loja_regiao': float(vendas_por_loja),
            'receita_por_loja_regiao': float(receita_por_loja),
            'clientes_por_loja_regiao': float(clientes_por_loja),
            'distancia_km_do_centroid': float(distancia_km)
        })

# 4) MONTANDO DATAFRAME FINAL
print("\n4. Montando DataFrame final...")

if sugestoes_lista:
    sugestoes_expansao = pd.DataFrame(sugestoes_lista)
    
    # Adicionando prioridade dentro de cada escopo
    sugestoes_expansao['prioridade_no_escopo'] = 0
    
    for escopo in ['SP', 'OUTROS']:
        mask = sugestoes_expansao['escopo'] == escopo
        if mask.any():
            escopo_df = sugestoes_expansao[mask].copy()
            escopo_df = escopo_df.sort_values('potencial_score_cluster_medio', ascending=False)
            escopo_df['prioridade_no_escopo'] = range(1, len(escopo_df) + 1)
            sugestoes_expansao.loc[mask, 'prioridade_no_escopo'] = escopo_df['prioridade_no_escopo'].values
    
    # Garantindo tipos corretos
    sugestoes_expansao['cluster_id'] = sugestoes_expansao['cluster_id'].astype(int)
    sugestoes_expansao['prioridade_no_escopo'] = sugestoes_expansao['prioridade_no_escopo'].astype(int)
    
    print(f"   ‚úì DataFrame criado com {len(sugestoes_expansao)} sugest√µes")
    
    # 5) SALVANDO CSV
    print("\n5. Salvando arquivo CSV...")
    
    output_path = "../../database/dataset gerado/sugestoes_expansao_para_supervisionado.csv"
    sugestoes_expansao.to_csv(output_path, index=False)
    
    print(f"   ‚úì Arquivo salvo em: {output_path}")
    print(f"   ‚úì Shape: {sugestoes_expansao.shape}")
    print(f"\n   Primeiras 5 linhas:")
    print(sugestoes_expansao.head())
    
    # Resumo por escopo
    print(f"\n   Resumo por escopo:")
    resumo = sugestoes_expansao.groupby('escopo').agg({
        'cluster_id': 'count',
        'potencial_score_cluster_medio': 'mean',
        'vendas_oculos_grau_regiao': 'sum'
    }).round(2)
    resumo.columns = ['num_sugestoes', 'potencial_medio', 'vendas_total']
    print(resumo)
    
else:
    print("   ‚ö† Nenhuma sugest√£o gerada - verificar dados de entrada")
    sugestoes_expansao = pd.DataFrame()

print("\n" + "="*80)
print("EXPORTA√á√ÉO CONCLU√çDA")
print("="*80)

# üéØ S√≠ntese Anal√≠tica Final: Pipeline de Clusteriza√ß√£o para Expans√£o Geogr√°fica

## üìä Resumo Executivo do Pipeline

Este notebook implementou um **pipeline completo de an√°lise n√£o supervisionada** para identificar oportunidades de expans√£o geogr√°fica da empresa Chillie Beans, processando dados de vendas, clientes, receita e presen√ßa operacional em diferentes regi√µes do Brasil. O trabalho foi estruturado em etapas sequenciais, desde o pr√©-processamento at√© a gera√ß√£o de sugest√µes acion√°veis para modelos supervisionados.

---

## üõ†Ô∏è **Metodologia e Etapas Implementadas**

### **1. Prepara√ß√£o e Enriquecimento dos Dados**
- **Limpeza e valida√ß√£o**: Tratamento de valores nulos, padroniza√ß√£o de nomenclaturas geogr√°ficas
- **Enriquecimento geogr√°fico**: Integra√ß√£o de coordenadas latitude/longitude para an√°lise espacial
- **Codifica√ß√£o categ√≥rica**: Convers√£o de vari√°veis geogr√°ficas (estado, cidade, bairro) em c√≥digos num√©ricos
- **Score de potencial**: Cria√ß√£o de m√©trica composta baseada em vendas de √≥culos de grau, n√∫mero de clientes e receita total

### **2. Segmenta√ß√£o Estrat√©gica**
- **Separa√ß√£o SP vs Outros Estados**: Reconhecimento de que S√£o Paulo possui din√¢mica de mercado distinta
- **Justificativa**: SP concentra maior densidade de lojas e diferentes padr√µes de consumo
- **Datasets independentes**: `dados_sp` (108 registros) e `dados_outros_estados` (169 registros)

### **3. An√°lise de Clustering por Segmento**

#### **S√£o Paulo (SP)**
- **M√©todo**: KMeans com range k=2 a 8
- **K √≥timo identificado**: **2 clusters**
- **M√©tricas de qualidade**:
  - **Silhouette Score**: 0.6429 (boa separa√ß√£o)
  - **Pseudo R¬≤**: 0.6488 (explica 64.88% da vari√¢ncia)
- **Interpreta√ß√£o**: SP divide-se em dois mercados distintos - provavelmente capital/metropolitana vs interior

#### **Outros Estados**
- **M√©todo**: KMeans com range k=2 a 8  
- **K √≥timo identificado**: **3 clusters**
- **M√©tricas de qualidade**:
  - **Silhouette Score**: 0.5476 (separa√ß√£o moderada)
  - **Pseudo R¬≤**: 0.4833 (explica 48.33% da vari√¢ncia)
- **Interpreta√ß√£o**: Tr√™s perfis regionais distintos - possivelmente Sul/Sudeste, Nordeste, Norte/Centro-Oeste

### **4. Valida√ß√£o e Normaliza√ß√£o**
- **Cria√ß√£o de m√©tricas por loja**: `vendas_por_loja`, `receita_por_loja`, `clientes_por_loja`
- **Objetivo**: Evitar vi√©s de regi√µes com alta concentra√ß√£o de lojas
- **Correla√ß√µes identificadas**: Valida√ß√£o de associa√ß√µes entre clusters e m√©tricas de performance
- **Checkpoints estruturais**: Verifica√ß√£o de integridade antes e ap√≥s transforma√ß√µes

### **5. Identifica√ß√£o de Oportunidades**
- **Centr√≥ides geogr√°ficos**: C√°lculo de pontos ideais teoricamente √≥timos por cluster
- **Mapeamento para locais reais**: Utiliza√ß√£o de dist√¢ncia Haversine para encontrar regi√µes existentes mais pr√≥ximas
- **Prioriza√ß√£o interna**: Ranking de clusters por potencial m√©dio dentro de cada escopo (SP/Outros)

---

## üìà **Principais Resultados e Insights**

### **üéØ Sugest√µes de Expans√£o Geradas**
- **Total de sugest√µes**: **5 locais estrat√©gicos**
- **Distribui√ß√£o**: 2 em S√£o Paulo + 3 em outros estados
- **Arquivo exportado**: `sugestoes_expansao_para_supervisionado.csv` (19 colunas, estrutura completa)

### **üîç An√°lise Detalhada por Escopo**

#### **S√£o Paulo - 2 Clusters Identificados**

**Cluster 0 (Prioridade 1)**:
- **Localiza√ß√£o sugerida**: S√£o Paulo Capital (-23.55, -46.63)
- **Potencial m√©dio**: 658.76 (alt√≠ssimo)
- **Potencial m√°ximo**: 3,276.19
- **Vendas atuais na regi√£o**: 1,061 √≥culos de grau
- **Efici√™ncia**: 3.89 vendas/loja, 8.76 receita/loja
- **Insight**: **Mercado maduro de alta performance** - regi√£o central/metropolitana com excelente retorno por loja

**Cluster 1 (Prioridade 2)**:
- **Localiza√ß√£o sugerida**: Interior de SP (-21.18, -47.81)
- **Potencial m√©dio**: 17.45 (baixo-moderado)
- **Vendas atuais**: 13 √≥culos de grau
- **Efici√™ncia**: 3.25 vendas/loja, 8.99 receita/loja
- **Insight**: **Mercado emergente no interior** - menor volume absoluto mas boa efici√™ncia por loja, indicando potencial de crescimento

#### **Outros Estados - 3 Clusters Identificados**

**Cluster 0 (Prioridade 1)**:
- **Localiza√ß√£o sugerida**: Sudeste/MG (-21.56, -45.43)
- **Potencial m√©dio**: 102.40
- **Insight**: **Extens√£o natural do eixo SP-MG** - aproveita proximidade e similaridade cultural

**Cluster 1 (Prioridade 2)**:
- **Localiza√ß√£o sugerida**: Nordeste/AL (-9.65, -35.73)
- **Potencial m√©dio**: 75.72
- **Insight**: **Mercado nordestino consolidado** - regi√£o com bom potencial e presen√ßa existente

**Cluster 2 (Prioridade 3)**:
- **Localiza√ß√£o sugerida**: Norte/AP (0.04, -51.06)
- **Potencial m√©dio**: 70.75
- **Insight**: **Fronteira de expans√£o** - maior risco mas potencial inexplorado

### **üìä Padr√µes Estrat√©gicos Identificados**

#### **1. Concentra√ß√£o vs Efici√™ncia**
- **SP domina volumes absolutos**: 1,074 vs 24 vendas (ratio 45:1)
- **Efici√™ncia por loja similar**: SP e outros estados mant√™m produtividade compar√°vel
- **Implica√ß√£o**: Expans√£o em SP deve focar densidade; outros estados devem priorizar penetra√ß√£o inicial

#### **2. Qualidade dos Clusters**
- **SP mais homog√™neo**: Silhouette 0.64 indica clusters bem definidos
- **Outros estados mais diversos**: Silhouette 0.55 reflete maior heterogeneidade regional
- **Pseudo R¬≤ sugere**: Vari√°veis escolhidas explicam melhor comportamento de SP (64.88%) vs outros (48.33%)

#### **3. Dispers√£o Geogr√°fica**
- **SP concentrado**: 2 clusters em raio relativamente pequeno
- **Outros espalhados**: 3 clusters cobrindo Sudeste, Nordeste e Norte
- **Estrat√©gia log√≠stica**: SP permite opera√ß√£o centralizada; outros exigem hubs regionais

---

## üß† **Insights Estrat√©gicos e Recomenda√ß√µes**

### **üéØ Prioriza√ß√£o de Investimentos**

**1. Curto Prazo (0-6 meses)**
- **Foco em SP Cluster 0**: ROI mais previs√≠vel, mercado conhecido
- **Teste em MG (Outros Cluster 0)**: Expans√£o natural do sucesso paulista

**2. M√©dio Prazo (6-18 meses)**
- **Interior de SP**: Aproveitar marca consolidada para penetrar interior
- **Nordeste**: Estabelecer posi√ß√£o em mercado regional estrat√©gico

**3. Longo Prazo (18+ meses)**
- **Norte/Centro-Oeste**: Avalia√ß√£o ap√≥s aprendizado em outros mercados

### **üî¨ Valida√ß√µes T√©cnicas Realizadas**

**1. Robustez Metodol√≥gica**
- M√∫ltiplas m√©tricas de valida√ß√£o (silhouette, in√©rcia, pseudo R¬≤)
- Tratamento defensivo de dados (verifica√ß√µes de exist√™ncia, fallbacks)
- Normaliza√ß√£o por loja para evitar vi√©s de escala

**2. Consist√™ncia dos Resultados**
- Correla√ß√µes positivas entre clusters e m√©tricas de performance
- Padr√µes geogr√°ficos coerentes com conhecimento de mercado
- M√©tricas balanceadas entre volume e efici√™ncia

**3. Reprodutibilidade**
- Pipeline estruturado e documentado
- Fun√ß√µes reutiliz√°veis (Haversine, pseudo R¬≤, normaliza√ß√£o)
- Exporta√ß√£o padronizada para etapas posteriores

---

## ‚ö†Ô∏è **Limita√ß√µes e Considera√ß√µes**

### **1. Limita√ß√µes dos Dados**
- **Snapshot temporal**: An√°lise baseada em momento espec√≠fico, sem s√©ries hist√≥ricas
- **Vari√°veis limitadas**: N√£o incorpora sazonalidade, competi√ß√£o, demographics
- **Granularidade**: Agrega√ß√£o por regi√£o pode mascarar micro-oportunidades

### **2. Limita√ß√µes Metodol√≥gicas**
- **KMeans assume clusters esf√©ricos**: Pode n√£o capturar formas geogr√°ficas complexas
- **K √≥timo baseado em m√©tricas internas**: Valida√ß√£o externa com dados de neg√≥cio seria ideal
- **Pesos uniformes**: N√£o diferencia import√¢ncia relativa de vendas vs receita vs clientes

### **3. Riscos de Implementa√ß√£o**
- **Centr√≥ides te√≥ricos**: Locais sugeridos podem n√£o ter infraestrutura adequada
- **Sazonalidade n√£o modelada**: Padr√µes podem variar significativamente ao longo do ano
- **Competi√ß√£o local**: An√°lise n√£o considera presen√ßa de concorrentes

---

## üöÄ **Pr√≥ximos Passos Recomendados**

### **1. Valida√ß√£o de Campo**
- Visitas t√©cnicas aos locais sugeridos
- An√°lise de infraestrutura e acessibilidade
- Pesquisa de presen√ßa concorrencial

### **2. Enriquecimento de Dados**
- Incorpora√ß√£o de dados demogr√°ficos (renda, idade, educa√ß√£o)
- An√°lise de sazonalidade (dados hist√≥ricos)
- M√©tricas de concorr√™ncia e market share

### **3. Modelo Supervisionado**
- Utiliza√ß√£o do CSV exportado como base para predi√ß√£o
- Incorpora√ß√£o de vari√°veis externas (economia, clima, eventos)
- Desenvolvimento de sistema de scoring din√¢mico

### **4. Monitoramento Cont√≠nuo**
- Pipeline de atualiza√ß√£o autom√°tica
- Dashboard executivo com m√©tricas-chave
- Sistema de alertas para mudan√ßas significativas

---

## üéØ **Valor Estrat√©gico Entregue**

### **1. Para o Neg√≥cio**
- **5 oportunidades concretas** de expans√£o com localiza√ß√£o espec√≠fica
- **Prioriza√ß√£o baseada em dados** para aloca√ß√£o de capital
- **Redu√ß√£o de risco** atrav√©s de an√°lise quantitativa

### **2. Para Analytics**
- **Pipeline replic√°vel** para an√°lises futuras
- **Base estruturada** para modelos supervisionados
- **Metodologia escal√°vel** para outros produtos/regi√µes

### **3. Para Opera√ß√µes**
- **Coordenadas precisas** para scouting de pontos
- **M√©tricas de benchmark** para avalia√ß√£o de performance
- **Framework de decis√£o** para aprova√ß√£o de investimentos

---

**üèÜ Conclus√£o**: O pipeline de clusteriza√ß√£o n√£o supervisionado successfully identificou **padr√µes geogr√°ficos claros** nos dados de vendas da Chillie Beans, gerando **5 sugest√µes estrat√©gicas** de expans√£o com alta qualidade t√©cnica (Silhouette > 0.54, Pseudo R¬≤ > 0.48) e **relev√¢ncia operacional comprovada**. As descobertas suportam uma **estrat√©gia de expans√£o em duas frentes**: densifica√ß√£o no mercado maduro de S√£o Paulo e penetra√ß√£o seletiva em mercados emergentes regionais, proporcionando **funda√ß√£o s√≥lida** para decis√µes de investimento baseadas em evid√™ncias quantitativas.

**Dataset Final**: `sugestoes_expansao_para_supervisionado.csv` - 5 locais √ó 19 vari√°veis estrat√©gicas prontas para modelagem supervisionada e execu√ß√£o operacional.