# Projeto 6: Enriquecimento de Dados para Análise de Marketing
## Objetivo:
### Combinar dados de pedidos e de clientes para descobrir em qual região os clientes gastam mais, em média. 

In [None]:
import pandas as pd
df_clientes = pd.read_csv('clientes_regiao.csv')
df_pedidos = pd.read_csv('pedidos.csv')

## 1. Enriquecimento dos Dados com Merge
### Para conectar os pedidos aos clientes, usaremos um `left merge`.
### Isso garante que **todos os pedidos** sejam mantidos, mesmo aqueles sem um cliente correspondente.

In [29]:
df_completo = pd.merge(
    left=df_pedidos,      # Tabela da esquerda (queremos manter todas as suas linhas)
    right=df_clientes,    # Tabela da direita
    on='ID_Cliente',      # Chave de junção
    how='left'            # Método: mantenha tudo da esquerda!
)
print("--- Tabela Após o Merge ---")
display(df_completo)

--- Tabela Após o Merge ---


Unnamed: 0,ID_Pedido,ID_Cliente,Valor_Pedido,Nome,Regiao
0,1001,1,250.0,Ana Silva,Sudeste
1,1002,2,150.5,John Smith,Norte
2,1003,1,75.25,Ana Silva,Sudeste
3,1004,3,500.0,Maria Garcia,Sudeste
4,1005,8,300.0,,
5,1006,2,200.0,John Smith,Norte


## 2. Tratamento de Dados Pós-Merge
### O `left merge` criou uma linha com valores `NaN` (nulos) para o pedido do cliente 8, que não estava na nossa base de clientes.
### Para a análise de gastos por região, essa linha não é útil, então vamos removê-la.

In [30]:
df_analise = df_completo.dropna()
print("\n--- Tabela Pronta para Análise (sem nulos) ---")
display(df_analise)


--- Tabela Pronta para Análise (sem nulos) ---


Unnamed: 0,ID_Pedido,ID_Cliente,Valor_Pedido,Nome,Regiao
0,1001,1,250.0,Ana Silva,Sudeste
1,1002,2,150.5,John Smith,Norte
2,1003,1,75.25,Ana Silva,Sudeste
3,1004,3,500.0,Maria Garcia,Sudeste
5,1006,2,200.0,John Smith,Norte


## 3. Análise: Gasto Médio por Região
### Agora, com a tabela limpa e completa, podemos usar o `.groupby()` para responder à nossa pergunta.
### Vamos agrupar por 'Regiao' e calcular a **média** (`.mean()`) do 'Valor_Pedido'.

In [31]:
gasto_medio_regiao = df_analise.groupby('Regiao')['Valor_Pedido'].mean().round(2)

# Ordena os resultados para encontrar a maior média facilmente
gasto_medio_regiao_ordenado = gasto_medio_regiao.sort_values(ascending=False)

print("\n--- Resultado Final: Gasto Médio por Cliente em Cada Região ---")
display(gasto_medio_regiao_ordenado)

regiao_campea = gasto_medio_regiao_ordenado.index[0]
print(f"\nConclusão: A região onde os clientes gastam mais em média é a '{regiao_campea}'.")


--- Resultado Final: Gasto Médio por Cliente em Cada Região ---


Regiao
Sudeste    275.08
Norte      175.25
Name: Valor_Pedido, dtype: float64


Conclusão: A região onde os clientes gastam mais em média é a 'Sudeste'.
