# Projeto Data Science: Análise Vendas Beach Tennis

In [None]:
# 1. Importar bibliotecas.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

sns.set(style="whitegrid")
%matplotlib inline

In [None]:
# 2. Upload e leitura dos dados.
from google.colab import files
uploaded = files.upload()  # Faça upload do arquivo Base Dados.xlsx

df = pd.read_excel('Base Dados.xlsx')

print("Dados carregados:")
print(df.head())
print("\nInformações gerais:")
print(df.info())

In [None]:
# 3. Limpeza e padronização.
df['Regiao'] = df['Regiao'].str.strip().str.title()
df['Segmento'] = df['Segmento'].str.strip().str.title()
df['Mes'] = df['Mes'].astype(int)
df['Ano'] = df['Ano'].astype(int)
df['QuantidadeItens'] = df['QuantidadeItens'].astype(int)

print("\nValores faltantes por coluna:")
print(df.isnull().sum())

## 4. Hipóteses (comentários para guiar a análise)
- Hipótese 1: A região Sudeste concentra a maior parte das vendas.
- Hipótese 2: Segmentos específicos, como 'Loja Especializada', apresentam maiores vendas.
- Hipótese 3: Vendas apresentam sazonalidade ao longo do ano.

In [None]:
import calendar

plt.figure(figsize=(14,7))

# Paleta de cores.
palette = sns.color_palette("tab10", n_colors=vendas_mes_ano['Ano'].nunique())

sns.lineplot(
    data=vendas_mes_ano,
    x='Mes',
    y='QuantidadeItens',
    hue='Ano',
    marker='o',
    palette=palette
)

# Adicionar valores nos pontos.
for ano in vendas_mes_ano['Ano'].unique():
    dados_ano = vendas_mes_ano[vendas_mes_ano['Ano'] == ano]
    for _, row in dados_ano.iterrows():
        plt.text(row['Mes'], row['QuantidadeItens']+10, f"{int(row['QuantidadeItens'])}",
                 horizontalalignment='center', size='small', color='black')

plt.title('Vendas Mensais por Ano', fontsize=18, weight='bold')
plt.xlabel('Mês', fontsize=14)
plt.ylabel('Quantidade Vendida', fontsize=14)
plt.xticks(ticks=range(1,13), labels=[calendar.month_abbr[m] for m in range(1,13)])
plt.grid(True, linestyle='--', alpha=0.6)
plt.legend(title='Ano')
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(12,8))

palette = sns.color_palette("pastel", len(vendas_regiao))

ax = sns.barplot(y=vendas_regiao.index, x=vendas_regiao.values, hue=vendas_regiao.index, palette=palette, legend=False)

for p in ax.patches:
    width = p.get_width()
    ax.annotate(f'{int(width)}',
                (width, p.get_y() + p.get_height() / 2.),
                ha='left', va='center', fontsize=12, fontweight='bold', color='black')

plt.title('Vendas Totais por Região', fontsize=18, weight='bold')
plt.xlabel('Quantidade Vendida', fontsize=14)
plt.ylabel('Região', fontsize=14)
plt.xticks(fontsize=12)
plt.yticks(fontsize=13)
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(12,8))

palette = sns.color_palette("pastel", len(vendas_segmento))

ax = sns.barplot(y=vendas_segmento.index, x=vendas_segmento.values, hue=vendas_segmento.index, palette=palette, legend=False)

for p in ax.patches:
    width = p.get_width()
    ax.annotate(f'{int(width)}',
                (width, p.get_y() + p.get_height() / 2.),
                ha='left', va='center', fontsize=11, fontweight='bold', color='black')

plt.title('Vendas Totais por Segmento', fontsize=18, weight='bold')
plt.xlabel('Quantidade Vendida', fontsize=14)
plt.ylabel('Segmento', fontsize=14)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.tight_layout()
plt.show()


In [None]:
# Top 10 Subcategorias por volume de vendas - gráfico horizontal com valores nas barras.
vendas_subcat = df.groupby('IDSubcategoriaProduto')['QuantidadeItens'].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(12,7))

palette = sns.color_palette("pastel", len(vendas_subcat))

ax = sns.barplot(y=vendas_subcat.index.astype(str), x=vendas_subcat.values, palette=palette)

# Adicionar valores nas barras.
for p in ax.patches:
    width = p.get_width()
    ax.annotate(f'{int(width)}',
                (width, p.get_y() + p.get_height() / 2.),
                ha='left', va='center',
                fontsize=12, fontweight='bold', color='black')

plt.title('Top 10 Subcategorias por Volume de Vendas', fontsize=18, weight='bold')
plt.xlabel('Quantidade Vendida', fontsize=14)
plt.ylabel('ID Subcategoria Produto', fontsize=14)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.tight_layout()
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

plt.figure(figsize=(12,8))

ax = sns.heatmap(
    vendas_estado_mes,
    annot=False,  # desliga o annot interno para fazer manual
    fmt='g',
    cmap='magma',
    linewidths=0.5,
    linecolor='gray',
    cbar_kws={'label': 'Quantidade Vendida'}
)

# Escreve os valores na cor branca ou preta dependendo do fundo.
for y in range(vendas_estado_mes.shape[0]):
    for x in range(vendas_estado_mes.shape[1]):
        valor = vendas_estado_mes.iloc[y, x]
        cor = 'white' if valor < vendas_estado_mes.values.max() * 0.6 else 'black'  # ajuste o limite 0.6 conforme quiser
        ax.text(x + 0.5, y + 0.5, f'{valor}',
                ha='center', va='center', color=cor, fontsize=10, fontweight='bold')

plt.title('Mapa de Calor - Vendas por Estado e Mês', fontsize=16, weight='bold')
plt.ylabel('Estado', fontsize=14)
plt.xlabel('Mês', fontsize=14)
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()


In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

# Preparar variáveis preditoras e alvo.
X = df[['Ano', 'Mes', 'Regiao', 'Segmento']]
y = df['QuantidadeItens']

# Separar treino e teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pré-processamento das variáveis categóricas.
categorical_features = ['Regiao', 'Segmento']
numeric_features = ['Ano', 'Mes']

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(drop='first'), categorical_features)
    ], remainder='passthrough')

# Modelo Random Forest.
modelo = Pipeline([
    ('preprocessador', preprocessor),
    ('regressor', RandomForestRegressor(random_state=42))
])

# Treinamento.
modelo.fit(X_train, y_train)

# Previsão.
y_pred = modelo.predict(X_test)

# Avaliação.
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Erro Quadrático Médio (MSE): {mse:.2f}')
print(f'Coeficiente de Determinação (R²): {r2:.2f}')


In [None]:
# Gráfico simples: valores reais vs previstos.
import matplotlib.pyplot as plt

plt.figure(figsize=(8,6))
plt.scatter(y_test, y_pred, alpha=0.6, edgecolor='k')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--', lw=2)
plt.xlabel('Quantidade Real')
plt.ylabel('Quantidade Prevista')
plt.title('Comparação entre Valores Reais e Previstos')
plt.grid(True)
plt.tight_layout()
plt.show()

# Mostrar as métricas principais com explicação clara.
from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Erro Quadrático Médio (MSE): {mse:.2f} — quanto menor, melhor o modelo.')
print(f'Coeficiente de Determinação (R²): {r2:.2f} — próximo de 1 indica bom ajuste.')


# Como interpretar o gráfico

- Cada ponto representa um par: quantidade real vendida (eixo X) e quantidade prevista pelo modelo (eixo Y).

- A linha vermelha tracejada representa o cenário ideal onde o valor previsto é exatamente igual ao real (linha y = x).

- Pontos próximos dessa linha indicam boas previsões.

- Pontos afastados indicam erros maiores (modelo errou ao prever).

## E os resultados da métrica?

- **MSE = 447.27** — quanto menor, melhor, e está menor que nos modelos anteriores, ótimo sinal.

- **R² = 0.35** — indica que o modelo explica cerca de 35% da variação das vendas. Ainda pode melhorar, mas é um avanço comparado aos modelos lineares simples anteriores.

## Por que ainda há pontos distantes da linha?

- Vendas podem ter muita variabilidade natural, sazonalidade, eventos específicos, que o modelo não captura.

- Pode ser interessante tentar modelos mais complexos ou incluir mais variáveis.


## 6. Reporting e Deploy  
- Organize gráficos, métricas e insights para apresentar os resultados.  
- Use Markdown para documentar o notebook.  
- Automatize atualizações com scripts ou crie dashboards interativos usando Dash, Streamlit ou Power BI.  