<a href="https://colab.research.google.com/github/Santosdevbjj/relatoVendasLucros/blob/main/notebooks/exploracao_estatistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# üßÆ Explora√ß√£o Estat√≠stica ‚Äî Relat√≥rio de Vendas e Lucros\n",
    "Este notebook realiza uma an√°lise explorat√≥ria e estat√≠stica detalhada dos dados contidos nos arquivos `vendas.csv`, `produtos.csv`, `clientes.csv` e `regioes.csv`.\n",
    "\n",
    "O objetivo √© compreender padr√µes, identificar correla√ß√µes e gerar insights que poderiam ser traduzidos visualmente em um dashboard Power BI ‚Äî mesmo sem utiliz√°-lo diretamente."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Importa√ß√£o das bibliotecas essenciais\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "from scipy import stats\n",
    "plt.style.use('ggplot')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1Ô∏è‚É£ Carregamento e visualiza√ß√£o inicial dos dados"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Carrega os arquivos CSV\n",
    "vendas = pd.read_csv('../data/vendas.csv')\n",
    "produtos = pd.read_csv('../data/produtos.csv')\n",
    "clientes = pd.read_csv('../data/clientes.csv')\n",
    "regioes = pd.read_csv('../data/regioes.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Exibe uma amostra dos dados de vendas\n",
    "vendas.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2Ô∏è‚É£ Verifica√ß√£o e limpeza b√°sica dos dados"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Informa√ß√µes gerais sobre o dataset\n",
    "vendas.info()\n",
    "\n",
    "# Verifica valores nulos\n",
    "vendas.isna().sum()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Remove registros duplicados, se houver\n",
    "vendas.drop_duplicates(inplace=True)\n",
    "\n",
    "# Corrige tipos de dados\n",
    "vendas['data_venda'] = pd.to_datetime(vendas['data_venda'])\n",
    "vendas['lucro'] = vendas['lucro'].astype(float)\n",
    "vendas['preco_venda'] = vendas['preco_venda'].astype(float)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3Ô∏è‚É£ Estat√≠sticas descritivas e vis√£o geral"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Estat√≠sticas b√°sicas\n",
    "vendas.describe()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4Ô∏è‚É£ An√°lise de vendas e lucros por categoria de produto"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Junta os datasets\n",
    "dados_completos = vendas.merge(produtos, on='id_produto').merge(clientes, on='id_cliente').merge(regioes, on='id_regiao')\n",
    "\n",
    "# Agrupa por categoria de produto\n",
    "resumo_categoria = dados_completos.groupby('categoria_produto')[['quantidade', 'lucro']].sum().reset_index()\n",
    "resumo_categoria"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Gr√°fico de barras: Lucro por categoria de produto\n",
    "plt.figure(figsize=(8,5))\n",
    "sns.barplot(data=resumo_categoria, x='categoria_produto', y='lucro', palette='coolwarm')\n",
    "plt.title('Lucro Total por Categoria de Produto')\n",
    "plt.xlabel('Categoria')\n",
    "plt.ylabel('Lucro (R$)')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5Ô∏è‚É£ An√°lise temporal ‚Äî Tend√™ncia mensal de vendas e lucros"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Cria√ß√£o de colunas auxiliares\n",
    "dados_completos['ano_mes'] = dados_completos['data_venda'].dt.to_period('M')\n",
    "\n",
    "# Agrupamento mensal\n",
    "tendencia = dados_completos.groupby('ano_mes')[['quantidade', 'lucro']].sum().reset_index()\n",
    "\n",
    "# Gr√°fico de linha\n",
    "plt.figure(figsize=(10,5))\n",
    "plt.plot(tendencia['ano_mes'].astype(str), tendencia['lucro'], marker='o')\n",
    "plt.title('Tend√™ncia Mensal de Lucros')\n",
    "plt.xticks(rotation=45)\n",
    "plt.ylabel('Lucro (R$)')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6Ô∏è‚É£ Correla√ß√£o entre Pre√ßo, Quantidade e Lucro"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Matriz de correla√ß√£o\n",
    "corr = dados_completos[['preco_venda', 'quantidade', 'lucro']].corr()\n",
    "\n",
    "# Heatmap\n",
    "plt.figure(figsize=(6,4))\n",
    "sns.heatmap(corr, annot=True, cmap='Blues', fmt='.2f')\n",
    "plt.title('Correla√ß√£o entre Pre√ßo, Quantidade e Lucro')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 7Ô∏è‚É£ An√°lise de Lucro por Regi√£o"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "resumo_regiao = dados_completos.groupby('nome_regiao')[['lucro']].sum().sort_values(by='lucro', ascending=False)\n",
    "plt.figure(figsize=(8,5))\n",
    "sns.barplot(x=resumo_regiao.index, y=resumo_regiao['lucro'], palette='viridis')\n",
    "plt.title('Lucro Total por Regi√£o')\n",
    "plt.ylabel('Lucro (R$)')\n",
    "plt.xlabel('Regi√£o')\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 8Ô∏è‚É£ Teste estat√≠stico ‚Äî Distribui√ß√£o de lucros\n",
    "Vamos verificar se os lucros seguem uma distribui√ß√£o normal (usando Shapiro-Wilk)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "stat, p = stats.shapiro(dados_completos['lucro'])\n",
    "print(f'Estat√≠stica do teste: {stat:.3f} | Valor-p: {p:.5f}')\n",
    "\n",
    "if p > 0.05:\n",
    "    print('Os lucros seguem uma distribui√ß√£o aproximadamente normal.')\n",
    "else:\n",
    "    print('Os lucros N√ÉO seguem uma distribui√ß√£o normal.')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 9Ô∏è‚É£ Conclus√µes gerais\n",
    "\n",
    "‚úÖ Categorias de produtos com maiores lucros: observadas nas barras superiores do gr√°fico.\n",
    "\n",
    "‚úÖ Regi√µes mais lucrativas: destaque para aquelas com maiores barras no gr√°fico de regi√£o.\n",
    "\n",
    "‚úÖ Correla√ß√£o positiva entre pre√ßo de venda e lucro ‚Äî por√©m n√£o t√£o forte com quantidade.\n",
    "\n",
    "‚úÖ Lucros n√£o seguem distribui√ß√£o normal, sugerindo concentra√ß√£o em poucos produtos ou clientes.\n",
    "\n",
    "---\n",
    "**üìà Insight final:** esses resultados formam a base para o dashboard Power BI, que pode usar as mesmas agrega√ß√µes e filtros mostrados aqui (em pandas + matplotlib)."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "name": "python",
   "version": "3.11"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}