# Desafio Obrigatório – Análise de Dados de Vendas
**Autor:** Bernardo Simões  
**Data:** 17 de abril de 2025

Este notebook resolve o desafio obrigatório proposto na apostila de Estatística para Data Science.


In [None]:
import pandas as pd
import numpy as np
import os

In [3]:
def criar_dados_excel(nome_arquivo):
    # Cria um DataFrame com os dados de exemplo
    # e salva em um arquivo Excel
    data = {
        "Região": ["Norte", "Norte", "Sul", "Sul", "Norte"],
        "Mês": ["Jan", "Fev", "Jan", "Fev", "Mar"],
        "Vendas": [1500, np.nan, 2200, 1800, 2000],
        "Despesas": [300, 250, np.nan, 400, 350]
    }

    df = pd.DataFrame(data)
    df.to_excel(nome_arquivo, index=False, engine="openpyxl")
    print(f"\nArquivo '{nome_arquivo}' criado com sucesso.")

In [5]:
def carregar_dados(nome_arquivo):
    # Lê os dados do arquivo Excel e exibe suas informações básicas
    df = pd.read_excel(nome_arquivo)
    print("\nDados carregados do arquivo:")
    print(df)
    print("\nInformações do DataFrame:")
    print(df.info())
    return df

In [6]:
def tratar_dados(df):
    # Substitui valores ausentes em 'Vendas' com a mediana da coluna
    median_vendas = df["Vendas"].median()
    df["Vendas"] = df["Vendas"].fillna(median_vendas)

    # Substitui valores ausentes em 'Despesas' com a média da coluna
    mean_despesas = df["Despesas"].mean()
    df["Despesas"] = df["Despesas"].fillna(mean_despesas)

    print("\nDados após substituição de valores ausentes:")
    print(df)
    return df

In [7]:
def gerar_agrupamentos(df):
    # Agrupa os dados por Região e Mês, calculando a soma das vendas
    soma_vendas = df.groupby(["Região", "Mês"])["Vendas"].sum()
    print("\nSoma total de vendas por região e mês:")
    print(soma_vendas)

    # Calcula a média das despesas por Região e Mês
    media_despesas = df.groupby(["Região", "Mês"])["Despesas"].mean()
    print("\nMédia de despesas por região e mês:")
    print(media_despesas)

In [8]:
def combinar_colunas(df):
    # Cria um novo DataFrame com apenas as colunas Vendas e Despesas
    df_combinado = pd.concat([df["Vendas"], df["Despesas"]], axis=1)
    print("\nDataFrame com colunas Vendas e Despesas combinadas:")
    print(df_combinado)

In [9]:
def gerar_sumario(df):
    # Exibe estatísticas descritivas para as colunas numéricas
    print("\nSumário estatístico para colunas numéricas:")
    print(df.describe())
    print("\nMediana das colunas numéricas:")
    print(df.median(numeric_only=True))

In [10]:
# Execução do fluxo completo
nome_arquivo = "vendas.xlsx"
criar_dados_excel(nome_arquivo)
df = carregar_dados(nome_arquivo)
df = tratar_dados(df)
gerar_agrupamentos(df)
combinar_colunas(df)
gerar_sumario(df)


Arquivo 'vendas.xlsx' criado com sucesso.

Dados carregados do arquivo:
  Região  Mês  Vendas  Despesas
0  Norte  Jan  1500.0     300.0
1  Norte  Fev     NaN     250.0
2    Sul  Jan  2200.0       NaN
3    Sul  Fev  1800.0     400.0
4  Norte  Mar  2000.0     350.0

Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Região    5 non-null      object 
 1   Mês       5 non-null      object 
 2   Vendas    4 non-null      float64
 3   Despesas  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes
None

Dados após substituição de valores ausentes:
  Região  Mês  Vendas  Despesas
0  Norte  Jan  1500.0     300.0
1  Norte  Fev  1900.0     250.0
2    Sul  Jan  2200.0     325.0
3    Sul  Fev  1800.0     400.0
4  Norte  Mar  2000.0     350.0

Soma total de vendas por região e mês:
Região  Mês
Norte   Fev    1900.0
