# Desafio Obrigatório — Análise de Dados de Vendas

Este notebook resolve o desafio obrigatório da disciplina de Data Science, conforme a apostila. O objetivo é realizar uma análise de vendas e despesas, tratando dados ausentes e aplicando funções estatísticas básicas.


In [5]:
import pandas as pd
import numpy as np


dados = {
    'Região': ['Norte', 'Norte', 'Sul', 'Sul', 'Norte'],
    'Mês': ['Jan', 'Fev', 'Jan', 'Fev', 'Mar'],
    'Vendas': [1500, np.nan, 2200, 1800, 2000],
    'Despesas': [300, 250, np.nan, 400, 350]
}


df = pd.DataFrame(dados)
df.to_excel("vendas.xlsx", index=False)
print("Arquivo 'vendas.xlsx' criado com sucesso!")

Arquivo 'vendas.xlsx' criado com sucesso!


## 2. Carregando e inspecionando os dados

In [None]:

df = pd.read_excel("vendas.xlsx")
print("Dados carregados:")
print(df)

📋 Dados carregados:
  Região  Mês  Vendas  Despesas
0  Norte  Jan  1500.0     300.0
1  Norte  Fev     NaN     250.0
2    Sul  Jan  2200.0       NaN
3    Sul  Fev  1800.0     400.0
4  Norte  Mar  2000.0     350.0


## 3. Tratamento de valores ausentes

In [8]:

df['Vendas'] = df['Vendas'].fillna(df['Vendas'].median())


df['Despesas'] = df['Despesas'].fillna(df['Despesas'].mean())

print("Dados após preenchimento dos valores ausentes:")
print(df)

Dados após preenchimento dos valores ausentes:
  Região  Mês  Vendas  Despesas
0  Norte  Jan  1500.0     300.0
1  Norte  Fev  1900.0     250.0
2    Sul  Jan  2200.0     325.0
3    Sul  Fev  1800.0     400.0
4  Norte  Mar  2000.0     350.0


## 4. Agrupamento por Região e Mês

In [9]:

agrupado = df.groupby(['Região', 'Mês']).agg({
    'Vendas': 'sum',
    'Despesas': 'mean'
}).reset_index()

print("Dados agrupados:")
print(agrupado)

Dados agrupados:
  Região  Mês  Vendas  Despesas
0  Norte  Fev  1900.0     250.0
1  Norte  Jan  1500.0     300.0
2  Norte  Mar  2000.0     350.0
3    Sul  Fev  1800.0     400.0
4    Sul  Jan  2200.0     325.0


## 5. Combinação horizontal das colunas 'Vendas' e 'Despesas'

In [11]:

vendas_despesas = np.hstack([df[['Vendas']], df[['Despesas']]])
print("Colunas combinadas (Vendas e Despesas):")
print(vendas_despesas)

Colunas combinadas (Vendas e Despesas):
[[1500.  300.]
 [1900.  250.]
 [2200.  325.]
 [1800.  400.]
 [2000.  350.]]


## 6. Sumário estatístico dos dados numéricos

In [12]:

estatisticas = df.describe()
print("Estatísticas descritivas:")
print(estatisticas)

# Mediana manual
medianas = df.median(numeric_only=True)
print("\n Medianas:")
print(medianas)

Estatísticas descritivas:
            Vendas    Despesas
count     5.000000    5.000000
mean   1880.000000  325.000000
std     258.843582   55.901699
min    1500.000000  250.000000
25%    1800.000000  300.000000
50%    1900.000000  325.000000
75%    2000.000000  350.000000
max    2200.000000  400.000000

 Medianas:
Vendas      1900.0
Despesas     325.0
dtype: float64
