# Desafios de Data Science
### Este notebook apresenta a resolução dos desafios obrigatório e eletivo (Desafio 1) do módulo de Estatística para Data Science.
### Aluno: José Eduardo da Silva Bezerra

In [2]:

# Bibliotecas utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Estilo de gráficos
sns.set(style="whitegrid")


## Desafio Obrigatório - Análise de Dados de Vendas

In [None]:

# Criar DataFrame com os dados fornecidos
dados_vendas = pd.DataFrame({
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Oeste"],
    "Mês": ["Jan", "Fev", "Jan", "Fev", "Mar", "Jan"],
    "Vendas": [1700, np.nan, 2300, 1950, 2100, 1850],
    "Despesas": [320, 270, np.nan, 410, 360, 300]
})

# Salvar como Excel
excel_path = "relatorio_vendas.xlsx"
dados_vendas.to_excel(excel_path, index=False)
excel_path  # Caminho salvo


'vendas.xlsx'

In [None]:

# Carregar o arquivo
df = pd.read_excel(excel_path)

# Ver dados iniciais
print("Dados originais:")
print(df)

# Substituir NaN em 'Vendas' pela mediana e em 'Despesas' pela média
df["Vendas"].fillna(df["Vendas"].median(), inplace=True)
df["Despesas"].fillna(df["Despesas"].mean(), inplace=True)

# Agrupar por Região e Mês
agrupado = df.groupby(["Região", "Mês"]).agg({
    "Vendas": "sum",
    "Despesas": "mean"
}).reset_index()

# Mostrar resultado
print("\nDados agrupados:")
print(agrupado)

# Combinar colunas horizontalmente (hstack)
combinado = np.hstack([df["Vendas"].values.reshape(-1,1), df["Despesas"].values.reshape(-1,1)])
print("\nColunas combinadas (Vendas e Despesas):")
print(combinado)

# Sumário estatístico
print("\nSumário estatístico:")
print(df.describe())

#localizar o arquivo em excel
import os

print("Arquivo salvo em:", os.path.abspath(excel_path))



## Desafio Eletivo 1 - Análise de Idades e Testes Estatísticos

In [None]:

# Grupos de idade
grupo1 = np.array([14, 17, 19, 23, 24, 27, 29, 32, 36, 41])
grupo2 = np.array([16, 19, 22, 26, 27, 29, 33, 35, 39, 45])

# Estatísticas básicas
def resumo_estatistico(grupo):
    media = np.mean(grupo)
    variancia = np.var(grupo, ddof=1)
    iqr = stats.iqr(grupo)
    return media, variancia, iqr

media1, var1, iqr1 = resumo_estatistico(grupo1)
media2, var2, iqr2 = resumo_estatistico(grupo2)

print(f"Grupo 1 - Média: {media1:.2f}, Variância: {var1:.2f}, IQR: {iqr1:.2f}")
print(f"Grupo 2 - Média: {media2:.2f}, Variância: {var2:.2f}, IQR: {iqr2:.2f}")

# Teste de normalidade
sw1 = stats.shapiro(grupo1)
sw2 = stats.shapiro(grupo2)
print(f"Shapiro-Wilk Grupo 1: W={sw1.statistic:.4f}, p={sw1.pvalue:.4f}")
print(f"Shapiro-Wilk Grupo 2: W={sw2.statistic:.4f}, p={sw2.pvalue:.4f}")


In [None]:

# Escolha do teste
if sw1.pvalue > 0.05 and sw2.pvalue > 0.05:
    print("Distribuição normal - realizando teste t de Student...")
    t_result = stats.ttest_ind(grupo1, grupo2)
    print(f"Teste t: estatística t={t_result.statistic:.4f}, p={t_result.pvalue:.4f}")
else:
    print("Distribuição não-normal - realizando teste de Mann-Whitney...")
    mw_result = stats.mannwhitneyu(grupo1, grupo2, alternative='two-sided')
    print(f"Teste Mann-Whitney: estatística U={mw_result.statistic:.4f}, p={mw_result.pvalue:.4f}")

# Histogramas
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.histplot(grupo1, bins=5, kde=True, color='blue')
plt.title("Distribuição - Grupo 1")
plt.subplot(1,2,2)
sns.histplot(grupo2, bins=5, kde=True, color='green')
plt.title("Distribuição - Grupo 2")
plt.tight_layout()
plt.show()

# Boxplot comparando
plt.figure(figsize=(6,4))
sns.boxplot(data=[grupo1, grupo2])
plt.xticks([0,1], ["Grupo 1", "Grupo 2"])
plt.title("Boxplot Comparando Grupos")
plt.show()
