In [None]:

# Imports para análise estatística e visualização
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import math

# Configurar estilo de gráficos
sns.set(style="whitegrid")


In [None]:

# Carregar o dataset localizado na raiz do repositório
df = pd.read_csv('dataset_sintetico.csv')

# Visualizar as primeiras linhas do DataFrame
df.head()


In [None]:

# Estatísticas descritivas
media = df['taxa_aprovacao'].mean()
mediana = df['taxa_aprovacao'].median()
moda = df['taxa_aprovacao'].mode()[0]
desvio = df['taxa_aprovacao'].std()
variancia = df['taxa_aprovacao'].var()

print(f"MÉDIA: {media:.4f}")
print(f"MEDIANA: {mediana:.4f}")
print(f"MODA: {moda:.4f}")
print(f"DESVIO-PADRÃO: {desvio:.4f}")
print(f"VARIÂNCIA: {variancia:.4f}")


In [None]:

# Gráficos: Histograma, Boxplot e Dispersão
plt.figure(figsize=(15,4))

# Histograma com densidade
plt.subplot(1,3,1)
sns.histplot(df['taxa_aprovacao'], bins=20, kde=True)
plt.title('Histograma da Taxa de Aprovação')

# Boxplot
plt.subplot(1,3,2)
sns.boxplot(x=df['taxa_aprovacao'])
plt.title('Boxplot da Taxa de Aprovação')

# Dispersão (Infraestrutura x Taxa)
plt.subplot(1,3,3)
sns.scatterplot(x=df['TEM_ESTRUTURA_TEC'], y=df['taxa_aprovacao'])
plt.title('Dispersão: Infraestrutura x Taxa de Aprovação')

plt.tight_layout()
plt.show()


In [None]:

# Simulações de distribuições comuns
normal_sim = np.random.normal(media, desvio, 1000)
uniform_sim = np.random.uniform(df['taxa_aprovacao'].min(), df['taxa_aprovacao'].max(), 1000)
expon_sim = np.random.exponential(scale=1, size=1000)
t_sim = stats.t.rvs(df=10, size=1000)

plt.figure(figsize=(14,4))
for i, (nome, dados) in enumerate([
    ("Normal", normal_sim),
    ("Uniforme", uniform_sim),
    ("Exponencial", expon_sim),
    ("t-Student (df=10)", t_sim)
]):
    plt.subplot(1,4,i+1)
    sns.kdeplot(dados)
    plt.title(nome)

plt.tight_layout()
plt.show()


In [None]:

# Teste de hipóteses para a média
hipotese_media = 0.75  # exemplo hipotético

t_stat, p_value = stats.ttest_1samp(df['taxa_aprovacao'], hipotese_media)

print(f"t = {t_stat:.4f}")
print(f"p-valor = {p_value:.4f}")

if p_value < 0.05:
    print("Rejeitamos H0: a média difere da hipótese")
else:
    print("Não rejeitamos H0: não há diferença significativa da média da hipótese")


In [None]:

# Cálculo do tamanho da amostra (95% de confiança)
Z = 1.96  # valor crítico para 95%
E = 0.02  # margem de erro admissível
tamanho_amostra = (Z**2 * desvio**2) / (E**2)

print(f"Tamanho mínimo da amostra para margem de erro 2%: {math.ceil(tamanho_amostra)} escolas")
