In [None]:

# Imports para análise estatística e visualização
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import math

# Configurar estilo de gráficos
sns.set(style="whitegrid")


In [None]:

# Carregar o dataset localizado na raiz do repositório
df = pd.read_csv('dados_realistas.csv')
df.columns = df.columns.str.lower()  # normalize column names

# Visualizar as primeiras linhas do DataFrame
df.head()


In [None]:
# Estatísticas descritivas
#
# Calcular média, mediana, moda, desvio-padrão e variância para a taxa de aprovação e nota média.
media_aprov = df['taxa_aprovacao'].mean()
mediana_aprov = df['taxa_aprovacao'].median()
moda_aprov = df['taxa_aprovacao'].mode()[0]
desvio_aprov = df['taxa_aprovacao'].std()
variancia_aprov = df['taxa_aprovacao'].var()

media_nota = df['nota_media'].mean()
mediana_nota = df['nota_media'].median()
moda_nota = df['nota_media'].mode()[0]
desvio_nota = df['nota_media'].std()
variancia_nota = df['nota_media'].var()

print(f"TAXA APROVAÇÃO - MÉDIA: {media_aprov:.4f}")
print(f"TAXA APROVAÇÃO - MEDIANA: {mediana_aprov:.4f}")
print(f"TAXA APROVAÇÃO - MODA: {moda_aprov:.4f}")
print(f"TAXA APROVAÇÃO - DESVIO-PADRÃO: {desvio_aprov:.4f}")
print(f"TAXA APROVAÇÃO - VARIÂNCIA: {variancia_aprov:.4f}
")

print(f"NOTA MÉDIA - MÉDIA: {media_nota:.4f}")
print(f"NOTA MÉDIA - MEDIANA: {mediana_nota:.4f}")
print(f"NOTA MÉDIA - MODA: {moda_nota:.4f}")
print(f"NOTA MÉDIA - DESVIO-PADRÃO: {desvio_nota:.4f}")
print(f"NOTA MÉDIA - VARIÂNCIA: {variancia_nota:.4f}")

In [None]:

# Gráficos: Histograma, Boxplot e Dispersão
plt.figure(figsize=(15,4))

# Histograma com densidade
plt.subplot(1,3,1)
sns.histplot(df['taxa_aprovacao'], bins=20, kde=True)
plt.title('Histograma da Taxa de Aprovação')

# Boxplot
plt.subplot(1,3,2)
sns.boxplot(x=df['taxa_aprovacao'])
plt.title('Boxplot da Taxa de Aprovação')

# Dispersão (Infraestrutura x Taxa)
plt.subplot(1,3,3)
sns.scatterplot(x=df['infra_tecnologica'], y=df['taxa_aprovacao'])
plt.title('Dispersão: Infraestrutura x Taxa de Aprovação')

plt.tight_layout()
plt.show()


In [None]:
# Simulações de distribuições comuns
# Usar média e desvio da taxa de aprovação para a normal
normal_sim = np.random.normal(media_aprov, desvio_aprov, 1000)
# Uniforme entre valores mínimos e máximos da taxa de aprovação
uniform_sim = np.random.uniform(df['taxa_aprovacao'].min(), df['taxa_aprovacao'].max(), 1000)
# Exponencial com escala 1
expon_sim = np.random.exponential(scale=1, size=1000)
# t-Student com 10 graus de liberdade
t_sim = np.random.standard_t(df=10, size=1000)

plt.figure(figsize=(14,4))

plt.subplot(1,4,1)
sns.kdeplot(normal_sim)
plt.title('Normal')

plt.subplot(1,4,2)
sns.kdeplot(uniform_sim)
plt.title('Uniforme')

plt.subplot(1,4,3)
sns.kdeplot(expon_sim)
plt.title('Exponencial')

plt.subplot(1,4,4)
sns.kdeplot(t_sim)
plt.title('t-Student (df=10)')

plt.tight_layout()
plt.show()

In [None]:

# Teste de hipóteses para a média
hipotese_media = 0.75  # exemplo hipotético

t_stat, p_value = stats.ttest_1samp(df['taxa_aprovacao'], hipotese_media)

print(f"t = {t_stat:.4f}")
print(f"p-valor = {p_value:.4f}")

if p_value < 0.05:
    print("Rejeitamos H0: a média difere da hipótese")
else:
    print("Não rejeitamos H0: não há diferença significativa da média da hipótese")


In [None]:
# Cálculo do tamanho da amostra (95% de confiança)
Z = 1.96  # valor crítico para 95%
E = 0.02  # margem de erro admissível
# Utilizar o desvio padrão da taxa de aprovação para estimar o tamanho da amostra

tamanho_amostra = (Z**2 * desvio_aprov**2) / (E**2)

print(f"Tamanho mínimo da amostra para margem de erro de 2%: {math.ceil(tamanho_amostra)} escolas")