<a href="https://colab.research.google.com/github/sebavassou/Estatistica_Inferencial/blob/main/Exercicio02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 Utilizando o dataset “dados_exercicios_FIES”, calcule e interprete o seguinte:

1) Intervalo de confiança (95%) para a média populacional do valor do renda percapita (variável “VL_RENDA_PERCAPITA”);

2) Intervalo de confiança (90%) para a proporção populacional de estudantes em situação de inadimplência (variável “ST_INADIMPLENCIA”)

3) Qual deve ser o tamanho da amostra ( n ) para que o erro no primeiro itervalo seja de apenas R$ 50 para mais ou para menos?

A resolução foi realizada utilizando python, conforme código abaixo:


In [2]:
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats import proportion

# Definindo uma exibição mais ampla para colunas
pd.set_option('display.max_columns', None)

# CArregando o dataset
df = pd.read_csv('dados_exercicio_FIES.csv', sep=';', decimal=',')

# Limpando as colunas
df.columns = df.columns.str.strip()

# Mostrando as informações do dataframe para verificar o carregamento
print("Initial DataFrame Info:")
df.info()

# --- 1) IC 95% para a média de VL_RENDA_PERCAPITA ---
print("\n--- 1) Intervalo de Confiança (95%) para a média da Renda Per Capita ---")

# Obter os dados relevantes
renda_percapita = df['VL_RENDA_PERCAPITA']
n = len(renda_percapita)
media_amostral = renda_percapita.mean()
desvio_padrao_amostral = renda_percapita.std(ddof=1) # ddof=1 for sample standard deviation

# Definir nível de confiança e graus de liberdade
confianca = 0.95
gl = n - 1

# Calcular o valor t crítico
t_critico = stats.t.ppf(1 - (1-confianca)/2, gl)

# Calcular o erro padrão e a margem de erro
erro_padrao_media = desvio_padrao_amostral / np.sqrt(n)
margem_erro_media = t_critico * erro_padrao_media

# Calcular o intervalo de confiança
ic_inferior_media = media_amostral - margem_erro_media
ic_superior_media = media_amostral + margem_erro_media

print(f"Tamanho da amostra (n): {n}")
print(f"Média amostral: R$ {media_amostral:.2f}")
print(f"Desvio padrão amostral: R$ {desvio_padrao_amostral:.2f}")
print(f"Valor t-crítico ({confianca*100:.0f}%): {t_critico:.3f}")
print(f"Margem de erro: R$ {margem_erro_media:.2f}")
print(f"IC 95%: ({ic_inferior_media:.2f}, {ic_superior_media:.2f})")

# --- 2) IC 90% para a proporção de inadimplência ---
print("\n--- 2) Intervalo de Confiança (90%) para a proporção de inadimplência ---")

# Obter os dados relevantes
inadimplencia = df['ST_INADIMPLENCIA']
n_inadimplencia = len(inadimplencia)
sucessos = (inadimplencia == 'S').sum()
p_hat = sucessos / n_inadimplencia

# Definir o nivel de confiança
confianca_prop = 0.90
alpha = 1 - confianca_prop

# Usando a aproximação normal

# Checando as condições
print(f"Verificando as condições de aproximação normal:")
print(f"n * p_hat = {n_inadimplencia} * {p_hat} = {n_inadimplencia * p_hat} >= 10")
print(f"n * (1-p_hat) = {n_inadimplencia} * {1-p_hat} = {n_inadimplencia * (1-p_hat)} >= 10")

# Calcular o valor z crítico
z_critico = stats.norm.ppf(1 - alpha/2)

# Calcular o erro padrão e a margem de erro
erro_padrao_prop = np.sqrt(p_hat * (1 - p_hat) / n_inadimplencia)
margem_erro_prop = z_critico * erro_padrao_prop

# Calcule o intervalo de confiança usando a fórmula
ic_inferior_prop = p_hat - margem_erro_prop
ic_superior_prop = p_hat + margem_erro_prop

print(f"Tamanho da amostra (n): {n_inadimplencia}")
print(f"Número de inadimplentes: {sucessos}")
print(f"Proporção amostral (p_hat): {p_hat:.2f}")
print(f"Valor z-crítico ({confianca_prop*100:.0f}%): {z_critico:.3f}")
print(f"Margem de erro: {margem_erro_prop:.4f}")
print(f"IC 90%: ({ic_inferior_prop:.3f}, {ic_superior_prop:.3f})")

# Alternativa usando statsmodels, para verificação
ic_statsmodels = proportion.proportion_confint(sucessos, n_inadimplencia, alpha=alpha, method='normal')
print(f"IC 90% (statsmodels): ({ic_statsmodels[0]:.3f}, {ic_statsmodels[1]:.3f})")


# --- 3) Tamanho da amostra para erro de R$ 50 na média ---
print("\n--- 3) Tamanho da amostra necessário para erro de R$ 50 ---")
# E é a margem de erro desejada
E = 50
# z_critico para 95% de confiança (do slide)
z_critico_95 = stats.norm.ppf(1 - (1-0.95)/2)
# Usar o desvio padrão amostral como estimativa para sigma
sigma_est = desvio_padrao_amostral

# Calcular o tamanho da amostra
n_necessario = ( (z_critico_95 * sigma_est) / E )**2

print(f"Margem de erro desejada (E): R$ {E}")
print(f"Desvio padrão estimado (sigma): R$ {sigma_est:.2f}")
print(f"Tamanho da amostra necessário (n): {n_necessario:.2f} (arredondando para cima: {np.ceil(n_necessario):.0f})")

Initial DataFrame Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 15 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              150 non-null    int64  
 1   SG_SEXO                         150 non-null    object 
 2   NU_IDADE                        150 non-null    int64  
 3   DS_RACA_COR                     150 non-null    object 
 4   SG_UF                           150 non-null    object 
 5   DS_ESTADO_CIVIL                 150 non-null    object 
 6   ST_DEFICIENCIA                  150 non-null    object 
 7   ST_ENSINO_MEDIO_ESCOLA_PUBLICA  150 non-null    object 
 8   ST_BOLSISTA_PROUNI              150 non-null    object 
 9   VL_RENDA_FAMILIAR_BRUTA_MENSAL  150 non-null    float64
 10  VL_RENDA_PESSOA_BRUTA_MENSAL    150 non-null    float64
 11  VL_RENDA_PERCAPITA              150 non-null    float64
 12  NU_SEMESTRE_