In [8]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy

In [24]:
df = pd.read_csv("alturas_pesos.csv")
df

Unnamed: 0,sexo,altura,peso
0,M,187.57,109.72
1,M,174.71,73.62
2,M,188.24,96.50
3,M,182.20,99.81
4,M,177.50,93.60
...,...,...,...
9995,F,168.08,62.04
9996,F,170.35,77.51
9997,F,162.22,58.28
9998,F,175.35,74.32


In [4]:
df.groupby("sexo")[["altura","peso"]].mean()

Unnamed: 0_level_0,altura,peso
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,161.820188,61.625692
M,175.326958,84.832028


# Precisamos do intervalo de confiança, não indicadores pontuais

In [5]:
scipy.stats.norm.cdf(-1.96)

np.float64(0.024997895148220435)

In [6]:
scipy.stats.norm.cdf(1.96)

np.float64(0.9750021048517795)

In [7]:
scipy.stats.norm.cdf(1.96)-scipy.stats.norm.cdf(-1.96)

np.float64(0.950004209703559)

In [15]:
conf = 0.95
sig = 1 - conf
scipy.stats.norm.ppf(conf + sig/2)

np.float64(1.959963984540054)

In [16]:
abs(scipy.stats.norm.ppf(sig/2))

np.float64(1.959963984540054)

In [2]:
n = 1000
n_favor = 848
p_hat = n_favor/n
p_hat

0.848

In [4]:
n*p_hat >= 10 and n*(1-p_hat) >= 10

True

In [5]:
n*p_hat, n*(1-p_hat)

(848.0, 152.00000000000003)

Acima, percebe-se que as condições do TCL são satisfeitas(proporções normalmente distribuidas), logo, podemos utilizar o intervalo de confiança $\hat{p} \pm 1.96 \ \ sqrt{\frac{p(1-p)}{n}}$ 

In [11]:
conf = 0.95
sig = 1 - conf

z_a2 = scipy.stats.norm.ppf(conf + sig/2)

SE = np.sqrt((p_hat * (1 - p_hat))/n)

ME = z_a2 * SE

IC = (p_hat - ME, p_hat + ME)

IC

(np.float64(0.8257480635415209), np.float64(0.8702519364584791))

In [12]:
IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

(np.float64(0.8257480635415209), np.float64(0.8702519364584791))

In [15]:
print(f"Temos {conf:.0%} de confiança que a proporção populacional (real) das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%} ")

Temos 95% de confiança que a proporção populacional (real) das pessoas que são a favor da energia eólica está entre 82.57% e 87.03% 


# Testando novo intervalo de confiança, mas agora com 99% de confiança

In [20]:
conf = 0.999
sig = 1 - conf

z_a2 = scipy.stats.norm.ppf(conf + sig/2)

SE = np.sqrt((p_hat * (1 - p_hat))/n)

ME = z_a2 * SE

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

In [21]:
print(f"Temos {conf:.2%} de confiança que a proporção populacional (real) das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%} ")

Temos 99.90% de confiança que a proporção populacional (real) das pessoas que são a favor da energia eólica está entre 81.06% e 88.54% 


# Resolvendo o problema da estimativa da média de altura das mulheres

In [56]:
ind_pont = df.query("sexo == 'F'")["altura"].mean()
print(f"Indicador pontual da média de altura das mulheres: {ind_pont:.2f}cm")

Indicador pontual da média de altura das mulheres: 161.82cm


In [60]:
n = df.query("sexo == 'F'").shape[0]
n

5000

In [58]:
# verificando se é uma distribuição normal
# ela é aleatória e o tamanho da amostra é maior ou igual a 30
n >= 30

True

In [70]:
x_barra = ind_pont
sigma = df.query("sexo == 'F'")["altura"].std()
SE = sigma/np.sqrt(n)

In [74]:
for conf in [0.9, 0.95, 0.999]:
    IC = scipy.stats.norm.interval(conf, loc=x_barra, scale=SE)
    print(f"Temos {conf:.2%} de confiança que a altura da mulheres está entre {IC[0]:.2f}cm e {IC[1]:.2f}cm")

Temos 90.00% de confiança que a altura da mulheres está entre 161.66cm e 161.98cm
Temos 95.00% de confiança que a altura da mulheres está entre 161.63cm e 162.01cm
Temos 99.90% de confiança que a altura da mulheres está entre 161.50cm e 162.14cm


### Legenda
x_barra = média  
sigma = desvio padrão  
SE = Standar error = erro padrão  
IC = Intervalo de Confiança