In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import scipy

In [2]:
df = pd.read_csv("alturas_pesos.csv")

df

Unnamed: 0,sexo,altura,peso
0,M,187.57,109.72
1,M,174.71,73.62
2,M,188.24,96.50
3,M,182.20,99.81
4,M,177.50,93.60
...,...,...,...
9995,F,168.08,62.04
9996,F,170.35,77.51
9997,F,162.22,58.28
9998,F,175.35,74.32


In [3]:
df.groupby("sexo")[["altura", "peso"]].mean()  # estimador pontual

Unnamed: 0_level_0,altura,peso
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,161.820188,61.625692
M,175.326958,84.832028


In [4]:
# intervalos de confiança

scipy.stats.norm.cdf(-1.96)

0.024997895148220435

In [5]:
scipy.stats.norm.cdf(1.96)  

0.9750021048517795

In [6]:
scipy.stats.norm.cdf(1.96)-scipy.stats.norm.cdf(-1.96)

0.950004209703559

In [7]:
conf = 0.95
sig = 1 - conf

scipy.stats.norm.ppf(conf + sig/2)  # z score (desvio padrao)

1.959963984540054

In [8]:
# exemplo 1

n = 1000
n_favor = 848

p_hat = n_favor / n

p_hat

0.848

In [9]:
conf = 0.95
sig = 1 - conf

z_a2 = scipy.stats.norm.ppf(conf + sig/2)

SE = np.sqrt((p_hat*(1-p_hat))/n)

ME = z_a2*SE

IC = (p_hat - ME, p_hat + ME)

IC

(0.8257480635415209, 0.8702519364584791)

In [10]:
IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

IC

(0.8257480635415209, 0.8702519364584791)

In [11]:
print(f"Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 82.57% e 87.03%


In [12]:
# mudando confiança para 99% mantendo o mesmo n

conf = 0.99

p_hat = n_favor / n

SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 99% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 81.88% e 87.72%


In [13]:
# mantendo confiaça de 95% mas aumentando o n


conf = 0.95

n = 10000
n_favor = 8480

p_hat = n_favor / n

SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 84.10% e 85.50%


In [16]:
# exemplo 2

df.query("sexo == 'F'")["altura"].mean()

161.820188

In [18]:
n = df.query("sexo == 'F'").shape[0]

n

5000

In [20]:
x_barra = df.query("sexo == 'F'")["altura"].mean()

sigma = df.query("sexo == 'F'")["altura"].std()

SE = sigma/np.sqrt(n)

for conf in [0.9, 0.95, 0.99]:

    IC = scipy.stats.norm.interval(conf, loc=x_barra, scale=SE)

    print(f"Temos {conf:.0%} de confiança que a altura media das mulheres da cidade está entre {IC[0]:.2f} e {IC[1]:.2f}\n")

Temos 90% de confiança que a altura media das mulheres da cidade está entre 161.66 e 161.98

Temos 95% de confiança que a altura media das mulheres da cidade está entre 161.63 e 162.01

Temos 99% de confiança que a altura media das mulheres da cidade está entre 161.57 e 162.07

