# Intervalos de Confiança no Python

**Atenção**

Aqui, estamos fazendo um exercício hipotético! Sim, essas 40 mil linhas do dataset chamado "dados" também pode ser uma amostra. Tudo depende de como os dados doram gerados.

Mas, aqui estamos apenas "supondo" que se trata de todo o conjunto da população de clientes, A partir disso, vamos brincar de gerar amostras aleatórias, como acontece no dia-a-dia dos negócios de forma real.

*Lembrando também que os dados são fictícios e, principalmente, não se referem a clientes Itaú.* 


In [None]:
# Instalando a principal biblioteca Python para aplicações de probabilidade:
# !pip install scipy

# Caso tenha problemas de versão, instale as seguintes bibliotecas:
# !pip install numpy==1.19.3
# !pip install pandas==1.1.4

In [1]:
# Importando as lib
# Obs: se tiver algum problema com a importação por nao ter o pacote instalado pode instalar usando a linha acima !pip install <pacote>
import pandas as pd


# ler os dados
dados = pd.read_csv('../Database/marketing_data.csv')
print(f'Shape dos dados: {dados.shape}')
dados.head(10)

Shape dos dados: (120, 17)


Unnamed: 0,id_cliente,sucesso,idade,ocupacao,estado_civil,educacao_formal,produto_credito,produto_fin_imob,npl_90,tipo_contato,mes_contato,dia_semana_contato,num_contatos,dias_ult_contato,num_prev_conato,sucesso_prev,saldo
0,DNXO0711,nao,45,industria,casado,medio_completo,nao,sim,nd,email,jun,sex,3,999,0,nao_aplica,13000.42
1,DNXO0712,nao,46,ti,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.43
2,DNXO0713,nao,47,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.44
3,DNXO0714,nao,48,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.45
4,DNXO0715,nao,49,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.46
5,DNXO0716,nao,50,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.47
6,DNXO0717,nao,51,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.48
7,DNXO0718,nao,52,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.49
8,DNXO0719,nao,53,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.5
9,DNXO0720,nao,54,industria,casado,ensino_superior,nao,sim,nao,whatsapp,ago,qua,1,999,0,nao_aplica,13000.51


# Construindo um intervalo de confiança para a média amostral

In [2]:
import numpy as np

np.random.seed(1)   # Fixando a aleatoriedade para garantir que tenhamos os mesmos resultados.
from scipy.stats import t


N = 100 # Tamanho da amostra
amostra = dados.sample(N) # Coletando uma amostra da nossa população

t_value = t.ppf(0.975, N-1) # Valor de referência da distribuição t-Student
t_value = round(t_value, 2) # Arredondando para duas casas decimais

avg = amostra['idade'].mean() # Valor da média amostral
print(f'Média amostral: {avg:.2f}')

std = amostra['saldo'].std() # Desvio padrão calculado a partir da amostra.
print(f'Desvio padrão amostral: {std:.2f}')

lim_inf = avg - t_value * std / N ** 0.5 # Limite inferior do intervalo de confiança (95%)
limit_sup = avg + t_value * std / N ** 0.5 # Limite superior do intervalo de confiança (95%)

print(f'Intervalo de confiança: [{lim_inf:.2f}, {limit_sup:.2f}]')

Média amostral: 107.12
Desvio padrão amostral: 2.04
Intervalo de confiança: [106.72, 107.52]


### Usando a distribuição normal como aproximação para nossa distribuição de referência

In [3]:
import numpy as np
np.random.seed(1)   # Fixando a aleatoriedade para garantir que tenhamos os mesmos resultados.
from scipy.stats import norm


N = 100 # Tamanho da amostra
amostra = dados.sample(N) # Coletando uma amostra da nossa população

z_value = norm.ppf(0.975) # Valor de referência da distribuição normal
z_value = round(z_value, 2) # Arredondando para duas casas decimais

avg = amostra['saldo'].mean() # Valor da média amostral
print(f'Média amostral: {avg:.2f}')

std = amostra['saldo'].std() # Desvio padrão calculado a partir da amostra.
print(f'Desvio padrão amostral: {std:.2f}')

lim_inf = avg - z_value * std / N ** 0.5 # Limite inferior do intervalo de confiança (95%)
limit_sup = avg + z_value * std / N ** 0.5 # Limite superior do intervalo de confiança (95%)

print(f'Intervalo de confiança: [{lim_inf:.2f}, {limit_sup:.2f}]')

Média amostral: 13002.36
Desvio padrão amostral: 2.04
Intervalo de confiança: [13001.96, 13002.75]


# Checando se o valor esperado populacional pertence ao IC construído

In [4]:
from scipy.stats import norm
from pandas import Interval   # Para construção de intervalos de valores em Python.

checando = []

for i in range(1000):
    N = 100 # Tamanho da amostra
    amostra = dados.sample(N) # Coletando uma amostra da nossa população

    z_value = norm.ppf(0.975) # Valor de referência da distribuição normal
    z_value = round(z_value, 2) # Arredondando para duas casas decimais

    avg = amostra['saldo'].mean() # Valor da média amostral
    std = amostra['saldo'].std() # Desvio padrão calculado a partir da amostra.

    lim_inf = avg - z_value * std / N ** 0.5 # Limite inferior do intervalo de confiança (95%)
    limit_sup = avg + z_value * std / N ** 0.5 # Limite superior do intervalo de confiança (95%)

    intervalo = Interval(left=lim_inf, right=limit_sup, closed='both')
    check = dados['saldo'].mean() in intervalo  # Checando se o "valor esperado populacional" se encontra no intervalo de confiança.
    checando.append(check)  # Armazenando na lista de checks.

print(f'O valor verdadeiro da média do saldo se encontra no IC construído em: {(sum(checando) / 1000) * 100:.0f}% das vezes!')

O valor verdadeiro da média do saldo se encontra no IC construído em: 100% das vezes!


# Construindo um intervalo de confiança para a proporção amostral


Usando a distribuição normal como aproximação para nossa distribuição de referência

In [5]:
import numpy as np
np.random.seed(1)   # Fixando a aleatoriedade para garantir que tenhamos os mesmos resultados.
from scipy.stats import norm


N = 100 # Tamanho da amostra
amostra = dados.sample(N) # Coletando uma amostra da nossa população
amostra['sucesso_bin'] = amostra['sucesso'].apply(lambda x: 1 if x == 'sim' else 0) # Criando a variável de Bernoulli.

z_value = norm.ppf(0.975) # Valor de referência da distribuição normal
z_value = round(z_value, 2) # Arredondando para duas casas decimais

avg = amostra['sucesso_bin'].mean() # Valor da média amostral (aqui, a proporção amostral)
print(f'Proporção amostral: {avg:.2f}')

lim_inf = avg - z_value * (avg * (1 - avg) / N) ** 0.5 # Limite inferior do intervalo de confiança (95%)
limit_sup = avg + z_value * (avg * (1 - avg) / N) ** 0.5 # Limite superior do intervalo de confiança (95%)

print(f'Intervalo de confiança: [{lim_inf:.2f}, {limit_sup:.2f}]')

Proporção amostral: 0.27
Intervalo de confiança: [0.18, 0.36]


# Checando se o valor esperado populacional pertence ao IC construído

In [6]:
from scipy.stats import norm
from pandas import Interval   # Para construção de intervalos de valores em Python.

dados['sucesso_bin'] = dados['sucesso'].apply(lambda x: 1 if x == 'sim' else 0) # Criando a variável de Bernoulli.

checando = []

for i in range(1000):
    N = 100 # Tamanho da amostra
    amostra = dados.sample(N) # Coletando uma amostra da nossa população
    amostra['sucesso_bin'] = amostra['sucesso'].apply(lambda x: 1 if x == 'sim' else 0) # Criando a variável de Bernoulli.
    
    z_value = norm.ppf(0.975) # Valor de referência da distribuição normal
    z_value = round(z_value, 2) # Arredondando para duas casas decimais
    
    avg = amostra['sucesso_bin'].mean() # Valor da média amostral (aqui, a proporção amostral)
    
    lim_inf = avg - z_value * (avg * (1 - avg) / N) ** 0.5 # Limite inferior do intervalo de confiança (95%)
    limit_sup = avg + z_value * (avg * (1 - avg) / N) ** 0.5 # Limite superior do intervalo de confiança (95%)
    
    intervalo = Interval(left=lim_inf, right=limit_sup, closed='both')
    check = dados['sucesso_bin'].mean() in intervalo  # Checando se o "valor esperado populacional" se encontra no intervalo de confiança.
    checando.append(check)  # Armazenando na lista de checks.
    
print(f"Valor verdadeiro da probabilidade de sucesso: {dados['sucesso_bin'].mean():.4f}% das vezes!")
print(f"O valor verdadeiro da probabilidade de sucesso se encontra no IC construído em: {(sum(checando) / 1000) * 100:.0f}% das vezes!")

Valor verdadeiro da probabilidade de sucesso: 0.2417% das vezes!
O valor verdadeiro da probabilidade de sucesso se encontra no IC construído em: 100% das vezes!
