
# Inferência Estatística

## Intervalo de Confiança


O intervalo de confiança é um conceito fundamental na estatística inferencial, usado para estimar a incerteza em torno de uma medida de interesse calculada a partir de uma amostra de dados. Ele oferece uma faixa de valores dentro da qual podemos afirmar, com um certo nível de confiança, que o parâmetro populacional verdadeiro está localizado.

Quando realizamos uma pesquisa ou um experimento, geralmente lidamos com uma amostra da população, e não com a população inteira. Por exemplo, se queremos saber a altura média dos estudantes em uma escola, é mais prático medir a altura de um grupo aleatório de estudantes (amostra) do que de todos os estudantes (população). A partir dessa amostra, calculamos uma estimativa pontual, como a média amostral. No entanto, essa estimativa pontual é apenas uma aproximação do valor verdadeiro da população. Para expressar a precisão dessa estimativa, utilizamos o intervalo de confiança.

O que nos dá 3 componentes:

**Estimativa Pontual**: É o valor calculado a partir da amostra, como a média ou a proporção amostral ou desvio padrão.


**Margem de erro**: É o valor que determina a amplitude do intervalo de confiança em torno da estimativa pontual. A margem de erro depende da variabilidade dos dados, do tamanho da amostra e do nível de confiança desejado

**Nível de confiança**: É a probabilidade de que o intervalo de confiança contenha o verdadeiro parâmetro populacional. Comummente utilizado em 90%, 95% ou 99%, o nível de confiança representa a frequência com que intervalos calculados da mesma forma conterão o parâmetro verdadeiro se repetirmos a amostragem várias vezes.



Dizer que temos um intervalo de confiança de 95% significa que, se repetirmos o processo de amostragem e construção do intervalo inúmeras vezes, cerca de 95% desses intervalos conterão a verdadeira média. Não significa que há 95% de probabilidade de o intervalo específico conter a média verdadeira, mas sim que o método que usamos para calcular esse intervalo tem uma taxa de sucesso de 95%.



---

### Teste de Hipótese

O teste de hipótese é um procedimento estatístico usado para tomar decisões sobre uma população com base em amostras de dados. É uma técnica essencial na inferência estatística, permitindo que os pesquisadores determinem se os dados fornecem evidências suficientes para suportar ou rejeitar uma suposição sobre um parâmetro populacional.

#### Conceitos Fundamentais

1. **Hipótese Nula (H₀)**: É a hipótese inicial que se assume ser verdadeira até que se obtenham evidências contrárias. Geralmente, representa um status quo ou uma posição de "não efeito" ou "não diferença".
   
2. **Hipótese Alternativa (H₁ ou Ha)**: É a hipótese que se deseja testar. Ela representa uma nova afirmação ou a existência de um efeito ou diferença.

#### Etapas do Teste de Hipótese

1. **Formulação das Hipóteses**:
   - **H₀**: A média da população é igual a um valor específico (por exemplo, H₀: μ = μ₀).
   - **H₁**: A média da população é diferente do valor específico (por exemplo, H₁: μ ≠ μ₀).

2. **Escolha do Nível de Significância (α)**:
   - O nível de significância, geralmente 0,05, é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira. Ele define a tolerância para o erro tipo I.

3. **Seleção da Estatística de Teste**:
   - A escolha da estatística de teste depende da natureza dos dados e do tipo de teste. Pode ser um teste z, teste t, teste qui-quadrado, etc.

4. **Determinação da Região Crítica**:
   - Com base no nível de significância e na distribuição da estatística de teste, determina-se a região crítica, onde, se a estatística de teste cair, rejeitaremos H₀.

5. **Cálculo da Estatística de Teste**:
   - A estatística de teste é calculada a partir dos dados amosmpais. Para um teste z, por exemlo, pode ser calculada como $z = \frac{\bar{x} - \mu₀}{\sigma \sqrt{n}}$, onde $\bar{x} $ é a média amostral, $ \mu₀ $ é a média hipotética da população, $ \sigma $ é o desvio padrão da população e $ n $ é o tamanho da amostra.

6. **Tomada de Decisão**:
   - Compara-se a estatística de teste calculada com o valor crítico ou utiliza-se o valor p. Se a estatística de teste cair na região crítica ou se o valor p for menor queitamos H₀.

#### Exemplo Prático

Suponha que um fabricante de lâmpadas afirme que a vida útil média das suas lâmpadas é de 1000 horas. Um pesquisador deseja testar essa afirmação e coleta uma amostra de 50 lâmpadas, encontrando uma vida útil média de 980 horas com um desvio padrão de 60 horas.

1. **Formulação das Hipóteses**:
   - H₀: μ = 1000 horas
   - H₁: μ ≠ 1000 horas

2. **Nível de Significância**:
   - α = 0,05

3.atístist de Teste**:
   - Como o tamanho da amostra é grande (n > 30), usamos o teste z.
   - $ z = \frac{\bar{x} - \mu₀}{\sigma / \sqrt{n}} =\frac{980 - 1000}{60 / \sqrt{50}} \approx -2,36 $

4. **Região Crítica**:
   - Para α = 0,05 em um teste bicaudal, os valores críticos são aproximadamente ±1,96.

5. **Decisão**:
   - Como -2,36 está fora do intervalo de -1,96 a 1,96, rejeitamos H₀.

6. **Conclusão**:
   - Há evidências suficientes para rejeitar a hipótese nula de que a vida útil média das lâmpadas é de 1000 horas.

#### Tipos de Erros

- **Erro Tipo I (α)**: Rejeitar a hipótese nula quando ela é verdadeira.

In [1]:
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt

# Intervalo de Confiança

Qual utilizar?

Estatística z: média e n > 30

Estatística t: média e n < 30

Estatística Chi quadrado: desvio padrão n < 30

Estatística z: desvio padrão n > 30

Proporção: binomial e n < 30

Proporção: Estatística z  e n > 30

O bootstrap é uma técnica de reamostragem que pode ser usada para construir intervalos de confiança. O intervalo de confiança é um intervalo numérico associado a uma probabilidade, que representa a confiança de que o intervalo contém um parâmetro populacional, como a média ou o desvio-padrão. O bootstrap é útil em situações em que outras técnicas não são aplicáveis, como quando o tamanho das amostras é reduzido.


In [2]:
def get_test_suggestion():
    # Perguntas interativas
    data_type = input("Os seus dados são numéricos (1) ou categóricos (2)? Digite 1 ou 2: ")

    if data_type == '1':
        num_samples = input("Você tem uma amostra (1) ou duas amostras (2)? Digite 1 ou 2: ")
        normality = input("Os seus dados seguem uma distribuição normal? (sim/não): ").strip().lower()
        sample_size = int(input("Qual é o tamanho da sua amostra (ou da menor amostra se forem duas)? "))

        if num_samples == '1':
            if normality == 'sim' and sample_size > 30:
                return 'Use a fórmula do intervalo de confiança para a média (Z-distribuição)'
            elif normality == 'sim' and sample_size <= 30:
                return 'Use a fórmula do intervalo de confiança para a média (T-distribuição)'
            else:
                return 'Use o intervalo de confiança bootstrap'
        elif num_samples == '2':
            paired = input("As amostras são pareadas (dois dados que tem que estar juntos)? (sim/não): ").strip().lower()
            if paired == 'sim':
                if normality == 'sim' and sample_size > 30:
                    return 'Use o intervalo de confiança para a diferença de médias pareadas (Z-distribuição)'
                elif normality == 'sim' and sample_size <= 30:
                    return 'Use o intervalo de confiança para a diferença de médias pareadas (T-distribuição)'
                else:
                    return 'Use o intervalo de confiança bootstrap para médias pareadas'
            else:
                if normality == 'sim' and sample_size > 30:
                    return 'Use o intervalo de confiança para a diferença de médias independentes (Z-distribuição)'
                elif normality == 'sim' and sample_size <= 30:
                    return 'Use o intervalo de confiança para a diferença de médias independentes (T-distribuição)'
                else:
                    return 'Use o intervalo de confiança bootstrap para médias independentes'
    elif data_type == '2':
        num_samples = input("Você tem uma amostra (1) ou duas amostras (2)? Digite 1 ou 2: ")
        if num_samples == '1':
            return 'Use o intervalo de confiança para proporções (Z-distribuição)'
        elif num_samples == '2':
            return 'Use o intervalo de confiança para a diferença de proporções (Z-distribuição)'

# Chamada da função para sugerir o teste
suggestion = get_test_suggestion()
print(f"Sugestão: {suggestion}")

Sugestão: Use a fórmula do intervalo de confiança para a média (T-distribuição)


In [3]:
#Intervalo para média de 1 amostra

# Dados da amostra
data = np.random.normal(loc=100, scale=15, size=50)  # Exemplo: amostra de tamanho 50, média 100, desvio padrão 15

# Calculando o intervalo de confiança para a média
confidence_level = 0.95
mean, sigma = np.mean(data), np.std(data)
n = len(data)
z = stats.norm.ppf((1 + confidence_level) / 2)
margin_of_error = z * (sigma / np.sqrt(n))

lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("Intervalo de Confiança para a Média (95%):", (lower_bound, upper_bound))

Intervalo de Confiança para a Média (95%): (np.float64(95.75029128874655), np.float64(105.00358544843516))


In [4]:
# Intervalo para média com 2 amostras

# Dados das duas amostras
data1 = np.random.normal(loc=100, scale=15, size=30)  # Exemplo: amostra A de tamanho 30, média 100, desvio padrão 15
data2 = np.random.normal(loc=110, scale=18, size=30)  # Exemplo: amostra B de tamanho 30, média 110, desvio padrão 18

# Calculando o intervalo de confiança para a diferença entre as médias
confidence_level = 0.95
mean_diff = np.mean(data1) - np.mean(data2)
s1, s2 = np.std(data1), np.std(data2)
n1, n2 = len(data1), len(data2)
std_err_diff = np.sqrt((s1 ** 2 / n1) + (s2 ** 2 / n2))
z = stats.norm.ppf((1 + confidence_level) / 2)
margin_of_error = z * std_err_diff

lower_bound = mean_diff - margin_of_error
upper_bound = mean_diff + margin_of_error

print("Intervalo de Confiança para a Diferença entre as Médias (95%):", (lower_bound, upper_bound))

Intervalo de Confiança para a Diferença entre as Médias (95%): (np.float64(-17.581466270175675), np.float64(-1.1826845757998345))


In [5]:
#Intervalo para proporções 1 amostra

# Dados da amostra
n = 500  # Tamanho da amostra
p_hat = 0.5  # Proporção amostral
z = stats.norm.ppf(0.95)  # Z-score para um intervalo de confiança de 95%
margin_of_error = z * np.sqrt((p_hat * (1 - p_hat)) / n)

lower_bound = p_hat - margin_of_error
upper_bound = p_hat + margin_of_error

print("Intervalo de Confiança para a Proporção (95%):", (lower_bound, upper_bound))

Intervalo de Confiança para a Proporção (95%): (np.float64(0.46321995477099426), np.float64(0.5367800452290057))


In [6]:
#Intervalo para proporções 2 amostras

# Dados das duas amostras
n1 = 500  # Tamanho da amostra 1
n2 = 500  # Tamanho da amostra 2
p1_hat = 0.6  # Proporção amostral 1
p2_hat = 0.55  # Proporção amostral 2
p_diff = p1_hat - p2_hat
z = stats.norm.ppf(0.95)  # Z-score para um intervalo de confiança de 95%
margin_of_error = z * np.sqrt((p1_hat * (1 - p1_hat) / n1) + (p2_hat * (1 - p2_hat) / n2))

lower_bound = p_diff - margin_of_error
upper_bound = p_diff + margin_of_error

print("Intervalo de Confiança para a Diferença entre as Proporções (95%):", (lower_bound, upper_bound))

Intervalo de Confiança para a Diferença entre as Proporções (95%): (np.float64(-0.0013605380398515124), np.float64(0.10136053803985137))


In [7]:
#Estatística t para média

# Dados da amostra
data = np.random.normal(loc=100, scale=15, size=5)  # Exemplo: amostra de tamanho 30, média 100, desvio padrão 15

# Calculando o intervalo de confiança para a média
confidence_level = 0.95
mean, sigma = np.mean(data), np.std(data)
n = len(data)
t = stats.t.ppf((1 + confidence_level) / 2, df=n-1)  # valor crítico da distribuição t
margin_of_error = t * (sigma / np.sqrt(n))

lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("Intervalo de Confiança para a Média (95%) utilizando t:", (lower_bound, upper_bound))


n = len(data)
z = stats.norm.ppf((1 + confidence_level) / 2)
margin_of_error = z * (sigma / np.sqrt(n))

lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("Intervalo de Confiança para a Média (95%) utilizando z:", (lower_bound, upper_bound))

Intervalo de Confiança para a Média (95%) utilizando t: (np.float64(72.06474056016413), np.float64(104.59296734962854))
Intervalo de Confiança para a Média (95%) utilizando z: (np.float64(76.84759814527368), np.float64(99.81010976451898))


In [8]:
#Chi quadrado -> desvio padrão

# Dados da amostra
data = np.random.normal(loc=100, scale=15, size=50)  # Exemplo: amostra de tamanho 50, média 100, desvio padrão 15

# Graus de liberdade e valor crítico da distribuição qui-quadrado
n = len(data)
df = n - 1
alpha = 0.05
chi2_lower = stats.chi2.ppf(alpha / 2, df)
chi2_upper = stats.chi2.ppf(1 - alpha / 2, df)

# Calculando os limites do intervalo de confiança para a variância
variance = np.var(data)
variance_lower = (n - 1) * variance / chi2_upper
variance_upper = (n - 1) * variance / chi2_lower

# Calculando os limites do intervalo de confiança para o desvio padrão
std_dev_lower = np.sqrt(variance_lower)
std_dev_upper = np.sqrt(variance_upper)

print("Intervalo de Confiança para o Desvio Padrão (95%):", (std_dev_lower, std_dev_upper))

Intervalo de Confiança para o Desvio Padrão (95%): (np.float64(11.325415761682383), np.float64(16.895012322573592))


In [9]:
600/1000

0.6

In [10]:
# Dados da amostra
n = 1000  # Tamanho da amostra
x = 600   # Número de eleitores que apoiam o candidato A

# Proporção amostral
p_hat = x / n

# Calculando o intervalo de confiança para a proporção utilizando a distribuição normal
z = stats.norm.ppf(0.95)  # Valor crítico para um intervalo de confiança de 95%
margin_of_error = z * np.sqrt((p_hat * (1 - p_hat)) / n)

lower_bound = p_hat - margin_of_error
upper_bound = p_hat + margin_of_error

print("Intervalo de Confiança para a Proporção de Eleitores que Apoiam o Candidato A (95%):", (lower_bound, upper_bound))

Intervalo de Confiança para a Proporção de Eleitores que Apoiam o Candidato A (95%): (np.float64(0.5745180371834723), np.float64(0.6254819628165277))


# Usando dataset Kaggle

https://www.kaggle.com/datasets/heptapod/titanic

In [11]:
import pandas as pd

# Carregar o dataset do Titanic do Kaggle
titanic_data = pd.read_csv('./titanic.csv')

# Remover linhas com valores ausentes na coluna 'Age'
titanic_data = titanic_data.dropna(subset=['Age'])

# Calcular o intervalo de confiança para a média da idade dos passageiros
confidence_level = 0.95
data = titanic_data['Age']
mean = np.mean(data)
std_dev = np.std(data)
n = len(data)
margin_of_error = stats.norm.ppf((1 + confidence_level) / 2) * (std_dev / np.sqrt(n))

lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("Intervalo de Confiança para a Média da Idade dos Passageiros (95%):", (lower_bound, upper_bound))
print("Média da Idade dos Passageiros no dataset:", mean)


Intervalo de Confiança para a Média da Idade dos Passageiros (95%): (np.float64(28.804344565087142), np.float64(30.202026710695897))
Média da Idade dos Passageiros no dataset: 29.50318563789152


# Teste de Hipótese

Suponha que uma empresa de fabricação de lâmpadas afirma que a vida útil média das suas lâmpadas é de 1000 horas. Coletamos uma amostra de 50 lâmpadas e encontramos uma vida útil média de 980 horas com um desvio padrão de 60 horas. Queremos testar se a vida útil média é diferente de 1000 horas com um nível de significância de 0,05.

In [12]:
# Dados da amostra
n = 50  # tamanho da amostra
sample_mean = 980  # média amostral
population_mean = 1000  # média populacional hipotética
sample_std = 60  # desvio padrão amostral

# Calculando a estatística t e o p-valor
t_statistic, p_value = stats.ttest_1samp(a=np.random.normal(loc=sample_mean, scale=sample_std, size=n), popmean=population_mean)

# Nível de significância
alpha = 0.05

# Exibindo os resultados
print(f"Estatística t: {t_statistic}")
print(f"Valor p: {p_value}")

# Decisão do teste
if p_value < alpha:
    print("Rejeitamos a hipótese nula. Há evidências suficientes para afirmar que a vida útil média das lâmpadas é diferente de 1000 horas.")
else:
    print("Não rejeitamos a hipótese nula. Não há evidências suficientes para afirmar que a vida útil média das lâmpadas é diferente de 1000 horas.")


Estatística t: -1.7507015729867137
Valor p: 0.0862561869823309
Não rejeitamos a hipótese nula. Não há evidências suficientes para afirmar que a vida útil média das lâmpadas é diferente de 1000 horas.


In [13]:
# Dados da amostra (pontuações dos alunos)
scores = [80, 85, 78, 90, 70, 82, 75, 88, 72, 85]

# Teste de hipótese para a média
mean = np.mean(scores)
alpha = 0.05
t_stat, p_value = stats.ttest_1samp(scores, 75)

if p_value < alpha:
    print("Rejeitar H0: A média é significativamente diferente de 75.")
else:
    print("Não rejeitar H0: A média não é significativamente diferente de 75.")

print("Média calculada:",mean)
t_stat

Rejeitar H0: A média é significativamente diferente de 75.
Média calculada: 80.5


np.float64(2.5815938261055966)

In [15]:
from statsmodels.stats.proportion import proportions_ztest

# Dados da amostra (satisfação dos clientes)
n_success = 70  # Número de clientes satisfeitos
n_total = 100   # Número total de clientes

# Teste de hipótese para proporção
alpha = 0.10
success_rate = n_success / n_total
z_stat, p_value = proportions_ztest(n_success, n_total, 0.6, alternative='larger')

if p_value < alpha:
    print("Rejeitar H0: A proporção de clientes satisfeitos é maior do que 0.6.")
else:
    print("Não rejeitar H0: A proporção de clientes satisfeitos não é maior do que 0.6.")

z_stat

Rejeitar H0: A proporção de clientes satisfeitos é maior do que 0.6.


np.float64(2.182178902359923)

# Usando Kaggle

https://www.kaggle.com/datasets/heptapod/titanic

In [17]:
# Carregar o dataset do Titanic do Kaggle
titanic_data = pd.read_csv('./titanic.csv')

# Remover linhas com valores ausentes na coluna 'Age' e 'Survived'
titanic_data = titanic_data.dropna(subset=['Age', 'sibsp'])

# Dividir o conjunto de dados em dois grupos: sobreviventes e não sobreviventes
survived = titanic_data[titanic_data['sibsp'] == 1]['Age']
not_survived = titanic_data[titanic_data['sibsp'] == 0]['Age']

# Teste de hipótese para comparar as médias de idade entre os grupos de sobreviventes e não sobreviventes
t_stat, p_value = stats.ttest_ind(survived, not_survived)

# Decisão com base no valor p
alpha = 0.05
if p_value < alpha:
    print("Rejeitar H0: As médias de idade são significativamente diferentes entre os grupos.")
else:
    print("Não rejeitar H0: Não há evidências de diferença significativa nas médias de idade entre os grupos.")

survived.mean(),not_survived.mean(),p_value

Não rejeitar H0: Não há evidências de diferença significativa nas médias de idade entre os grupos.


(np.float64(30.68420062695925),
 np.float64(30.24625140291807),
 np.float64(0.5921463153554066))