<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Intervalos_de_confian%C3%A7a_e_Testes_de_hip%C3%B3teses.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística com Python: Um Guia para Estudos e Solução de Problemas**


## Breve Resumo:

Um intervalo de confiança é uma faixa de valores que provavelmente contém o valor verdadeiro de um parâmetro populacional. O intervalo de confiança é calculado a partir de uma amostra de dados e fornece uma medida de incerteza na estimativa do parâmetro populacional.

Quando Utilizar:

- Sempre que se deseja estimar um parâmetro populacional a partir de uma amostra.
- Sempre que se deseja especificar um nível de confiança para a estimativa.

# **Calculando os intervalos de confiança**

Para exemplificar esses cálculos, será necessário realizar a importação das bibliotecas que serão utilizadas, além de obtermos os dados para aplicação das técnicas dos intervalos.

Importando as bibliotecas necessárias para o nosso trabalho

In [1]:
# Manipulação de dados
import pandas as pd

# Álgebra  linear
import numpy as np

# Funções estatísticas
from scipy.stats import norm
from scipy import stats

# Visualização de dados
import seaborn as sns

# Biblioteca para cálculos matématicos
import math

Agora que as importações já foram realizadas, vamos gerar dados fictícios.

In [None]:
# Armazenando os dados
dados = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                  140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                  147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                  150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                  154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                  157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                  161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                  164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                  168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                  171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                  178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189., 192.5])

Agora que temos nossos dados, podemos seguir para a parte do cálculo propriamente dita. Para isso, seguiremos os seguintes passos:

- Criaremos uma variável para armazenar os intervalos.
- Utilizaremos a função norm.interval, passando como parâmetros o nível de confiança desejado, que nesse caso é de 95%.
- Passaremos também a média dos dados.
- Por último, utilizaremos a função scipy.stats, que calcula o erro padrão da média para um conjunto de dados.

In [None]:
# Realizando o cálculo dos intervalos de confiança
intervalos = norm.interval(0.95, dados.mean(), stats.sem(dados))

# Exbindo os intervalos
intervalos

(156.5611712378229, 161.9388287621771)

Dessa forma, podemos afirmar com 95% de certeza que a média populacional desses dados estará entre 156,56 e 161,93 cm, pois essa base se trata de uma base de altura.

In [None]:
# Calculando a margem de erro
margem_erro = dados.mean() - intervalos[0]

# Exibindo a margem
margem_erro

2.68882876217711

Podemos observar que temos uma margem de erro de aproximadamente 2,68 unidades. Isso indica que, nesse caso, temos 95% de certeza de que a média populacional está dentro de aproximadamente 2,68 unidades da média amostral.

Vamos observar o que acontece se aumentarmos o valor do intervalo de confiança.

In [None]:
# Realizando o cálculo dos intervalos de confiança
intervalos = norm.interval(0.99, dados.mean(), stats.sem(dados))

# Exbindo os intervalos
intervalos

(155.71628000694295, 162.78371999305705)

Podemos observar que, ao aumentar o intervalo de confiança, aumentamos também o intervalo de valores possíveis para a média populacional. Com 99% de certeza, podemos afirmar que a média populacional está entre 155,71 e 162,78.

Vamos observar agora a margem de erro.

In [None]:
# Calculando a margem de erro
margem_erro = dados.mean() - intervalos[0]

# Exibindo a margem
margem_erro

3.5337199930570478

Obtivemos uma margem de erro de 3,53. Como o intervalo de confiança aumentou, a margem de erro também aumentou. Isso significa que *um nível de confiança mais alto oferece uma garantia maior, mas ao custo de uma margem de erro mais ampla, o que torna a estimativa menos precisa.*

## Exercício

Imaginemos o seguinte exercício: digamos que temos em mãos os seguintes dados de salários anuais em dólares por ano.

In [2]:
# Gerando os dados
dados_salario = np.array([82.1191, 72.8014, 79.1266, 71.3552, 59.192 , 79.1952, 56.518 ,
                          70.3752, 73.5364, 61.0407, 64.3902, 66.4076, 63.5215, 71.9936,
                          60.1489, 78.5932, 76.0459, 67.7726, 64.6149, 80.1948, 76.7998,
                          76.1831, 80.7065, 62.4953, 57.204 , 62.5408, 80.0982, 63.287 ,
                          66.5826, 79.3674])

Agora, nossa tarefa é realizar os cálculos dos intervalos de confiança.

In [3]:
# Realizando o cálculo dos intervalos de confiança
intervalos = norm.interval(0.95, dados_salario.mean(), stats.sem(dados_salario))

# Exbindo os intervalos
intervalos

(67.26506308375339, 73.01545024957993)

Podemos afirmar, com 95% de confiança, que a média salarial das pessoas está no intervalo entre 67,26 e 73,01 dólares por ano.

# **Distribuição T de Student**

Breve resumo:

A distribuição t de Student é uma distribuição de probabilidade que é usada para estimar a média de uma população a partir de uma amostra pequena. A distribuição t de Student é uma aproximação da distribuição normal, mas é mais achatada, o que significa que é mais provável de produzir intervalos de confiança mais amplos.

Quando Utilizar:

- Sempre que se deseja estimar a média de uma população a partir de uma amostra pequena.
- Sempre que o desvio padrão populacional é desconhecido.

In [None]:
# Em breve!!!