# Inferencia Estatística

## Bibliotecas Necessárias

In [1]:
import pandas as pd
import random
import numpy as np
import math
import matplotlib.pyplot as plt
import scipy.stats as stats
import statistics as sts

## Inferência Estatística e Amostragem

### Definição

Inferência estatística é uma área da Estatística cujo objetivo é fazer afirmações a partir de um
conjunto de valores representativos (amostra) sobre um universo e se assume que a amostra é muito
maior do que o conjunto de dados observados. Esta afirmação deve sempre vir acompanhada de
uma medida de precisão sobre sua veracidade. Para realizar este trabalho, o estatístico coleta
informações de dois tipos: experimentais (as amostras) e aquelas que obtém na literatura. As duas
principais escolas de inferência são a inferência frequentista (ou clássica) e a inferência bayesiana.


Variável Aleatória:
- Característico numérico do resultado de um experimento.
- É a Função que associa a cada elemento do espaço amostral um número real.
População e Amostra:

- População é o conjunto de todos os elementos ou resultados de um problema que está
sendo estudado.

- Amostra é qualquer subconjunto da população que contém os elementos que podem ser
observados e é onde as quantidades de interesse podem ser medidas.
Parâmetros:

 - Característica numérica (desconhecida) da distribuição dos elementos da população.
Estimador:
 - É a Função da amostra, construída com

### Tamanho da Amostra

- n = N*n0/N+n0
onde:
- N é o tamanho da população
- n0 é o tamanho da amotra 

Definindo o erro amostral tolerável E0.

In [22]:
## Exemplo
### Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de satisfação.
### Quantos colaboradores devem ser entrevistados para tal estudo?

N=2000

#E0 = 0.02
E0 = np.arange(0.01,0.1,0.01)
n0 =np.zeros(len(E0))
n0 = 1 / (E0**2)
n = np.divide(np.multiply(N,n0),np.sum((N,n0)))
print("Número da amostra de colaboradores:\n", n, "\n Intervalo de confiança:",E0)

Número da amostra de colaboradores:
 [1666.66666667 1111.11111111  714.28571429  476.19047619  333.33333333
  243.90243902  185.18518519  144.92753623  116.27906977] 
 Intervalo de confiança: [0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09]


  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)


In [42]:
## Exemplo
### Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de satisfação.
### Quantos colaboradores devem ser entrevistados para tal estudo?
E0 = 0.04
N = np.arange(1000,4000,1000)
n0 =np.zeros(len(N))
n0 = 1 / (E0**2)
n = np.round(np.divide(np.multiply(N,n0),np.sum((N,n0))))
print("Número da amostra de colaboradores:\n", n, "\n Intervalo de confiança:",E0)

Número da amostra de colaboradores:
 [385. 476. 517.] 
 Intervalo de confiança: 0.04


  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)


## Intervalo de Confiança

Definição:

Em estatística, o intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro
populacional desconhecido. ]

Introduzido na estatística por Jerzy Neyman em 1937, é um intervalo
observado (calculado a partir de observações) que pode variar de amostra para amostra e que, com
dada frequência (nível de confiança), inclui o parâmetro de interesse real não observável.

#### INTERVALO DE CONFIANÇA PARA A MÉDIA
Quando queremos estimar a média de uma população através de uma amostra temos dois casos
distintos a considerar: quando a variância da população é conhecida e quando ela é desconhecida.
A seguir, temos os dois casos.

  - Variância Conhecida
  - Variância Desconhecida 

### Variância Conhecida


 - 𝐼𝐶(𝜇, 1 − 𝛼) = (𝑋 − 𝑍 𝛼/2𝜎√𝑛; 𝑋 + 𝑍 𝛼/2𝜎√𝑛)

Z 90% = 1,64 - Z 94% = 1,88 - Z 95% = 1,96 - Z 98% = 2,33 - Z 99% = 2,58

In [32]:
### O projetista de uma indústria tomou uma amostra de 36 funcionários para verificar o tempo médio
### gasto para montar um determinado brinquedo. Lembrando que foi verificado que x_medio=19,9 e 𝜎 =5,73
### construir um intervalo de confiança de nível 95% para 𝜇.


### Na tabela da distribuição normal padronizada, obtemos que Z_0,025 = 1,96.

Z =1.96
x_medio = 19.9
desviopadrao = 5.73
n = 36

IC_esquerdo =round(x_medio - Z*(desviopadrao/np.sqrt(n)),2)
IC_direto = round(x_medio + Z*(desviopadrao/np.sqrt(n)),2)
IC = [IC_esquerdo, IC_direto]
print("Intervalo de confiança:", IC)

#Uma das principais interpretações do intervalo de confiança consiste em avaliar a incerteza que
#temos a respeito de estimarmos o parâmetro populacional 𝜇 a partir de uma amostra aleatória de
#tamanho n .

Intervalo de confiança: [18.03, 21.77]


### Variância Desconhecida

Tendo os conceitos básicos sobre intervalos de confiança, vamos agora tratar uma situação mais
realista: quando a variância 𝜎 2 da população é desconhecida.

𝑋− 𝜇𝑇=𝑠/√𝑛~ 𝑡 (𝑛−1)

Isto representa que a variável T tem distribuição t de Student com n-1 graus de liberdade.
Analogamente ao caso anterior, obtemos que:

ℙ (−𝑡 ((𝑛−1),𝛼/2) ≤𝑋−𝜇𝑠/√𝑛≤ 𝑡 ((𝑛−1),𝛼/2) ) = 1 − 𝛼

In [41]:
#Consideremos que o projetista de uma indústria tomou uma amostra de 36 funcionários para
#verificar o tempo médio gasto para montar um determinado brinquedo. Os tempos estão colocados
#na Tabela a seguir. Dado que o projetista não tem conhecimento da variabilidade da população,
#construir um intervalo de confiança com (1 − 𝛼) = 0,95 para a média 𝜇

dados =  np.array([17.1000, 16.8930, 14.6004, 13.0053,
29.6292, 19.2500, 17.7504, 24.6337,
29.3567, 25.0798, 16.7914, 29.4087,
23.8807, 15.2133, 19.1536, 30.3199,
13.0050, 24.6795, 29.3308, 20.7309,
16.4541, 26.2017, 21.7857, 19.7393,
24.6042, 18.6442, 21.2594, 26.9123,
16.9896, 32.8977, 21.3627, 15.4958,
18.3113, 23.6931, 19.5429, 16.3855])

x_media=dados.mean()
desviopadrao = dados.std()
Z = (x_media - desviopadrao)/
print("Média:", x_media, "\nDesvio padrão:", desviopadrao)
T = 2.03

#Substituindo esses valores na fórmula do intervalo de confiança temos que:
IC_esquerda = round(x_media -  T*(desviopadrao/np.sqrt(n)),2)
IC_direto = round(x_media +  T*(desviopadrao/np.sqrt(n)),2)
print("Intervalo de confiança:", [IC_esquerda, IC_direto])

Média: 21.391438888888885 
Desvio padrão: 5.312624233280875
Intervalo de confiança: [19.59, 23.19]


### INTERVALO DE CONFIANÇA PARA A PROPORÇÃO

Consideremos X a variável aleatória que representa a presença (ou não) de determinada
característica de uma população. Assim, temos que X tem distribuição de Bernoulli com
parâmetro P , no qual P representa a probabilidade de um determinado elemento da amostra ter a
característica de interesse.
 
 - Retiramos uma amostra aleatória 𝑋1 , … , 𝑋 𝑛 desta população. Cada
 - 𝑋𝑖 , 𝑖 = 1, … , 𝑛 tem distribuição de Bernoulli com parâmetro P , isto é,
 - com média 𝜇 = 𝑝 e variância 𝜎 2 = 𝑝(1 − 𝑝)
 - Neste caso, o estimador de máxima verossimilhança(𝑝̂ ) para o parâmetro populacional p é dado
por:

 - Utilizaremos três métodos diferentes para encontrar o intervalo de confiança para a proporção:
Aproximação Normal, Aproximação Normal com Correção de Continuidade e Binomial Exata.

In [46]:
#Numa amostra aleatória de tamanho n=700 foram encontrados 68 elementos defeituosos. Achar um
#intervalo de confiança de nível 95% para a proporção p de defeituosos.
N = 700
n = 68
confianca = 0.95
alfa = 1 - confianca
Z_0025 = 1.96
p = n/N
IC_direto = p+Z_0025*np.sqrt(p*(1-p)/N)
IC_esquerdo = p-Z_0025*np.sqrt(p*(1-p)/N)
IC = [IC_esquerdo, IC_direto]
print("Intervalo de confiança:", IC)

Intervalo de confiança: [0.07520359553267528, 0.119082118753039]


### INTERVALO DE CONFIANÇA PARA A VARIÂNCIA:

Consideremos uma amostra aleatória 𝑋1, … , 𝑋𝑛 de tamanho n de uma população com distribuição
normal com média 𝜇 e variância 𝜎^2 . Um estimador para 𝜎^2 é a variância amostral 𝑠^2 . Assim,
sabemos que a quantidade pivô é:

- Logo, o intervalo com nível 100(1 − 𝛼)% de confiança para 𝜎^2 será dado por

In [58]:
#O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável
#aleatória que se supõe ter distribuição normal. Pretende-se estudar a variabilidade do peso dos
#referidos componentes. Para isso, uma amostra de tamanho 11 foi obtida, cujos valores em grama
#são:
#98 97 102 100 98 101 102 105 95 102 100
#Construa um intervalo de confiança para a variância do peso, com um grau de confiança igual a
#95%.

dados =np.array([98, 97, 102, 100, 98, 101, 102, 105, 95, 102, 100])
n = len(dados)
x_media = dados.mean()
desviopadrao = sts.variance(dados)
confianca = 0.95
#Pela Tabela da distribuição qui-quadrado com 10 graus de liberdade, temos que:
alfa = 1 - confianca
Q0025 = 3.25
Q0975 = 20.48
IC_esquerdo = ((n-1)*desviopadrao)/Q0975
IC_direto = ((n-1)*desviopadrao)/Q0025

IC = [IC_esquerdo, IC_direto]
print(n)
print(x_media)
print(desviopadrao)
print("Intervalo de confiança:", n)
print("Intervalo de confiança:", IC)

11
100.0
8
Intervalo de confiança: 11
Intervalo de confiança: [3.90625, 24.615384615384617]


In [59]:
def calcula_numero_desvios_tstudent_para_confianca(confianca, tamanho_amostra):
    mean = 0
    std = 1
    rv = stats.t(df=(tamanho_amostra-1))
    return rv.interval(confianca)[1]

In [62]:
calcula_numero_desvios_tstudent_para_confianca(0.9545, 100)


2.025570485160514

In [63]:
calcula_numero_desvios_tstudent_para_confianca(0.99, 100)


2.6264054563851857

### RESUMINDO
Dada uma amostra, para calcular a margem de erro para dado grau de confiânça, faça o seguinte:

1-Calcule a média da amostra ex. media_amostra = np.mean(amostra)

2-Calcule o desvio da amostra ex. desvio_amostra = np.std(amostra)

3-Calcule quantos desvios precisará para seu grau de confiânça ex. numero_desvios = calcula_numero_desvios_tstudent_para_confianca(confiança, tamanho_amostra)

4-Calcule o desvio das amostras ex. desvio_amostras = desvio_amostra/np.sqrt(tamanho_amostra)

5-Calcule a margem de erro ex. margem_erro = numero_desvios*desvio_amostras

6-Calcule o intervalo ex. inferior = media_amostra-margem_erro, superior = media_amostra+margem_erro

## Teste de Hipóteses

Teste de Hipóteses é um procedimento que permite tomar uma decisão (aceitar ou rejeitar a
hipótese nula ) entre duas ou mais hipóteses (hipótese nula ou hipótese alternativa ), utilizando os
dados observados de um determinado experimento.

 Há diversos métodos para realizar o teste de hipóteses, dos quais se destacam o método de Fisher (teste de significância), o método de Neyman–Pearson e o método de Bayes.

 São dois os tipos de erros que podemos cometer na realização de um teste de hipóteses:
  - Rejeitar a hipótese 𝐻 0 , quando ela é verdadeira.
  - Não rejeitar a hipótese 𝐻 0 , quando ela é falsa.
![](img/teste_h.png)

Se a hipótese 𝐻0 for verdadeira e não rejeitada ou falsa e rejeitada, a decisão estará correta. No
entanto, se a hipótese 𝐻0 for rejeitada sendo verdadeira ou se não for rejeitada sendo falsa, a
decisão estará errada. O primeiro destes erros é chamado de Erro do Tipo I e a probabilidade de
cometê-lo é denotada pela letra grega 𝛼(alfa); o segundo é chamado de Erro do Tipo II e a
probabilidade de cometê-lo é denotada pela letra grega 𝛽 beta). Assim temos,

![](img/teste_erro.png)

### Testes de Hipóteses com média conhecida

![](img/media.png)

Vamos considerar que o erro mais importante a ser evitado seja o Erro do Tipo I. A probabilidade de
ocorrer o erro do tipo I 𝜎 é denominada nível de significância do teste. O complementar do nível de
significância (1 − 𝑎) é denominado nível de confiança. Supondo que o nível de significância 𝛼 seja
conhecido, temos condições de determinar o(s) valor(es) crítico(s). 

 - Se considerarmos o teste bilateral

![](img/g1.png)

 - Se considerarmos o teste unilateral à direita


![](img/g2.png)

 - Se consideramos o teste uniçateral à esquerda


![](img/g3.png)

Como foi dito inicialmente, o objetivo do teste de hipótese é determinar, através de uma estatística,
se a hipótese nula é aceitável ou não. Essa decisão é tomada considerando a região de rejeição ou
região crítica (RC). 

Caso o valor observado da estatística pertença à região de rejeição, rejeitamos 𝐻0 ; caso contrário, não rejeitamos 𝐻0. Analogamente, definimos a região de aceitação(complementar da região de rejeição): caso o valor observado pertença à região de aceitação, não rejeitamos 𝐻0 ; se não pertencer, rejeitamos.

![](img/g4.png)

In [64]:
# Exercício 1
#Um supervisor da qualidade quer testar, com base numa amostra aleatória de tamanho n = 35 e
#para um nível de significância 𝛼 = 0,05, se a profundidade média de um furo numa determinada
#peça é 72,4mm. O que podemos dizer se ele obteve 𝑋 = 73,2 mm e se sabe, de informações
#anteriores, que 𝜎 = 2,1 mm?

#Dados

n = 35
alfa = 0.05
x_medio = 73.2
media = 72.4
desvio_padrao = 2.1

#1. Primeiro vamos estabelecer as hipóteses:
#𝐻0 ∶ 𝜇 = 72,4
#𝐻1 : 𝜇 ≠ 72, 4

# como o teste é bilateral temos que :
Z_0025 = 1.96

#Critério: rejeitar 𝐻0 se 𝑍𝑜𝑏𝑠 < −1,96 ou se 𝑍𝑜𝑏𝑠 >1,96 em que:

Z_observado = (x_medio - media)/(desvio_padrao/np.sqrt(n))
print(Z_observado)



2.253744679276036


Conclusão: Como 𝑍𝑜𝑏𝑠 = 2,25 > 1,96, a hipótese nula deve ser rejeitada. Em outras palavras, não
podemos assumir que a média populacional 𝜇 seja igual a 72,4, isto é, a diferença entre 73,2 e 72,4
é significativa.


In [73]:
A = np.random.normal(25.0, 5.0, 10000)
B = np.random.normal(26.0, 5.0, 10000)

In [74]:
stats.ttest_ind(A, B)

Ttest_indResult(statistic=-13.667378837310217, pvalue=2.464559195550657e-42)

https://docs.scipy.org/doc/scipy/reference/tutorial/stats.html