<a href="https://colab.research.google.com/github/jvataidee/ManualdeAnalisedeDadosPython/blob/master/cap6_estatistica_inferencial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**by: [João Ataíde](https://www.joaoataide.com)**
# **CAP 06: Estatítica Inferencial**

---



In [2]:
#importar bibliotecas
import pandas as pd
import numpy as np
import math
import random
import matplotlib.pyplot as plt
import seaborn as sns
import statistics as st
import scipy.stats as stats
from scipy.stats import chi2_contingency, spearmanr

### **Amostragem**

* `Poulação:` Conjunto de dados de todos o indivíduos, objetos ou elementos a serem estudados. `Censo` é o estudo de todos elementos de população, uma população pode ser `finita` permite contagem (ex. quantidade de empregados de uma empresa) ou `infinita` não permite contagem (ex. numero de produtos de uma fabrica em determinado período) .

* `Amostra` extração de um subconjunto colhidas na amostra e utilizado procedimentos esatísticos apropriados para generalizar, inferir ou tirar conclusões sobre a população.



### **Tipos de amostragem:**
- `Aleatória ou Probabilística` probabilidade de cada elemento da população é igual.
    * `Simples`
    * `Sistemática`
    * `Estratificada`
    * `Pro Conglomerados`

    * Vantagens: Seleção rogorosa e não permite subjetividade, Possibilidade de determinar matematicamente a dimensção da amostra e grau de confiança

    * Destanvagens: Dificuldade em obter lista completa da região, seleção aleatória pode gerar amostra dispersa.



- `Não Aleatória` probabilidade de alguns ou de todos elementos da população são desconhecidos.
    * `Pro conveniência`
    * `Por julgamento`
    * `Por Quotas`
    * `Bola de Neve`

    * Vantagens: Menor custo, menor tempo de estudo e mão de obra.

    * Destanvagens: há unidades do universo que não tem possibilidade a ser escolhida, pode ocorrer viés e nãos aber qual grau de confiança.


### **Amostragem Aleatória**


#### **Amostragem Aleatória Simples**


Método simples e mais importantes da seleção de amostra.

Planejamento:
1. Procedimento aleatóroio para sortear elementos da população com probabilidade igual.
2. Repetir processo até retirar uma amostra com n observações
3. Ao remover a amostra da população elemento pode ser removido `Sem Reposição` ou não removido `Com Reposição` permitindo que uma unidade seja sorteado mais de uma vez.

In [60]:
populacao = {
    'ID': list(range(1, 31)),
    'Valor': [6.4, 6.2, 7.0, 6.8, 7.2, 6.4, 6.5, 7.1, 6.8, 6.9, 7.0, 7.1, 6.6, 6.8, 6.7,
              6.3, 6.6, 7.2, 7.0, 6.9, 6.8, 6.7, 6.5, 7.2, 6.8, 6.9, 7.0, 6.7, 6.9, 6.9]
}


df_populacao = pd.DataFrame(populacao).set_index("ID")
print(df_populacao.shape)
df_populacao.head()

(30, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
2,6.2
3,7.0
4,6.8
5,7.2


##### *Sem Reposição*

In [25]:
# Amostragem aleatória simples sem reposição do DataFrame
amostra_sem_reposicao = df_populacao.sample(n=10)
print(amostra_sem_reposicao.shape)
amostra_sem_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
4,6.8
13,6.6
24,7.2
2,6.2
26,6.9
20,6.9
1,6.4
27,7.0
19,7.0
21,6.8


##### *Com Reposição*

In [26]:
# Amostragem aleatória simples com reposição do DataFrame
amostra_com_reposicao = df_populacao.sample(n=10)
print(amostra_com_reposicao.shape)
amostra_com_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
28,6.7
12,7.1
6,6.4
18,7.2
2,6.2
8,7.1
25,6.8
10,6.9
21,6.8
4,6.8


#### **Amostragem Aleatória Sistemática**


Basicamente a amostragem sistemática é quando os elementos são ordenados e retirados periodicamente, exemplo: Pega uma amostra a cada 50 elementos de uma linha de produção

Planejamento:
1. Determinar o intervalo
$k=N/n$
2. Introduzir aleatoriedade escolhendo a partida
3. Escolher primeiro elemento a cada k elemento até o valor da amostra n

In [27]:
# Amostragem sistemática a cada 5 elementos
k = 5
indices_amostra = list(range(0, len(df_populacao), k))
amostra_sistematica = df_populacao.iloc[indices_amostra]
amostra_sistematica

Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
6,6.4
11,7.0
16,6.3
21,6.8
26,6.9


#### **Amostragem Aleatória por conglomerado**


Amostragem por conglomerado, define que a população total deve ser dugistituida por grupos de unidades elemetares, amostragem é feita por grupos e não indivíduos.

Planejamento:
1. Dividir população em M conglomerados em tamanhos não necessáriamento iguais
2. Sorteamos amostra de conglomerados ou seja m < M
3. Número m de conglomerados calculado em dois estágios


In [62]:
# Definir o número de conglomerados
num_conglomerados = 5

In [63]:
# Definir o tamanho do conglomerado
tamanho_conglomerado = len(df_populacao) // num_conglomerados

# Atribuir o conglomerado primário
for i in range(1, num_conglomerados + 1):
    inicio = (i - 1) * tamanho_conglomerado
    fim = i * tamanho_conglomerado
    df_populacao.loc[inicio:fim, 'ConglomeradoPrimario'] = i


# Atribuir o conglomerado secundário
for i in range(1, num_conglomerados + 1):
    inicio = (i - 2) * tamanho_conglomerado
    fim = i * tamanho_conglomerado
    df_populacao.loc[inicio:fim, 'ConglomeradoSecundario'] = i


In [64]:
df_populacao.head()

Unnamed: 0_level_0,Valor,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,6.4,1.0,2.0
2,6.2,1.0,2.0
3,7.0,1.0,2.0
4,6.8,1.0,2.0
5,7.2,1.0,2.0


##### *1 Estágio*

In [65]:
# Conglomerados primários
conglomerados_primarios = df_populacao['ConglomeradoPrimario'].unique()

# Definir o número de conglomerados primários a serem selecionados
num_conglomerados_primarios_amostra = 2

# Selecionar aleatoriamente os conglomerados primários
conglomerados_primarios_amostra = random.sample(list(conglomerados_primarios), k=num_conglomerados_primarios_amostra)

# Realizar a amostragem por conglomerado em um estágio
amostra_um_estagio = df_populacao[df_populacao['ConglomeradoPrimario'].isin(conglomerados_primarios_amostra)]
print(amostra_um_estagio.shape)
amostra_um_estagio

(11, 3)


Unnamed: 0_level_0,Valor,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,6.4,1.0,2.0
2,6.2,1.0,2.0
3,7.0,1.0,2.0
4,6.8,1.0,2.0
5,7.2,1.0,2.0
18,7.2,4.0,5.0
19,7.0,4.0,5.0
20,6.9,4.0,5.0
21,6.8,4.0,5.0
22,6.7,4.0,5.0


##### *2 Estágio*

In [66]:
# Conglomerados secundários
conglomerados_secundarios = amostra_um_estagio['ConglomeradoSecundario'].unique()

# Definir o número de conglomerados secundários a serem selecionados
num_conglomerados_secundarios_amostra = 1

# Selecionar aleatoriamente os conglomerados secundários
conglomerados_secundarios_amostra = random.sample(list(conglomerados_secundarios), k=num_conglomerados_secundarios_amostra)

# Realizar a amostragem por conglomerado em dois estágios
amostra_dois_estagios = amostra_um_estagio[amostra_um_estagio['ConglomeradoSecundario'].isin(conglomerados_secundarios_amostra)]
print(amostra_dois_estagios.shape)
amostra_dois_estagios

(6, 3)


Unnamed: 0_level_0,Valor,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
18,7.2,4.0,5.0
19,7.0,4.0,5.0
20,6.9,4.0,5.0
21,6.8,4.0,5.0
22,6.7,4.0,5.0
23,6.5,4.0,5.0


### **Amostragem Não Aleatória**


#### **Amostragem Por Conveniência**
