<a href="https://colab.research.google.com/github/jvataidee/ManualdeAnalisedeDadosPython/blob/master/cap6_estatistica_inferencial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**by: [João Ataíde](https://www.joaoataide.com)**
# **CAP 06: Estatítica Inferencial**

---



In [61]:
#importar bibliotecas
import pandas as pd
import numpy as np
import math
import random
import matplotlib.pyplot as plt
import seaborn as sns
import statistics as st
import scipy.stats as stats
from scipy.stats import norm

from sklearn.model_selection import train_test_split
from scipy.stats import chi2_contingency, spearmanr

### **Amostragem**

* `Poulação:` Conjunto de dados de todos o indivíduos, objetos ou elementos a serem estudados. `Censo` é o estudo de todos elementos de população, uma população pode ser `finita` permite contagem (ex. quantidade de empregados de uma empresa) ou `infinita` não permite contagem (ex. numero de produtos de uma fabrica em determinado período) .

* `Amostra` extração de um subconjunto colhidas na amostra e utilizado procedimentos esatísticos apropriados para generalizar, inferir ou tirar conclusões sobre a população.



### **Tipos de amostragem:**
- `Aleatória ou Probabilística` probabilidade de cada elemento da população é igual.
    * `Simples`
    * `Sistemática`
    * `Estratificada`
    * `Pro Conglomerados`

    * Vantagens: Seleção rogorosa e não permite subjetividade, Possibilidade de determinar matematicamente a dimensção da amostra e grau de confiança

    * Destanvagens: Dificuldade em obter lista completa da região, seleção aleatória pode gerar amostra dispersa.



- `Não Aleatória` probabilidade de alguns ou de todos elementos da população são desconhecidos.
    * `Pro conveniência`
    * `Por julgamento`
    * `Por Quotas`
    * `Bola de Neve`

    * Vantagens: Menor custo, menor tempo de estudo e mão de obra.

    * Destanvagens: há unidades do universo que não tem possibilidade a ser escolhida, pode ocorrer viés e nãos aber qual grau de confiança.


### **Amostragem Aleatória**


#### **Amostragem Aleatória Simples**


Método simples e mais importantes da seleção de amostra.

Planejamento:
1. Procedimento aleatóroio para sortear elementos da população com probabilidade igual.
2. Repetir processo até retirar uma amostra com n observações
3. Ao remover a amostra da população elemento pode ser removido `Sem Reposição` ou não removido `Com Reposição` permitindo que uma unidade seja sorteado mais de uma vez.

In [2]:
populacao = {
    'ID': list(range(1, 31)),
    'Valor': [6.4, 6.2, 7.0, 6.8, 7.2, 6.4, 6.5, 7.1, 6.8, 6.9, 7.0, 7.1, 6.6, 6.8, 6.7,
              6.3, 6.6, 7.2, 7.0, 6.9, 6.8, 6.7, 6.5, 7.2, 6.8, 6.9, 7.0, 6.7, 6.9, 6.9]
}


df_populacao = pd.DataFrame(populacao).set_index("ID")
print(df_populacao.shape)
df_populacao.head()

(30, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
2,6.2
3,7.0
4,6.8
5,7.2


##### *Sem Reposição*

In [3]:
# Amostragem aleatória simples sem reposição do DataFrame
amostra_sem_reposicao = df_populacao.sample(n=10)
print(amostra_sem_reposicao.shape)
amostra_sem_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
8,7.1
17,6.6
19,7.0
28,6.7
4,6.8
20,6.9
5,7.2
29,6.9
27,7.0
26,6.9


##### *Com Reposição*

In [4]:
# Amostragem aleatória simples com reposição do DataFrame
amostra_com_reposicao = df_populacao.sample(n=10)
print(amostra_com_reposicao.shape)
amostra_com_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
5,7.2
12,7.1
30,6.9
26,6.9
27,7.0
7,6.5
16,6.3
2,6.2
15,6.7
8,7.1


#### **Amostragem Aleatória Sistemática**


Basicamente a amostragem sistemática é quando os elementos são ordenados e retirados periodicamente, exemplo: Pega uma amostra a cada 50 elementos de uma linha de produção

Planejamento:
1. Determinar o intervalo
$k=N/n$
2. Introduzir aleatoriedade escolhendo a partida
3. Escolher primeiro elemento a cada k elemento até o valor da amostra n

In [5]:
# Amostragem sistemática a cada 5 elementos
k = 5
indices_amostra = list(range(0, len(df_populacao), k))
amostra_sistematica = df_populacao.iloc[indices_amostra]
amostra_sistematica

Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
6,6.4
11,7.0
16,6.3
21,6.8
26,6.9


#### **Amostragem Aleatória Estatificada**


esse tipo divide populações heterogêneas em subpopulações onde a cada estrato e retirada. `Uniforme` quando sorteados numeros igual de elemetnos em cada estarto (recomendado quando estratos forem valores proximos) `Propocional` numero de estrados são propocionais ao numero de elementos existentes.

In [6]:
# Definir as classes de valor
classes_valor = {
    'A': (5., 6.5),
    'B': (6.5, 7.),
    'C': (7., 7.5)
}

In [7]:
for classe, (lim_inferior, lim_superior) in classes_valor.items():
    df_populacao.loc[(df_populacao['Valor'] > lim_inferior) & (df_populacao['Valor'] <= lim_superior), 'Classe'] = classe

df_populacao.head()

Unnamed: 0_level_0,Valor,Classe
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,6.4,A
2,6.2,A
3,7.0,B
4,6.8,B
5,7.2,C


##### *Uniforme*

In [8]:
n = 2  # ou qualquer outro número que seja adequado para o seu caso
amostra_uniforme = df_populacao.groupby('Classe').apply(lambda x: x.sample(n))

# Resetar o índice
amostra_uniforme.reset_index(drop=True, inplace=True)
amostra_uniforme

Unnamed: 0,Valor,Classe
0,6.3,A
1,6.4,A
2,6.9,B
3,6.6,B
4,7.2,C
5,7.1,C


##### *Proporcional*

In [9]:
tamanho_amostra = 0.3

# Usamos train_test_split para estratificar com base na classe
_, amostra_proporcional = train_test_split(df_populacao,
                                           stratify=df_populacao['Classe'],
                                           test_size=tamanho_amostra,
                                           random_state=42)

amostra_proporcional

Unnamed: 0_level_0,Valor,Classe
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
10,6.9,B
20,6.9,B
14,6.8,B
15,6.7,B
7,6.5,A
29,6.9,B
18,7.2,C
16,6.3,A
11,7.0,B


#### **Amostragem Aleatória por conglomerado**


Amostragem por conglomerado, define que a população total deve ser dugistituida por grupos de unidades elemetares, amostragem é feita por grupos e não indivíduos.

Planejamento:
1. Dividir população em M conglomerados em tamanhos não necessáriamento iguais
2. Sorteamos amostra de conglomerados ou seja m < M
3. Número m de conglomerados calculado em dois estágios


In [10]:
# Definir o número de conglomerados
num_conglomerados = 5

In [11]:
# Definir o tamanho do conglomerado
tamanho_conglomerado = len(df_populacao) // num_conglomerados

# Atribuir o conglomerado primário
conglomerados = list(range(1, num_conglomerados + 1))
random.shuffle(conglomerados)
conglomerados *= len(df_populacao) // num_conglomerados + 1
df_populacao['ConglomeradoPrimario'] = conglomerados[:len(df_populacao)]

# Atribuir o conglomerado secundário
conglomerados = list(range(1, num_conglomerados + 1))
random.shuffle(conglomerados)
conglomerados *= len(df_populacao) // num_conglomerados + 1
df_populacao['ConglomeradoSecundario'] = conglomerados[:len(df_populacao)]

In [12]:
print(df_populacao.shape)
df_populacao.head()

(30, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6.4,A,5,2
2,6.2,A,3,3
3,7.0,B,2,5
4,6.8,B,4,1
5,7.2,C,1,4


##### *1 Estágio*

In [13]:
# Conglomerados primários
conglomerados_primarios = df_populacao['ConglomeradoPrimario'].unique()

# Definir o número de conglomerados primários a serem selecionados
num_conglomerados_primarios_amostra = 2

# Selecionar aleatoriamente os conglomerados primários
conglomerados_primarios_amostra = random.sample(list(conglomerados_primarios), k=num_conglomerados_primarios_amostra)

# Realizar a amostragem por conglomerado em um estágio
amostra_um_estagio = df_populacao[df_populacao['ConglomeradoPrimario'].isin(conglomerados_primarios_amostra)]
print(amostra_um_estagio.shape)
amostra_um_estagio

(12, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6.4,A,5,2
4,6.8,B,4,1
6,6.4,A,5,2
9,6.8,B,4,1
11,7.0,B,5,2
14,6.8,B,4,1
16,6.3,A,5,2
19,7.0,B,4,1
21,6.8,B,5,2
24,7.2,C,4,1


##### *2 Estágio*

In [14]:
# Conglomerados secundários
conglomerados_secundarios = amostra_um_estagio['ConglomeradoSecundario'].unique()

# Definir o número de conglomerados secundários a serem selecionados
num_conglomerados_secundarios_amostra = 1

# Selecionar aleatoriamente os conglomerados secundários
conglomerados_secundarios_amostra = random.sample(list(conglomerados_secundarios), k=num_conglomerados_secundarios_amostra)

# Realizar a amostragem por conglomerado em dois estágios
amostra_dois_estagios = amostra_um_estagio[amostra_um_estagio['ConglomeradoSecundario'].isin(conglomerados_secundarios_amostra)]
print(amostra_dois_estagios.shape)
amostra_dois_estagios

(6, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4,6.8,B,4,1
9,6.8,B,4,1
14,6.8,B,4,1
19,7.0,B,4,1
24,7.2,C,4,1
29,6.9,B,4,1


### **Amostragem Não Aleatória**


#### **Amostragem Por Conveniência**



É empregada quando a participação da amostra é voluntária ou elementos são escolhidos por conveniência ou simplicidade, como amigos, vizinhos e estudantes.

In [15]:
ids_conveniencia = [5, 10, 15, 20, 25]
amostra_conveniencia = df_populacao[df_populacao.index.isin(ids_conveniencia)]
amostra_conveniencia

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5,7.2,C,1,4
10,6.9,B,1,4
15,6.7,B,1,4
20,6.9,B,1,4
25,6.8,B,1,4


#### **Amostragem Por Julgamento ou Intencional**



Amostra feito por meio de uma escolha intencional devido a um julgamento de especilista ou regra de negócio, tal amostra pode causar um julgamento equivocado e enviesamento da análise. *Emprego dessa deve requer conhecimento da população e dos elementos selecionados.*

Exemplo: Tenho uma pequena empresa com um numero de clientes específicos e peno em um determinado cliente para entrevistar pois esse se encaixa no perfil de cliente que preciso fortalecer meu negócio.

In [16]:
amostra_julgamento = df_populacao[(df_populacao['Valor'] >= 6) & (df_populacao['Valor'] <= 6.5)]
amostra_julgamento

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6.4,A,5,2
2,6.2,A,3,3
6,6.4,A,5,2
7,6.5,A,3,3
16,6.3,A,5,2
23,6.5,A,2,5


#### **Amostragem Por Quotas**



Essa amostragem apresenta maior rigor quando comparadas com as demais, muito utilizada por pesquisa de mercado e opinição eleitoral, amostra não probailistica estratificada.

Procedimento:
1. Selecionar as variáveis de controle ou caracteríticas relevantes
2. Determinar a proporção da população para as categorias
3. Dimensionar a quita (numero de pessoas a serem entrevistados) do modelo que a proporção seja igual.

In [17]:
# Calcular o tamanho da amostra para cada classe
n = 1

# Amostra por quota
amostra_por_quota = df_populacao.groupby('Classe').apply(lambda x: x.sample(min(len(x), n)))

# Resetar o índice
amostra_por_quota.reset_index(drop=True, inplace=True)
amostra_por_quota

Unnamed: 0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
0,6.5,A,2,5
1,6.8,B,5,2
2,7.2,C,2,5


#### **Amostragem Bola de Neve ou Propagação geométrica**
Muito usado quando população é rera e dificil acesso ou até mesmo desconhecido, exemplo uma empresa de recrutamento profissional que precisa de um perfil específico, essa técninca é muito usada em pesquisas sociais. Basicamente deve-se identificar um ou mais indivíduos da população-alvo, repetindo o processo até chegar ao objetivo.



In [18]:
df_populacao.loc[df_populacao.shape[0] + 1] = [10, "Z", 0, 0]
df_populacao.loc[df_populacao.shape[0] + 2] = [8, "Z", 0, 0]
df_populacao.loc[df_populacao.shape[0] + 3] = [9.3, "Z", 0, 0]

In [62]:
def snowball_sampling(df, initial_sample_size, iterations, classe):
    # Selecione uma amostra inicial aleatória
    initial_sample = df.sample(initial_sample_size)

    for i in range(iterations):
        # Encontre os valores únicos na coluna 'Classe' do nosso conjunto de amostras atual
        unique_values = initial_sample[classe].unique()

        # Selecionar elementos específicos (Passar Regra de negócio ou análise)
        new_samples = df[df[classe] > 7]

        # Adicione as novas amostras ao conjunto de amostras inicial
        initial_sample = pd.concat([initial_sample, new_samples])

        # Remova duplicatas
        initial_sample = initial_sample.drop_duplicates()

    return initial_sample

In [20]:
sample = snowball_sampling(df_populacao, initial_sample_size=5, iterations=100, classe ="Valor")
sample

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
14,6.8,B,4,1
12,7.1,C,3,3
33,8.0,Z,0,0
2,6.2,A,3,3
26,6.9,B,5,2
5,7.2,C,1,4
8,7.1,C,2,5
18,7.2,C,2,5
24,7.2,C,4,1
31,10.0,Z,0,0


## **Tamanho da Amostra**

**6 Fatores para determinar tamanho da amostra:**

1. Cracterística da população, $σ^2$ (variância) e $N$ dimensão
2. Distribuição amostral do estimador
3. Precisão e confiança requidos no resultado, especificação do erro de estimação $B$ (máxima diferença que o investigador admite entre os parâmetros populacionais)
4. Custo, quanto maior a amostra maior o custo de operação
5. Custo vs Erro, deve-se selecionar amostra de tamano maior para reduzir o erro da amostra e minimizar o custo
6. As técnincas que serão utilziadas, depender da técninca exige maior ou menor amostra.



#### **Tamanho amostra simples**

Cálculo do tamaho para estimar a média e proporção para população finita e infinita.

`Média`

Estimativa erro $B$, média populacionais $𝜇$ e média amostral $\overline X$, sendo então que o erro de estimação é $B\ge|𝜇 - \overline X|$

`Proporção`

Estimativa erro $B$, proporção população $p$ e proporção amostra $\hat p$, sendo então que o erro de estimação é $B\ge|p - \hat p|$

In [99]:
dados = {'Valor': []}

for _ in range(10000): #Gerando 10000 amostras
    valor = random.uniform(3.0, 10.0)  # Gerar valores aleatórios entre 3.0 e 10.0
    dados['Valor'].append(valor)

df = pd.DataFrame(dados)

In [100]:
def tamanho_amostra_media(populacao, erro, finita=False):

    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    desvio_padrao = populacao.std()  # Desvio padrão da população
    tamanho = 0

    if finita:
        tamanho = ((z**2) * (desvio_padrao**2) * populacao.size) / ((erro**2) * (populacao.size - 1) + (z**2) * (desvio_padrao**2))
    else:
        tamanho = (z**2 * (desvio_padrao**2)) / (erro**2)

    return math.ceil(tamanho)

def tamanho_amostra_proporcao(populacao, proporcao, erro, finita=False):

    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    tamanho = 0

    if finita:
        tamanho = ((z**2) * (proporcao * (1 - proporcao)) * populacao.size) / ((erro**2) * (populacao.size - 1) + (z**2) * (proporcao * (1 - proporcao)))
    else:
        tamanho = (z**2 * (proporcao * (1 - proporcao))) / (erro**2)

    return math.ceil(tamanho)

In [103]:
erro = 0.05
proporcao = 0.5

# Para uma população finita
tamanho_amostra_media_finita = tamanho_amostra_media(df["Valor"], erro, finita=True)
tamanho_amostra_proporcao_finita = tamanho_amostra_proporcao(df["Valor"], proporcao, erro, finita=True)


print(f"Tamanho da amostra MÉDIA (população finita): {tamanho_amostra_media_finita}")
print(f"Tamanho da amostra PROPORÇÃO (população finita): {tamanho_amostra_proporcao_finita}")

Tamanho da amostra MÉDIA (população finita): 3841
Tamanho da amostra PROPORÇÃO (população finita): 370


In [104]:
erro = 0.05
proporcao = 0.5

# Para uma população infinita
tamanho_amostra_media_infinita = tamanho_amostra_media(df["Valor"], erro)
tamanho_amostra_proporcao_infinita = tamanho_amostra_proporcao(df["Valor"], proporcao, erro)

print(f"Tamanho da amostra MÉDIA (população infinita): {tamanho_amostra_media_infinita}")
print(f"Tamanho da amostra PROPORÇÃO (população infinita): {tamanho_amostra_proporcao_infinita}")

Tamanho da amostra MÉDIA (população infinita): 6235
Tamanho da amostra PROPORÇÃO (população infinita): 385


#### **Tamanho amostra sitemática**

A amostra sistemática utiliza a mesma expressão anterior, mas modifica se a variável é quantitativa ou qualitativa e a população é infinita ou finita.