<a href="https://colab.research.google.com/github/jvataidee/ManualdeAnalisedeDadosPython/blob/master/cap6_estatistica_inferencial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**by: [João Ataíde](https://www.joaoataide.com)**
# **CAP 06: Estatítica Inferencial**

---



In [1]:
#importar bibliotecas
import pandas as pd
import numpy as np
import math
import random
import matplotlib.pyplot as plt
import seaborn as sns
import statistics as st
import scipy.stats as stats
from scipy.stats import norm

from sklearn.model_selection import train_test_split
from scipy.stats import chi2_contingency, spearmanr

### **Amostragem**

* `Poulação:` Conjunto de dados de todos o indivíduos, objetos ou elementos a serem estudados. `Censo` é o estudo de todos elementos de população, uma população pode ser `finita` permite contagem (ex. quantidade de empregados de uma empresa) ou `infinita` não permite contagem (ex. numero de produtos de uma fabrica em determinado período) .

* `Amostra` extração de um subconjunto colhidas na amostra e utilizado procedimentos esatísticos apropriados para generalizar, inferir ou tirar conclusões sobre a população.



### **Tipos de amostragem:**
- `Aleatória ou Probabilística` probabilidade de cada elemento da população é igual.
    * `Simples`
    * `Sistemática`
    * `Estratificada`
    * `Pro Conglomerados`

    * Vantagens: Seleção rogorosa e não permite subjetividade, Possibilidade de determinar matematicamente a dimensção da amostra e grau de confiança

    * Destanvagens: Dificuldade em obter lista completa da região, seleção aleatória pode gerar amostra dispersa.



- `Não Aleatória` probabilidade de alguns ou de todos elementos da população são desconhecidos.
    * `Pro conveniência`
    * `Por julgamento`
    * `Por Quotas`
    * `Bola de Neve`

    * Vantagens: Menor custo, menor tempo de estudo e mão de obra.

    * Destanvagens: há unidades do universo que não tem possibilidade a ser escolhida, pode ocorrer viés e nãos aber qual grau de confiança.


### **Amostragem Aleatória**


#### **Amostragem Aleatória Simples**


Método simples e mais importantes da seleção de amostra.

Planejamento:
1. Procedimento aleatóroio para sortear elementos da população com probabilidade igual.
2. Repetir processo até retirar uma amostra com n observações
3. Ao remover a amostra da população elemento pode ser removido `Sem Reposição` ou não removido `Com Reposição` permitindo que uma unidade seja sorteado mais de uma vez.

In [2]:
populacao = {
    'ID': list(range(1, 31)),
    'Valor': [6.4, 6.2, 7.0, 6.8, 7.2, 6.4, 6.5, 7.1, 6.8, 6.9, 7.0, 7.1, 6.6, 6.8, 6.7,
              6.3, 6.6, 7.2, 7.0, 6.9, 6.8, 6.7, 6.5, 7.2, 6.8, 6.9, 7.0, 6.7, 6.9, 6.9]
}


df_populacao = pd.DataFrame(populacao).set_index("ID")
print(df_populacao.shape)
df_populacao.head()

(30, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
2,6.2
3,7.0
4,6.8
5,7.2


##### *Sem Reposição*

In [3]:
# Amostragem aleatória simples sem reposição do DataFrame
amostra_sem_reposicao = df_populacao.sample(n=10)
print(amostra_sem_reposicao.shape)
amostra_sem_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
17,6.6
15,6.7
21,6.8
6,6.4
4,6.8
24,7.2
18,7.2
20,6.9
7,6.5


##### *Com Reposição*

In [4]:
# Amostragem aleatória simples com reposição do DataFrame
amostra_com_reposicao = df_populacao.sample(n=10)
print(amostra_com_reposicao.shape)
amostra_com_reposicao

(10, 1)


Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
7,6.5
1,6.4
24,7.2
12,7.1
10,6.9
15,6.7
29,6.9
26,6.9
16,6.3
19,7.0


#### **Amostragem Aleatória Sistemática**


Basicamente a amostragem sistemática é quando os elementos são ordenados e retirados periodicamente, exemplo: Pega uma amostra a cada 50 elementos de uma linha de produção

Planejamento:
1. Determinar o intervalo
$k=N/n$
2. Introduzir aleatoriedade escolhendo a partida
3. Escolher primeiro elemento a cada k elemento até o valor da amostra n

In [5]:
# Amostragem sistemática a cada 5 elementos
k = 5
indices_amostra = list(range(0, len(df_populacao), k))
amostra_sistematica = df_populacao.iloc[indices_amostra]
amostra_sistematica

Unnamed: 0_level_0,Valor
ID,Unnamed: 1_level_1
1,6.4
6,6.4
11,7.0
16,6.3
21,6.8
26,6.9


#### **Amostragem Aleatória Estatificada**


esse tipo divide populações heterogêneas em subpopulações onde a cada estrato e retirada. `Uniforme` quando sorteados numeros igual de elemetnos em cada estarto (recomendado quando estratos forem valores proximos) `Propocional` numero de estrados são propocionais ao numero de elementos existentes.

In [6]:
# Definir as classes de valor
classes_valor = {
    'A': (5., 6.5),
    'B': (6.5, 7.),
    'C': (7., 7.5)
}

In [7]:
for classe, (lim_inferior, lim_superior) in classes_valor.items():
    df_populacao.loc[(df_populacao['Valor'] > lim_inferior) & (df_populacao['Valor'] <= lim_superior), 'Classe'] = classe

df_populacao.head()

Unnamed: 0_level_0,Valor,Classe
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,6.4,A
2,6.2,A
3,7.0,B
4,6.8,B
5,7.2,C


##### *Uniforme*

In [8]:
n = 2  # ou qualquer outro número que seja adequado para o seu caso
amostra_uniforme = df_populacao.groupby('Classe').apply(lambda x: x.sample(n))

# Resetar o índice
amostra_uniforme.reset_index(drop=True, inplace=True)
amostra_uniforme

Unnamed: 0,Valor,Classe
0,6.4,A
1,6.4,A
2,6.8,B
3,6.9,B
4,7.2,C
5,7.2,C


##### *Proporcional*

In [9]:
tamanho_amostra = 0.3

# Usamos train_test_split para estratificar com base na classe
_, amostra_proporcional = train_test_split(df_populacao,
                                           stratify=df_populacao['Classe'],
                                           test_size=tamanho_amostra,
                                           random_state=42)

amostra_proporcional

Unnamed: 0_level_0,Valor,Classe
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
10,6.9,B
20,6.9,B
14,6.8,B
15,6.7,B
7,6.5,A
29,6.9,B
18,7.2,C
16,6.3,A
11,7.0,B


#### **Amostragem Aleatória por conglomerado**


Amostragem por conglomerado, define que a população total deve ser dugistituida por grupos de unidades elemetares, amostragem é feita por grupos e não indivíduos.

Planejamento:
1. Dividir população em M conglomerados em tamanhos não necessáriamento iguais
2. Sorteamos amostra de conglomerados ou seja m < M
3. Número m de conglomerados calculado em dois estágios


In [10]:
# Definir o número de conglomerados
num_conglomerados = 5

In [11]:
# Definir o tamanho do conglomerado
tamanho_conglomerado = len(df_populacao) // num_conglomerados

# Atribuir o conglomerado primário
conglomerados = list(range(1, num_conglomerados + 1))
random.shuffle(conglomerados)
conglomerados *= len(df_populacao) // num_conglomerados + 1
df_populacao['ConglomeradoPrimario'] = conglomerados[:len(df_populacao)]

# Atribuir o conglomerado secundário
conglomerados = list(range(1, num_conglomerados + 1))
random.shuffle(conglomerados)
conglomerados *= len(df_populacao) // num_conglomerados + 1
df_populacao['ConglomeradoSecundario'] = conglomerados[:len(df_populacao)]

In [12]:
print(df_populacao.shape)
df_populacao.head()

(30, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6.4,A,3,1
2,6.2,A,1,4
3,7.0,B,2,3
4,6.8,B,4,2
5,7.2,C,5,5


##### *1 Estágio*

In [13]:
# Conglomerados primários
conglomerados_primarios = df_populacao['ConglomeradoPrimario'].unique()

# Definir o número de conglomerados primários a serem selecionados
num_conglomerados_primarios_amostra = 2

# Selecionar aleatoriamente os conglomerados primários
conglomerados_primarios_amostra = random.sample(list(conglomerados_primarios), k=num_conglomerados_primarios_amostra)

# Realizar a amostragem por conglomerado em um estágio
amostra_um_estagio = df_populacao[df_populacao['ConglomeradoPrimario'].isin(conglomerados_primarios_amostra)]
print(amostra_um_estagio.shape)
amostra_um_estagio

(12, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3,7.0,B,2,3
4,6.8,B,4,2
8,7.1,C,2,3
9,6.8,B,4,2
13,6.6,B,2,3
14,6.8,B,4,2
18,7.2,C,2,3
19,7.0,B,4,2
23,6.5,A,2,3
24,7.2,C,4,2


##### *2 Estágio*

In [14]:
# Conglomerados secundários
conglomerados_secundarios = amostra_um_estagio['ConglomeradoSecundario'].unique()

# Definir o número de conglomerados secundários a serem selecionados
num_conglomerados_secundarios_amostra = 1

# Selecionar aleatoriamente os conglomerados secundários
conglomerados_secundarios_amostra = random.sample(list(conglomerados_secundarios), k=num_conglomerados_secundarios_amostra)

# Realizar a amostragem por conglomerado em dois estágios
amostra_dois_estagios = amostra_um_estagio[amostra_um_estagio['ConglomeradoSecundario'].isin(conglomerados_secundarios_amostra)]
print(amostra_dois_estagios.shape)
amostra_dois_estagios

(6, 4)


Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3,7.0,B,2,3
8,7.1,C,2,3
13,6.6,B,2,3
18,7.2,C,2,3
23,6.5,A,2,3
28,6.7,B,2,3


### **Amostragem Não Aleatória**


#### **Amostragem Por Conveniência**



É empregada quando a participação da amostra é voluntária ou elementos são escolhidos por conveniência ou simplicidade, como amigos, vizinhos e estudantes.

In [15]:
ids_conveniencia = [5, 10, 15, 20, 25]
amostra_conveniencia = df_populacao[df_populacao.index.isin(ids_conveniencia)]
amostra_conveniencia

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5,7.2,C,5,5
10,6.9,B,5,5
15,6.7,B,5,5
20,6.9,B,5,5
25,6.8,B,5,5


#### **Amostragem Por Julgamento ou Intencional**



Amostra feito por meio de uma escolha intencional devido a um julgamento de especilista ou regra de negócio, tal amostra pode causar um julgamento equivocado e enviesamento da análise. *Emprego dessa deve requer conhecimento da população e dos elementos selecionados.*

Exemplo: Tenho uma pequena empresa com um numero de clientes específicos e peno em um determinado cliente para entrevistar pois esse se encaixa no perfil de cliente que preciso fortalecer meu negócio.

In [16]:
amostra_julgamento = df_populacao[(df_populacao['Valor'] >= 6) & (df_populacao['Valor'] <= 6.5)]
amostra_julgamento

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,6.4,A,3,1
2,6.2,A,1,4
6,6.4,A,3,1
7,6.5,A,1,4
16,6.3,A,3,1
23,6.5,A,2,3


#### **Amostragem Por Quotas**



Essa amostragem apresenta maior rigor quando comparadas com as demais, muito utilizada por pesquisa de mercado e opinição eleitoral, amostra não probailistica estratificada.

Procedimento:
1. Selecionar as variáveis de controle ou caracteríticas relevantes
2. Determinar a proporção da população para as categorias
3. Dimensionar a quita (numero de pessoas a serem entrevistados) do modelo que a proporção seja igual.

In [17]:
# Calcular o tamanho da amostra para cada classe
n = 1

# Amostra por quota
amostra_por_quota = df_populacao.groupby('Classe').apply(lambda x: x.sample(min(len(x), n)))

# Resetar o índice
amostra_por_quota.reset_index(drop=True, inplace=True)
amostra_por_quota

Unnamed: 0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
0,6.5,A,1,4
1,6.7,B,5,5
2,7.2,C,2,3


#### **Amostragem Bola de Neve ou Propagação geométrica**
Muito usado quando população é rera e dificil acesso ou até mesmo desconhecido, exemplo uma empresa de recrutamento profissional que precisa de um perfil específico, essa técninca é muito usada em pesquisas sociais. Basicamente deve-se identificar um ou mais indivíduos da população-alvo, repetindo o processo até chegar ao objetivo.



In [18]:
df_populacao.loc[df_populacao.shape[0] + 1] = [10, "Z", 0, 0]
df_populacao.loc[df_populacao.shape[0] + 2] = [8, "Z", 0, 0]
df_populacao.loc[df_populacao.shape[0] + 3] = [9.3, "Z", 0, 0]

In [19]:
def snowball_sampling(df, initial_sample_size, iterations, classe):
    # Selecione uma amostra inicial aleatória
    initial_sample = df.sample(initial_sample_size)

    for i in range(iterations):
        # Encontre os valores únicos na coluna 'Classe' do nosso conjunto de amostras atual
        unique_values = initial_sample[classe].unique()

        # Selecionar elementos específicos (Passar Regra de negócio ou análise)
        new_samples = df[df[classe] > 7]

        # Adicione as novas amostras ao conjunto de amostras inicial
        initial_sample = pd.concat([initial_sample, new_samples])

        # Remova duplicatas
        initial_sample = initial_sample.drop_duplicates()

    return initial_sample

In [20]:
sample = snowball_sampling(df_populacao, initial_sample_size=5, iterations=100, classe ="Valor")
sample

Unnamed: 0_level_0,Valor,Classe,ConglomeradoPrimario,ConglomeradoSecundario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
24,7.2,C,4,2
6,6.4,A,3,1
19,7.0,B,4,2
23,6.5,A,2,3
25,6.8,B,5,5
5,7.2,C,5,5
8,7.1,C,2,3
12,7.1,C,1,4
18,7.2,C,2,3
31,10.0,Z,0,0


## **Tamanho da Amostra**

**6 Fatores para determinar tamanho da amostra:**

1. Cracterística da população, $σ^2$ (variância) e $N$ dimensão
2. Distribuição amostral do estimador
3. Precisão e confiança requidos no resultado, especificação do erro de estimação $B$ (máxima diferença que o investigador admite entre os parâmetros populacionais)
4. Custo, quanto maior a amostra maior o custo de operação
5. Custo vs Erro, deve-se selecionar amostra de tamano maior para reduzir o erro da amostra e minimizar o custo
6. As técnincas que serão utilziadas, depender da técninca exige maior ou menor amostra.



#### **Tamanho amostra simples**

Cálculo do tamaho para estimar a média e proporção para população finita e infinita.

`Média`

Estimativa erro $B$, média populacionais $𝜇$ e média amostral $\overline X$, sendo então que o erro de estimação é $B\ge|𝜇 - \overline X|$

`Proporção`

Estimativa erro $B$, proporção população $p$ e proporção amostra $\hat p$, sendo então que o erro de estimação é $B\ge|p - \hat p|$

In [21]:
dados = {'Valor': [],
         'ValorBinario':[]}

for _ in range(10000): #Gerando 10000 amostras
    valor = random.uniform(3.0, 10.0)  # Gerar valores aleatórios entre 3.0 e 10.0
    dados['Valor'].append(valor)

    valorb = random.randint(0, 1)
    dados['ValorBinario'].append(valorb)

df = pd.DataFrame(dados)

In [22]:
def tamanho_amostra_media(populacao, erro, finita=False):

    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    desvio_padrao = populacao.std()  # Desvio padrão da população
    tamanho = 0

    if finita:
        tamanho = ((z**2) * (desvio_padrao**2) * populacao.size) / ((erro**2) * (populacao.size - 1) + (z**2) * (desvio_padrao**2))
    else:
        tamanho = (z**2 * (desvio_padrao**2)) / (erro**2)

    return math.ceil(tamanho)

def tamanho_amostra_proporcao(populacao, proporcao, erro, finita=False):

    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    tamanho = 0

    if finita:
        tamanho = ((z**2) * (proporcao * (1 - proporcao)) * populacao.size) / ((erro**2) * (populacao.size - 1) + (z**2) * (proporcao * (1 - proporcao)))
    else:
        tamanho = (z**2 * (proporcao * (1 - proporcao))) / (erro**2)

    return math.ceil(tamanho)

In [23]:
erro = 0.05
proporcao = 0.5

# Para uma população finita
tamanho_amostra_media_finita = tamanho_amostra_media(df["Valor"], erro, finita=True)
tamanho_amostra_proporcao_finita = tamanho_amostra_proporcao(df["Valor"], proporcao, erro, finita=True)


print(f"Tamanho da amostra MÉDIA (população finita): {tamanho_amostra_media_finita}")
print(f"Tamanho da amostra PROPORÇÃO (população finita): {tamanho_amostra_proporcao_finita}")

Tamanho da amostra MÉDIA (população finita): 3804
Tamanho da amostra PROPORÇÃO (população finita): 370


In [24]:
erro = 0.05
proporcao = 0.5

# Para uma população infinita
tamanho_amostra_media_infinita = tamanho_amostra_media(df["Valor"], erro)
tamanho_amostra_proporcao_infinita = tamanho_amostra_proporcao(df["Valor"], proporcao, erro)

print(f"Tamanho da amostra MÉDIA (população infinita): {tamanho_amostra_media_infinita}")
print(f"Tamanho da amostra PROPORÇÃO (população infinita): {tamanho_amostra_proporcao_infinita}")

Tamanho da amostra MÉDIA (população infinita): 6137
Tamanho da amostra PROPORÇÃO (população infinita): 385


#### **Tamanho amostra sitemática**

A amostra sistemática utiliza a mesma expressão anterior, mas modifica se a variável é quantitativa ou qualitativa e a população é infinita ou finita.

#### **Tamanho amostra estratificada**

Neste caso ele sidiferente para média quando é variável quantitativa e proporção quando binária, seguindo mesmo lógica das finitas e infinitas.

In [25]:
# Cria o DataFrame
dados = {'Área': [], 'Value': [], 'Classe': []}

for _ in range(5285):
    dados['Área'].append('Exatas')
    dados['Value'].append(random.uniform(3.0, 50.0))
    dados['Classe'].append(1)

for _ in range(3877):
    dados['Área'].append('Humanas')
    dados['Value'].append(random.uniform(3.0, 50.0))
    dados['Classe'].append(1)

for _ in range(27724):
    dados['Área'].append('Biológicas')
    dados['Value'].append(random.uniform(3.0, 50.0))
    dados['Classe'].append(0)

df = pd.DataFrame(dados)

In [26]:
def tamanho_amostra_media_estratificada(df, estrato_col, quant_col, erro, finita=False):

    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    tamanho_total = 0

    for grupo in df[estrato_col].unique():
        populacao_grupo = df[df[estrato_col] == grupo]
        desvio_padrao = populacao_grupo[quant_col].std()  # Desvio padrão da população do grupo
        tamanho_grupo = 0

        if finita:
            tamanho_grupo = ((z**2) * (desvio_padrao**2) * len(populacao_grupo)) / ((erro**2) * (len(populacao_grupo) - 1) + (z**2) * (desvio_padrao**2))
        else:
            tamanho_grupo = (z**2 * (desvio_padrao**2)) / (erro**2)

        tamanho_total += math.ceil(tamanho_grupo)

    return tamanho_total


def tamanho_amostra_proporcao_estratificada(dados, proporcoes, erro, finita=False):
    confianca = 1 - erro
    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    tamanho_total = 0

    # Calcula o tamanho total da amostra proporcional à coluna 'Classe'
    for classe, proporcao in proporcoes.items():
        tamanho_classe = len(dados[dados['Classe'] == classe])
        tamanho_estrato = proporcao * tamanho_classe
        tamanho_total += tamanho_estrato

    # Calcula o tamanho da amostra em cada estrato
    tamanho_amostras = {}
    for classe, proporcao in proporcoes.items():
        tamanho_classe = len(dados[dados['Classe'] == classe])
        tamanho_estrato = proporcao * tamanho_classe
        tamanho_amostra_estrato = (tamanho_estrato / tamanho_total) * tamanho_amostra_total

        if finita:
            tamanho_amostra_estrato = tamanho_amostra_estrato / (1 + (tamanho_amostra_estrato / tamanho_classe))

        tamanho_amostras[classe] = round(tamanho_amostra_estrato)

    return tamanho_amostras


In [27]:
erro = 0.05
proporcoes = {0: 0.5, 1: 0.5}

# Para uma população finita
tamanho_amostra_media_finita = tamanho_amostra_media_estratificada(df, 'Classe', 'Value', erro, finita=True)

tamanho_amostra_total = tamanho_amostra_media_finita
tamanho_amostra_proporcao_finita = tamanho_amostra_proporcao_estratificada(df, proporcoes, erro, finita=False)

print(f"Tamanho da amostra MÉDIA (população finita): {tamanho_amostra_media_finita}")
print(f"Tamanho da amostra PROPORÇÃO (população finita): {tamanho_amostra_proporcao_finita}")

Tamanho da amostra MÉDIA (população finita): 34119
Tamanho da amostra PROPORÇÃO (população finita): {0: 25644, 1: 8475}


In [28]:
erro = 0.05
proporcoes = {0: 0.5, 1: 0.5}


# Para uma população infinita
tamanho_amostra_media_infinita = tamanho_amostra_media_estratificada(df, 'Classe', 'Value', erro)

tamanho_amostra_total  = tamanho_amostra_media_infinita
tamanho_amostra_proporcao_infinita = tamanho_amostra_proporcao_estratificada(df, proporcoes, erro)

print(f"Tamanho da amostra MÉDIA (população infinita): {tamanho_amostra_media_infinita}")
print(f"Tamanho da amostra PROPORÇÃO (população infinita): {tamanho_amostra_proporcao_infinita}")

Tamanho da amostra MÉDIA (população infinita): 566727
Tamanho da amostra PROPORÇÃO (população infinita): {0: 425959, 1: 140768}


#### **Tamanho amostra conglomerados**

##### *1 Estágio*

In [61]:
def tamanho_amostra_1_estagio(df, erro_amostral, coluna, finita=False):
    confianca = 1 - erro_amostral
    tamanho_populacao = len(df)
    desvio_padrao = df[coluna].std()

    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança
    if finita:
        tamanho_amostra = ((z**2) * (desvio_padrao**2) * tamanho_populacao) / ((z**2) * (desvio_padrao**2) + (erro_amostral**2))
    else:
        tamanho_amostra = ((z**2) * (desvio_padrao**2)) / (erro_amostral**2)
    return math.ceil(tamanho_amostra)

In [62]:
# Parâmetros para cálculo do tamanho ideal da amostra
erro_amostral = 0.05


# Tamanho ideal da amostra (método de 1 estágio)
tamanho_amostra_1_infinito = tamanho_amostra_1_estagio(df, erro_amostral, 'Value')
tamanho_amostra_1_finito = tamanho_amostra_1_estagio(df, erro_amostral, 'Value', finita=True)

print(f"Tamanho ideal da amostra (método de 1 estágio, população infinita): {tamanho_amostra_1_infinito}")
print(f"Tamanho ideal da amostra (método de 1 estágio, população finita): {tamanho_amostra_1_finito}")

Tamanho ideal da amostra (método de 1 estágio, população infinita): 282582
Tamanho ideal da amostra (método de 1 estágio, população finita): 36886


##### *2 Estágio*

In [63]:
def tamanho_amostra_2_estagios(df, erro_amostral, coluna, coluna2, finita=False):
    confianca = 1 - erro_amostral

    tamanho_populacao = len(df)
    tamanho_medio_cluster = df.groupby(coluna2).size().mean()
    desvio_padrao_clusters = df.groupby(coluna2)[coluna].std().mean()

    z = norm.ppf(1 - (1 - confianca) / 2)  # Valor crítico para o intervalo de confiança

    if finita:
        tamanho_amostra = ((z**2) * tamanho_populacao * desvio_padrao_clusters**2) / ((erro_amostral**2) * (desvio_padrao_clusters**2) + (z**2) * tamanho_medio_cluster)
    else:
        tamanho_amostra = ((z**2) * desvio_padrao_clusters**2) / ((erro_amostral**2) * (desvio_padrao_clusters**2) / tamanho_medio_cluster + (z**2))

    return math.ceil(tamanho_amostra)

In [60]:
# Parâmetros para cálculo do tamanho ideal da amostra
erro_amostral = 0.05

# Tamanho ideal da amostra (método de 2 estágios)
tamanho_amostra_2_infinito = tamanho_amostra_2_estagios(df, erro_amostral, 'Value', 'Área')
tamanho_amostra_2_finito = tamanho_amostra_2_estagios(df, erro_amostral, 'Value', 'Área', finita=True)

print(f"Tamanho ideal da amostra (método de 2 estágios, população infinita): {tamanho_amostra_2_infinito}")
print(f"Tamanho ideal da amostra (método de 2 estágios, população finita): {tamanho_amostra_2_finito}")

Tamanho ideal da amostra (método de 2 estágios, população infinita): 185
Tamanho ideal da amostra (método de 2 estágios, população finita): 555


### Execício 11

In [72]:
def tamanho_amostra_estratificada(n_habitantes, variancia, erro_amostral, confianca=0.99):
    z = 2.576  # Valor crítico para o nível de confiança de 99%
    tamanho_amostra = ((z**2) * variancia * n_habitantes) / ((erro_amostral**2) * (n_habitantes - 1) + (z**2) * variancia)
    return math.ceil(tamanho_amostra)

In [70]:
# Dados das regiões
dados = {'Região': [], 'Habitantes': [], 'Variância': []}

regioes = ['Norte', 'Sul', 'Centro', 'Leste', 'Oeste']
regioesid = [1, 2, 3, 4, 5]
habitantes = [14060, 19477, 36564, 26424, 23475]
variancias = [44.5, 59.3, 82.4, 66.2, 69.5]

dados["Região"] = regioes
dados["RegiãoID"] = regioesid
dados["Habitantes"] = habitantes
dados["Variância"] = variancias

df = pd.DataFrame(dados)
df

Unnamed: 0,Região,Habitantes,Variância,RegiãoID
0,Norte,14060,44.5,1
1,Sul,19477,59.3,2
2,Centro,36564,82.4,3
3,Leste,26424,66.2,4
4,Oeste,23475,69.5,5


In [80]:
# Parâmetros para cálculo do tamanho da amostra
erro_amostral = 0.6
confianca = 0.99

# Cálculo do tamanho da amostra para cada região
# Cálculo do tamanho da amostra para cada região
tamanhos_amostra = []
for _, row in df.iterrows():
    tamanho_amostra = tamanho_amostra_estratificada(row['Habitantes'], row['Variância'], erro_amostral, confianca)
    tamanhos_amostra.append(tamanho_amostra)

# Exibição dos resultados
for i in range(len(df)):
    print(f"Tamanho da amostra para a região {df['Região'][i]}: {tamanhos_amostra[i]}")

Tamanho da amostra para a região Norte: 776
Tamanho da amostra para a região Sul: 1036
Tamanho da amostra para a região Centro: 1459
Tamanho da amostra para a região Leste: 1167
Tamanho da amostra para a região Oeste: 1215
