A função `TTestIndPower` da biblioteca `statsmodels.stats.power` é usada para calcular o poder estatístico de um teste t para duas amostras independentes. Aqui estão algumas das principais funcionalidades dessa classe:

1. **Cálculo do Poder**: A função `power` calcula o poder de um teste t para duas amostras independentes, dado o tamanho do efeito, o número de observações, o nível de significância, entre outros parâmetros.

2. **Resolução de Parâmetros**: A função `solve_power` permite resolver para qualquer um dos parâmetros do poder de um teste t de duas amostras, como tamanho do efeito, número de observações, nível de significância, etc.

3. **Plotagem do Poder**: A função `plot_power` permite criar gráficos do poder em função do número de observações ou do tamanho do efeito.

Essas funcionalidades são úteis para planejar experimentos e garantir que eles tenham poder estatístico suficiente para detectar efeitos significativos.

Se precisar de mais detalhes ou exemplos de uso, estou aqui para ajudar!

In [2]:
import statsmodels.stats.power as smp

# Definindo os parâmetros
effect_size = 0.01 / 0.04  # Tamanho do efeito (variação desejada / proporção esperada)
alpha = 0.05  # Nível de significância
power = 0.8  # Poder do teste (80%)

# Criando a instância da classe TTestIndPower
analysis = smp.TTestIndPower()

# Calculando o tamanho da amostra
sample_size = analysis.solve_power(effect_size=effect_size, alpha=alpha, power=power, alternative='two-sided')

print(f'Tamanho da amostra necessário: {sample_size * 5:.0f}')

Tamanho da amostra necessário: 1261


Para determinar o tamanho da amostra ideal para seu teste, você pode usar a fórmula para calcular o tamanho da amostra para proporções. Dado que a porcentagem de clientes que atrasam é de aproximadamente 4% e você deseja que a variação não seja maior que 1%, você pode usar a seguinte fórmula:

$$
n = \left( \frac{Z^2 \cdot p \cdot (1 - p)}{E^2} \right)
$$

Onde:
- \( n \) é o tamanho da amostra.
- \( Z \) é o valor z correspondente ao nível de confiança desejado (por exemplo, 1,96 para 95% de confiança).
- \( p \) é a proporção esperada (0,04 no seu caso).
- \( E \) é a margem de erro desejada (0,01 no seu caso).

Substituindo os valores:

$$
n = \left( \frac{1,96^2 \cdot 0,04 \cdot (1 - 0,04)}{0,01^2} \right)
$$

Calculando:

$$
n = \left( \frac{3,8416 \cdot 0,04 \cdot 0,96}{0,0001} \right) \approx 1475
$$

Portanto, você precisaria de uma amostra de aproximadamente 1475 clientes para garantir que a variação na porcentagem de clientes que atrasam não seja maior que 1% com um nível de confiança de 95%.

Se precisar de mais ajuda com os cálculos ou tiver outras perguntas, estou aqui para ajudar!

In [5]:
import math

def calcular_tamanho_amostra(Z, p, E):
    # Calculando o tamanho da amostra
    n = (Z**2 * p * (1 - p)) / (E**2)
    # Arredondar para o próximo número inteiro
    return math.ceil(n)

# Parâmetros
Z = 1.96  # Para 95% de confiança
p = 0.04   # Proporção estimada (0.5 é o valor máximo de variabilidade)
E = 0.01  # Margem de erro de 5%

# Cálculo do tamanho da amostra
tamanho_amostra = calcular_tamanho_amostra(Z, p, E)
print(f'O tamanho da amostra necessário é: {tamanho_amostra}')


O tamanho da amostra necessário é: 1476


A principal diferença entre os dois métodos está na abordagem e nos pressupostos utilizados para calcular o tamanho da amostra:

1. **Cálculo de Tamanho de Amostra para Proporções**:
   - **Abordagem**: Este método é específico para proporções e utiliza a fórmula baseada na distribuição normal para estimar o tamanho da amostra necessário para uma determinada margem de erro e nível de confiança.
   - **Pressupostos**: Assume que a proporção da população é conhecida e que a distribuição das proporções amostrais segue uma distribuição normal.
   - **Resultado**: O cálculo é direto e fornece um tamanho de amostra necessário para garantir que a margem de erro não exceda um valor específico (1% no seu caso).

2. **TTestIndPower (Teste t para duas amostras independentes)**:
   - **Abordagem**: Este método é mais geral e pode ser usado para comparar médias entre dois grupos. Ele calcula o tamanho da amostra necessário para detectar um efeito de uma determinada magnitude com um certo poder estatístico.
   - **Pressupostos**: Assume que os dados seguem uma distribuição normal e que as variâncias dos dois grupos são iguais. O tamanho do efeito é definido como a diferença entre as médias dos grupos dividida pelo desvio padrão.
   - **Resultado**: O cálculo considera o poder do teste (probabilidade de detectar um efeito real) e o nível de significância, resultando em um tamanho de amostra que pode ser maior ou menor dependendo do tamanho do efeito e do poder desejado.

A diferença significativa no tamanho da amostra entre os dois métodos ocorre porque:
- **Margem de Erro vs. Poder do Teste**: O cálculo para proporções foca na margem de erro, enquanto o `TTestIndPower` foca no poder do teste. A margem de erro é uma medida mais conservadora, resultando em tamanhos de amostra maiores para garantir precisão.
- **Tamanho do Efeito**: No `TTestIndPower`, o tamanho do efeito é uma medida relativa (variação desejada em relação à proporção esperada), que pode resultar em tamanhos de amostra menores se o efeito for considerado pequeno.

Espero que isso ajude a esclarecer as diferenças! Se precisar de mais detalhes ou tiver outras perguntas, estou aqui para ajudar.

Erro 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.stats.proportion import proportion_confint

# Definindo os parâmetros
proportion = 0.5  # Proporção esperada
population_size = 3360  # Tamanho da população
confidence_level = 0.95  # Nível de confiança

# Função para calcular a margem de erro para um dado tamanho de amostra
def calculate_margin_of_error(sample_size, proportion, confidence_level):
    lower, upper = proportion_confint(count=int(proportion * sample_size), nobs=sample_size, alpha=1-confidence_level, method='normal')
    margin_of_error = (upper - lower) / 2
    return margin_of_error

# Tamanhos de amostra variando de 50 a 3360
sample_sizes = np.arange(50, population_size + 1, 50)
margins_of_error = [calculate_margin_of_error(size, proportion, confidence_level) * 100 for size in sample_sizes]

# Plotando o gráfico
plt.figure(figsize=(10, 6))
plt.plot(sample_sizes/population_size * 100, margins_of_error, marker='o')
plt.title('Margem de Erro para Diferentes Tamanhos de Amostra')
plt.xlabel('Tamanho da Amostra')
plt.ylabel('Margem de Erro')
plt.xticks(np.arange(0,101,5))
plt.yticks(np.arange(0,15,1))
plt.grid(True)
plt.show()

In [None]:
def maior_distancia(base_erro):
    x1,y1 = min(sample_sizes/population_size * 100), base_erro[0]
    x2,y2 = max(sample_sizes/population_size * 100), base_erro[len(base_erro)-1] 

    distance = []
    for i in range(0,15,1):
        x0 = i+2
        y0 = base_erro[i]
        numerator = abs((y2-y1)*x0 - (x2-x1)*y0 + x2*y1 - y2*x1)
        denominator = np.sqrt((y2-y1)**2 + (x2 - x1)**2)
        distance.append(numerator/denominator)
    
    return distance.index(np.max(distance)) 

In [None]:
print(maior_distancia(margins_of_error))
print(maior_distancia(margins_of_error) * population_size / 100)
print(calculate_margin_of_error(maior_distancia(margins_of_error) * population_size / 100, proportion, confidence_level) * 100)