# Análise dos Testes Estatísticos

## Teste 1: Teste t de Student com distribuição exponencial
O teste t de Student é um teste paramétrico que assume que os dados seguem uma distribuição normal e possuem variâncias homogêneas entre os grupocomparados. Noentanto, neste caso, os dados foram gerados a partir de uma distribuição exponencial, que é assimétrica e não segue a normalidade. Isssignifica que o teste podeproduzir resultados inválidos devido à violação de seus pressupostos. Para corrigir esse problema, uma alternativa mais robustseria utilizar um teste nãoparamétrico, como o teste de Mann-Whitney U, que não exige a suposição de normalidade.


In [2]:
import numpy as np
import scipy.stats as stats

np.random.seed(42)

grupo1 = np.random.exponential(scale=2, size=500)
grupo2 = np.random.exponential(scale=2, size=500)

# Teste de normalidade
print("Teste de normalidade (Shapiro-Wilk):", stats.shapiro(grupo1))

# Teste t
t_stat, p_value = stats.ttest_ind(grupo1, grupo2)
print("Teste t de Student:", p_value)

Teste de normalidade (Shapiro-Wilk): ShapiroResult(statistic=0.8508714437484741, pvalue=2.4376661261736104e-21)
Teste t de Student: 0.3013067861980228


 ## Teste 2: Teste de Mann-Whitney U com distribuições diferentes
O teste de Mann-Whitney U é um teste não paramétrico utilizado para comparar medianas de dois grupos independentes. Contudo, ele assume que as distribuições dodois grupos possuem a mesma forma. Neste caso, estamos comparando uma distribuição normal e uma exponencial, que possuem formatos distintos. Isso pode fazer coque o teste interprete erroneamente diferenças que são decorrentes da distribuição dos dados, e não de um real efeito. Para corrigir isso, seria ideatransformar os dados ou utilizar um teste de permutação, que pode lidar melhor com distribuições assimétricas.


In [3]:
grupo1 = np.random.normal(loc=50, scale=10, size=1000)
grupo2 = np.random.exponential(scale=50, size=1000)
u_stat, p_value = stats.mannwhitneyu(grupo1, grupo2, alternative='two-sided')
print("Teste de Mann-Whitney U:", p_value)

Teste de Mann-Whitney U: 2.180483153944266e-27


 ## Teste 3: Correlação de Pearson com relação não linear
O coeficiente de correlação de Pearson mede a força da relação linear entre duas variáveis. No entanto, os dados analisados possuem uma relação quadrática, que faz com que a correlação de Pearson subestime a real associação entre as variáveis. Esse problema ocorre porque Pearson só captura relações linearesignorando associações não lineares. Para resolver isso, a correlação de Spearman, que mede relações monotônicas, seria uma melhor escolha, pois detectassociações não necessariamente lineares.


In [4]:
x = np.linspace(-10, 10, 1000)
y = x**2 + np.random.normal(0, 5, size=len(x)) # Relação quadrática
corr, p_value = stats.pearsonr(x, y)
print("Correlação de Pearson:", corr, p_value)

Correlação de Pearson: 0.0006298465253848765 0.984129058902337


## Teste 4: ANOVA com dados exponenciais
A ANOVA (Análise de Variância) é um teste paramétrico que compara as médias de três ou mais grupos, assumindo que os dados seguem uma distribuição normal e que as variâncias dos grupos são homogêneas. Neste caso, os dados são provenientes de distribuições exponenciais, que violam ambas as suposições. Como resultado, os valores-p obtidos podem ser enganosos. Para solucionar esse problema, seria mais apropriado utilizar o teste de Kruskal-Wallis, uma alternativa não paramétrica à ANOVA, que não exige normalidade nem homocedasticidade.


In [5]:
grupo1 = np.random.exponential(50, 1000)
grupo2 = np.random.exponential(50, 1000)
grupo3 = np.random.exponential(50, 1000)
f_stat, p_value = stats.f_oneway(grupo1, grupo2, grupo3)
print("ANOVA:", p_value)


ANOVA: 0.2557023707636055


## Teste 5: Teste t com valores NaN
O teste t não pode ser executado corretamente se houver valores NaN (ausentes) nos conjuntos de dados. Quando esses valores não são tratados, o teste simplesmente falha ou retorna um resultado inválido. O código fornecido utiliza `nan_policy='propagate'`, o que faz com que qualquer NaN no conjunto de dados se propague e inviabilize a execução do teste. Para corrigir isso, é necessário remover os valores NaN antes de executar o teste ou substituir os valores ausentes por alguma estimativa adequada (por exemplo, a média do grupo).


In [6]:
import numpy as np
import scipy.stats as stats
np.random.seed(42)
grupo1 = np.random.normal(50, 10, 1000)
grupo2 = np.random.normal(50, 10, 1000)
grupo1[::50] = np.nan # Inserindo NaNs
t_stat, p_value = stats.ttest_ind(grupo1, grupo2, nan_policy='propagate')
print("Teste t com NaNs:", p_value)


Teste t com NaNs: nan


## Teste 6: Mann-Whitney U com tamanhos de amostra diferentes
O teste de Mann-Whitney U pode ser sensível a tamanhos de amostra muito diferentes. Como esse teste se baseia na ordenação dos dados, um grupo muito menor pode não ter variabilidade suficiente para ser comparado de forma justa com o grupo maior. Isso pode resultar em um viés na estatística U, tornando os resultados menos confiáveis. Para resolver isso, recomenda-se garantir que os tamanhos das amostras sejam mais equilibrados ou utilizar um teste de permutação para garantir robustez na comparação.


In [7]:
grupo1 = np.random.normal(50, 10, 1000)
grupo2 = np.random.normal(50, 10, 50)
u_stat, p_value = stats.mannwhitneyu(grupo1, grupo2)
print("Teste de Mann-Whitney U com tamanhos diferentes:", p_value)


Teste de Mann-Whitney U com tamanhos diferentes: 0.20513517877136755


 ## Teste 7: Correlação de Spearman com valores repetidos
O coeficiente de correlação de Spearman mede a relação monotônica entre duas variáveis e é baseado na ordenação dos dados. No entanto, quando há poucos valores distintos em uma das variáveis (como no caso do vetor `x`, que tem apenas dois valores diferentes), a correlação pode perder precisão e fornecer um valor pouco informativo. Isso ocorre porque a ordenação dos dados fica comprometida devido à falta de variabilidade. Para corrigir isso, pode-se utilizar o coeficiente de Kendall’s Tau, que é mais adequado para conjuntos de dados com empates frequentes.


In [8]:
x = np.array([1]*500 + [2]*500) # Poucos valores distintos
y = np.random.rand(1000)
corr, p_value = stats.spearmanr(x, y)
print("Correlação de Spearman com valores repetidos:", corr, p_value)

Correlação de Spearman com valores repetidos: -0.0006928206694379722 0.9825424709555597


## Teste 8: ANOVA sem homocedasticidade
A ANOVA tradicional assume que os grupos possuem variâncias homogêneas (homocedasticidade). No entanto, neste caso, os grupos possuem variâncias drasticamente diferentes, o que pode distorcer os resultados e comprometer a confiabilidade da análise. Isso significa que o teste pode identificar diferenças significativas que são apenas reflexo da variação da dispersão dos dados e não das médias em si. Para solucionar esse problema, recomenda-se o uso da ANOVA de Welch, que é uma versão da ANOVA que não exige a suposição de homocedasticidade.


In [9]:
grupo1 = np.random.normal(50, 5, 1000)
grupo2 = np.random.normal(50, 20, 1000) # Variância maior
grupo3 = np.random.normal(50, 50, 1000) # Variância ainda maior
f_stat, p_value = stats.f_oneway(grupo1, grupo2, grupo3)
print("ANOVA sem homocedasticidade:", p_value)


ANOVA sem homocedasticidade: 0.30603204707423126


## Teste 9: Teste de Kruskal-Wallis com distribuições diferentes
O teste de Kruskal-Wallis é um teste não paramétrico utilizado para comparar três ou mais grupos. Ele assume que todas as distribuições possuem formas semelhantes, variando apenas em sua mediana. No entanto, no exemplo dado, os dados vêm de distribuições muito diferentes (normal, exponencial e uniforme), o que pode afetar a validade do teste. Se as distribuições forem muito distintas, o teste pode não ser apropriado. Para corrigir esse problema, recomenda-se avaliar previamente a distribuição dos dados e considerar testes mais robustos, como um teste de permutação ou modelagem bayesiana.


In [10]:
grupo1 = np.random.normal(50, 10, 1000)
grupo2 = np.random.exponential(50, 1000)
grupo3 = np.random.uniform(0, 100, 1000)
h_stat, p_value = stats.kruskal(grupo1, grupo2, grupo3)
print("Teste de Kruskal-Wallis com distribuições diferentes:", p_value)

Teste de Kruskal-Wallis com distribuições diferentes: 1.7665886895697778e-16
