<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Testes_n%C3%A3o_param%C3%A9tricos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **O que são testes não paramétricos**

Um teste não paramétrico é um tipo de teste estatístico que não faz suposições sobre a distribuição subjacente dos dados. Em outras palavras, eles não requerem que os dados sejam normalmente distribuídos.

Esses testes são úteis em várias situações, incluindo:

- Quando os dados são de natureza ordinal, ou seja, podem ser ordenados, mas não se sabe a distância entre os valores.
- Quando os dados são categóricos ou nominais.
- Quando há violações das suposições dos testes paramétricos, como a normalidade ou a homogeneidade de variâncias.
- Quando se deseja realizar inferências sobre a mediana, em vez da média, dos dados.

Agora vamos observar alguns exemplos de testes não paramétricos.

## **Teste de Wilcoxon**

O teste de Wilcoxon, também conhecido como teste de Wilcoxon de sinais ou teste de Wilcoxon de pares, é comumente usado para comparar duas amostras pareadas ou relacionadas.

- Comparação de duas amostras pareadas

- Quando os dados não são distribuídos normalmente

- Pequenas amostras

Nesse teste as hipoteses assumem as seguintes formas:

- Hipótese nula: Não há diferença entre as duas populações
- Hipótese alternativa: Existe uma diferença nas populações.

Dito isso vamos observar um exemplo de aplicação desse teste


**Exercício:**
Você está conduzindo um experimento para determinar se um novo método de ensino melhora o desempenho dos alunos em um teste de matemática. Você coletou as notas de 15 alunos em um teste antes de aplicar o novo método (amostra1) e, em seguida, as notas desses mesmos alunos em um teste semelhante após a aplicação do novo método (amostra2). Use o teste de Wilcoxon para determinar se há uma diferença significativa nas notas dos alunos antes e depois da aplicação do novo método de ensino.

- Valores das notas dos alunos no primeiro teste (amostra1):
[60, 65, 70, 55, 68, 72, 58, 64, 75, 62, 70, 68, 72, 69, 66]

- Valores das notas dos mesmos alunos no segundo teste (amostra2):
[65, 70, 75, 58, 70, 78, 60, 68, 80, 66, 75, 72, 77, 72, 68]

Resposta: Vamos aplicar o teste de Wilcoxon. Como já havíamos visto, as hipóteses por padrão vão assumir as seguintes formas:

- H0: Não existe diferença entre as duas populações.

- Ha: Existe diferença entre as duas populações.

Dito isso, vamos seguir adiante para a importação dos recursos necessários.

In [7]:
# Funções matématicas
import numpy as np

# Importando o teste de wilcoxon
from scipy.stats import wilcoxon

Agora vamos para a aplicação do teste.

In [8]:
# Definindo as notas do primeiro teste
notas_teste1 = np.array([60, 65, 70, 55, 68, 72, 58, 64, 75, 62, 70, 68, 72, 69, 66])

# Definindo as notas do segundo teste
notas_teste2 = np.array([65, 70, 75, 58, 70, 78, 60, 68, 80, 66, 75, 72, 77, 72, 68])

# Aplicando o teste de Wilcoxon
stat, p_valor = wilcoxon(notas_teste1, notas_teste2)

# Exibindo os resultados
print("Estatística do teste de Wilcoxon:", stat)
print("Valor p:", p_valor)

# Definindo o alpha
alpha = 0.05

# Conclusões
if p_valor < alpha:
    print("\nRejeitar H0: Há evidências suficientes para concluir que existe diferenças entre as populações.")
else:
    print("Falha em rejeitar H0: Não há evidências suficientes para concluir que existe diferenças entre as populações.")

Estatística do teste de Wilcoxon: 0.0
Valor p: 6.103515625e-05

Rejeitar H0: Há evidências suficientes para concluir que existe diferenças entre as populações.


Após aplicarmos nosso teste de Wilcoxon utilizando um nível de significância de 0.05, rejeitamos a hipótese nula. Logo, podemos concluir que existem evidências de que as populações apresentam diferenças, ou seja, há diferenças entre as notas dos alunos após a aplicação do novo método.

## **Teste de Mann-Whitney**

O teste U de Mann-Whitney é a contrapartida não paramétrica do teste t
para amostras independentes

Quando utilizar o teste de Mann-Whitney:

- Comparação de duas amostras independentes

- Quando os dados não são distribuídos normalmente

- Escalas ordinais ou categóricas

- Amostras pequenas ou grandes

- Quando você precisa de uma alternativa não paramétrica

Nesses testes as hipoteses assumem a seguinte forma:

- Hipótese nula: Não há diferença entre as duas populações
- Hipótese alternativa: Existe uma diferença nas populações.

Dito isso vamos observar uma aplicação desse teste

**Exercício:**
Suponha que você seja um pesquisador estudando o efeito de dois diferentes tratamentos em pacientes com dor crônica nas costas. Você coletou os níveis de dor relatados por 20 pacientes que receberam o tratamento A (amostra1) e os níveis de dor relatados por 20 pacientes diferentes que receberam o tratamento B (amostra2). Sua tarefa é aplicar o teste de Mann-Whitney para determinar se há uma diferença significativa nos níveis de dor entre os dois tratamentos.

Os dados para as duas amostras são os seguintes:

- Amostra 1 (tratamento A): [5, 6, 7, 8, 4, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8, 4, 6, 7, 8]
- Amostra 2 (tratamento B): [3, 4, 5, 6, 3, 4, 5, 6, 3, 4, 5, 6, 3, 4, 5, 6, 3, 4, 5, 6]

Resposta: Como este é um teste Mann-Whitney, podemos definir nossas hipóteses da seguinte forma:

- H0: Não há diferença entre as duas populações.
- Ha: Existe uma diferença nas populações.

Dito isso, vamos começar realizando as importações necessárias.

In [9]:
# Importando o teste de Mann-whitney
from scipy.stats import mannwhitneyu

Agora vamos partir para os cálculos.

In [10]:
# Criando duas amostras independentes
tratamento_a = [23, 45, 67, 32, 41]
tratamento_b = [18, 40, 65, 30, 38]

# Aplicando o teste de Mann-Whitney
stat, p_valor = mannwhitneyu(tratamento_a, tratamento_b)

# Exibindo os resultados
print("Estatística do teste de Mann-whitney:", stat)
print("Valor p:", p_valor)

# Definindo o alpha
alpha = 0.05

# Conclusões
if p_valor < alpha:
    print("\nRejeitar H0: Há evidências suficientes para concluir que existe diferenças entre as populações.")
else:
    print("\nFalha em rejeitar H0: Não há evidências suficientes para concluir que existe diferenças entre as populações.")

Estatística do teste de Wilcoxon: 16.0
Valor p: 0.5476190476190477

Falha em rejeitar H0: Não há evidências suficientes para concluir que existe diferenças entre as populações.


Após a aplicação do nosso teste de Mann-Whitney a um nível de significância de 0,05, falhamos em rejeitar a hipótese nula. Logo, podemos concluir que não existem evidências suficientes das diferenças entre as populações, então não existe diferença entre os níveis de dor dos tratamentos.

## **Kolmogorov-Smirnov(KS)**

Diferente dos demais, o KS não tem o objetivo de comparar valores amostrais.
A ideia aqui é aplicamos o teste de aderência de Kolmogorov-Smirnov para
verificar se determinada amostra vem de população com distribuição
específica. Essa “distribuição específica” é, na maioria das vezes, a distribuição
normal.

Nesses testes as hipoteses assumem:

- A hipótese nula diz que a amostra segue a mesma distribuição que é
normal.
- A hipótese alternativa diz que as duas distribuições são diferentes.

Para entendermos melhor este teste, vamos observar um exemplo de aplicação.

**Exercício:**
Suponha que você esteja estudando a altura de duas espécies de plantas em diferentes condições de solo. Você coletou a altura de 30 plantas da espécie A e 30 plantas da espécie B. Agora, sua tarefa é aplicar o teste de Kolmogorov-Smirnov para determinar se as alturas das duas espécies seguem a mesma distribuição de altura.

Dados de altura das plantas da espécie A (amostra1):
[20, 22, 25, 21, 23, 24, 26, 19, 20, 21, 23, 22, 24, 25, 26, 20, 21, 22, 23, 24, 25, 20, 21, 22, 23, 24, 25, 26, 27, 28]

Dados de altura das plantas da espécie B (amostra2):
[19, 21, 24, 20, 22, 23, 25, 18, 19, 20, 22, 21, 23, 24, 25, 19, 20, 21, 22, 23, 24, 19, 20, 21, 22, 23, 24, 25, 26, 27]

Aplique o teste de Kolmogorov-Smirnov a esses dados e interprete os resultados.

**Resposta**: Dito isso, vamos começar a definir as nossas hipóteses:

- H0: As amostras possuem distribuição iguais.
- Ha: As amostras possuem distribuição diferentes.

Agora que já realizamos as importações, vamos partir para os cálculos.

In [12]:
# Importando o KS
from scipy.stats import ks_2samp

# Funções matématicas
import numpy as np

Agora que já realizamos as importações, vamos partir para os cálculos.

In [15]:
# Altura das plantas A
especie_a = np.array([20, 22, 25, 21, 23, 24, 26, 19, 20, 21, 23, 22, 24, 25, 26, 20, 21, 22, 23, 24, 25, 20, 21, 22, 23, 24, 25, 26, 27, 28])

# Altura das plantas B
especie_b = np.array([19, 21, 24, 20, 22, 23, 25, 18, 19, 20, 22, 21, 23, 24, 25, 19, 20, 21, 22, 23, 24, 19, 20, 21, 22, 23, 24, 25, 26, 27])

# Aplicando o teste de Kolmogorov-Smirnov
stat, p_valor = ks_2samp(especie_a, especie_b)

# Exibindo os resultados
print("Estatística do teste KS:", stat)
print("Valor p:", p_valor)

# Definindo o alpha
alpha = 0.05

# Conclusões
if p_valor < alpha:
    print("Rejeitar H0: Não há evidências suficientes de que a distribuição de cada amostra é semelhante.")
else:
    print("\nFalha em rejeitar H0: Há evidências suficientes de que a distribuição de cada amostra é semelhante.")

Estatística do teste KS: 0.13333333333333333
Valor p: 0.9578462903438838

Falha em rejeitar H0: Há evidências suficientes de que a distribuição de cada amostra é semelhante.


Ao aplicarmos o teste de Kolmogorov-Smirnov com um nível de significância de 0,05, não encontramos evidências suficientes para rejeitar a hipótese nula. Logo, podemos concluir que a distribuição das duas amostras é semelhante.