# Teste de Friedman

Resumo feito em 10/09/2024 com auxílio do ChatGPT

O teste de Friedman é um teste estatístico não paramétrico usado para analisar diferenças entre grupos relacionados. Ele é a alternativa não paramétrica à ANOVA de medidas repetidas, que é utilizada quando os pressupostos dessa ANOVA (como a normalidade) não são satisfeitos. Vamos detalhar o funcionamento, os conceitos envolvidos e, ao final, resolver um exemplo.

## Para que serve o Teste de Friedman?

O teste de Friedman é utilizado quando se deseja comparar três ou mais condições ou tratamentos aplicados aos mesmos sujeitos (ou blocos, em experimentos com blocos aleatorizados). Ele é aplicável quando os dados são ordinais ou quando não se pode assumir que os dados vêm de uma distribuição normal.

É ideal para situações onde há medidas repetidas em várias condições e os pressupostos de normalidade ou homocedasticidade (igualdade de variâncias) não são atendidos.

## Hipótese nula

* Hipótese nula ($H_0$): Todas as condições ou tratamentos têm a mesma mediana populacional, ou seja, não há diferença significativa entre as amostras.
* Hipótese alternativa ($H_1$): Pelo menos uma das condições ou tratamentos tem uma mediana diferente, sugerindo diferenças entre as amostras.

## Formalismo Matemático


O teste de Friedman envolve os seguintes passos:

1. **Organização dos dados**: Cada sujeito (ou bloco) recebe um conjunto de tratamentos (ou condições), e a resposta para cada tratamento é medida. Os dados são organizados em uma matriz $ N \times k $, onde:
   - $ N $ é o número de blocos (ou sujeitos).
   - $ k $ é o número de tratamentos (ou condições).

2. **Ranqueamento**: Para cada bloco, as observações em cada linha são classificadas em ordem crescente. Se houver empates, atribui-se a cada valor a média dos postos que ocupariam.

3. **Cálculo do estatístico de Friedman**:
   
   $$
   F_R = \frac{12}{Nk(k+1)} \sum_{j=1}^{k} R_j^2 - 3N(k+1)
   $$
   
   Onde:
   - $ R_j $ é a soma dos postos para o $ j $-ésimo tratamento.
   - $ N $ é o número de blocos (ou sujeitos).
   - $ k $ é o número de tratamentos.

4. **Decisão**: O valor $ F_R $ segue aproximadamente uma distribuição qui-quadrado ($ \chi^2 $) com $ k - 1 $ graus de liberdade. Comparamos o valor de $ F_R $ com um valor crítico da distribuição $ \chi^2 $ para decidir se rejeitamos ou não $ H_0 $.

Se $ F_R $ for maior que o valor crítico, rejeitamos $ H_0 $ e concluímos que há diferenças significativas entre os tratamentos.

## Exemplo 1 - Criado pelo ChatGPT

Vamos considerar o exemplo de um estudo em que um grupo de 4 indivíduos foi exposto a 3 tratamentos diferentes para reduzir o tempo de reação, com os tempos medidos em segundos:

| Indivíduo | Tratamento A | Tratamento B | Tratamento C |
|-----------|--------------|--------------|--------------|
| 1         | 3.2          | 2.8          | 2.7          |
| 2         | 3.5          | 3.0          | 3.1          |
| 3         | 3.3          | 3.2          | 3.0          |
| 4         | 3.4          | 3.6          | 3.1          |

### Passo 1: Ranqueamento dos dados
Primeiro, ranqueamos os dados para cada linha (cada indivíduo). O menor valor recebe posto 1, o segundo menor posto 2, e assim por diante.

| Indivíduo | Tratamento A | Tratamento B | Tratamento C | Posto A | Posto B | Posto C |
|-----------|--------------|--------------|--------------|---------|---------|---------|
| 1         | 3.2          | 2.8          | 2.7          | 3       | 2       | 1       |
| 2         | 3.5          | 3.0          | 3.1          | 3       | 1       | 2       |
| 3         | 3.3          | 3.2          | 3.0          | 3       | 2       | 1       |
| 4         | 3.4          | 3.6          | 3.1          | 2       | 3       | 1       |

### Passo 2: Soma dos postos
Calculamos a soma dos postos para cada tratamento:

- Soma dos postos para o Tratamento A: $ 3 + 3 + 3 + 2 = 11 $
- Soma dos postos para o Tratamento B: $ 2 + 1 + 2 + 3 = 8 $
- Soma dos postos para o Tratamento C: $ 1 + 2 + 1 + 1 = 5 $

### Passo 3: Cálculo da estatística de Friedman
Agora usamos a fórmula do teste de Friedman:

$$
F_R = \frac{12}{Nk(k+1)} \sum_{j=1}^{k} R_j^2 - 3N(k+1)
$$

Substituindo os valores:

- $ N = 4 $ (número de indivíduos)
- $ k = 3 $ (número de tratamentos)
- Somatório dos quadrados dos postos: $ 11^2 + 8^2 + 5^2 = 121 + 64 + 25 = 210 $

$$
\begin{aligned}
F_R &= \frac{12}{4 \times 3 \times (3+1)} \times 210 - 3 \times 4 \times (3+1) \\
 &= \frac{12}{48} \times 210 - 3 \times 4 \times 4 \\
 &= 52.5 - 48 \\ & = 4.5
\end{aligned}
$$

### Passo 4: Comparação com o valor crítico
O valor crítico de $ \chi^2 $ para $ k - 1 = 2 $ graus de liberdade e um nível de significância de 0,05 é aproximadamente 5.99.

Como $ F_R = 4.5 $ é menor que o valor crítico de $ \chi^2 $, **não rejeitamos a hipótese nula**. Não há evidências suficientes para concluir que há uma diferença significativa entre os tratamentos.


### Implementação do Exemplo 1

No Python, a matriz apresentada no exemplo deve ser **transposta**. Isto é, cada linha representa uma **coluna do Tratamento**. No exemplo a seguir, ela é montada conforme o problema e coloca-se o **.T** para fazer a transposição.

In [None]:
import scipy.stats as stats
import numpy as np
# Dados de exemplo
dados = np.array([
    [3.2, 2.8, 2.7],  # Sujeito 1
    [3.5, 3.0, 3.1],  # Sujeito 2
    [3.3, 3.2, 3.0],  # Sujeito 3
    [3.4, 3.6, 3.1]   # Sujeito 4
]).T

# Aplicando o teste de Friedman
stat, p = stats.friedmanchisquare(*dados)

print(f'Estatística de teste: {stat}')
print(f'Valor-p: {p}')


Estatística de teste: 4.5
Valor-p: 0.10539922456186433


### Dados da dissertacao 1

In [None]:
import numpy as np

dados = np.array([
    [1564.76509, 1564.76490, 1565.50791, 1564.76596, 1565.69641],
    [1.35361, 1.33997, 1.56018, 1.35996, 1.34033],
    [26.53159, 26.53133, 26.60963, 26.57612, 26.57784],
    [9.39001, 9.39001, 9.39154, 9.39043, 9.39087],
    [0.91150, 0.90509, 1.32994, 0.91450, 0.92746]
]).T

# Aplicando o teste de Friedman
stat, p = stats.friedmanchisquare(*dados)

print(f'Estatística de teste: {stat}')
print(f'Valor-p: {p}')

Estatística de teste: 16.848484848484855
Valor-p: 0.0020684472508883814


In [None]:
import numpy as np
from scipy.stats import friedmanchisquare

# Matriz dos resultados (linhas = problemas, colunas = algoritmos)
dados = np.array([
    [1564.76509, 1564.76490, 1565.50791, 1564.76596, 1565.69641],
    [1.35361, 1.33997, 1.56018, 1.35996, 1.34033],
    [26.53159, 26.53133, 26.60963, 26.57612, 26.57784],
    [9.39001, 9.39001, 9.39154, 9.39043, 9.39087],
    [0.91150, 0.90509, 1.32994, 0.91450, 0.92746]
])

# Converte os valores em rankings dentro de cada problema
ranks = np.argsort(np.argsort(dados, axis=1), axis=1) + 1  # Rank 1 para o menor valor

# Aplicar o teste de Friedman
stat, p_value = friedmanchisquare(*dados.T)  # Transpõe para comparar colunas (algoritmos)

print(f"Estatística de Friedman: {stat:.4f}")
print(f"Valor-p: {p_value:.4f}")

# Interpretação
if p_value < 0.01:
    print("Diferença estatística encontrada entre os algoritmos!")
else:
    print("Não há diferença estatística significativa entre os algoritmos.")


Estatística de Friedman: 16.8485
Valor-p: 0.0021
Diferença estatística encontrada entre os algoritmos!


In [None]:
import numpy as np
from scipy.stats import friedmanchisquare

# Matriz dos resultados (linhas = problemas, colunas = algoritmos)
dados = np.array([
    [1564.77, 1564.76, 1565.51, 1564.77, 1565.70],
    [1.35, 1.34, 1.56, 1.36, 1.34],
    [26.53, 26.53, 26.61, 26.58, 26.58],
    [9.39, 9.39, 9.39, 9.39, 9.39],
    [0.91, 0.91, 1.33, 0.91, 0.93]
])

# Converte os valores em rankings dentro de cada problema
ranks = np.argsort(np.argsort(dados, axis=1), axis=1) + 1  # Rank 1 para o menor valor

# Aplicar o teste de Friedman
stat, p_value = friedmanchisquare(*dados.T)  # Transpõe para comparar colunas (algoritmos)

print(f"Estatística de Friedman: {stat:.4f}")
print(f"Valor-p: {p_value:.4f}")

# Interpretação
if p_value < 0.05:
    print("Diferença estatística encontrada entre os algoritmos!")
else:
    print("Não há diferença estatística significativa entre os algoritmos.")

Estatística de Friedman: 10.8889
Valor-p: 0.0278
Diferença estatística encontrada entre os algoritmos!


### Exemplo 2 - Retirado do tutorial do Scipy


In [None]:
from scipy.stats import friedmanchisquare
before = [72, 96, 88, 92, 74, 76, 82]
immediately_after = [120, 120, 132, 120, 101, 96, 112]
five_min_after = [76, 95, 104, 96, 84, 72, 76]
res3 = friedmanchisquare(before, immediately_after, five_min_after)
res3.statistic

10.57142857142857

## Teste de Friedman com Tied

Resumo feito em 12/09/2024

Para os casos em que há valores dos dados repetidos, a avaliação de Friedman sofre uma pequena alteração. Essa fórmula corrigida pode ser de três formas.

1. **Com base em (Hollander)**

$$F_R' = \dfrac{12 \sum_{j=1}^{k} R_j^2 - 3N^2k(k+1)^2}{Nk(k+1) - \left(\frac{1}{k-1}\right)\sum_{i=1}^n\left[\left(\sum_{j=1}^{g_i}t_{ij}^3  \right) - k \right]}$$

de forma a simplificar essa equação, chega-se a:

$$F_R'=\dfrac{F_R}{1 - \dfrac{1}{n(k^3-k)}\sum_{i=1}^n\left[\left(\sum_{j=1}^{g_i}t_{ij}^3  \right) - k \right]} $$

Na ocasião temos que:
* $g_i$: é o número de grupos totais *tied* no i-th bloco (considera até os casos sem empates)
* $t_{ij}$: é a quantidade de elementos do j-th grupo no i-th bloco

\\
2. **Com base no Minitab**

A relação apresentada no Minitab é uma manipulação advinda da fórmula de Hollander. O que segue:

$$F_R' = \frac{F_R}{C}$$

sendo C definido por:

$$C = 1 - \dfrac{1}{n(k^3-k)} \sum_{i=1}^n\left[\sum_{j=1}^{m_i}\left(t_{ij}^3   - t_{ij} \right)\right]$$

em que:
* $m_i$: é o número de grupos somente com empate em cada bloco.

\\
3. **Com base em (Sprenter)**

### Exemplo 3 - Retirado do YT

Vídeo - [Teste de Friedman - Exercício](https://youtu.be/1sal8_Ci9Ec?si=8wC0-WYlZhrC69IO)


**Tabela do exercício:**

| Estudante | Estimulo A | Estimulo B | Estimulo C |
|-----------|--------------|--------------|--------------|
| 1         | 0.6          | 0.9          | 0.8          |
| 2         | 0.7          | 1.1          | 0.7          |
| 3         | 0.9          | 1.3          | 1.0          |
| 4         | 0.5          | 0.7          | 0.8          |

**Hipóteses**

H0: as distribuições dos 3 tempos de resposta são idênticas

H1: pelo menos duas das 3 distribuições diferem na localização

Em resumo: Rejeitar a hipótese nula H0 se Fr > $\chi^2$

**Resolução**

N = 4, k = 3, os postos ficam dispostos da forma:

| Estudante | Posto A      | Posto B      | Posto C      |
|-----------|--------------|--------------|--------------|
| 1         | 1          | 3          | 2          |
| 2         | 1.5        | 3          | 1.5          |
| 3         | 1          | 3          | 2          |
| 4         | 1          | 2          | 3          |

A soma de cada posto é portanto:

Posto A: $1 + 1.5 + 1 + 1 = 4.5$

Posto B: $3 + 3 + 3 + 2 = 11$

Posto C: $2 + 1.5 + 2 + 3 = 8.5$

Substituindo na fórmula de Friedman:
$$F_r = \frac{12}{4\cdot 3 (3+1)}[4.5^2 + 11^2 + 8.5^2] - 3\cdot 4 (3+1) = 5.375 $$

No entanto, em uma das linhas (blocos) há valores repetidos, então deve ser considerada a relação do *Friedman Tied*

1. Pela fórmula de Hollander, olhando para o denominador por ter somente um bloco (2ª linha), têm-se:
$$1 - \dfrac{1}{n(k^3-k)}\left[\left(\sum_{j=1}^{g_2}t_{2j}^3  \right) - k \right]$$

nesse $g_2$ tem dois grupos, o que contem os Postos A e C, e o que contem o Posto B, assim:
$$g_2 = 2 \hspace{1cm} t_{21} = 2 \hspace{1cm} t_{22} = 1 $$
sendo ainda k=3 e n =4, podemos substituir na formula do denominador:

$$
\begin{aligned}
=& 1 -  \dfrac{1}{4(3^3-3)}\left[\left(\sum_{j=1}^{2}t_{2j}^3  \right) - 3 \right] \\
=&1 -  \dfrac{1}{4(3^3-3)}\left[(2^3 + 1^3) - 3 \right]\\
=&1 -  \dfrac{6}{4\cdot 24} \\
=&0.9375
\end{aligned}
$$

portanto, o valor final para a estatística do Friedman Tied é:

$$F_R' = \frac{5.375}{0.9375} = 5.733\bar{3}$$

O valor crítico de $\chi^2$ para $k-1 = 2$ e uma significância de 0.05 é equivalente a 5.99 (olhar tabela da distribuição $\chi^2$)

Como o valor de $F_R'$ é menor, então aceita-se a hipótese nula.

### Implementação do Exemplo 3


Links:
* [Understanding PMF, PDF, CDF, and PPF in Just 10 Minutes](https://medium.com/@rathibala96/probability-distributions-a-comprehensive-guide-to-pmf-pdf-and-cdf-ppf-297fbb2f6803)

In [None]:
import scipy.stats as stats

#Forma de resolver segundo o manual
estA = [0.6,0.7,0.9,0.5]   #estimulo A
estB = [0.9,1.1,1.3,0.7]
estC = [0.8,0.7,1.0,0.8]

res1,pvalor1 = stats.friedmanchisquare(estA,estB,estC)
print(f"Fr do teste = {res1:.4f}")
Fcri = stats.chi2.ppf(1-.05, df=2)    # valor de F critico calculado com PPF (funcao ponto de porcentagem) é inversa a CDF
print(f"Fr critico = {Fcri}")
print(f"p-valor do teste = {pvalor1}")

pvalue1 = stats.chi2.pdf(res1,df=2)   # valor de p calculado com a PDF (funcao de densidade probabilidade)
print(f'P valor via PDF = {pvalue1*2}')

Fr do teste = 5.7333
Fr critico = 5.991464547107979
p-valor do teste = 0.056888238346101516
P valor via PDF = 0.056888238346101516


In [None]:
dados2 = np.array([
    [1564.76509, 1564.76490, 1565.50791, 1564.76596, 1565.69641],
    [1.35361, 1.33997, 1.56018, 1.35996, 1.34033],
    [26.53159, 26.53133, 26.60963, 26.57612, 26.57784],
    [9.39001, 9.39001, 9.39154, 9.39043, 9.39087],
    [0.91150, 0.90509, 1.32994, 0.91450, 0.92746]
]).T

res1,pvalor1 = stats.friedmanchisquare(*dados2)
print(f"Fr do teste = {res1:.4f}")
Fcri = stats.chi2.ppf(1-.01, df=2)    # valor de F critico calculado com PPF (funcao ponto de porcentagem) é inversa a CDF
print(f"Fr critico = {Fcri}")
print(f"p-valor do teste = {pvalor1}")

pvalue1 = stats.chi2.pdf(res1,df=2)   # valor de p calculado com a PDF (funcao de densidade probabilidade)
print(f'P valor via PDF = {pvalue1*2}')

Fr do teste = 16.8485
Fr critico = 9.21034037197618
p-valor do teste = 0.0020684472508883814
P valor via PDF = 0.00021948154109105008


### Exemplo 4 - Criado para estudo pessoal

Exemplo proprio, para teste do python.

| Estudante | Prova 1     | Prova 2    | Prova 3      |
|-----------|--------------|--------------|--------------|
| 1         | 10          | 8          | 10          |
| 2         | 9        | 9          | 9          |

então a matriz de posto

| Estudante | Posto A      | Posto B      | Posto C      |
|-----------|--------------|--------------|--------------|
| 1         | 2.5          | 1          | 2.5          |
| 2         | 2        | 2          | 2          |

A soma dos postos: Posto A = 4.5, Posto B = 3, Posto C = 4.5

N = 2, k = 3

Substituindo na fórmula de Friedman:
$$F_R = \frac{12}{2\cdot 3 (3+1)}[4.5^2 + 3^2 + 4.5^2] - 3\cdot 2 (3+1) = 0.75 $$

Como em ambas as linhas (blocos) há repetições de dados, é necessário usar a relação Friedman Tied.

Resolvendo pela fórmula do minitab, têm-se para o dominador que:

$$C = 1 - \dfrac{1}{n(k^3-k)} \sum_{i=1}^n\left[\sum_{j=1}^{m_i}\left(t_{ij}^3   - t_{ij} \right)\right]$$

Como nesse caso considera-se somente a quantidade de **grupos que se repetem**, temos que em cada bloco n, o valor de $m_1=m_2=1$. Na ocasião temos então ainda que:
$$t_{11} = 2 \hspace{1cm} t_{21} = 3$$
assim:
$$
\begin{aligned}
C &= 1 - \dfrac{1}{2(3^3-3)} \left([2^3 - 2] + [3^3 - 3]\right)\\
& = 1 - \dfrac{6+24}{48}\\
& = 0.375
\end{aligned}
$$
assim têm-se que:
$$F_R' = \frac{0.75}{0.375} = 2$$


In [None]:
import scipy.stats as stats

#Forma de resolver segundo o manual
pA = [10,9]   #estimulo A
pB = [8,9]
pC = [10,9]

res4 = stats.friedmanchisquare(pA,pB,pC)
print(f"Fr = {res4.statistic:.4f}")


Fr = 2.0000


# Teste de Friedman Aligned

*Resumo feito em 11/09/2024*

Nesse teste os cálculos são um tanto diferentes, começando pela determinação do *rank*, assim como a obtenção do valor do teste.

## Friedman Aligned Rank

Com base no trecho retirado do artigo: *Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining: Experimental analysis of power*", o Rank nesse teste é feito da seguinte forma:


> In this technique, a value of location is computed as the average performance achieved by all algorithms in each data set.
Then, it calculates the difference between the performance obtained by an algorithm and the value of location. This step is  repeated for algorithms and data sets. The resulting differences, called aligned observations, which keep their identities with respect to the data set and the combination of algorithms to which they belong, are then ranked from 1 to kn relative to each other.

**O que Chat-Gpt explica desse trecho:**

1. Cálculo da "value of location":

* Para cada conjunto de dados, calcula-se um valor de referência, chamado aqui de "valor de localização". Esse valor é a média do desempenho de todos os algoritmos naquele conjunto de dados. A ideia é ter um ponto central de comparação para cada conjunto de dados.

2. Diferença em relação ao "valor de localização":
* Para cada algoritmo e cada conjunto de dados, calcula-se a diferença entre o desempenho desse algoritmo e o "valor de localização" correspondente. Ou seja, você vê o quão distante (positiva ou negativamente) o desempenho de um algoritmo está em relação à média dos desempenhos naquele conjunto de dados.

3. Alinhamento das observações:
* As diferenças calculadas (também chamadas de "aligned observations" ou observações alinhadas) mantêm sua identificação com o conjunto de dados e o algoritmo ao qual pertencem. Isso significa que mesmo após calcular as diferenças, sabe-se a qual algoritmo e conjunto de dados cada diferença pertence.

4. Ranqueamento:
* As diferenças alinhadas de todos os algoritmos em todos os conjuntos de dados são, então, ranqueadas. Os valores são ordenados de 1 até $kn$ (onde k é o número de algoritmos e n é o número de conjuntos de dados). O menor valor recebe o menor rank e assim por diante, independentemente de qual conjunto de dados ou algoritmo esteja associado àquela diferença.


### Exemplo do Rank Aligned

Com base no artigo: *A practical tutorial on the use of nonparametric statistical tests as a methodology for comparing evolutionary and swarm intelligence algorithms*

Seja a seguinte tabela de dados:

| Error | A      | B    | C    | D    |
|-------|--------|------|------|------|
| P1    | 2.711  | 3.147| 2.515| 2.612
| P2    |   7.832| 9.828| 7.832| 7.921
| P3    |   0.012| 0.532| 0.122| 0.005
| P4    |   3.431| 4.111| 3.401| 3.401

1. Para cada linha, devemos calcular a média.

> $\bar{x}_{P1} = \dfrac{2.711+3.147+2.515+2.612}{4} = 2.74625$
>
>As demais são obtidas via python e dão os seguintes valores:
>
>$\bar{x}_{P2} = 8.35325$
>
>$\bar{x}_{P3} =0.16775$
>
>$\bar{x}_{P4} =3.586 $

2. Subtrair o valor encontrado da média em cada linha, para cada componente da linha.

> Avaliando a primeira linha temos:
>
> $P1_A = 2.711 - 2.74625 = -0.03525 \\
 P1_B = 3.147 - 2.74625 =  0.40075 \\
 P1_C = 2.515 - 2.74625 = -0.23125 \\
 P1_D = 2.612 - 2.74625 = -0.13425$
>
> Fazendo isso para todas as linhas monta-se a matriz:

| A      | B    | C    | D    |
|------|---|---|---|
|-0.03525 | 0.40075 | -0.23125 | -0.13425|
| -0.52125|  1.47475 |-0.52125 |-0.43225 |
|-0.15575 | 0.36425 |-0.04575 |-0.16275|
| -0.155  |  0.525 |  -0.185  | -0.185  |

3. Colocar os valores encontrados em ordem

Do menor para o maior valor, colocar todas as diferenças calculadas,
o que nesse caso da um vetor com 16 posições. Para facilitar fazemos isso em python




In [None]:
import numpy as np
A  = np.array([
    [-0.03525, 0.40075, -0.23125, -0.13425],
    [-0.52125, 1.47475, -0.52125, -0.43225],
    [-0.15575, 0.36425, -0.04575, -0.16275],
    [-0.155, 0.525, -0.185, -0.185]])
vetor_ordenado = np.sort(A.flatten())
print(vetor_ordenado)

[-0.52125 -0.52125 -0.43225 -0.23125 -0.185   -0.185   -0.16275 -0.15575
 -0.155   -0.13425 -0.04575 -0.03525  0.36425  0.40075  0.525    1.47475]


Agora devemos atribuir o posto de cada posição, usando novamente o python

In [None]:
from scipy.stats import rankdata
# Aplicando o rank ao vetor, com método 'average' para valores repetidos
vetor_rankeado = rankdata(vetor_ordenado, method='average')
print(vetor_rankeado)

[ 1.5  1.5  3.   4.   5.5  5.5  7.   8.   9.  10.  11.  12.  13.  14.
 15.  16. ]


Por fim, com os valores dos postos estabelecidos monta-se a matriz de acordo com o posto encontrado para cada valor da tabela anteriormente calculada, o que gera:

| A      | B    | C    | D    |
|------|---|---|---|
|12 | 14 | 4 | 10|
|1.5| 16 |1.5 |3 |
|8. | 13 |11  |7 |
|9. | 15 |5.5 |5.5  |

### Exemplo resolvido totalmente em Python

In [None]:
import pandas as pd
import numpy as np

data = np.array([
    [2.711, 3.147, 2.515, 2.612],
    [7.832, 9.828, 7.832, 7.921],
    [0.012, 0.532, 0.122, 0.005],
    [3.431, 4.111, 3.401, 3.401]
])

# Passo 1: Calcular a média (valor de localização) de cada linha (dataset)
location_values = np.mean(data, axis=1)
print(f"{location_values}\n")

# Passo 2: Calcular as diferenças entre cada valor e o valor de localização correspondente
aligned_observations = data - location_values[:, np.newaxis]
print(f"{aligned_observations}\n")

# Passo 3: Rankear todas as diferenças alinhadas
aligned_ranks = pd.DataFrame(aligned_observations.flatten()).rank(ascending=False).to_numpy().reshape(data.shape)

print(aligned_ranks)

[2.74625 8.35325 0.16775 3.586  ]

[[-0.03525  0.40075 -0.23125 -0.13425]
 [-0.52125  1.47475 -0.52125 -0.43225]
 [-0.15575  0.36425 -0.04575 -0.16275]
 [-0.155    0.525   -0.185   -0.185  ]]

[[ 5.   3.  13.   7. ]
 [15.5  1.  15.5 14. ]
 [ 9.   4.   6.  10. ]
 [ 8.   2.  11.5 11.5]]


## Friedman Aligned Ranks Test

A fórmula para o cálculo do teste é dada por

$$F_{AR} = \dfrac{(k-1)\left[\sum_{j=1}^k R_j^2 - \dfrac{kn^2(kn+1)^2}{4}\right]}{\dfrac{kn(kn+1)(2kn+1)}{6}-\dfrac{1}{k}\sum_{i=1}^n R_i^2}$$

Em que:

* $R_i$ é o rank total do i-ésimo problema
* $R_j$ é o rank total do j-ésimo algoritmo

## Exemplo com base na tabela 2 do Golcuk

In [None]:
import numpy as np
from scipy.stats import rankdata, wilcoxon, norm
import pandas as pd

In [None]:
dados = '/content/drive/MyDrive/Colab Notebooks/table2_Golcuk.csv'
df = pd.read_csv(dados)
df

Unnamed: 0,SP_Best,DP_Best,DPSF_Best,EDP_Best,EDPSF_Best,AP_Best,EP_Best,ITCH_Best
0,2998.0,3016.0,3014.0,3014.0,3017.0,3011.0,2998.0,2996.0
1,0.6322,32.03,0.3928,0.003835,0.1382,0.7228,2148.0,0.2109
2,0.01268,0.013,0.01289,0.0132,0.01283,0.01296,0.01267,0.01269
3,474.7,7200.0,6210.0,475.7,6521.0,480.3,6483.0,6133.0
4,1.773,1.701,1.907,0.1046,1.859,2.001,1.672,1.684
5,264.0,263.9,264.0,2.52,263.9,1.488,263.9,263.9
6,0.2378,0.2363,0.2362,0.2377,0.2366,0.1262,0.2352,0.2352
7,0.5273,0.5273,0.5258,0.5273,0.5269,0.53,0.5258,0.5258
8,8.524,16.54,16.4,8.524,8.692,16.72,10.35,16.47
9,3.471,3.622,3.476,3.288,3.321,3.839,3.442,3.438


### Determinando o rank de forma "manual"

In [None]:
# Inicializa uma lista para armazenar os ranks
rank_list = []

# Itera sobre cada linha do DataFrame
for index, row in df.iterrows():
    # Calcula o rank da linha
    ranks = row.rank(method='average')
    # Adiciona os ranks à lista
    rank_list.append(ranks.values)

# Converte a lista de ranks para um np.array
rank_array = np.array(rank_list)

print(rank_array)

[[2.5 7.  5.5 5.5 8.  4.  2.5 1. ]
 [5.  7.  4.  1.  2.  6.  8.  3. ]
 [2.  7.  5.  8.  4.  6.  1.  3. ]
 [1.  8.  5.  2.  7.  3.  6.  4. ]
 [5.  4.  7.  1.  6.  8.  2.  3. ]
 [7.5 4.5 7.5 2.  4.5 1.  4.5 4.5]
 [8.  5.  4.  7.  6.  1.  2.5 2.5]
 [6.  6.  2.  6.  4.  8.  2.  2. ]
 [1.5 7.  5.  1.5 3.  8.  4.  6. ]
 [5.  7.  6.  1.  2.  8.  4.  3. ]
 [8.  6.  7.  2.  1.  5.  4.  3. ]
 [4.  5.  7.  1.5 1.5 3.  6.  8. ]
 [6.  5.  4.  8.  2.  1.  3.  7. ]
 [8.  6.  3.  7.  5.  4.  2.  1. ]
 [4.5 6.  4.5 8.  7.  1.  2.5 2.5]
 [3.  4.  7.  1.  8.  2.  5.5 5.5]
 [4.  4.  4.  4.  4.  4.  4.  8. ]
 [4.  5.  7.  8.  6.  3.  1.  2. ]
 [6.  6.  6.  2.  6.  6.  2.  2. ]]


### Média de cada coluna

In [None]:
# Calcula a média para cada coluna
mean_values = np.mean(rank_array, axis=0)

print(mean_values)

[4.78947368 5.76315789 5.28947368 4.02631579 4.57894737 4.31578947
 3.5        3.73684211]


### Aplicando o teste de Friedman

In [None]:
import numpy as np
from scipy.stats import rankdata, wilcoxon, norm
import pandas as pd
from scipy.stats import friedmanchisquare
dados = '/content/drive/MyDrive/Colab Notebooks/table2_Golcuk.csv'
df = pd.read_csv(dados)
df1 = df.to_numpy()
df2 = df1.T

In [None]:
res_golcuk,pvalor_golcuk = friedmanchisquare(*df2)
print(f"Estatisca Friedman:{res_golcuk}")
print(f"P valor:{pvalor_golcuk}")

Estatisca Friedman:14.084620550705175
P valor:0.049696601400498766


In [None]:
from scipy.stats import norm

# Suponha um valor Z (estatística do teste de Wilcoxon)
Z = 3.08  # Exemplo de Z-score

# Cálculo do p-valor (teste bicaudal)
p_value = 2 * norm.sf(abs(Z))  # sf = 1 - cdf

print(f"Valor-p: {p_value:.7f}")

Valor-p: 0.0020700


In [None]:
def nemenyi(p,k):
  m = k*(k-1)/2
  v = m*p
  return np.min([v,1])

nemenyi(p_value,8)

0.05796016658895913

In [None]:
import pandas as pd
import numpy as np

data = {
    "F1": [1.234e-4, 0, 2.464, 8.420e-9, 3.402e1, 1.064, 7.716e-9, 8.260e-9, 8.416e-9],
    "F2": [2.595e-2, 0, 1.180e2, 8.719e-5, 1.730, 5.282, 8.342e-9, 8.181e-9, 8.208e-9],
    "F3": [5.174e4, 0, 2.699e5, 7.948e4, 1.844e5, 2.535e5, 4.233e1, 9.935e1, 6.560e3],
    "F4": [2.488, 2.932e3, 9.190e1, 2.585e-3, 6.228, 5.755, 7.686e-9, 8.350e-9, 8.087e-9],
    "F5": [4.095e2, 8.104e-10, 2.641e2, 1.343e2, 2.185, 1.443e1, 8.608e-9, 8.514e-9, 8.640e-9],
    "F6": [7.310e2, 0, 1.416e6, 6.171, 1.145e2, 4.945e2, 7.956e-9, 8.391e-9, 1.612e-2],
    "F7": [2.678e1, 1.267e3, 1.269e3, 1.271e3, 1.966e3, 1.908e3, 1.266e3, 1.265e3, 1.263e3],
    "F8": [2.043e1, 2.001e1, 2.034e1, 2.037e1, 2.035e1, 2.036e1, 2.033e1, 2.038e1, 2.032e1],
    "F9": [1.438e1, 2.841e1, 5.886, 7.286e-9, 4.195, 5.960, 4.546, 8.151e-9, 8.330e-9],
    "F10":[1.404e1, 2.327e1, 7.123, 1.712e1, 1.239e1, 2.179e1, 1.228e1, 1.118e1, 1.548e1],
    "F11":[5.590, 1.343, 1.599, 3.255, 2.929, 2.858, 2.434, 2.067, 6.796],
    "F12":[ 6.362e2, 2.127e2, 7.062e2, 2.794e2, 1.506e2, 2.411e2, 1.061e2, 6.309e1, 5.634e1],
    "F13":[ 1.503, 1.134, 8.297e1, 6.713e1, 3.245e1, 5.479e1, 1.573, 6.403e1, 7.070e1],
    "F14":[ 3.304, 3.775, 2.073, 2.264, 2.796, 2.970, 3.073, 3.158, 3.415],
    "F15":[ 3.398e2, 1.934e2, 2.751e2, 2.920e2, 1.136e2, 1.288e2 ,3.722e2, 2.940e2, 8.423e1],
    "F16":[ 1.333e2, 1.170e2, 9.729e1, 1.053e2, 1.041e2, 1.134e2, 1.117e2, 1.125e2, 1.227e2],
    "F17":[ 1.497e2, 3.389e2, 1.045e2, 1.185e2, 1.183e2, 1.279e2, 1.421e2, 1.312e2, 1.387e2],
    "F18":[ 8.512e2, 5.570e2, 8.799e2, 8.063e2, 7.668e2, 6.578e2, 5.097e2, 4.482e2, 5.320e2],
    "F19":[ 8.497e2, 5.292e2, 8.798e2, 8.899e2, 7.555e2, 7.010e2, 5.012e2, 4.341e2, 5.195e2],
    "F20":[ 8.509e2, 5.264e2, 8.960e2, 8.893e2, 7.463e2, 6.411e2, 4.928e2, 4.188e2, 4.767e2],
    "F21":[ 9.138e2, 4.420e2, 8.158e2, 8.522e2, 4.851e2, 5.005e2, 5.240e2, 5.420e2, 5.140e2],
    "F22":[ 8.071e2, 7.647e2, 7.742e2, 7.519e2, 6.828e2, 6.941e2, 7.715e2, 7.720e2, 7.655e2],
    "F23":[ 1.028e3, 8.539e2, 1.075e3, 1.004e3, 5.740e2, 5.828e2, 6.337e2, 5.824e2, 6.509e2],
    "F24":[ 4.120e2, 6.101e2, 2.959e2, 2.360e2, 2.513e2, 2.011e2, 2.060e2, 2.020e2, 2.000e2],
    "F25":[ 5.099e2, 1.818e3, 1.764e3, 1.747e3, 1.794e3, 1.804e3, 1.744e3, 1.742e3, 1.738e3]
}

df = pd.DataFrame(data)
print(df)

In [None]:
def z_score_fri(Ri,Rj,k,n):
  z = np.abs((Ri-Rj))/(np.sqrt((k*(k+1))/(6*n)))
  return z

In [None]:
z_score_fri(6.2895,2.31,8,19)

5.007427689193325