## Teste T² de Hotelling na Prática com Linguagem Python

**Objetivo da Análise:**

O estudo visa investigar se existem diferenças significativas nas características físicas (altura e peso) entre atletas de dois esportes diferentes. O Teste T² de Hotelling será utilizado para determinar se as médias multivariadas de altura e peso são significativamente diferentes entre os dois grupos de atletas.

**Grupos de Estudo:**

- Grupo 1: Atletas de basquete. Espera-se que sejam geralmente mais altos e mais pesados devido à natureza do esporte.
- Grupo 2: Atletas de ginástica artística. Estes atletas tendem a ser mais leves e de estatura menor, características que são benéficas para o seu esporte.

**Variáveis Dependentes:**

- Altura (cm): Medida da altura dos atletas.
- Peso (kg): Medida do peso dos atletas.

**Geração de Dados Sintéticos:**

Dados para os atletas de basquete (Grupo 1) e os atletas de ginástica artística (Grupo 2) serão gerados sinteticamente com distribuições multivariadas normais. As médias e covariâncias foram escolhidas para refletir as expectativas reais desses atletas em termos de altura e peso.

**Aplicação do Teste T² de Hotelling:**

O Teste T² de Hotelling é aplicado para comparar as médias de altura e peso entre os dois grupos de atletas. Este teste foi escolhido por sua capacidade de avaliar simultaneamente a diferença nas médias de duas variáveis dependentes (altura e peso), considerando a correlação entre elas.

**Importância da Análise:**

Este estudo pode fornecer informações valiosas sobre como diferentes esportes estão associados a diferentes características físicas. Esses insights podem ser úteis para treinadores e cientistas do esporte na identificação de talentos e no desenvolvimento de programas de treinamento específicos para cada esporte. Além disso, pode contribuir para a compreensão de como as demandas físicas de cada esporte moldam as características corporais dos atletas.

**Definição das Hipóteses:**

Hipótese Nula (H0)

A hipótese nula em um teste estatístico é geralmente uma declaração de "nenhuma diferença" ou "nenhum efeito". No contexto deste estudo, a hipótese nula seria:

H0: Não existem diferenças significativas nas médias multivariadas de altura e peso entre os atletas de basquete (Grupo 1) e os atletas de ginástica artística (Grupo 2). Isso significa que, sob a hipótese nula, qualquer diferença observada nas médias de altura e peso entre os dois grupos é atribuída ao acaso.

Hipótese Alternativa (H1)

A hipótese alternativa é o que você testa contra a hipótese nula. Normalmente, ela sugere que existe um efeito ou diferença. Para este estudo, a hipótese alternativa seria:

H1: Existem diferenças significativas nas médias multivariadas de altura e peso entre os atletas de basquete (Grupo 1) e os atletas de ginástica artística (Grupo 2). Sob a hipótese alternativa, as diferenças observadas são suficientemente grandes para serem consideradas estatisticamente significativas e não devidas ao acaso.

A aplicação do Teste T² de Hotelling permitirá avaliar essas hipóteses considerando tanto a altura quanto o peso simultaneamente, levando em conta a correlação entre estas duas variáveis.

In [1]:
import scipy
import statsmodels
import numpy as np
import pandas as pd
from statsmodels.multivariate.manova import MANOVA
from scipy.stats import f
from numpy.linalg import inv, det

In [2]:
np.random.seed(0)

grupo_1 = np.random.multivariate_normal([170, 60], [[10, 2], [2, 5]], 50)
grupo_2 = np.random.multivariate_normal([175, 65], [[10, 2], [2, 5]], 50)

In [9]:
np.mean(grupo_1, axis=0)

array([169.87756591,  60.18293836])

In [10]:
np.mean(grupo_2, axis=0)

array([174.93237839,  65.37779828])

A função abaixo implementa o teste T² de Hotelling, que é usado para comparar as médias de dois grupos multivariados. A função calcula primeiramente as médias e covariâncias para cada grupo, em seguida calcula a covariância agrupada e usa esses valores para calcular a estatística T² de Hotelling. Esta estatística é então convertida em uma estatística F, da qual o valor p é derivado. O valor p é usado para determinar se as diferenças entre as médias dos grupos são estatisticamente significativas.

In [11]:
def hotelling_t2_test(group1, group2):
    # Calcula a média de cada variável no grupo 1
    mean1 = np.mean(group1, axis = 0) 
    # Calcula a média de cada variável no grupo 2
    mean2 = np.mean(group2, axis = 0)  
    # Determina o número de observações em cada grupo
    n1, n2 = len(group1), len(group2)  
    # Calcula a matriz de covariância do grupo 1
    cov1 = np.cov(group1.T)  
    # Calcula a matriz de covariância do grupo 2
    cov2 = np.cov(group2.T)  
    # Calcula a covariância agrupada dos dois grupos
    pooled_cov = ((n1 - 1) * cov1 + (n2 - 1) * cov2) / (n1 + n2 - 2)  
    # Calcula a diferença das médias entre os dois grupos
    mean_diff = mean1 - mean2  
    # Calcula a estatística T² de Hotelling
    t2_stat = n1 * n2 / (n1 + n2) * mean_diff.dot(inv(pooled_cov)).dot(mean_diff)  
    # Determina os graus de liberdade para o numerador (número de variáveis)
    df1 = len(mean1)  
    # Determina os graus de liberdade para o denominador
    df2 = n1 + n2 - df1 - 1  
    # Converte a estatística T² em uma estatística F
    f_stat = t2_stat * (df2 / (n1 + n2 - 2)) / df1  
    # Calcula o valor p associado à estatística F
    p_value = 1 - f.cdf(f_stat, df1, df2)  
    # Retorna a estatística T² e o valor p
    return t2_stat, p_value  

In [13]:
# Realizando o teste
t2_stat, p_value = hotelling_t2_test(grupo_1, grupo_2)

print("Estatística T²:", t2_stat)
print("Valor-p:", p_value)

Estatística T²: 146.68909049022432
Valor-p: 1.1102230246251565e-16


In [14]:
p_value < 0.05

True

**Interpretação:**

A estatística T² é uma medida da diferença entre as médias dos dois grupos. Um valor elevado indica uma diferença significativa entre as médias dos grupos testados.

O valor-p é uma medida da probabilidade de obter um resultado extremo como o observado, assumindo que a hipótese nula (de que as médias dos grupos são iguais) é verdadeira.

Um valor-p extremamente pequeno sugere que, se a hipótese nula fosse verdadeira, seria muito improvável obter uma diferença tão grande ou maior por acaso.

O valor-p baixo (menor que 0.05) indica fortes evidências contra a hipótese nula e a favor da hipótese alternativa (que as médias são diferentes).

### Análise de Variância Multivariada (MANOVA)


A Análise de Variância Multivariada (MANOVA) é uma técnica estatística utilizada para analisar a diferença entre grupos em múltiplas variáveis dependentes simultaneamente. É uma extensão da Análise de Variância (ANOVA), que é usada para uma única variável dependente. A MANOVA é particularmente útil quando as variáveis dependentes estão correlacionadas e você deseja entender como diferentes variáveis independentes (ou grupos) afetam essas variáveis dependentes juntas.

**Hipóteses**

- Hipótese Nula (H0): As médias de todas as variáveis dependentes são iguais entre os grupos.
- Hipótese Alternativa (H1): Pelo menos uma média de uma variável dependente difere entre os grupos.

**Variáveis Dependentes e Independentes**

- A MANOVA lida com duas ou mais variáveis dependentes.
- Pode ter uma ou mais variáveis independentes (fatores), que são categóricas.

**Correlação entre Variáveis Dependentes**

Uma das principais razões para usar a MANOVA é que ela considera a correlação entre as variáveis dependentes, o que pode fornecer uma visão mais precisa do efeito das variáveis independentes.

**Estatísticas de Teste**

A MANOVA utiliza várias estatísticas de teste, como Wilks' Lambda, Pillai's Trace, Hotelling-Lawley Trace e Roy's Largest Root, cada uma com suas próprias características e condições de aplicabilidade.

**Suposições do Teste**

- Normalidade multivariada dos dados.
- Homogeneidade das matrizes de covariância (variâncias são iguais entre os grupos).
- Amostras independentes.

**Interpretação**

Um resultado significativo indica que há uma diferença nos conjuntos de médias das variáveis dependentes entre os grupos. No entanto, análises adicionais, como testes post-hoc, podem ser necessárias para identificar exatamente onde estão essas diferenças. Veremos isso daqui a pouco em Python.

**Aplicações da MANOVA**

- Pesquisa em Ciências Sociais e Psicologia: Por exemplo, comparar efeitos de diferentes intervenções terapêuticas em vários aspectos do bem-estar psicológico.
- Pesquisa em Biologia e Medicina: Como avaliar o efeito de um tratamento em múltiplos indicadores de saúde.
- Pesquisa de Mercado: Avaliar a reação dos consumidores a diferentes características de um produto.

A MANOVA é uma ferramenta poderosa para análise multivariada e é especialmente útil quando as variáveis dependentes estão relacionadas entre si, permitindo uma compreensão mais abrangente dos efeitos das variáveis independentes.

## Análise de Variância Multivariada (MANOVA) na Prática com Linguagem Python

Vamos avaliar se existem diferenças significativas entre três grupos (A, B e C) em relação a um conjunto de variáveis dependentes (neste caso, DV1 e DV2). A MANOVA é particularmente útil aqui, pois estamos lidando com mais de uma variável dependente e queremos entender se o efeito dos grupos se estende além de uma única variável de resultado.

**Objetivo da Análise:**

Avaliar a eficácia de diferentes métodos de ensino no desempenho acadêmico dos alunos. O estudo foca em dois aspectos principais do desempenho acadêmico: compreensão de conceitos (DV1) e habilidades práticas (DV2).

**Grupos de Estudo:**

- Grupo A: Alunos que receberam ensino tradicional, baseado em palestras e anotações.
- Grupo B: Alunos que foram ensinados por meio de métodos de aprendizagem baseados em projetos, com foco em experiências práticas.
- Grupo C: Alunos que participaram de aulas interativas, com uso de tecnologia e aprendizagem colaborativa.

**Variáveis Dependentes:**

- DV1 (Compreensão de Conceitos): Medida por meio de um teste padronizado que avalia a compreensão dos alunos sobre os conceitos teóricos ensinados em sala de aula.
- DV2 (Habilidades Práticas): Avaliada por meio de projetos práticos ou experimentos em laboratório, onde os alunos demonstram a aplicação prática de seus conhecimentos.

**Importância da MANOVA:**

A MANOVA será usada para analisar se existem diferenças estatisticamente significativas no desempenho dos alunos (tanto em termos de compreensão de conceitos quanto de habilidades práticas) entre os três grupos que experimentaram diferentes métodos de ensino. Essa abordagem é particularmente útil porque permite avaliar o impacto dos métodos de ensino em múltiplas dimensões do desempenho acadêmico simultaneamente, considerando também a possível correlação entre a compreensão teórica e as habilidades práticas.

In [None]:
# Gera dados sintéticos
np.random.seed(0)
group = np.repeat(['A', 'B', 'C'], 20)  # Três grupos
data1 = np.random.normal(0, 1, 60) + (group == 'B') * 1 + (group == 'C') * 2  # Variável dependente 1
data2 = np.random.normal(0, 1, 60) + (group == 'B') * 1.5 + (group == 'C') * -1  # Variável dependente 2
df_dsa = pd.DataFrame({'Grupo': group, 'DV1': data1, 'DV2': data2})
df_dsa.head()

In [None]:
df_dsa.DV1.mean()

In [None]:
df_dsa.DV2.mean()