<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Correla%C3%A7%C3%A3o_e_Regress%C3%A3o_Linear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Correlação**

A correlação é uma medida estatística que descreve a relação entre duas variáveis. Ela avalia a direção e a força da associação entre essas variáveis.

Os dados podem ser representados por pares ordenados (x, y), sendo x a variável independente (ou explanatória) e y a variável dependente (ou resposta).

## **Como funciona ?**

A correlação é calculada utilizando técnicas estatísticas, como o coeficiente de correlação de Pearson, Spearman ou Kendall. Esses coeficientes variam de -1 a 1, onde -1 indica uma correlação negativa perfeita, 0 indica nenhuma correlação e 1 indica uma correlação positiva perfeita.

Força da Correlação:

- 0.00 a 0.19 (ou -0.19): Correlação muito fraca.
- 0.20 a 0.39 (ou -0.39): Correlação fraca.
- 0.40 a 0.59 (ou -0.59): Correlação moderada.
- 0.60 a 0.79 (ou -0.79): Correlação forte.
- 0.80 a 1.00 (ou -1.00): Correlação muito forte.

Vamos observar um exemplo para entendermos melhor o assunto

Considere um conjunto de dados que represente as notas de dois alunos (Aluno A e Aluno B) em duas disciplinas diferentes (Matemática e Ciências). As notas são representadas em uma escala de 0 a 10.

Crie um DataFrame com os seguintes dados:

- Aluno A - Matemática: [8, 7, 6, 9, 8]
- Aluno B - Matemática: [7, 6, 8, 9, 10]
- Aluno A - Ciências: [9, 8, 7, 9, 8]
- Aluno B - Ciências: [8, 9, 7, 8, 9]

Calcule a correlação entre as notas do Aluno A e do Aluno B em ambas as disciplinas.

Imprima o resultado da correlação para cada disciplina.

Interprete os resultados.

In [3]:
# Manipulação de dados
import pandas as pd

# Funções estatísticas
import scipy.stats as st

# Vamos criar um DataFrame de exemplo
dados = {
    'Aluno_a_matematica': [8, 7, 6, 9, 8],
    'Aluno_b_matematica': [7, 6, 8, 9, 10],
    'Aluno_a_ciencias': [9, 8, 7, 9, 8],
    'Aluno_b_ciencias': [8, 9, 7, 8, 9]
}

# Convertendo para um df
df = pd.DataFrame(dados)

# Calculando a correlação entre as duas variáveis
correlacao_mat, p_valor_mat = st.pearsonr(df['Aluno_a_matematica'], df['Aluno_b_matematica'])

# Calculando a correlação entre as duas variáveis
correlacao_cien, p_valor_cien = st.pearsonr(df['Aluno_a_ciencias'], df['Aluno_b_ciencias'])

# Exibindo o resultado
print(f"A correlação entre as variáveis em matématica é de: {correlacao_mat} já em ciências é de: {correlacao_cien}")

A correlação entre as variáveis em matématica é de: 0.4160251471689218 já em ciências é de: 0.2857142857142857


Observando a correlação nas notas de matemática, percebemos uma correlação moderada positiva, indicando que, à medida que o valor de uma variável aumenta, a outra variável tende a aumentar também.

A correlação das notas de ciências é fraca e positiva. Nesse caso, o mesmo se aplica: à medida que uma variável aumenta, a outra tende a aumentar.

É interessante notar que, nesse caso, também poderíamos utilizar o método 'corr' para calcular a correlação de **Pearson**. Também seria possível utilizarmos a função 'corrcoef' para realizar o mesmo cálculo.

Além do Pearson, também existe o **Spearman**, que é uma medida de associação entre duas variáveis ordinais ou de intervalo. Ele avalia a relação monotônica entre as variáveis, ou seja, se uma variável aumenta, a outra tende a aumentar (ou diminuir), independentemente da magnitude do aumento (ou diminuição).

Por outro lado, o coeficiente de correlação de Pearson avalia especificamente a relação linear entre duas variáveis, o que implica que ele assume uma relação constante entre os aumentos das variáveis. Se a relação entre as variáveis não for linear, o Pearson pode não capturar essa relação adequadamente.

Vamos observar a diferença entre o Spearman e o Pearson aplicando o Spearman nesta mesma questão.

In [5]:
# Importando o Spearman
from scipy.stats import spearmanr

# Calculando a correlação de Spearman
correlacao_mat_spear, p_valor_mat_spear = spearmanr(df['Aluno_a_matematica'], df['Aluno_b_matematica'])

# Calculando a correlação de Spearman
correlacao_cien_spear, p_valor_cien_spear = spearmanr(df['Aluno_a_ciencias'], df['Aluno_b_ciencias'])

# Exibindo o resultado
print(f"A correlação Spearman entre as variáveis em matématica é de: {correlacao_mat_spear} já em ciências é de: {correlacao_cien_spear}")

A correlação Spearman entre as variáveis em matématica é de: 0.46169025843831935 já em ciências é de: 0.1111111111111111


Aplicamos o Spearman nos mesmos dados e obtivemos resultados diferentes. Isso se deve porque, embora o Spearman também esteja medindo a direção e a força da correlação, ele está fazendo isso para a relação monótona, ou seja, ele avalia se, quando uma variável aumenta, a outra tende a aumentar ou diminuir consistentemente, mas não necessariamente em uma taxa constante.

Logo, chegamos à conclusão de que:

- Correlação de Pearson: Avalia a relação linear entre variáveis contínuas.
- Correlação de Spearman: Avalia a relação monótona entre variáveis, sendo menos sensível a outliers e distribuições não-normais.

### **Qual utilizar Pearson ou Spearman ?**

Para sabermos essa questão, primeiro precisamos entender a diferença entre elas:

- A principal diferença entre a correlação de Pearson e a correlação de Spearman é que a correlação de Pearson avalia a associação linear entre duas variáveis, enquanto a correlação de Spearman avalia a associação monótona, o que a torna mais robusta em relação a outliers e a distribuições não-normais.

Agora que já entendemos a diferença, fica mais fácil saber quando utilizar uma ou outra, concorda?

- Você deve usar a correlação de Pearson quando suas variáveis são contínuas e seguem uma distribuição normal, e você está interessado na relação linear entre elas. Por outro lado, você deve usar a correlação de Spearman quando suas variáveis são ordinais, quando a relação entre elas não é linear ou quando a distribuição dos dados é não normal.

### **Teste de hipóteses**

Basicamente, podemos utilizar o teste de hipóteses para determinarmos se o coeficiente de correlação amostral fornece evidências suficientes de que o coeficiente de correlação populacional é significativo. Dito isso, nossas hipóteses seguem a seguinte fórmula:

- H0: ρ = 0 (Não há correlação significativa)
- Ha: ρ ≠ 0 (Correlação significativa)

Então, digamos que o p-valor seja menor que o nível de significância. Dessa forma, podemos rejeitar a hipótese nula. Portanto, podemos dizer que a correlação é estatisticamente significativa.

Nesse caso, vou aplicar o teste nas correlações de Spearman. Vamos utilizar um nível de significância de 0,05.

In [9]:
# Observando os p-valores
print(f"p-valor das notas em matemática: {p_valor_mat_spear}\np-valor das notas em ciências: {p_valor_cien_spear}")

p-valor das notas em matemática: 0.43376615616902786
p-valor das notas em ciências: 0.8588205736427662


Em ambos os casos, o p-valor foi maior que nosso nível de significância, logo, falhamos em rejeitar a hipótese nula. Dito isso, com base em nosso teste a um nível de significância de 0,05, falhamos em rejeitar a hipótese nula. Logo, podemos concluir que não existem evidências de que as correlações sejam estatisticamente significativas em nossa população.

# **Regressão**

In [None]:
#Em breve!!!