In [3]:
import numpy as np
import pandas as pd
import scipy
from scipy.stats import pearsonr, spearmanr

In [16]:
x = [1,2,3,4,4]

In [17]:
# Criando um DataFrame de exemplo
data = {
    'X': [1, 2, 3, 4, 5],
    'Y': [2, 3, 5, 7, 11],
    'Z': [5, 3, 2, 4, 1]
}
df = pd.DataFrame(data)

# Média

In [18]:
X = np.array(x)

In [19]:
np.mean(X)

2.8

# Mediana

In [20]:
np.median(X)

3.0

## Quartis

In [21]:
np.percentile(X, 25)

2.0

In [22]:
np.percentile(X, 50)

3.0

In [23]:
np.percentile(X, 75)

4.0

# Moda

In [24]:
from scipy import stats

In [25]:
stats.mode(X, axis=None)

ModeResult(mode=4, count=2)

# Variância

In [26]:
np.var(X)

1.3599999999999999

In [27]:
a = np.array([[1, 2], [3, 4]])
print(np.var(a))

print(np.var(a, axis=0))

print(np.var(a, axis=1))

1.25
[1. 1.]
[0.25 0.25]


# Desvio Padrão

In [28]:
np.std(X)

1.16619037896906

In [29]:
a = np.array([[1, 2], [3, 4]])
print(np.std(a))

print(np.std(a, axis=0))

print(np.std(a, axis=1))

1.118033988749895
[1. 1.]
[0.5 0.5]


In [30]:
#In single precision, std() can be inaccurate:

a = np.zeros((2, 512*512), dtype=np.float32)
a[0, :] = 1.0
a[1, :] = 0.1
np.std(a)


0.45000005

In [31]:
#Computing the standard deviation in float64 is more accurate:

np.std(a, dtype=np.float64)

0.4499999992549418

# Correlação

A correlação é uma medida estatística que quantifica a força e a direção da relação linear entre duas variáveis.

Ela indica como uma variável se comporta em relação à outra, podendo variar entre -1 e 1.

Principais Características da Correlação:

    Valores:
        1: Correlação positiva perfeita. À medida que uma variável aumenta, a outra também aumenta de forma proporcional.
        -1: Correlação negativa perfeita. À medida que uma variável aumenta, a outra diminui de forma proporcional.
        0: Nenhuma correlação linear. Não há relação linear entre as variáveis.

    Direção:
        Correlação Positiva: Ambas as variáveis aumentam ou diminuem juntas.
        Correlação Negativa: Uma variável aumenta enquanto a outra diminui.

    Força:
        Valores próximos a 1 ou -1 indicam uma relação forte, enquanto valores próximos a 0 indicam uma relação fraca.

    Normalização: A correlação é uma medida normalizada, o que significa que não é afetada pela escala das variáveis, tornando-a mais fácil de interpretar em comparação com a covariância.


## Pearson

Correlação de Pearson: Mede a relação linear entre duas variáveis contínuas.

In [32]:
# Calculando a correlação de Pearson
pearson_corr, pearson_p_value = pearsonr(df['X'], df['Y'])
print(f"""Correlação de Pearson entre X e Y: {pearson_corr:.4f},
       p-valor: {pearson_p_value:.4f}""")

Correlação de Pearson entre X e Y: 0.9723, p-valor: 0.0055


In [34]:
# Calculando a correlação entre outras colunas
pearson_corr_z, pearson_p_value_z = pearsonr(df['X'], df['Z'])
print(f"""Correlação de Pearson entre X e Z: {pearson_corr_z:.4f},
          p-valor: {pearson_p_value_z:.4f}""")

Correlação de Pearson entre X e Z: -0.7000,
          p-valor: 0.1881


In [37]:
def pearson_correlation(x, y):
    """
    Calcula a correlação de Pearson entre duas listas.
    
    :param x: Lista ou array de valores.
    :param y: Lista ou array de valores.
    :return: Coeficiente de correlação de Pearson.
    """
    if len(x) != len(y):
        raise ValueError("As listas devem ter o mesmo comprimento.")
    
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sqrt(np.sum((x - x_mean) ** 2) * np.sum((y - y_mean) ** 2))
    
    if denominator == 0:
        return 0  # Evitar divisão por zero
    
    return numerator / denominator

In [38]:
# Cálculo da correlação de Pearson entre X e Y
pearson_result = pearson_correlation(df['X'], df['Y'])
print(f'Correlação de Pearson entre X e Y: {pearson_result:.4f}')

Correlação de Pearson entre X e Y: 0.9723


## Spearman

Correlação de Spearman: Mede a relação monotônica (não necessariamente linear) entre duas variáveis, utilizando ranks.

In [33]:
# Calculando a correlação de Spearman
spearman_corr, spearman_p_value = spearmanr(df['X'], df['Y'])
print(f"""Correlação de Spearman entre X e Y: {spearman_corr:.4f},
          p-valor: {spearman_p_value:.4f}""")

Correlação de Spearman entre X e Y: 1.0000,
          p-valor: 0.0000


In [35]:
# Calculando a correlação entre outras colunas
spearman_corr_z, spearman_p_value_z = spearmanr(df['X'], df['Z'])
print(f"""Correlação de Spearman entre X e Z: {spearman_corr_z:.4f},
          p-valor: {spearman_p_value_z:.4f}""")

Correlação de Spearman entre X e Z: -0.7000,
          p-valor: 0.1881


In [39]:
def spearman_correlation(x, y):
    """
    Calcula a correlação de Spearman entre duas listas.
    
    :param x: Lista ou array de valores.
    :param y: Lista ou array de valores.
    :return: Coeficiente de correlação de Spearman.
    """
    if len(x) != len(y):
        raise ValueError("As listas devem ter o mesmo comprimento.")
    
    # Classificar os dados e obter os ranks
    x_rank = np.argsort(np.argsort(x))
    y_rank = np.argsort(np.argsort(y))
    
    return pearson_correlation(x_rank, y_rank)

In [41]:
# Cálculo da correlação de Spearman entre X e Z
spearman_result_z = spearman_correlation(df['X'], df['Z'])
print(f'Correlação de Spearman entre X e Z: {spearman_result_z:.4f}')

Correlação de Spearman entre X e Z: -0.7000


# Covariância

A covariância é uma medida estatística que indica a direção e a força da relação linear entre duas variáveis. Em outras palavras, ela nos diz como duas variáveis variam juntas. A covariância pode ser positiva, negativa ou zero, e é calculada a partir das diferenças das variáveis em relação às suas médias.
Interpretação da Covariância:

    Covariância Positiva:
        Quando a covariância é positiva, isso indica que, à medida que uma variável aumenta, a outra também tende a aumentar. Por exemplo, se você observar que o aumento da temperatura está associado ao aumento das vendas de sorvete, a covariância entre essas duas variáveis seria positiva.

    Covariância Negativa:
        Quando a covariância é negativa, isso indica que, à medida que uma variável aumenta, a outra tende a diminuir. Por exemplo, se você observar que o aumento da temperatura está associado à diminuição das vendas de roupas de inverno, a covariância entre essas duas variáveis seria negativa.

    Covariância Zero:
        Uma covariância próxima de zero sugere que não há uma relação linear clara entre as duas variáveis. Isso não significa que não haja relação alguma, mas sim que a relação não é linear.


In [45]:
# Calculando a covariância entre X e Y
cov_xy = np.cov(df['X'], df['Y'])[0, 1]  # A matriz de covariância é 2x2, pegamos o valor [0, 1]
print(f'Covariância entre X e Y: {cov_xy:.4f}')

# Calculando a covariância entre X e Z
cov_xz = np.cov(df['X'], df['Z'])[0, 1]
print(f'Covariância entre X e Z: {cov_xz:.4f}')

Covariância entre X e Y: 5.5000
Covariância entre X e Z: -1.7500


Cálculo da Covariância:

A covariância entre duas variáveis X e Y é calculada pela fórmula:

$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
$

onde:

$X_i$ e $Y_i$ são os valores das variáveis X e Y,

$\bar{X}$ e $\bar{Y}$ são as médias das variáveis X e Y,

$n$ é o número de observações.

In [42]:
def covariance(x, y):
    """
    Calcula a covariância entre duas listas.
    
    :param x: Lista ou array de valores.
    :param y: Lista ou array de valores.
    :return: Covariância entre x e y.
    """
    if len(x) != len(y):
        raise ValueError("As listas devem ter o mesmo comprimento.")
    
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    cov = np.sum((x - x_mean) * (y - y_mean)) / (len(x) - 1)  # Usando n-1 para amostra
    return cov

In [43]:
# Cálculo da covariância entre X e Y
cov_xy = covariance(df['X'], df['Y'])
print(f'Covariância entre X e Y: {cov_xy:.4f}')

Covariância entre X e Y: 5.5000


In [44]:
# Cálculo da covariância entre X e Z
cov_xz = covariance(df['X'], df['Z'])
print(f'Covariância entre X e Z: {cov_xz:.4f}')

Covariância entre X e Z: -1.7500


Propriedades da Covariância:

    Unidade: A covariância é expressa em unidades que são o produto das unidades das duas variáveis. Isso pode dificultar a interpretação direta da covariância, especialmente se as variáveis estiverem em escalas diferentes.

    Simetria: A covariância é simétrica, ou seja, cov(X,Y)=cov(Y,X).

    Escala: A covariância é afetada pela escala das variáveis. Se você multiplicar uma variável por uma constante, a covariância também será multiplicada por essa constante.

Diferença entre Covariância e Correlação:

Embora a covariância forneça informações sobre a relação entre duas variáveis, ela não é normalizada e, portanto, pode ser difícil de interpretar. A correlação, por outro lado, é uma versão normalizada da covariância que varia entre -1 e 1, tornando mais fácil entender a força e a direção da relação entre as variáveis. A correlação é calculada dividindo a covariância pelo produto dos desvios padrão das duas variáveis.

Em resumo, a covariância é uma ferramenta útil para entender como duas variáveis se comportam em relação uma à outra, mas deve ser interpretada com cuidado, especialmente em comparação com a correlação.