## Introdução

Buscando compreender a soma de variáveis aleatória e de suas estatísticas descritivas, neste trabalho, foi utilizado dois pares de variáveis aleatórias com mesmo tamanho, as quais foram somadas numa terceira variável aleatória Z = X1+X2, calculando média, variância e desvio padrão de cada uma das três variáveis aleatórias.

Para o primeiro par, foi feita uma simulação computacional de uma jogada de RPG, na qual o jogador tem que rolar d20 para o teste e um d4 para ganhar um bônus, repetida 100 vezes. Assim, consideramos X1 como os testes no d20 e X2 como os bônus do d4. Desse modo, obtivemos duas variáveis aleatórias que não são correlacionadas pelo sorteio aleatório de números.

Para o segundo par, foi utilizado um dataset da biblioteca _Seaborn_, o qual contém 272 observações de dados do Geyser Old Faithful nos EUA, utilizando sua coluna sobre duração e espera das erupções do gêiser como X1 e X2, visando analisar a soma de variáveis correlacionadas e suas estatísticas descritivas.

### Metodologia

Primeiramente, importamos as bibliotecas que serão utilizadas:

In [1]:
import random as rd
import numpy as np
import statistics as st
import pandas as pd
import seaborn as sb

#### Situação 1: variáveis aleatórias não correlacionadas

Partimos, então, para a simulação computacional, à luz da pergunta: quais os valores obtidos ao rolar o teste com bônus descrito?

Assim, começamos definindo os dados do teste:

In [2]:
def d20 ():
    roll = rd.choice(range(1,21))
    return roll

def d4 ():
    roll = rd.choice([1,2,3,4])
    return roll

print(d20(),d4())

1 1


Realizamos, então, o experimento uma vez, do início ao fim:

In [3]:
def experimento():
    teste = d20()
    bonus = d4()
    return teste, bonus

experimento()

(7, 4)

Assim, repetimos o experimento _n_ vezes, guardando os resultados:

In [4]:
def simulacao (n):
    testes = []
    bonuss = []
    for i in range(n):
        exp = experimento()
        testes.append(exp[0])
        bonuss.append(exp[1])
    return [testes, bonuss]

In [5]:
X = simulacao(100)
X1 = X[0]
X2 = X[1]
print(X1,X2)

[16, 4, 12, 8, 19, 3, 11, 16, 8, 14, 17, 1, 4, 9, 19, 16, 6, 11, 12, 15, 3, 10, 17, 11, 5, 6, 8, 17, 19, 11, 14, 15, 10, 16, 2, 2, 15, 5, 20, 3, 15, 19, 9, 10, 12, 1, 10, 5, 4, 20, 6, 8, 15, 15, 3, 13, 12, 11, 6, 18, 3, 13, 6, 11, 19, 11, 5, 8, 10, 11, 15, 8, 13, 16, 10, 14, 19, 17, 15, 11, 9, 18, 17, 16, 19, 13, 4, 19, 7, 13, 15, 11, 5, 9, 1, 8, 12, 11, 6, 13] [4, 3, 3, 4, 3, 4, 2, 3, 2, 1, 4, 1, 4, 3, 3, 1, 3, 2, 4, 2, 3, 3, 4, 1, 2, 4, 4, 2, 2, 4, 3, 1, 2, 2, 3, 2, 2, 4, 1, 3, 4, 2, 3, 2, 1, 2, 3, 3, 1, 1, 4, 1, 3, 4, 4, 4, 4, 4, 1, 3, 1, 2, 3, 4, 1, 4, 2, 1, 1, 1, 3, 2, 1, 4, 2, 3, 3, 3, 3, 3, 1, 4, 4, 2, 4, 1, 3, 1, 4, 2, 4, 3, 4, 1, 1, 1, 3, 4, 2, 1]


Para confirmar que os dados não estão relacionados, calculamos a correlação destes:

In [6]:
def covariancia(X, Y):
    media_x = st.mean(X)
    media_y = st.mean(Y)
    
    dif_x = np.array(X) - media_x
    dif_y = np.array(Y) - media_y
    
    cov = st.mean(dif_x*dif_y)
    return cov

def correlacao(X, Y):
    cov = covariancia(X, Y)
    dp_x = st.stdev(X)
    dp_y = st.stdev(Y)
    
    corr = cov / (dp_x*dp_y)
    return corr

correlacao(X1,X2)

0.01382134813603684

Considerando que a correlação se mostrou muito próxima de zero, podemos considerar que os eventos não sao correlacionados.

A fim de melhor visualização, transformamos os resultados obtidos num dataframe a partir de um dicionário:

In [7]:
X_dict = {"X1 (testes)": X1,
         "X2 (bônus)": X2}

df = pd.DataFrame.from_dict(X_dict)
df

Unnamed: 0,X1 (testes),X2 (bônus)
0,16,4
1,4,3
2,12,3
3,8,4
4,19,3
...,...,...
95,8,1
96,12,3
97,11,4
98,6,2


Fazemos, então, a soma das variáveis aleatórias Z = X1 + X2 e adicionamos os resultados do dataframe:

In [8]:
def soma_Z (X1, X2):
    n = len(X1)
    Z = []
    for i in range(n):
        Z.append(X1[i]+X2[i])
    return Z

Z = soma_Z(X1, X2)
print(Z)

[20, 7, 15, 12, 22, 7, 13, 19, 10, 15, 21, 2, 8, 12, 22, 17, 9, 13, 16, 17, 6, 13, 21, 12, 7, 10, 12, 19, 21, 15, 17, 16, 12, 18, 5, 4, 17, 9, 21, 6, 19, 21, 12, 12, 13, 3, 13, 8, 5, 21, 10, 9, 18, 19, 7, 17, 16, 15, 7, 21, 4, 15, 9, 15, 20, 15, 7, 9, 11, 12, 18, 10, 14, 20, 12, 17, 22, 20, 18, 14, 10, 22, 21, 18, 23, 14, 7, 20, 11, 15, 19, 14, 9, 10, 2, 9, 15, 15, 8, 14]


In [9]:
X_dict["Z = X1 + X2"] = Z
df = pd.DataFrame.from_dict(X_dict)
df

Unnamed: 0,X1 (testes),X2 (bônus),Z = X1 + X2
0,16,4,20
1,4,3,7
2,12,3,15
3,8,4,12
4,19,3,22
...,...,...,...
95,8,1,9
96,12,3,15
97,11,4,15
98,6,2,8


Agora, resta realizar as estatísticas descritivas desses dados: média, variância e desvio padrão:

In [10]:
media_X1 = st.mean(X1)
var_X1 = st.pvariance(X1)
desv_pd_X1 = st.pstdev(X1)

print(f"A média de X1 é {media_X1}. A variância de X1 é {var_X1}. O desvio padrão de X1 é {desv_pd_X1}")

media_X2 = st.mean(X2)
var_X2 = st.pvariance(X2)
desv_pd_X2 = st.pstdev(X2)

print(f"A média de X2 é {media_X2}. A variância de X2 é {var_X2}. O desvio padrão de X2 é {desv_pd_X2}")

media_Z = st.mean(Z)
var_Z = st.pvariance(Z)
desv_pd_Z = st.pstdev(Z)

print(f"A média de Z é {media_Z}. A variância de Z é {var_Z}. O desvio padrão de Z é {desv_pd_Z}")

A média de X1 é 11.03. A variância de X1 é 27.1091. O desvio padrão de X1 é 5.206639991395603
A média de X2 é 2.59. A variância de X2 é 1.2819. O desvio padrão de X2 é 1.1322102278287367
A média de Z é 13.62. A variância de Z é 28.5556. O desvio padrão de Z é 5.3437440058445915


A fim de comparação com Z, podemos calcular, também, a soma das estatisticas descritivas de X1 e X2:

In [11]:
print("A soma das médias é:", media_X1+media_X2)
print("A soma das variâncias é:", var_X1+var_X2)
print("A soma dos desvios padrão é:", desv_pd_X1 + desv_pd_X2)

A soma das médias é: 13.62
A soma das variâncias é: 28.391000000000002
A soma dos desvios padrão é: 6.33885021922434


#### Situação 2: Variáveis aleatórias correlacionadas

Agora, vamos observar as mesmas características para variáveis aleatórias correlacionadas. Para isso, importaremos o dataset _Geyser_ do _Seaborn_.

In [12]:
df2 = sb.load_dataset("geyser")
df2

Unnamed: 0,duration,waiting,kind
0,3.600,79,long
1,1.800,54,short
2,3.333,74,long
3,2.283,62,short
4,4.533,85,long
...,...,...,...
267,4.117,81,long
268,2.150,46,short
269,4.417,90,long
270,1.817,46,short


In [13]:
gey_X1 = df2["duration"]
gey_X2 = df2["waiting"]

correlacao(gey_X1,gey_X2)

0.8974993625559239

Considerando que a correlação se mostrou muito próxima de 1 (~0,9), podemos considerar que os eventos são intrinsecamente correlacionados.

Então, somamos as variáveis aleatórias e computamos as estatísticas descritivas:

In [14]:
g_Z = soma_Z(gey_X1,gey_X2)
print(g_Z)

[82.6, 55.8, 77.333, 64.283, 89.533, 57.883, 92.7, 88.6, 52.95, 89.35, 55.833, 87.917, 82.2, 48.75, 87.7, 54.167, 63.75, 88.8, 53.6, 83.25, 52.8, 48.75, 81.45, 72.06700000000001, 78.533, 86.6, 56.967, 80.083, 81.85, 83.43299999999999, 77.3, 81.467, 69.367, 84.033, 77.833, 54.017, 49.867, 84.833, 60.833, 94.783, 84.35, 59.883, 88.56700000000001, 59.75, 77.533, 86.31700000000001, 67.833, 55.1, 86.633, 61.0, 79.8, 94.716, 55.833, 84.833, 55.733, 87.883, 74.717, 65.667, 81.56700000000001, 85.31700000000001, 61.233, 88.5, 49.75, 86.8, 61.817, 96.4, 82.167, 82.7, 67.06700000000001, 77.7, 86.033, 57.967, 83.5, 75.0, 63.983, 81.06700000000001, 62.017, 82.56700000000001, 79.883, 86.6, 79.133, 86.333, 74.1, 67.633, 77.06700000000001, 92.93299999999999, 79.95, 84.517, 50.167, 90.0, 62.2, 94.333, 51.867, 82.81700000000001, 64.833, 76.3, 88.667, 78.75, 52.867, 86.9, 64.483, 92.367, 51.1, 87.5, 85.05, 48.867, 88.7, 53.783, 90.85, 84.68299999999999, 79.733, 61.3, 93.9, 83.417, 60.7, 85.633, 52.317, 8

In [15]:
media_gX1 = st.mean(gey_X1)
var_gX1 = st.pvariance(gey_X1)
desv_pd_gX1 = st.pstdev(gey_X1)

print(f"A média de X1 é {media_gX1}. A variância de X1 é {var_gX1}. O desvio padrão de X1 é {desv_pd_gX1}")

media_gX2 = st.mean(gey_X2)
var_gX2 = st.pvariance(gey_X2)
desv_pd_gX2 = st.pstdev(gey_X2)

print(f"A média de X2 é {media_gX2}. A variância de X2 é {var_gX2}. O desvio padrão de X2 é {desv_pd_gX2}")

media_gZ = st.mean(g_Z)
var_gZ = st.pvariance(g_Z)
desv_pd_gZ = st.pstdev(g_Z)

print(f"A média de Z é {media_gZ}. A variância de Z é {var_gZ}. O desvio padrão de Z é {desv_pd_gZ}")

A média de X1 é 3.487783088235294. A variância de X1 é 1.2979388904492863. O desvio padrão de X1 é 1.139271210225768
A média de X2 é 70.8970588235294. A variância de X2 é 184.14381487889273. O desvio padrão de X2 é 13.569960017586371
A média de Z é 74.38484191176471. A variância de Z é 213.2945914639787. O desvio padrão de Z é 14.604608569351617


Novamente, a fim de comparação, podemos calcular a soma das estatísticas das variáveis:

In [16]:
print("A soma das médias é:", media_gX1+media_gX2)
print("A soma das variâncias é:", var_gX1+var_gX2)
print("A soma dos desvios padrão é:", desv_pd_gX1 + desv_pd_gX2)

A soma das médias é: 74.3848419117647
A soma das variâncias é: 185.441753769342
A soma dos desvios padrão é: 14.70923122781214


### Discussões

Computando a média, a variância e o desvio padrão das três variáveis aleatórias (X1,X2 e Z=X1+X2) para os dois casos, podemos observar algumas coisas.

Primeiramente, a respeito do cálculo da média. A média dos elementos de uma variável aleatória total é dada por: 

$$
\mu = \frac{1}{N} \sum_{i=1}^{N} X_i
$$

Calculando a média da soma de duas varíáveis aleatórias, tanto de variáveis independentes quanto correlacionadas, concluímos que a soma das médias é igual à media da soma:

$$
\mu_Z = \frac{1}{N} \sum_{i=1}^{N} Z_i \rightarrow \mu_Z = \frac{1}{N} \sum_{i=1}^{N} (X_1+X_2)_i \rightarrow \mu_Z = \frac{1}{N} \sum_{i=1}^{N} (X_1)_i + \frac{1}{N} \sum_{i=1}^{N} (X_2)_i \rightarrow \mu_Z = \mu_{X_1} + \mu_{X_2}
$$

Esse comportamento é apresentado pelas duas situações observadas, como esperado.

Já para a variância, observamos comportamentos diferentes nas duas situações. Para as variáveis independentes, foram obtidos valores muito próximos entre a variância da soma e a soma das variâncias; entretanto, para as variáveis correlacionadas, foi possível perceber uma discrepância entre os valores obtidos.

A variância de uma variável aleatória é dada por:

$$
\sigma^2 = \mathrm{Var}(X) = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2
$$

Entretanto, é tabelado que a variância da soma de variáveis aleatórias é dada por

$$\sigma^2_{(X+Y)} = \mathrm{Var}(X+Y) = \mathrm{Var}(X)+\mathrm{Var}(Y)+2\mathrm{cov}(XY)$$

, de modo que, caso as variáveis sejam independentes, $\mathrm{cov}(XY) = 0$.

Assim, podemos explicar o comportamento observado nas situações apresentadas: apesar de considerarmos as variáveis aleatórias da situação 1 independentes, a correlação (dependentente da varância) destas não é zero - ainda que muito próximas -, de modo que a variância de Z se aproxime muito da soma das variâncias de X1 e X2, mas não se iguale; para as variáveis aleatórias correlacionadas, a covariância tem grande influência, de modo que a soma das variâncias e a variância da soma apresentam valores bastante diferentes.

Por fim, o desvio padrão de uma variável aleatória é dado pela raiz quadrada da variância:

$$
\sigma = \sqrt{\mathrm{Var(X)}} =  \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2}
$$

Sendo assim, para o desvio padrão da soma de variáveis, temos:

$$\sigma_{(X+Y)} = \sqrt{\mathrm{Var}(X+Y)} = \sqrt{\mathrm{Var}(X)+\mathrm{Var}(Y)+2\mathrm{cov}(XY)}$$

Portanto, como o desvio padrão é dado pela raiz da soma das variâncias, o desvio padrão de Z tende a ser o que mais difere da soma dos desvios padrão de X1 e X2 tanto para variávies independentes quanto correlacionadas, como observamos nas situações apresentadas.

### Conclusões

Computando estatísticas descritivas da soma de variáveis aleatória não correlacionadas e correlacionadas, foi possível observar como tal relação entre as variáveis afeta o cálculo de estatísticas descritivas. Assim, concluímos que a soma das médias e a média da soma são sempre iguais; a variância da soma sempre depende da covariância entre as variáveis aleatórias, de modo que, se as variáveis são independentes, a soma das variâncias é igual a variância da soma; e o desvio padrão, por ser dado pela raiz da variância, nunca é igual (soma de raízes e raíz da soma).

### Referências

CASSAR, DR. LMA-203 1.0 Estatística descritiva. Microsoft Teams, T03-LMA-203 - Probabilidade e Estatística, Material de Aula. 

CASSAR, DR. LMA-203 2.0 População, amostra e correlação. Microsoft Teams, T03-LMA-203 - Probabilidade e Estatística, Material de Aula. 

CASSAR, DR. LMA-203 0.3 Módulo Pandas. Microsoft Teams, T03-LMA-203 - Probabilidade e Estatística, Material de Aula. 

ZIBETTI, André. Soma de Variáveis Aleatórias. Disponível em: https://www.inf.ufsc.br/~andre.zibetti/probabilidade/soma-de-variaveis-aleatorias.html. Acesso em: 20 Set 2024.