População, amostra e correlação
===============================



## População e amostra



Sempre que trabalhamos com dados, é muito importante entender se estes dados representam *todo o conjunto de dados possíveis* ou se representam *uma fração do conjunto de dados possíveis*.

Dizemos que a *população* (ou *espaço base* ou *espaço amostral*) é o conjunto de <u>todos</u> os indivíduos, itens ou dados que você tem interesse em estudar. Como o interesse de estudo parte de você, cabe a você definir qual é a sua população. Um exemplo: se você tem interesse em estudar os alunos que estão cursando o BCT da Ilum, sua população então será o conjunto de todos os alunos que atualmente estão matriculados neste curso. Se seu interesse é estudar os alunos que estão cursando BCT no território brasileiro, a sua população então será o conjunto de todos os alunos matriculados em todos os cursos de BCT oferecidos no território nacional.

Na maioria dos estudos de relevância científica que conduzimos, nós não temos recursos suficientes para identificar e realizar medidas em *todos* os itens da população. Neste caso, a estratégia a ser seguida é a de amostragem, isto é, coletar os dados de interesse em um subconjunto da população, chamado também de *amostra*.

Ao realizar medidas em um subconjunto da população, devemos nos atentar de que não estamos estudando *toda* a informação disponível, mas sim uma parcela desta informação. Se o devido cuidado não for tomado (no momento de definir a amostra ou no momento de analisá-la), podemos chegar em conclusões equivocadas ao final dos nossos experimentos.



## Estratégia de amostragem aleatória



Existem diversas estratégias de amostragem (isto é, estratégias para definir um subconjunto de uma população). Uma estratégia muito utilizada é a de amostragem aleatória. Nesta estratégia, cada elemento da população tem a mesma chance de ser sorteado e o processo envolve realizar $n$ sorteios sem reposição. &ldquo;Sem reposição&rdquo; significa que quando um item da população é sorteado ele *não* pode ser sorteado novamente.



### Amostragem usando `numpy`



Para realizar uma amostragem de um iterável de Python (lista ou array) use a função `choice` dentro do módulo `numpy.random`. Essa função recebe como primeiro argumento o iterável que queremos amostrar e como segundo argumento o número de objetos que iremos coletar deste iterável.



In [1]:
from numpy.random import choice

minha_lista = ['tomate', 'alface', 'cebola', 'banana', 'cenoura']
amostra = choice(minha_lista, 4)
print(amostra)

['tomate' 'cebola' 'tomate' 'tomate']


Como padrão, a função `choice` do `numpy` faz amostragens com reposição. Para fazer amostragens sem reposição passe o valor `False` pra o argumento `replace`.



In [2]:
minha_lista = ['tomate', 'alface', 'cebola', 'banana', 'cenoura']
amostra = choice(minha_lista, 4, replace=False)
print(amostra)

['alface' 'banana' 'cenoura' 'tomate']


### Amostragem usando `pandas`



Vamos primeiramente carregar um DataFrame.



In [3]:
import seaborn as sns

df = sns.load_dataset('iris')
print(df)

     sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]


DataFrames de `pandas` têm o método `sample` para fazer amostragem. Para usar este método, indique quantos objetos serão amostrados do seu DataFrame. Por padrão, o `pandas` faz amostragem das linhas, mas é possível fazer amostragem das colunas caso você queira (passe o argumento `axis=1` neste caso).



In [4]:
amostra = df.sample(100)
print(amostra)

     sepal_length  sepal_width  petal_length  petal_width     species
148           6.2          3.4           5.4          2.3   virginica
41            4.5          2.3           1.3          0.3      setosa
145           6.7          3.0           5.2          2.3   virginica
90            5.5          2.6           4.4          1.2  versicolor
1             4.9          3.0           1.4          0.2      setosa
..            ...          ...           ...          ...         ...
85            6.0          3.4           4.5          1.6  versicolor
11            4.8          3.4           1.6          0.2      setosa
97            6.2          2.9           4.3          1.3  versicolor
116           6.5          3.0           5.5          1.8   virginica
73            6.1          2.8           4.7          1.2  versicolor

[100 rows x 5 columns]


Se você quiser fazer uma amostragem de certa *porcentagem* de dados do seu DataFrame, use o argumento `frac`. Este argumento indica a fração de dados que será amostrada. Se `frac=0.7`, então estamos criando uma amostra com tamanho de 70% do DataFrame original.



In [5]:
amostra = df.sample(frac=0.7)
print(amostra)

     sepal_length  sepal_width  petal_length  petal_width     species
63            6.1          2.9           4.7          1.4  versicolor
14            5.8          4.0           1.2          0.2      setosa
10            5.4          3.7           1.5          0.2      setosa
118           7.7          2.6           6.9          2.3   virginica
78            6.0          2.9           4.5          1.5  versicolor
..            ...          ...           ...          ...         ...
88            5.6          3.0           4.1          1.3  versicolor
29            4.7          3.2           1.6          0.2      setosa
44            5.1          3.8           1.9          0.4      setosa
96            5.7          2.9           4.2          1.3  versicolor
104           6.5          3.0           5.8          2.2   virginica

[105 rows x 5 columns]


O `pandas`, por padrão, realiza uma amostragem *sem reposição* (comportamento padrão diferente do `numpy`). Para realizar uma amostragem com reposição, passe o valor `True` para o argumento `replace`.



In [6]:
amostra = df.sample(100, replace=True)
print(amostra)

     sepal_length  sepal_width  petal_length  petal_width     species
44            5.1          3.8           1.9          0.4      setosa
100           6.3          3.3           6.0          2.5   virginica
13            4.3          3.0           1.1          0.1      setosa
113           5.7          2.5           5.0          2.0   virginica
95            5.7          3.0           4.2          1.2  versicolor
..            ...          ...           ...          ...         ...
44            5.1          3.8           1.9          0.4      setosa
143           6.8          3.2           5.9          2.3   virginica
146           6.3          2.5           5.0          1.9   virginica
108           6.7          2.5           5.8          1.8   virginica
83            6.0          2.7           5.1          1.6  versicolor

[100 rows x 5 columns]


## Estimativa



Quando temos uma amostra,nosso o nosso interesse usualmente é de usá-la para inferir uma ou mais informações sobre a população. &ldquo;Inferência&rdquo; é o processo de tirar conclusões sobre um conjunto de itens a partir de informações de um subconjunto destes itens.

O valor da média de uma amostra é um bom estimador para se inferir o valor da média da população. Nós simbolizamos como $\bar{X}$ a estimativa da média da população de uma amostra da variável $X$. Na expressão abaixo, $n$ é o número de itens da amostra.

$$
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
$$

O desvio padrão e a variância de uma amostra, da forma como aprendemos no notebook anterior, *não* são bons estimadores do desvio padrão e da variância de uma população. Neste caso, estes são o que chamamos de *estimadores enviesados*. Para se estimar a variância de uma população a partir de uma amostra, use a expressão abaixo. Observe que a estimativa da variância é escrita como $s^2$.

$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2
$$

De forma similar, para estimar o desvio padrão de uma população a partir de uma amostra, use a seguinte expressão:

$$
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2}
$$

**Cuidado**: todo processo de inferência tem uma <u>incerteza</u> associada (afinal de contas, você não tem acesso a todos os itens da sua população ao computar a sua estimativa).



## Valor esperado (população)



Existe um conceito chamado de valor esperado (ou esperança matemática). Este conceito é muito mais abrangente do que veremos aqui neste momento. No entanto, a notação deste conceito irá nos ajudar bastante na próxima seção e é por este motivo que ele será introduzido agora sem uma definição mais rigorosa.

Quando nós temos uma variável aleatória numérica $X$, o valor esperado $E[X]$ é a média ponderada de $X$. Como até agora não estamos atribuindo uma probabilidade diferente para cada elemento de $X$, a média ponderada de $X$ é simplesmente a média que estudamos no notebook anterior (recordar que a mesma expressão é usada para a média da população e para a média da amostra).

Observe que a multiplicação de duas variáveis aleatórias resulta em uma variável aleatória.



## Covariância (população)



Duas variáveis aleatórias distintas são chamadas de *independentes* caso a variação (aumento ou diminuição) de uma delas não ocorre de maneira simultânea à variação (aumento ou diminuição) da outra. Um exemplo: a umidade do ar e a sua idade são variáveis aleatórias independente. Quando uma delas aumenta ou diminui, não observamos um padrão no aumento ou diminuição da outra.

Duas variáveis aleatórias distintas são chamadas de *dependentes* caso a variação (aumento ou diminuição) de uma delas ocorre simultaneamente com a variação (aumento ou diminuição) da outra. Um exemplo: a sua altura e o número de sapato que você calça são variáveis aleatórias dependentes. Quando uma delas aumenta, em geral a outra aumenta também.

A medida da *covariância* de uma população é uma forma de quantificar o quão &ldquo;dependentes&rdquo; duas variáveis aleatórias são. A formulação matemática da covariância é:

$$
\sigma_{XY} = \mathrm{cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$

Você pode observar os conceitos discutidos acima na imagem abaixo.

<img src="https://upload.wikimedia.org/wikipedia/commons/a/a0/Covariance_trends.svg" width="200">




## Correlação (população)



A covariância pode assumir qualquer valor real, dependendo da magnitude das variáveis aleatórias utilizadas para computá-la. O coeficiente de correlação de Pearson ($\rho_{XY}$) é uma forma de estudar a covariância em uma escala normalizada com valores entre $[-1, 1]$. A expressão matemática para computar este coeficiente de correlação é:

$$
\rho_{XY} = \frac{\mathrm{cov}(X, Y)}{\sigma_X \sigma_Y}
$$

Veja o exemplo abaixo.

![img](https://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg)



## Correlação não implica causalidade!



Um erro bastante comum é acreditar que quando duas variáveis aleatórias estão altamente correlacionadas (valores do coeficiente de correlação de Pearson próximos de -1 ou de 1) então a variação de uma delas é causada pela variação da outra. **Correlação não implica causalidade!**

Identificar a relação causal entre duas variáveis aleatórias demanda muito estudo. Não é possível determinar esta relação apenas computando o coeficiente de correlação de Pearson. Um exemplo: o número de ventiladores vendidos está positivamente correlacionado com o número de sorvetes vendidos. Será que comprar um ventilador *causa* a pessoa a ir comprar um sorvete ou será que existe um fator externo (temperatura muito quente) que é o verdadeiro fator causador?  **Correlação não implica causalidade!**

É tão comum observar pessoas errando este conceito que existe um [site](https://tylervigen.com/spurious-correlations) dedicado a mostrar que variáveis aleatórias completamente diferente podem estar correlacionadas. Quando isso acontece, dizemos que é uma *correlação espúria*. **Correlação não implica causalidade!**



## XKCD relevante



![img](https://imgs.xkcd.com/comics/correlation.png)

`Imagem: Correlation (XKCD) disponível em https://xkcd.com/552`



## Referências



1.  [https://en.wikipedia.org/wiki/Bessel%27s_correction](https://en.wikipedia.org/wiki/Bessel%27s_correction)

2.  [https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation](https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation)

3.  [https://en.wikipedia.org/wiki/Expected_value](https://en.wikipedia.org/wiki/Expected_value)

4.  [https://en.wikipedia.org/wiki/Sample_mean_and_covariance](https://en.wikipedia.org/wiki/Sample_mean_and_covariance)

