# Estatística

As estatísticas referem-se à matemática e técnicas com as quais entendemos os dados. É um campo rico e enorme, mais adequado a uma prateleira (ou sala) em uma biblioteca do que a uma aula de um curso, e assim nossa discussão não será necessariamente profunda. Em vez disso, vamos tentar ensiná-lo apenas o suficiente para acompanhar as aulas seguintes e também para despertar o seu interesse para você sair e aprender mais.

## Descrevendo um único conjunto de dados

Através de uma combinação de boca-a-boca e sorte, a DataSciencester cresceu para dezenas de membros, e o vice-presidente de arrecadação de fundos pede-lhe uma descrição de quantos amigos cada membro pode incluir na lista de possíveis doadores.

Usando técnicas das aulas anteriores, você pode facilmente produzir esses dados. Mas agora você se depara com o problema de como descrevê-los.

Uma descrição óbvia de qualquer conjunto $x_1, x_2, ..., x_n$ de dados é simplesmente os dados em si:

In [None]:
num_friends = [100, 49, 41, 40, 25,
# ... and lots more
]

Para um conjunto de dados pequeno o suficiente, isso pode até ser a melhor descrição. Mas, para um conjunto de dados maior, isso é difícil e provavelmente opaco (imagine uma lista de 1 milhão de números). Por esse motivo, usamos estatísticas para destilar e comunicar características relevantes dos nossos dados.

Como primeira abordagem, você coloca as contagens de amigos em um histograma usando `Counter` e `plt.bar()`

In [None]:
matplotlib inline

In [None]:
from matplotlib import pyplot as plt
import random
from collections import Counter

num_friends = [100,49,41,40,25,21,21,19,19,18,18,16,15,15,15,15,14,14,13,13,13,13,12,12,11,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,9,8,8,8,8,8,8,8,8,8,8,8,8,8,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]


fig = plt.figure()
# você pode usar este código:
#friend_counts = Counter(num_friends)
#xs = range(101) # largest value is 100
#ys = [friend_counts[x] for x in xs] # height is just # of friends
#plt.bar(xs, ys)

# OU este:
plt.hist(num_friends, bins=100, range=(0,max(num_friends)))

plt.axis([0, max(num_friends), 0, 25])
plt.title("Histograma da contagem de amigos")
plt.xlabel("# de amigos")
plt.ylabel("# de pessoas")
plt.show()
fig.savefig('./img/Aula04/aula04-fig1.png')

Infelizmente, este gráfico ainda é muito difícil de explicar em conversas informais. Então você pode começar a gerar algumas estatísticas. Provavelmente, a estatística mais simples é o número de pontos de dados:

In [None]:
num_points = len(num_friends)
print("numero de pontos:", num_points)

Você provavelmente também está interessado no maior e menor valor:

In [None]:
largest_value = max(num_friends) 
smallest_value = min(num_friends)
print("maximo: ", largest_value, "\nminimo: ", smallest_value)

Esses são apenas casos especiais quando queremos saber os valores em posições específicas:

In [None]:
sorted_values = sorted(num_friends)
smallest_value = sorted_values[0] 
second_smallest_value = sorted_values[1] 
second_largest_value = sorted_values[-2] 
print("menor valor: ", smallest_value)
print("segundo menor valor: ", second_smallest_value)
print("segundo maior valor: ", second_largest_value)

# Tendências Centrais

Normalmente, queremos saber onde nossos dados $x_1, x_2, ..., x_n$ estão centralizados. Normalmente, usamos a média $\bar{x}$, que é apenas a soma dos dados dividida por sua contagem $n$:

$${\bar {x}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}$$ 

Um código simples para o cálculo da média seria:

In [None]:
def mean(x):
    return sum(x) / len(x)

print("media: ", mean(num_friends))
# 7.333333

Se você tiver dois pontos de dados (ou *data points*), a média é simplesmente o ponto intermediário entre eles. À medida que você adiciona mais pontos, a média muda, mas sempre depende do valor de cada ponto.

Às vezes, também estaremos interessados na mediana, que é o valor intermediário (se o número de pontos de dados for ímpar) ou a média dos dois valores intermediários (se o número de pontos de dados for par).

Por exemplo, se temos cinco pontos de dados em um vetor ordenado `x`, a mediana é `x[5 // 2]`  ou `x[2]`. Se tivermos seis pontos de dados, calculamos a média entre `x[2]` (o terceiro ponto) e `x[3]` (o quarto ponto).

Observe que, ao contrário da média, a mediana não depende de todos os valores dos seus dados. Por exemplo, se você tornar o maior ponto maior (ou o menor ponto menor), os pontos do meio permanecem inalterados, o que significa que a mediana também.

A função mediana é um pouco mais complicada do que você poderia esperar, principalmente por causa do caso "par":

In [None]:
def median(v):
    """encontra o valor mais intermediario de v"""
    n = len(v)
    sorted_v = sorted(v)
    midpoint = n // 2 # // eh a divisao inteira
    
    if n % 2 == 1:
        # se impar, retorna o valor do meio
        return sorted_v[midpoint]
    else:
        # se par, retorna a media dos dois valores intermediarios
        lo = midpoint - 1
        hi = midpoint
        return (sorted_v[lo] + sorted_v[hi]) / 2

In [None]:
def median_v2(v):
    n = len(v)
    sorted_v = sorted(v)
    return (sorted_v[math.floor((n-1)/2)] + sorted_v[math.ceil((n-1)/2)])/2

In [None]:
a = [1, 2, 3, 4]
b = [5, 6, 7, 8, 9]
print("mediana de a = ", median(a))
print("mediana de b = ", median(b))

print("mediana da quantidade de amigos:", median(num_friends))

Claramente, a média é mais simples de calcular e varia suavemente conforme nossos dados são alterados. Se tivermos `n` pontos de dados e um deles aumentar em alguma quantidade pequena `e`, então necessariamente a média aumentará em `e/n`. (Isso torna a média passível de todo tipo de truque de cálculo.) No entanto, para encontrar a mediana, temos que ordenar nossos dados. E alterar um dos nossos pontos de dados em uma pequena quantidade `e` pode aumentar a mediana por `e`, por algum número menor que `e` ou não a modificar de qualquer forma (dependendo do resto dos dados).

**Observação:** Existem, de fato, truques não óbvios para calcular eficientemente medianas sem ordenar os dados. No entanto, tais truques estão além do escopo deste curso, portanto, vamos ordernar os dados quando precisarmos calcular a mediana.

Ao mesmo tempo, a média é muito sensível a valores discrepantes (*outliers*) em nossos dados. Se nosso usuário mais amigável tivesse 2000 amigos, a média subiria muito, enquanto a mediana permaneceria a mesma. Se os valores discrepantes forem, provavelmente, dados incorretos (ou, de outro modo, não representativos de qualquer fenômeno que estamos tentando entender), a média poderá, às vezes, nos fornecer uma imagem enganosa. Por exemplo, a história é frequentemente contada que em meados da década de 1980, a graduação da Universidade da Carolina do Norte com a maior média de salário inicial era a geografia. A razão disso? A estrela da NBA (e *outlier*) Michael Jordan formou-se em geografia.

Uma generalização da mediana é o quantil, que representa o menor valor maior que um certo percentual dos dados (A mediana representa o valor maior que 50% dos dados.)

In [None]:
def quantile(x, p):
    """retorna o pth-percentil em x"""
    p_index = int(p * len(x))
    return sorted(x)[p_index]


print("quantil 10: ", quantile(num_friends,0.10))
print("quantil 25: ", quantile(num_friends,0.25))
print("quantil 75: ", quantile(num_friends,0.75))
print("quantil 90: ", quantile(num_friends,0.90))

Outra medida para tendência central dos dados é a moda, que é(são) o(s) valor(es) mais comum(ns):

In [None]:
def mode(x):
    """retorna uma lista, pois os dados podem ter mais de uma moda"""
    counts = Counter(x)
    max_count = max(counts.values())
    return [x_i for x_i, count in counts.items() if count == max_count]

In [None]:
a = [1, 2, 3, 4, 2, 4 ]
print("moda de a: ", mode(a))

print("moda do numero de amigos: ", mode(num_friends))

Quando usarmos esses descritores para descrever dados, devemos ter muito cuidado. Considere, por exemplo, dados que possuem uma "cauda pesada", como uma amostra da [distribuição de Pareto](https://en.wikipedia.org/wiki/Pareto_distribution):

In [None]:
import numpy as np
a, m = 1, 5.  # shape and mode
pareto_data = np.floor((np.random.pareto(a, 1000)+1) * m)

Agora vamos plotar o histograma dos dados:

In [None]:
minv = min(pareto_data)
maxv = max(pareto_data)
lenbins = 100
logbins = np.logspace(np.log10(minv),np.log10(maxv),lenbins)
hist, edges = np.histogram(
    pareto_data,
    bins=logbins)
fig = plt.figure()
plt.plot(edges[:-1], hist, 'bo')
plt.xscale('log')
plt.yscale('log')
plt.xlabel('x')
plt.ylabel('count')
plt.savefig('./img/Aula04/aula04-fig2.png')
plt.show()


Observe que a grande maioria dos valores é menor que $10$, mas existe uma quantidade significativa de valores na casa das centenas e até dos milhares. 

Nesse caso, qual é o melhor descritor para esses dados?

In [None]:
print(mean(pareto_data), median(pareto_data), max(pareto_data), mode(pareto_data))

Ao que parece, todos eles são importantes.

## Dispersão

Dispersão refere-se a medidas de como se espalham nossos dados. Normalmente, são estatísticas para as quais valores próximos de zero significam que os dados não se espalham de forma alguma e para as quais grandes valores (seja lá o que isso signifique) significam que os dados estão muito dispersos. Por exemplo, uma medida muito simples é o intervalo (ou *range*), que é apenas a diferença entre os elementos maiores e menores:

In [None]:
# "range" já significa algo em Python, então vamos usar outro nome
def data_range(x):
    return max(x) - min(x)

In [None]:
print("range: ", data_range(num_friends))

O intervalo é zero precisamente quando `max` e `min` são iguais, o que só pode acontecer se os elementos de `x` forem todos iguais, o que significa que os dados são tão similares (ou não dispersos) quanto possível. Por outro lado, se o intervalo for grande, o `max` é muito maior que o `min` e os dados estão mais espalhados.

Como a mediana, o intervalo não depende realmente de todo o conjunto de dados. Um conjunto de dados cujos pontos são todos 0 ou 100 tem o mesmo intervalo que um conjunto de dados cujos valores são 0, 100 e muitos 50s. Mas parece que o primeiro conjunto de dados "deveria" estar mais espalhado, certo?

Uma medida mais complexa de dispersão é a variância $s^2$. Quando a variância da população é estimada usando $n$ amostras aleatórias $x_1, x_2, ..., x_n$ a fórmula seguinte é um estimador não enviesado:

$$s^{2}={\frac {1}{n-1}}\sum _{{i=1}}^{n}\left(x_{i}-\overline {x}\right)^{2}$$

O código abaixo faz o mesmo:

In [None]:
import numpy as np

def de_mean(x):
    """translada x subtraindo sua média (então o resultado tem média 0)"""
    x_bar = mean(x)
    return [x_i - x_bar for x_i in x]

def variance(x):
    """assume que x tem pelo menos dois elementos"""
    n = len(x)
    deviations = de_mean(x)
    deviations = np.array(deviations) #vamos usar numpy muito de agora em diante
    return np.sum(deviations ** 2) / (n-1)
    #voce pode usar a funcao que implementamos anteriormente:
    #return sum_of_squares(deviations) / (n - 1)

print("variancia: ", variance(num_friends))

A primeira observação é o uso do módulo `numpy`. A partir de agora vamos usar muito esse módulo, que contém diversas operações sobre listas, que são implementadas de forma eficiente.

Na aula passada, implementamos a função `sum_of_squares`. Para fazer a mesma coisa, e de forma mais rápida, podemos usar a função `sum` do `numpy` e o operador `**` para elevar todos os elementos de uma lista a uma dada potência, nesse caso, `2`. Note que antes de usar executar essas operações, é necessário converter a lista para um *array* do `numpy`.

Segundo, parece que a variância é quase o desvio médio da média, exceto pelo fato de estarmos dividindo por `n-1` em vez de `n`. De fato, quando estamos lidando com uma amostra de uma população maior, $\overline {x}$ é apenas uma estimativa da média real, o que significa que, em média $\left(x_{i}-\overline {x}\right)^{2}$ é uma subestimativa do desvio ao quadrado de $x_i$ em relação à média. Por isso que nós dividimos por `n-1` ao invés de `n`. Para mais informações, consulte o [Wikipedia](https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation).

Agora, quaisquer que sejam as unidades em que nossos dados estão (por exemplo, "# de amigos"), todas as nossas medidas de tendência central estão nessa mesma unidade. O intervalo será similarmente nessa mesma unidade. A variância, por outro lado, tem unidades que são o quadrado das unidades originais (por exemplo, " # de amigos ao quadrado"). Como pode ser difícil entender essa medida, muitas vezes olhamos para o desvio padrão $s = \sqrt{s^2}$:

In [None]:
import math

def standard_deviation(x):
    return math.sqrt(variance(x))

print("desvio padrao: ", standard_deviation(num_friends))

Tanto o intervalo quanto o desvio padrão têm o mesmo problema discrepante que vimos anteriormente para a média. Usando o mesmo exemplo, se nosso usuário mais amigável tivesse `2000` amigos, o desvio padrão seria muito maior somente por causa desse usuário. Uma alternativa mais robusta calcula a diferença entre o valor do 75º e do 25º percentil:

In [None]:
def interquartile_range(x):
    return quantile(x, 0.75) - quantile(x, 0.25)

print("intervalo interquartil:", interquartile_range(num_friends))

Essa medida é muito pouco afetada por *outliers*.

Medidas de dispersão para o número de amigos:

In [None]:
print("Dispersão para o número de amigos:")
print("Intervalo:", data_range(num_friends))
print("Variância:", variance(num_friends))
print("Desvio padrão:", standard_deviation(num_friends))
print("IQR:", interquartile_range(num_friends))

Medidas de dispersão para dados com "cauda pesada":

In [None]:
print("Dispersão de dados Pareto:")
print("Intervalo:", data_range(pareto_data))
print("Variância:", variance(pareto_data))
print("Desvio padrão:", standard_deviation(pareto_data))
print("IQR:", interquartile_range(pareto_data))

## Correlação

O vice-presidente de crescimento da *DataSciencester* tem uma teoria de que a quantidade de tempo que as pessoas passam no site está relacionada ao número de amigos que eles têm no site (ela não é VP a toa) e pediu para você verificar isso.

Depois de analisar os registros de tráfego, você criou uma lista `daily_minutes` que mostra quantos minutos por dia cada usuário gasta no *DataSciencester*, e você a organizou de forma que os seus elementos correspondam aos elementos de nossa lista anterior de `num_friends`. Gostaríamos de investigar a relação entre essas duas métricas.

Primeiro, vamos criar uma lista `daily_minutes` e exibir a sua distribuição:

In [None]:
daily_minutes = [1,68.77,51.25,52.08,38.36,44.54,57.13,51.4,41.42,31.22,34.76,54.01,38.79,47.59,49.1,27.66,41.03,36.73,48.65,28.12,46.62,35.57,32.98,35,26.07,23.77,39.73,40.57,31.65,31.21,36.32,20.45,21.93,26.02,27.34,23.49,46.94,30.5,33.8,24.23,21.4,27.94,32.24,40.57,25.07,19.42,22.39,18.42,46.96,23.72,26.41,26.97,36.76,40.32,35.02,29.47,30.2,31,38.11,38.18,36.31,21.03,30.86,36.07,28.66,29.08,37.28,15.28,24.17,22.31,30.17,25.53,19.85,35.37,44.6,17.23,13.47,26.33,35.02,32.09,24.81,19.33,28.77,24.26,31.98,25.73,24.86,16.28,34.51,15.23,39.72,40.8,26.06,35.76,34.76,16.13,44.04,18.03,19.65,32.62,35.59,39.43,14.18,35.24,40.13,41.82,35.45,36.07,43.67,24.61,20.9,21.9,18.79,27.61,27.21,26.61,29.77,20.59,27.53,13.82,33.2,25,33.1,36.65,18.63,14.87,22.2,36.81,25.53,24.62,26.25,18.21,28.08,19.42,29.79,32.8,35.99,28.32,27.79,35.88,29.06,36.28,14.1,36.63,37.49,26.9,18.58,38.48,24.48,18.95,33.55,14.24,29.04,32.51,25.63,22.22,19,32.73,15.16,13.9,27.2,32.01,29.27,33,13.74,20.42,27.32,18.23,35.35,28.48,9.08,24.62,20.12,35.26,19.92,31.02,16.49,12.16,30.7,31.22,34.65,13.13,27.51,33.2,31.57,14.1,33.42,17.44,10.12,24.42,9.82,23.39,30.93,15.03,21.67,31.09,33.29,22.61,26.89,23.48,8.38,27.81,32.35,23.84]

fig = plt.figure()
plt.hist(daily_minutes, bins=100, range=(0,max(daily_minutes)))

plt.title("Histograma do número de minutos diários")
plt.xlabel("minutos diários")
plt.ylabel("# de pessoas")
fig.savefig('./img/Aula04/aula04-fig3.png')
plt.show()

Primeiro analisaremos a covariância, o análogo pareado da variância. Enquanto a variância mede como uma única variável se desvia de sua média, a covariância mede como duas variáveis $X = \{x_1, \cdots, x_n\}$ e $Y = \{y_1, \cdots, y_n\}$  variam em conjunto a partir de suas médias $\bar{x}$ e $\bar{y}$:

$$cov(X, Y) = \frac{\sum_{i=1}^{n}{(x_i - \bar{x})(y_i - \bar{y})}}{n-1},$$

que pode ser calculada a partir do código abaixo:

In [None]:
def covariance(x, y):
    n = len(x)
    #vamos usar o dot implementado do numpy novamente:
    return np.dot(de_mean(x), de_mean(y)) / (n - 1)

print("covariancia entre # de amigos e minutos diarios: ", covariance(num_friends, daily_minutes))

Lembre-se de que o produto escalar (`dot`) soma os produtos dos pares correspondentes de elementos. Quando os elementos correspondentes de `x` e `y` estão ambos acima de suas médias ou ambos abaixo de suas médias, um número positivo entra na soma. Quando um está acima de sua média e o outro abaixo, um número negativo entra na soma. Assim, uma covariância positiva “grande” significa que `x` tende a ser grande quando `y` é grande, e pequeno quando `y` é pequeno. Uma covariância negativa “grande” significa o oposto - que `x` tende a ser pequeno quando `y` é grande e vice-versa. Uma covariância próxima de zero significa que não existe tal relação.

No entanto, este número pode ser difícil de interpretar por duas razões principais:

* Suas unidades são o produto das unidades das entradas (por exemplo, #-de-amigos-minutos-por-dia), o que pode ser difícil de entender. (O que é um "#-de-amigos-minutos-por-dia"?)
* Se cada usuário tivesse o dobro de amigos (mas o mesmo número de minutos), a covariância seria duas vezes maior. Mas, em certo sentido, as variáveis seriam inter-relacionadas da mesma maneira. Dito de uma forma diferente, é difícil dizer o que conta como sendo uma covariância "grande".

Por esse motivo, é mais comum observar a [correlação de Pearson](https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson), que divide a covariância pelos desvios padrões de ambas as variáveis:

$$r(X,Y) = \frac{cov(X,Y)}{s(X)~s(Y)},$$

que pode ser calculado pelo código abaixo:

In [None]:
def correlation(x, y):
    stdev_x = standard_deviation(x)
    stdev_y = standard_deviation(y)
    if stdev_x > 0 and stdev_y > 0:
        return covariance(x, y) / stdev_x / stdev_y
    else:
        return 0 # se não há variação, correlação é zero


print("correlacao: ", correlation(num_friends, daily_minutes))

A correlação não tem unidade e está sempre entre -1 (perfeita anti-correlação) e 1 (correlação perfeita). Um número como 0,25 representa uma correlação positiva relativamente fraca.

No entanto, uma coisa que negligenciamos foi examinar nossos dados:

In [None]:
fig = plt.figure()
plt.scatter(num_friends, daily_minutes)
plt.title("Correlação com um outlier")
plt.xlabel("# de amigos")
plt.ylabel("minutos diários")
fig.savefig('./img/Aula04/aula04-fig4.png')
plt.show()

A pessoa com 100 amigos (que gasta apenas um minuto por dia no site) é um enorme outlier, e a correlação pode ser muito sensível a outliers. O que acontece se nós o ignorarmos?

In [None]:
outlier = num_friends.index(100) # index of outlier

num_friends_good = [x
                    for i, x in enumerate(num_friends)
                    if i != outlier]

daily_minutes_good = [x
                      for i, x in enumerate(daily_minutes)
                      if i != outlier]

correlation(num_friends_good, daily_minutes_good)

Sem o outlier, há uma correlação muito mais forte:

In [None]:
fig = plt.figure()
plt.scatter(num_friends_good, daily_minutes_good)
plt.title("Correlação depois de remover o outlier")
plt.xlabel("# de amigos")
plt.ylabel("minutos diários")
fig.savefig('./img/Aula04/aula04-fig5.png')
plt.show()

Você investiga mais e descobre que o outlier era na verdade uma conta de teste interna que ninguém se incomodou em remover. Então você se sente justificado em excluí-lo.

Além do número de amigos e dos minutos diários de cada usuário, outra informação importante diz respeito ao número de mensagens postadas por usuários. A fim de verificar se o número de mensagens está associado ao número de amigos e aos minutos diários, você coletou o número de mensagens postadas nos últimos 30 dias pelos usuários da sua amostra (sem o *outlier*):

In [None]:
num_messages = [3114, 6667, 19019, 559, 788, 757, 78916, 136, 429, 16, 1266, 3661, 307, 148, 24, 181, 23, 386, 11, 1582, 390, 76, 32, 11, 97, 87, 24, 93, 33, 1830, 21, 4, 3, 571, 62, 110, 11, 148, 25, 13, 103, 12, 315, 102, 16, 11, 3, 203, 28, 29, 14, 51, 88, 1149, 24, 54, 2, 113, 106, 105, 64, 94, 33, 5, 119, 15, 15, 49, 10, 58, 3, 10, 138, 115, 9, 2, 21, 162, 28, 11, 7, 777, 10, 95, 17, 118, 11, 24, 13, 12, 282, 98, 21, 9, 5, 793, 11, 10, 8, 182, 191, 10, 85, 32, 70, 31, 34, 157, 85, 7, 15, 1, 4, 24, 33, 86, 5, 30, 2, 32, 88, 3, 1705, 15, 7, 53, 34, 23, 17, 20, 6, 86, 8, 24, 15, 88, 10, 47, 20, 4, 36, 2, 29, 17, 23, 12, 44, 31, 6, 4, 2, 37, 20, 68, 3, 24, 59, 3, 3, 11, 43, 165, 9, 2, 2, 349, 4, 7, 11, 1, 5, 9, 61, 3, 28, 4, 6, 323, 9, 3, 11, 31, 58, 23, 2, 31, 6, 3, 7, 1, 5, 17, 2, 18, 10, 35, 2, 15, 15, 1, 41, 152, 26]

Primeiro, verificamos se há uma associação visual entre esse atributo e os demais:

In [None]:
fig, ax = plt.subplots(1,2)
plt.tight_layout()
ax[0].plot(num_friends_good, num_messages, 'bo')
ax[0].set(xlabel='# of friends', ylabel='# of messages')
ax[1].plot(daily_minutes_good, num_messages, 'bo')
ax[1].set(xlabel='daily minutes')
plt.show()
fig.savefig('./img/Aula04/aula04-fig6.png', bbox_inches='tight')

Note que visualmente há uma correlação muito baixa entre as duas medidas. No entanto, observe que a escala do eixo `y` é muito maior que do eixo `x`. Visualmente, é impossível diferenciar valores de número de mensagens para a maioria dos usuários. Assim, uma boa prática é transformar a escala do eixo `y` para a escala logarítmica, que revela de forma mais precisa a diferença entre valores que ultrapassam diversas ordens de grandeza:

In [None]:
fig, ax = plt.subplots(1,2)
plt.tight_layout()
ax[0].plot(num_friends_good, num_messages, 'bo')
ax[0].set(xlabel='# of friends', ylabel='# of messages', yscale='log')
ax[1].plot(daily_minutes_good, num_messages, 'bo')
ax[1].set(xlabel='daily minutes',yscale='log')
fig.savefig('./img/Aula04/aula04-fig7.png', bbox_inches='tight')
plt.show()

Note que além de podermos diferenciar os valores visualmente com mais precisão, as correlações ficam bem mais nítidas. Vamos conferir isso quantitativamente:

In [None]:
print("correlação linear:")
print("# friends vs. # messages: ", correlation(num_friends_good, num_messages))
print("# daily minutes vs. # messages: ", correlation(daily_minutes_good, num_messages))

print()
print("correlação com o log:")
print("# friends vs. log(# messages): ", correlation(num_friends_good, np.log(num_messages)))
print("# daily minutes vs. log(# messages): ", correlation(daily_minutes_good, np.log(num_messages)))


Se você não sabe como transformar os dados a fim de identificar associações entre as variáveis (ou se elas são provavelmente muito complicadas para você fazer), você pode usar um coeficiente de correlação de posto (*rank correlation coefficient*). 

O [coeficiente de correlação de *Spearman*](https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_postos_de_Spearman) $\rho$ é definido como o coeficiente de correlação de Pearson para os postos das variáveis. Para uma amostra de tamanho $n$, os valores originais $X_{i},Y_{i}$ das variáveis $X$ e $Y$ são convertidos em postos (*ranks*) $\operatorname {rg} X_{i},\operatorname {rg} Y_{i}$, sendo $\rho$ calculado como:

$$\rho = r({\operatorname {rg} _{X},\operatorname {rg} _{Y}})={\frac {\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})}{\sigma _{\operatorname {rg} _{X}}\sigma _{\operatorname {rg} _{Y}}}}$$

em que

$r(.)$  denota o coeficiente de correlação de Pearson usual, mas calculado sobre os postos das variáveis;

$\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})$ são as covariâncias dos postos das variáveis;

$\sigma _{\operatorname {rg} _{X}}$ and $\sigma _{\operatorname {rg} _{Y}}$ são os desvios padrões dos postos das variáveis.

Dessa forma, primeiro precisamos computar, para uma lista de valores, os seus respectivos postos. Nesse cálculo, quando houver empate, o posto médio é atribuído a todos os valores que empataram.

In [None]:
from collections import Counter
def rank_data(vector):
    count = Counter(vector)
    a={}
    rank=1
    for num in sorted(vector):
        if num not in a:
            a[num]=sum(range(rank,rank+count[num]))/count[num]
            rank+=count[num]
    return[a[i] for i in vector]

In [None]:
print(rank_data([7, 2, 3, 3, 3, 1, 5]))

Feito isso, é fácil construir a função que retorna o coeficiente de correlação de Spearman entre duas listas:

In [None]:
def spearman(x, y):
    
    xr = rank_data(x)
    yr = rank_data(y)
    return correlation(xr, yr)

Observe que a correlação de Spearman é maior entre o número de mensagens e as outras variáveis, e mais próxima da correlação entre o logaritmo do número de mensagens e as outras variáveis, que a correlação de Pearson:

In [None]:
print("correlacao: ", spearman(num_friends_good, daily_minutes_good))
print("correlacao: ", spearman(num_messages, daily_minutes_good))
print("correlacao: ", spearman(num_messages, num_friends_good))

## Paradoxo de Simpson

Uma surpresa não incomum ao analisar dados é o Paradoxo de Simpson, no qual as correlações podem ser enganosas (ou *misleading*) quando variáveis confusas (ou *confounding variables*) são ignoradas.

Por exemplo, imagine que você pode identificar todos os membros  do *DataSciencester* como cientistas de dados da Costa Leste ou cientistas de dados da Costa Oeste. Você decide examinar quais cientistas de dados são mais amigáveis:


|Costa|# de membros|# médio de amigos|
| :-: | :-: | :-: |
|Oeste|101|8.2|
|Leste|103|6.5|

Certamente parece que os cientistas de dados da Costa Oeste são mais amigáveis do que os cientistas de dados da Costa Leste. Seus colegas de trabalho avançam todos os tipos de teorias sobre por que isso pode ser: talvez seja o sol, ou o café, ou os produtos orgânicos, ou a vibração descontraída do Pacífico?

Ao brincar com os dados, você descobre algo muito estranho. Se você olhar apenas para pessoas com PhDs, os cientistas de dados da Costa Leste têm mais amigos, em média. E se você olhar apenas para pessoas sem PhDs, os cientistas de dados da Costa Leste também têm mais amigos em média!


|Costa|PhD?|# de membros|# médio de amigos|
| :-: | :-: | :-: | :-: |
|Oeste|Sim|35|3.1|
|Leste|Sim|70|3.2|
|Oeste|Não|66|10.9|
|Leste|Não|33|13.4|

Depois de contabilizar se os usuários tem PhDs ou não, a correlação vai na direção oposta! Separar os dados somente entre Costa Leste e Costa Oeste escondeu o fato de que há muito mais cientistas de dados na Costa Leste com PhD (proporcionalmente) que na Costa Oeste.

Esse fenômeno surge no mundo real com alguma regularidade. A questão-chave é que a correlação está medindo a relação entre suas duas variáveis **sendo tudo o mais igual**. Se suas classes de dados são atribuídas aleatoriamente, como elas podem ser em um experimento bem projetado, "tudo o mais sendo igual" pode não ser uma suposição terrível. Mas quando há um padrão mais profundo para atribuições de classe, "tudo o mais sendo igual" pode ser uma suposição terrível. Nesse exemplo, se a proporção de cientistas de dados com PhD fosse igual na Costa Leste e Costa Oeste, então "ter PhD" deixaria de ser um fator de confusão para a variável "número médio de amigos".

Assim, a única maneira real de evitar fatores de confusão é conhecer seus dados e fazer o que puder para garantir que você tenha verificado tais fatores. Obviamente, isso nem sempre é possível. Se você não tivesse nos seus dados o nível educacional desses 200 cientistas de dados, você poderia simplesmente concluir que havia algo inerentemente mais sociável na Costa Oeste.

O Paradoxo de Simpson também pode ser observado na taxa de sobrevivência do [naufrágio do RMS Titanic](https://en.wikipedia.org/wiki/RMS_Titanic). Havia uma estimativa de 2.224 passageiros e tripulantes a bordo, e mais de 1.500 morreram, tornando-se um dos mais mortais desastres marítimos comerciais em tempos de paz da história moderna. Dados sobre os passageiros podem ser baixados [aqui](https://ww2.amstat.org/publications/jse/v3n3/datasets.dawson.html). Este conjunto de dados foi processado por mim e transformado em um arquivo [csv](https://www.dropbox.com/s/vk8jf0wyczqxkvv/survival_titanic.csv?dl=0), que é muito mais fácil de tratar que um arquivo texto. Informações sobre ele podem ser lidas [aqui](https://www.dropbox.com/s/xpjw74khyqx9ww4/survival_titanic.README.txt?dl=0). 

Embora muitas outras informações existam sobre os passageiros, aqui vamos trabalhar com apenas quatro:

1) Se o passageiro sobreviveu;
2) A classe do seu bilhete (primeira, segunda ou terceira) ou se ele era membro da tripulação;
3) O sexo do passageiro;
4) E se ele era um adulto ou uma criança.

Primeiro, vamos carregar os dados:

In [None]:
import pandas as pd
df = pd.read_csv('./data/titanic/survival_titanic.csv')
df

Se você leu o arquivo explicativo, viu que os dados estão organizados da seguinte maneira:

|Coluna|Descrição|Valores|
| :-: | :-: | :-: |
|0|Classe| 0 = tripulação, 1 = primeira, 2 = segunda, 3 = terceira|
|1|Idade|1 = adulto, 0 = criança|
|2|Sexo|1 = masculino, 0 = feminino|
|3|Sobreviveu?|1 = sim, 0 = não|

Agora, vamos passar os dados do `DataFrame` do módulo `pandas` para uma tabela `numpy`, que permite que você faça tudo que faz com uma lista de listas (que vimos na aula passada) e mais um bocado de coisas:

In [None]:
X = df.values
print("primeiro passageiro: ", X[0])

Primeiro, vamos verificar qual classe possui uma taxa de sobrevivência maior:

In [None]:
def survivalRatePerClass(X, classe):
    X_C = [p for p in X if p[0] == classe]
    return sum(p[3] for p in X_C)/len(X_C)

for i in range(4):
    print("Class", i, ":", survivalRatePerClass(X,i))

Aparentemente, a classe dos tripulantes (classe 0) é aquela com menor taxa de sobrevivência. Para verificar se o Paradoxo de Simpson ocorre, vamos quebrar a análise pelas outras duas colunas, que possuem os mesmos valores possíveis (0 ou 1):

In [None]:
def survivalRatePerClassAndColumn(X, classe, coluna):
    X_C0 = [p for p in X if p[0] == classe and p[coluna]==0]
    X_C1 = [p for p in X if p[0] == classe and p[coluna]==1]
    sur_0, sur_1 = (None,None)
    if(X_C0):
        sur_0 = sum(p[3] for p in X_C0)/len(X_C0)
    if(X_C1):
        sur_1 = sum(p[3] for p in X_C1)/len(X_C1)
    return sur_0, sur_1

Primeiro, vamos quebrar pela idade:

In [None]:
print("\tCriança\t\tAdulto")
for i in range(4):
    print("Class", i, ":", survivalRatePerClassAndColumn(X,i,1))

A única coisa que podemos ver aqui é que a taxa de sobrevivência de crianças é significativamente maior. Talvez se tivéssemos uma quantidade significativa de crianças, poderíamos observar o Paradoxo de Simpson.

Vamos agora quebrar por sexo:

In [None]:
print("\t\tMulher\t\tHomem")
for i in range(4):
    print("Class", i, ":", survivalRatePerClassAndColumn(X,i,2))

Quebrando a análise por sexo, podemos ver também que a taxa de sobrevivência de mulheres foi significativamente maior que a taxa de sobrevivência de homens. Além disso, por haver muito mais mulheres na terceira classe que na tripulação, isso mascarou o primeiro resultado, que indicava que membros da tripulação sobreviveram menos que os membros da terceira classe. Podemos ver agora que os membros da tripulação sobreviveram mais que os membros da terceira classe, o que configura o Paradoxo de Simpson.

## Algumas Outras Advertências Correlacionais

Uma correlação de zero indica que não há relação linear entre as duas variáveis. No entanto, outros tipos de relacionamentos podem existir. Por exemplo, se:

`x = [-2, -1, 0, 1, 2]`

`y = [ 2, 1, 0, 1, 2]`

então `x` e `y` têm correlação zero. Mas eles certamente têm um relacionamento - cada elemento de `y` é igual ao valor absoluto do elemento correspondente de `x`. O que eles não têm é um relacionamento em que saber como `x_i` se compara à média de `x` (`mean(x)`) nos fornece informações sobre como `y_i` se compara à média de `y` (`mean(y)`). Esse é o tipo de relacionamento que a correlação procura.

Além disso, a correlação não informa nada sobre o tamanho do relacionamento. As variáveis:

`x = [-2, 1, 0, 1, 2]`

`y = [99.98, 99.99, 100, 100.01, 100.02]`

são perfeitamente correlacionados, mas (dependendo do que você está medindo) é bem possível que esse relacionamento não seja tão interessante.

## Correlação e Causalidade

Você provavelmente já ouviu, em algum momento, que "correlação não é causalidade", provavelmente por alguém que olha dados que representam um desafio para partes de sua visão de mundo que ele estava relutante em questionar. No entanto, este é um ponto importante - se `x` e `y` estão fortemente correlacionados, isso pode significar que `x` causa `y`, `y` causa `x`, que cada um causa o outro, que algum terceiro fator causa ambos, ou pode não significar nada.

Considere a relação entre `numero_amigos` e `minutos_diarios`. É possível que ter mais amigos no site faça com que os usuários do *DataSciencester* passem mais tempo no site. Este pode ser o caso se cada amigo publicar uma certa quantidade de conteúdo por dia, o que significa que quanto mais amigos você tiver, mais tempo levará para se manter atualizado a respeito das publicações deles.

No entanto, também é possível que quanto mais tempo você gasta discutindo nos fóruns do *DataSciencester*, mais você encontra e faz amizade com pessoas que pensam como você. Ou seja, passar mais tempo no site faz com que os usuários tenham mais amigos.

Uma terceira possibilidade é que os usuários mais apaixonados por ciência dos dados passem mais tempo no site (porque acham isso a coisa mais interessante do dia) e façam mais ativamente amigos que gostam de ciência de dados (porque não querem se associar a ninguém mais).

Uma maneira de se sentir mais confiante sobre a causalidade é conduzir estudos randomizados. Se você puder dividir seus usuários aleatoriamente em dois grupos com dados demográficos semelhantes e dar a um dos grupos uma experiência levemente diferente, então você poderá muitas vezes dizer que essa leve experiência está causando os diferentes resultados.

Por exemplo, se você não se importa em ser acusado de fazer experiências com seus usuários, você pode escolher aleatoriamente um subconjunto de usuários e mostrar a eles apenas uma fração de seus amigos. Se esse subconjunto subsequentemente passou menos tempo no site, isso lhe daria alguma confiança de que ter mais amigos causa mais tempo no site.

## Para explorações futuras

* [`SciPy`](https://www.scipy.org/), [`pandas`](https://pandas.pydata.org/) e [`StatsModels`](https://www.statsmodels.org/stable/index.html) vêm com uma ampla variedade de funções estatísticas.

* Estatísticas são *importantes*. (Ou talvez as estatísticas *sejam* importantes?) Se você quer ser um bom cientista de dados, seria uma boa idéia ler um livro de estatísticas. Muitos estão disponíveis gratuitamente online. Dois exemplos:
 - [*OpenIntro Statistics*](https://www.openintro.org/stat/textbook.php)
 - [*OpenStax Introductory Statistics*](https://openstax.org/details/introductory-statistics)