<font size="10" color="black">Introdução à Probabilidade e Estatística</font>

Eduardo Chaves Ferreira

Aluno: Leonardo Pacheco

## O que será tratado no curso

Conceito de incerteza

Diferença entre análise estatística e análise probabilística

Diferença entre probabilidade/estatística e mineração de dados

Introdução à probabilidade

Distribuições de probabilidade

Conceitos de estatística

Estatística Descritiva - Conceitos básicos 

Inferência Estatística

Teorema do limite central

Grau de certeza e intervalo de confiânça

Correlação entre Variáveis

Análise Temporal 

Outliers

Teste de hipótese

## O que não será tratado no curso

Matemática pura

Demonstrações

Conceitos aprofundados de probabilidade e estatística

## Onde estamos no processo de mineração de dados?

[--Extração e limpeza--]

           [--Estatística--]
           
                   [--Regras determinísticas--]
                   
                              [--Mineração de dados--]

## Importação de bibliotecas usadas nos exemplos

In [None]:
'''
As bibliotecas usadas são:
random
statistic
numpy.random
scipy.stats
pandas
matplotlib
statsmodels
pandas-profiling
'''

import numpy as np
import matplotlib.pyplot as plt
import math
import random
import pandas as pd
import scipy.stats as stat

import os

path = os.environ['PATH']

if path.startswith('C'):
    IN_KAGGLE = False
else:
    IN_KAGGLE = True

## Mantendo a reprodutibilidade dos resultados

Antes da geração de números aleatórios é importante inicializar o gerador de números para que os resultados sejam os mesmos

In [None]:
# Para uso com funções da biblioteca standard (ex random.randint)
random.seed(1)
# Para uso com funções da biblioteca numpy (ex np.random.randint)
np.random.seed(1)

# Quando for passada como parâmetro a seed
random_state = 1

## Funções gerais usadas nos exemplos

In [None]:
# Permutação: possibilidades de colocação de n objetos em n posições = n!
def permutacao (n):
    return math.factorial(n)

# Arranjo: p objetos em n posições, ordem importa = n!/(n-p)!
def arranjo (n,p):
    return math.factorial(n)/math.factorial(n-p)

# Combinação: p objetos em n posições, ordem não importa = n!/(n-p)!p!
def combinacao (n,p):
    return math.factorial(n)/(math.factorial(n-p)*math.factorial(p))

# Variações possíveis havendo n slots e p possibilidades para cada um
def possibilidades(n,p):
    return p**n

<font size="6" color="red">Conceito de Incerteza</font>

Há processos que são descritos de forma precisa, por equações analíticas.

Exemplo: aceleração de um corpo submetido a uma força
a = F/m

Conseguimeos determinar precisamente a aceleração do corpo de acordo com F e m

Neste caso não usamos probabilidade ou estatística

Vamos ao exemplo:

In [None]:
# Para qualquer valor de F podemos determinar precisamente qual será a aceleração do corpo

m = 1
F = np.arange(0.0,10.0,1)
a = F/m

fig, ax = plt.subplots(figsize=(10,6))
plt.plot(F,a,'*')
plt.plot(F,a)

plt.xlabel('Força')
plt.ylabel('Aceleração')
plt.title('Força X Aceleração')
plt.grid(True)

plt.show()

Há processos cujo resultado não é determinístico, ou seja, seu resultado pode variar entre execuções.

Tais processos são chamados <b>estocásticos</b>.

Um exemplo é o lançamento de uma moeda.

Neste caso podemos usar probabilidade/estatística para quantificar a incerteza do resultado.

In [None]:
# No lançamento da moeda não podemos prever qualquer resultado específico, 
# mas podemos determinar a probabilidade de cada resultado

random.seed(random_state)

escolhas = ['Cara','Coroa']
lancamentos = 100
resultados = random.choices(population=escolhas, weights=[6/10,4/10], k=lancamentos)

fig, ax = plt.subplots(figsize=(10,6))
ind = range(1,len(escolhas)+1)
proporcoes = [resultados.count('Cara')/lancamentos,resultados.count('Coroa')/lancamentos]
plt.bar(ind,proporcoes,align='center')
ax.set_xticks(ind)
ax.set_xticklabels(escolhas)


plt.xlabel('Resultado')
plt.ylabel('Proporção')
plt.title('Resultados de lançamentos de moeda não equilibrada')
plt.grid(True)
plt.show()

Neste exemplo não podemos garantir o resultado de nenhum lançamento específico, podemos, porém, verificar que temos aproximadamente 0,6 de probabilidade de cara e 0,4 de coroa. 

Embora haja incerteza, conseguimos quantificá-la de alguma forma.



<font size="6" color="red">Quando usar probabilidade/estatística?</font>

Se você tem um processo determinístico com regras conhecidas, não usará.

Se você tem um processo determinístico cujas regras não conhece, pode usar estatística descritiva para conhecer melhor o processo e depreender suas regras.

Se você tem um processo estocástico (aleatório), com certeza usará.


<font size="6" color="red">Diferença entre análise estatística e análise probabilística</font>

Há processos estocásticos sobre os quais conhecemos as <b>probabilidades básicas</b>. 

Como exemplo temos o lançamento de uma moeda, que, caso seja equilibrada, tem probabilidade de 0,5 para Cara e Coroa.

Neste caso, usando as probabilidades básicas, podemos inferir o comportamento de eventos complexos. 

Por exemplo, a probabilidade de obtermos m caras em n lançamentos.

Nessas condições, utilizamos ferramentas de <font color="red">análise probabilística</font>.

Há situações em que temos apenas dados gerados pelo processo estocástico (toda a população ou somente uma amostra), sem conhecer as probabilidades básicas que conduzem o processo. 

Por exemplo, temos o resultado de pesquisas eleitorais com pequenas parcelas da população. 

Nesta situação, usamos <font color="red">análise estatística</font> para analisar os dados e inferir as características do processo.



<font size="6" color="red">Diferença entre estatística e probabidade na prática</font>

Probabilidade trata do mundo "teórico", quando as probabilidades básicas são bem definidas e seguidas pelos processos, ou seja, quase nunca ocorre no mundo real.

Estatística trata do mundo "real", como as coisas acontecem de verdade. Os eventos são afetados por muitas variáveis, dificilmente seguem regras probabilísticas precisas.

Probabilidade traz muitos conceitos que fundamentam a análise estatística, principalmente a inferência estatística.


<font size="6" color="red">Diferença entre probabilidade/estatística e mineração de dados</font>

Como será apresentado, a estatística descritiva, juntamente com a visualização de dados, permite descobrir informações relevantes sobre cada variável analisada, bem como relações entre elas.

Entretanto, quando a quantidade de variáveis em análise é grande e/ou seu relacionamento complexo, normalmente não linear, não conseguimos inferir corretamente as relações existentes, seja por limitação de nossa capacidade de avaliação, seja pela limitação dos métodos estatísticos.

Nesse momento são usadas técnicas de <font color="red">mineração de dados</font> para tentar descobrir as relações complexas presentes nos dados.

Ambas as técnicas (estatística e mineração) atuam sobre dados, buscando extrair informações. 

A principal diferença é até onde vai nossa capacidade de interpretação e a partir de onde delegamos a interpretação para a máquina.


In [None]:
# exemplo: 3 variáveis de entrada com relacionamento não linear entre elas

np.random.seed(1)
x = np.random.random_sample(size=1000)
y = np.random.random_sample(size=1000)
z = np.random.random_sample(size=1000)
w = x**2-y**2+z**3
w = w/np.max(np.abs(w))




In [None]:
plt.subplots(figsize=(14,6))
plt.plot(x,w,'.')
plt.xlabel('x')
plt.ylabel('w')
plt.title('w = x**2-y**2+z**3')
plt.grid(True)
plt.show()

plt.subplots(figsize=(14,6))
plt.xlabel('w')
plt.ylabel('Probabilidade')
plt.title('Distribuição de probabilidade de W')
plt.grid(True)
n, bins, patches = plt.hist(w, density=True, facecolor='g', alpha=0.75, bins=50)
plt.show()


print('Matriz de correlações entre as variáveis')
print(np.corrcoef([x,y,z,w]))

A análise do gráfico não permite visualizar o relacionamento entre as variáveis.

A matriz de correlação sugere a existência de dependência entre as variáveis de entrada e saída.

Porém, a definição correta das relações é de difícil concepção sem uso de machine learning.

In [None]:
from sklearn.neural_network import MLPRegressor


x_ = np.concatenate((np.reshape(x,(-1,1)),np.reshape(y,(-1,1)),np.reshape(z,(-1,1))), axis=1)
y_ = np.reshape(w,(-1,1))

x_train = x_[0:900,:]
y_train = y_[0:900,:]
x_test = x_[900:1000,:]
y_test = y_[900:1000,:]

estimator = MLPRegressor(
                              learning_rate = 'adaptive',
                              random_state = random_state,
                              verbose=True,
                                max_iter = 200,
                            hidden_layer_sizes = [100,50,40,30,20,10],   
                    solver = 'adam',
                    alpha = 0.0001,
                    activation = 'relu'
                            )

estimator.fit(x_train,y_train)


In [None]:

plt.subplots(figsize=(14,6))
plt.plot(y_test,'r.')
plt.plot(estimator.predict(x_test),'b*')

plt.ylabel('w')
plt.title('w = x**2-y**2+z**3')
plt.grid(True)
plt.show()

A rede neural conseguiu capturar corretamente o relacionamento não linear entre as variáveis.


<font size="6" color="red">Introdução à probabilidade</font>

Teoria matemática para cálculo de probabilidade de eventos complexos considerando as probabilidades de eventos simples que formam o evento complexo.

Por exemplo, o lançamento de uma moeda é um evento simples, com probabilidades conhecidas. O número de caras obtidas em n  lançamentos da mesma moeda é um evento complexo, cujas probabilidades podem ser deduzidas levando-se em conta as probabilidades dos eventos simples. 

## Probabilidade - Solução analítica - Contagem

O cálculo das probabilidades de eventos complexos pode ser feito de maneira analítica em sua forma mais simples: contagem.

No exemplo do lançamento de moedas, a probabilidade de obtermos 15 caras em 30 lançamentos pode ser calculada dividindo o número de eventos favoráveis pelo total de eventos possíveis. Para isso calculamos de quantas maneiras podemos obter 15 caras em 30 lançamentos, dividindo pelo número total de eventos possíveis em 30 lançamentos:


In [None]:
# Cálculo analítico baseado em contagem 
combinacao(30,15)/possibilidades(30,2)

## Probabilidade - Solução analítica - Probabilidades simples

O cálculo das probabilidades de eventos complexos pode ser feito de maneira analítica, considerando as probabilidades simples.

No exemplo do lançamento de moedas, a probabilidade de obtermos m caras em n lançamentos (considerando uma moeda honesta) é dada por:

P(n,m) = Combinação(n,m) x 0,5^m x 0,5^(n-m)

Considerando 30 lançamentos (n=30), vamos calcular a probabilidade de obtermos m caras: 

In [None]:
# Cálculo analítico baseado na probabilidade básica
probabilidades = np.zeros((31,1))
for i in range(0,31,1):
    probabilidades[i]=combinacao(30,i)*((1/2)**(i))*((1/2)**(30-i))

plt.bar(range(0,31,1),probabilidades[:,0], facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

Observa-se que, apesar de termos uma solução analítica, continuamos sem certeza quanto aos resultados.

A solução analítica informa as probabilidades do evento, não o resultado em si.

## Probabilidade - Solução numérica

O cálculo das probabilidades de eventos complexos pode ser bastante difícil considerando a solução analítica. Soluções analíticas envolvem o conhecimento de análise combinatória e probabilidade.

Em casos em que não sabemos ou não queremos recorrer à solução analítica, podemos usar simulações computacionais para chegarmos aos mesmos resultados. Tais cálculos são chamados simulações de Monte-Carlo.

Neste caso a probabilida é estimada pela frequência de ocorrências.

Vamos resolver o problema anterior (número de caras em 30 lançamentos) simplesmente simulando e estimando as probabilidades:

### 100 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 100
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

### 1000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 1000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

### 10000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 10000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

### 100000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 100000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

Com o aumento do número de simulações o resultado numérico converge para o resultado analítico

<font size="3" color="blue">Exercício: Se quiséssemos simular o lançamento de dois dados para verificar as probabilidades da soma dos valores, como ficaria o código acima?</font>

In [None]:
Dado = [1,2,3,4,5,6]
Equilibrio = [1/6,1/6,1/6,1/6,1/6,1/6]
repeticoes = 100
np.random.seed(1)
resultado = np.random.choice(a=Dado, p=Equilibrio, replace=True, size=(2, repeticoes))
resultado=np.sum(resultado, axis=0)

probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(2,14,1))
probabilidades

n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(2,14,1))
plt.bar(range(2,13,1), probabilidades*100, facecolor='g', alpha=0.75)

plt.xlabel('Soma dos dados')
plt.ylabel('Probabilidade%')
plt.title('Histograma Dados')
plt.grid(True)
plt.show()

# Probabilidade - Teoria

Probabilidade é a frequência, no longo prazo, de determinado resultado de um processo estocástico.

Por exemplo, o lançamento de uma moeda "honesta", realizado várias vezes, produzirá um número de caras e coroas idêntico, ou seja, a frequência de caras será igual à de coroas (50%), que corresponde à probabilidade de obter uma cara ou uma coroa em qualquer lançamento (0,5). 

Probabilidade é, então, a medida de certeza com que podemos esperar a ocorrência de determinado evento, resultado de um experimento aleatório. 

A probabilidade recebe um número no intervalo de zero a um. Já a frequência e apresentada como percentual, variando de 0 a 100.

A probabilidade não dá certeza alguma sobre um evento específico, apenas garante que, no longo prazo, a frequência se aproximará da probabilidade.

Conforme demonstrado no exemplo anterior, quanto maior o número de experimentos, mais a frequência irá se aproximar da probabilidade real. 

# Probabilidade - Variáveis aleatórias

Variável aleatória (X) é o resultado de um processo estocástico. Por exemplo, o resultado de um lançamento de um dado é uma variável aleatória.

A variável aleatória pode assumir um conjunto de valores (x), que formam o espaço amostral da variável. No lançamento do dado, os valores possíveis são os números de 1 a 6.

A cada valor possível da variável aleatória podemos associar uma probabilidade, que é a frequência, no longo prazo, que a variável assumirá tal valor. No lançamento do dado (honesto), cada valor possível no espaço amostral tem probabilidade 1/6. Ao conjunto de probabilidades associadas aos valores possíveis, chamamos de distribuição de probabilidade da variável aleatória X.

Quando o espaço amostral é finito ou infinito enumerável é chamado espaço discreto (variável aleatória discreta), por exemplo o lançamento de um dado.

Se o espaço amostral é infinito não-enumerável é chamado espaço não-discreto ou contínuo (variável aleatória contínua), por exemplo a temperatura medida em cada dia do ano.

Veja a representação (Fonte: https://pt.wikipedia.org/wiki/Variável_aleatória):

<img src="https://upload.wikimedia.org/wikipedia/commons/b/b9/Exemplofuncao.png" height="800" width="800"> 

<font size="6" color="red">Distribuições de probabilidade</font>

## Probability Mass Function (PMF) e Probability Density Function (PDF)

Conforme exposto, é a função que associa a cada valor possível de uma variável aleatória uma probabilidade.

Caso a variável seja discreta, teremos uma <b>PMF</b>, caso a variável seja contínua, teremos uma <b>PDF</b>.

ATENÇÃO: a PMF dá a probabilidade de um ponto do espaço amostral, a PDF dá a probabilidade num intervalo, considerando que, para variáveis contínuas, a probabilidade de cada ponto é zero. Entretanto, as funções em python que implementam a PDF estimam a probabilidade do ponto pela probabilidade do intervalo infinitesimal.

Tomando como exemplo a variável aleatória que representa o número de caras obtidas em 30 lançamentos de uma moeda honesta (variável discreta), sua PMF é demonstrada a seguir:

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

resultado = rv.pmf(range(0,31,1))

plt.bar(range(0,31,1),resultado)

plt.xlabel('# Cara')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Valor da PMF em 15: {}, correspondente à probabilidade de 15 caras em 30 lançamentos'.format(rv.pmf(15)))
print('Valor da PMF em 0: {}, correspondente à probabilidade de 0 caras em 30 lançamentos'.format(rv.pmf(0)))
print('Soma das probabilidades {}'.format(sum(resultado)))

 A PMF da distribuição mostra que, em 14,45% das vezes que lançarmos 30 vezes uma moeda, obteremos 15 caras.
 
 Mostra também que, em 0,0000000931% das vezes, obteremos zero caras. Um evento pouco provável, mas possível.

## Função de probabilidade acumulada: Cumulative Distribution Function (CDF)

É a probabilidade da variável aleatória assumir um valor menor ou igual à x.

Tomando como exemplo a variável aleatória que representa o número de caras obtidas em 30 lançamentos de uma moeda honesta (variável discreta), sua CDF é demonstrada a seguir:

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

resultado = rv.cdf(range(0,31,1))

plt.bar(range(0,31,1),resultado)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Probabilidade de conseguirmos 15 ou menos caras {}'.format(rv.cdf(15)))


 A CDF da distribuição mostra que há 57,22% de probabilidade da moeda produzir 15 ou menos caras em 30 lançamentos.

## Outras funções de probabilidade

Além da PMF, PDF e CDF, podemos citar:

-Survival function: 1-CDF

-Interval: pontos da PMF que delimitam um percentual das probabilidades (ver exemplo a seguir)

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

resultado = rv.cdf(range(0,31,1))

intervalo = rv.interval(0.95)

print('Com 95% de chance teremos entre {} e {} caras em 30 lançamentos'.format(intervalo[0],intervalo[1]))


## Medidas de tendência, dispersão e dependência para variáveis aleatórias

São medidas baseadas nos pontos do espaço amostral e na probabilidade de cada ponto.

Em estatística descritiva temos medidas semelhante, só que, como não há informações sobre as probabilidades básicas, os cálculos serão diferentes, não tomando como base as probabilidades (podem usar frequências).

Esperança ou média de X, E(X) - é uma medida de tendência calculada como a soma dos produtos de cada x do espaço amostral pela probabilidade p(x)

Variância de X - é uma medida de dispersão calculada como a esperança do quadrado da diferença entre x e a média

Desvio padrão de X - é uma medida de dispersão calculada como a raiz quadrada da variância. É mais usada como medida de dispersão por estar na mesma unidade da variável X

Dadas duas variáveis aleatórias X e Y, define-se como medida de dependência entre elas a covariância e o coeficiente de correlação, que serão estudadas na estatística descritiva.

In [None]:
from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

media = rv.mean()

print('Média {}'.format(media))

variancia = rv.var()

print('Variância {}'.format(variancia))

desvio_padrao = rv.std()

print('Desvio padrão {}'.format(desvio_padrao))

prob_media = rv.pmf(media)

print('Probabilidade da média {} é {}'.format(media,prob_media))

desv = (rv.cdf(media+desvio_padrao)-rv.cdf(media-desvio_padrao))

print('Probabilidade do resultado estar afastado até 1 desvio padrão da média é {}'.format(desv))

# Distribuições de probabilidade

Fonte: http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

<img src="http://blog.cloudera.com/wp-content/uploads/2015/12/distribution.png" height="800" width="800"> 

# Distribuições discretas

Bernoulli - distribuição que representa uma escolha binária, com probabilidades p e 1-p. Como exemplo um lançamento de uma moeda.

Binomial - representa a soma de sucessos em n execuções de um processo binário. Como exemplo o número de caras em n lançamentos de uma moeda. Outro exemplo é o número de bolas pretas retiradas de um cesto contendo bolas brancas e pretas (com reposição).

Hipergeométrica - representa a soma de bolas pretas retiradas de um cesto contendo bolas brancas e pretas (sem reposição).

Poisson - número de chamdas recebidas num intervalo de tempo.

Discrete Uniform - cada ponto do espaço tem igual probabilidade. Como exemplo o lançamento de um dado.

Geométrica - número de fracassos antes de um sucesso. Por exemplo, no lançamento de moeda, o número de coroas antes de uma cara.

Binomial negativa - número de fracassos antes de n sucessos

Uniform

# Distribuições contínuas

Exponencial - tempo decorrido entre chamadas de um call center, com taxa de chamadas constante.

Weibull - tempo até falha, quando a taxa de falha não é constante no tempo.

Chi2 - soma de quadrados de valores normalmente distribuídos

Gama - tempo até n eventos ocorrerem

Normal - soma de variáveis aleatórias

Log-normal - utilizada quando o logarítmo dos valores é distribuído segundo a normal. Produto de variáveis aleatórias

Uniform

## Distribuição Normal

Pela importância, vamos estudar algumas propriedades da normal

In [None]:
# Normal
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html#scipy.stats.norm
# Equivalente a np.random.normal(loc=0.0, scale=1.0, size=10)

from scipy.stats import norm
from scipy.stats import kstest

mean = 0
std = 1
rv = norm(loc=mean, scale=std)
np.random.seed(1)
resultado = rv.rvs(size=1000)

n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=50)
intervalo = np.linspace(mean-5*std,mean+5*std, num=50)

plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')

plt.title('Distribuição normal')
plt.grid(True)
plt.show()

In [None]:
print('Probabilidade do valor 0: {}'.format(rv.pdf(0)))
print('Probabilidade de valor menor ou igual a 0: {}'.format(rv.cdf(0)))
print('Média: {}'.format(rv.mean()))
print('Variância: {}'.format(rv.var()))
print('Desvio padrão: {}'.format(rv.std()))

In [None]:

tamanho_amostra = (len(resultado))

tamanho_amostra_entre_1_desvios = sum( (resultado>(mean-1*std)) & (resultado<(mean+1*std)) )
tamanho_amostra_entre_2_desvios = sum( (resultado>(mean-2*std)) & (resultado<(mean+2*std)) )
tamanho_amostra_entre_3_desvios = sum( (resultado>(mean-3*std)) & (resultado<(mean+3*std)) )

print('Percentual dos dados entre {} desvios: {}'.format(1,tamanho_amostra_entre_1_desvios*100/tamanho_amostra))
print('Percentual dos dados entre {} desvios: {}'.format(2,tamanho_amostra_entre_2_desvios*100/tamanho_amostra))
print('Percentual dos dados entre {} desvios: {}'.format(3,tamanho_amostra_entre_3_desvios*100/tamanho_amostra))

In [None]:
# Determinação de parâmetros baseado nos dados

media, desvio = norm.fit(resultado)

In [None]:
#https://plot.ly/python/normality-test/

# Teste de normalidade
    
kstest(resultado, 'norm')


## Distribuição Log-Normal

Em que pese a importância da normal, muitos processos seguem distribuições exponenciais ou lognormais

A log-normal é particularmente interessante por duas propriedades:

-Representa a distribuição da multiplicação de variáveis aleatórias

-Representa a distribuição de variáveis cujo log tem distribuição normal

In [None]:




s = 0.8
repeticoes = 100000

rv = stat.lognorm(s=s)

populacao = rv.rvs(size=repeticoes, random_state=random_state)



In [None]:
n, bins, patches = plt.hist(populacao, density=True, facecolor='g', alpha=0.75, bins=50)


plt.title('Distribuição logonormal')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')
plt.grid(True)
plt.show()

In [None]:
n, bins, patches = plt.hist(np.log(populacao), density=True, facecolor='g', alpha=0.75, bins=50)


plt.title('O log da var aleatória logonormal tem distribuição normal')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')
plt.grid(True)
plt.show()

In [None]:
plt.plot(populacao,'.')

plt.xlabel('Amostra')
plt.ylabel('Valor')
plt.title('Distribuição logonormal')
plt.grid(True)
plt.show()

<font size="6" color="red">Conceitos de estatística</font>

Estatística é a ciência que se dedica à coleta, análise e interpretação de dados (https://pt.wikipedia.org/wiki/Estatística)

É utilizada quando não conhecemos as probabilidades básicas do processo estocástico em análise, temos apenas os dados gerados na execução do processo.

Por exemplo, no lançamento de moeda não honesta, sobre a qual não conhecemos as probabilidades de Cara e Coroa, podemos registrar o resultado de n lançamentos e realizar análise estatística sobre esses dados.

O ramo da estatística que analisa, descreve e sumariza um conjunto de dados é a <b>estatística descritiva</b>.

<b>População</b> é o conjunto de dados representando todas as observações possíveis, <b>amostra</b> é o conjunto de dados representando apenas uma parte dessas observações. 

Valores calculados a partir da população são chamados parâmetros populacionais. Quando esses mesmos valores são calculados a partir da amostra denominam-se estatísticas amostrais.

<b>Inferência estatística</b> significa inferir fatos acerca de uma população a partir de resultados observados na amostra. 

Quando inferimos fatos sobre a população normalmente não apresentamos simplesmente o valor, informamos também nosso grau de certeza e o intervalo de confiança (ex. pesquisa eleitoral)


## Exemplo: Análise estatística sobre o número de caras em n lançamentos de Moeda

O processo estocástico é o lançamento da moeda e a contagem no número de caras em 30 lançamentos

Supomos que não conhecemos os parâmetros do processo (qual probabilidade de cara/coroa), temos apenas amostras

In [None]:
# Geração da população, esta parte é desconhecida para o estatístico

lancamentos = 30
repeticoes = 100000
np.random.seed(1)
populacao = np.random.binomial(30, 1/4, size=repeticoes)



In [None]:
# Estatística descritiva da população

probabilidades,_ = np.histogram(a=populacao, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Média: {}'.format(np.mean(populacao)))
print('Probabilidade Cara: {}'.format(np.mean(populacao)/lancamentos))

Analisando a população, concluímos que a probabilidade básica da moeda gerar uma cara é 0,25.

Normalmente não possuímos dados sobre toda a população (pode ser caro obter tais dados, o processo de amostragem ser destrutivo, não haver tempo para captura, etc). Neste caso temos que extrair uma amostra da população e, com base na análise da amostra, inferir conclusões sobre toda a população:


In [None]:
# Amostra de 1% da população
np.random.seed(1)
amostra = populacao[np.random.randint(0, len(populacao),int(0.01*repeticoes))]

In [None]:
# Estatística descritiva da população

probabilidades,_ = np.histogram(a=amostra, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Média: {}'.format(np.mean(amostra)))
print('Probabilidade Cara: {}'.format(np.mean(amostra)/lancamentos))

Com base na amostra, calculamos que a probabilidade de Cara é 0,253, bem próxima da probabilidade real de 0,25.

A questão a ser definida é o quanto a informação obtida na amostra está próxima da informação da população e qual tamanho da amostra é necessário para termos confiânça sobre nossas conclusões. Para isso, temos que entender o <b>Teorema do Limite Central</b>.

Antes, porém, vamos estudar a estatística descritiva. Após, no estudo da inferência estatística, veremos o teorema.

<font size="6" color="red">Estatística Descritiva - Conceitos básicos</font>

Conforme já definido, é o ramo da estatística que analisa, descreve e sumariza um conjunto de dados.

<b>Os dados capturados podem ser calssificados como:</b>

-Qualitativos nominais (não numéricos, sem ordem) - ex. sexo

-Qualitativos ordinais (não numéricos, com ordem) - ex. grau de instrução

-Quantitativos contínuos (numéricos não intervalados) - ex. salário

-Quantitativos discretos (numéricos intervalados) - ex. número de filhos


<br>Da mesma forma que na análise probabilística, dados qualitativos ordinais (transformados em quantitativos) e dados quantitativos podem ser analisados segundo medidas de posição e dispersão, que podem ser aplicadas tanto à população (parâmetros populacionais) como à amostra (estatísticas amostrais).

<b>São medidas de posição: </b>

Moda (valor mais frequente - não funciona corretamente em distribuições contínuas), 

Média (soma de m valores dividida por m), 

Mediana (valor na posição central de um conjunto ordenado) e 

Quartis (reqpresentam as posições 25%-Q1, 50%-Q2 e 75%-Q3)


<b>São medidas de dispersão: </b>

Amplitude (máximo-mínimo), 

Intervalo-Interquartil (Q3-Q1), 

Variância (média dos quadrados das diferenças entre a variável e a média), 

Desvio Padrão (raiz da variância) e 

Coeficiente de Variação (desvio padrão dividido pela média)


<b>São medidas de forma: </b>

Curtose (achatamento, onde 0 caracteriza a normal, maior que 0 representa afunilamento e menor que 0 achatamento) e 

Assimetria (skewness, onde 0 caracteriza simetria, maior que 0 caracteriza maior distribuição à direira e menor que 0 caracteriza maior distribuição à esquerda)

<br><b>IMPORTANTE</b>: mediadas de posição e dispersão são relevantes para entendermos os dados em análise, porém, a melhor forma de termos uma visão completa é através das distribuições de frequências, obtidas através do histograma.

<br><b>IMPORTANTE</b>: para ter uma visão consolidade das mediadas de posição e dispersão usar o boxplot.

In [None]:

repeticoes = 100000
mean = 5
np.random.seed(1)

# População lognormal
s = 0.8
rv_lognorm = stat.lognorm(s=s,loc=mean-1.3)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)

# População normal
std = 1.3
rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)



In [None]:
print('\nPopulação lognormal: \nmédia {}, \ndesvio padrão {}, \nmoda {}, \nmediana {}, \nCurtose {}, \nSimetria {}'.format(
    np.mean(populacao_lognorm), 
    np.std(populacao_lognorm),
    stat.mode(populacao_lognorm),
    np.median(populacao_lognorm),
    stat.kurtosis(populacao_lognorm),
    stat.skew(populacao_lognorm)
))

print('\nPopulação normal: \nmédia {}, \ndesvio padrão {}, \nmoda {}, \nmediana {}, \nCurtose {}, \nSimetria {}'.format(
    np.mean(populacao_norm), 
    np.std(populacao_norm),
    stat.mode(populacao_norm),
    np.median(populacao_norm),
    stat.kurtosis(populacao_norm),
    stat.skew(populacao_norm)
))

fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].plot(populacao_lognorm,'.')
axs[0].grid(True)
axs[0].set_title('populacao_lognorm')

axs[1].plot(populacao_norm,'.')
axs[1].grid(True)
axs[1].set_title('populacao_norm')

plt.show()

Observe que os dois conjuntos de dados possuem médias e desvios muito parecidos, apesar de serem totalmente diferentes.

Por isso a simples análise dos parâmetros populacionais não é suficiente para se ter uma ideia precisa da população em análise.

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].hist(populacao_lognorm, density=True, facecolor='g', alpha=0.75, bins=50)
axs[0].grid(True)
axs[0].set_title('populacao_lognorm')

axs[1].hist(populacao_norm, density=True, facecolor='g', alpha=0.75, bins=50)
axs[1].grid(True)
axs[1].set_title('populacao_norm')

plt.show()

A análise das distribuições de frequência permite uma visão muito mais clara da configuração das populações.

### BoxPlot

O BoxPlot traz as seguintes marcas:

-Caixa definida pelo primeiro quartil, mediana e terceiro quartil

-Fios alongados para além da caixa na distância 1,5 X (Q3 - Q1). Para distribuições não simétricas, as medidas inferior e superior do fio são ajustadas, com multiplicadores distintos da relação anterior. Nesses casos, os fios não são simétricos em relação à caixa (Detalhes em https://en.wikipedia.org/wiki/Box_plot).

-Outliers marcados além da extensão do fio

In [None]:
dados = np.concatenate((populacao_lognorm, populacao_norm), 0)
dados = np.reshape(dados,(2,repeticoes))
dados = dados.T


In [None]:
fig, axs = plt.subplots(1, 1, figsize=(10,6))
_ = plt.boxplot(dados,vert =False, labels =['lognorm','norm'], meanline =True)
plt.title('Boxplot')

## Teste de normalidade

Muitos métodos em estatística partem do princípio que a distribuição dos dados é normal.

Para que sejam usados com segurança é importante testar os dados quanto à normalidade.

Uma das formas mais efetivas é o qqplot.

Fonte: https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/

In [None]:
from statsmodels.graphics.gofplots import qqplot

fig, axs = plt.subplots(1, 2, figsize=(14,6))

qqplot(populacao_lognorm, line='s', ax=axs[0])
axs[0].set_title('populacao_lognorm')

qqplot(populacao_norm, line='s', ax=axs[1])
axs[1].set_title('populacao_norm')

plt.show()



## Observação sobre o cálculo da variância (correção de bessel)

Sendo a variância uma média, o esperado seria a divisão por n (número de elementos na amostra)

Entretanto, tal divisão torna o estimador tendencioso, sendo correto dividir por n-1.

Caso n seja muito grande, tal diferença é imperceptível, para amostras menores o valor fica evidente.

Em numpy usar o parâmetro ddof=1.

Vamos ao exemplo:

In [None]:
repeticoes = 100000
mean = 5

# População lognormal
s = 0.8
rv_lognorm = stat.lognorm(s=s,loc=mean-1.3)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)

amostra_1000 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),1000)]
amostra_100 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),100)]
amostra_10 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),10)]

print('Desvios real {}\n'.format(rv_lognorm.std()))

print('\nDesvios amostra 1000 sem correção {}'.format(np.std(amostra_1000)))
print('Desvios amostra 1000 com correção {}'.format(np.std(amostra_1000, ddof =1)))

print('\nDesvios amostra 100 sem correção {}'.format(np.std(amostra_100)))
print('Desvios amostra 100 com correção {}'.format(np.std(amostra_100, ddof =1)))

print('\nDesvios amostra 10 sem correção {}'.format(np.std(amostra_10)))
print('Desvios amostra 10 com correção {}'.format(np.std(amostra_10, ddof =1)))

<font size="6" color="red">Inferência Estatística</font>

Conforme já descrito, a inferência estatística busca estender para a população informações obtidas na amostra.

Para tratarmos de inferência, é preciso primeiro estudar o teorema do limite central.

<font size="6" color="red">Teorema do limite central</font>

O teorema estabelece que a distribuição da soma de variáveis aleatórias <b>iid (independentes e identicamente distribuídas)</b> tende para uma distribuição normal, independente da distribuição original das variáveis. (Fonte: https://en.wikipedia.org/wiki/Central_limit_theorem)

Para compreender melhor o significado do teorema, vamos a um exemplo:

Vamos considerar 100.000 doações feitas para um candidato, cujo valor mínimo de doação foi estabelecido em R$ 48.

O comportamento esperado é que a grande maioria faça a contribuição mínima.

Haverá, porém, contribuições acima do mínimo, em valores diversos e quantidades reduzidas.

Com isso, temos uma distribuição semelhante a uma log-normal ou exponencial, veja o gráfico.

In [None]:
# Vamos criar uma população distribuída de forma lognormal

repeticoes = 100000
mean = 50

# População lognormal
s = 1
np.random.seed(1)
rv_lognorm = stat.lognorm(s=s,loc=mean-1.3)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)


print('Mínimo {}'.format(np.min(populacao_lognorm)))
print('Máximo {}'.format(np.max(populacao_lognorm)))
print('Média {}'.format(np.mean(populacao_lognorm)))
print('Desvio {}'.format(np.std(populacao_lognorm)))

fig, axs = plt.subplots(1, 1, figsize=(14,6))

axs.hist(populacao_lognorm, density=True, facecolor='g', alpha=0.75, bins=100)
axs.grid(True)
axs.set_title('populacao_lognorm')


plt.show()

De toda a "população" de doações, vamos retirar várias amostras para estudar seu comportamento.

Observação: Numa situação real, seria extraída apenas uma amostra.

In [None]:
# Vamos extrair 1000 amostras e calcular suas médias
amostras = 10000
np.random.seed(1)
medias = np.zeros((amostras,1))
for i in range(0,amostras,1):
    medias[i]=np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),amostras)])



In [None]:
# A distribuição das médias aproxima-se de uma Normal, independente da distribuição original que gerou as amostras

n, bins, patches = plt.hist(medias, density=True, facecolor='g', alpha=0.75, bins=50)

mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média {}'.format(mean_))
print('Desvio {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('Média')
plt.ylabel('Probabilidade')
plt.title('Histogram de médias')
plt.grid(True)
plt.show()

## Intervalo de confiança

Conforme previsto pelo teorema do limite central, a distribuição das médias das amostras (considerando que a média é uma soma de variáveis aleatórias dividida pelo número de elementos) tende para a distribuição normal.

Além disso, a média dessa distribuição tende para a média da população.

Perceba que, apesar da distribuição original das amostras ter distribuição completamente diferente da normal, as médias das amostras tendem à normal.

Uma consequência extremamente importante do teorema é que, dada a distribuição normal, tem-se que, com 95,45% de certeza, a média de qualquer amostra estará a dois desvios padrão da média da população.

No exemplo em questão, teremos:

In [None]:
mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média amostras {}'.format(mean_))
print('Desvio amostras {}'.format(std_))

print('Intervalo de 95,45% de confiança {} - {}'.format(mean_-2*std_,mean_+2*std_))

Reforçando a conclusão acima: podemos garantir com 95,45% de confiança que qualquer amostra terá sua média entre 50,22 e 50,49.

Para testarmos tal conclusão, vamos verificar a média de dez amostras aleatórias:


In [None]:
np.random.seed(1)
for i in range(0,10,1):
    print('Média da amostra {}: {}'.format(i,
                                np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),amostras)])))

## Margem de erro

Outra conclusão importante que podemos chegar é a margem de erro.

Dado o valor da amostra, podemos estabelecer a margem de erro com 2 desvios padrão (0,27%) para o intervalo de confiança de 95%.

Vamos ver os resultados acima considerando a margem de erro e a média real da população (50.36):


In [None]:
np.random.seed(1)
for i in range(0,10,1):
    media_i = np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),amostras)])
    print('Amostra {}, média {}, com margem de erro {} - {}'.format(i,
                                                                    media_i,
                                                                   media_i-2*std_,
                                                                   media_i+2*std_))

Os exemplos acima consideraram uma amostra de 1000, correspondente a 1% da população, uma amostra relativamente grande.

Vamos diminuir nossa amostra para 100 e ver o impacto no grau de confiânça e margem de erro:


In [None]:
amostras = 1000
np.random.seed(1)
medias = np.zeros((amostras,1))
for i in range(0,amostras,1):
    medias[i]=np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),100)])

mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média amostras {}'.format(mean_))
print('Desvio amostras {}'.format(std_))

print('Intervalo de 95,45% de confiança {} - {}'.format(mean_-2*std_,mean_+2*std_))

print('Margem de erro: {}'.format(100*2*std_/mean_))

Para obtermos a mesma margem de erro de 95.45%, a margem de erro cresce de 0,27% (1000 amostras) para 0,86% (100 amostras)

## Comparação do desvio das amostras com o desvio da população

O desvio padrão das médias das amostras é igual ao desvio da população dividido pela raiz do tamanho da amostra.

Como a margem de erro é proporcional ao desvio das médias, conclui-se que:

-A margem de erro crece conforme for maior o desvio padrão da população

-A margem de erro diminui com o aumento do número de amostras

## Generalizando o resultado

Fixado o intervalo de confiânça, estabelecemos a quantidade de desvios padrão.
Para 95,45%, temos dois desvios padrão.

Dada uma amostra, a margem de erro será 2x(desvio_populacao/raiz(tamanho_amostra))/média_amostra (multiplicar por cem para ter percentual)

Como não sabemos o desvio padrão da população, vamos aproximá-lo com o desvio da amostra. Como o desvio da amostra aproxima o desvio da população, devemos, da mesma forma, dividi-la pela raiz(tamanho_amostra).

Assim, a margem de erro será calculada como (2xdesvio_amostra/raiz(tamanho_amostra))/média_amostra.

Um exemplo:

In [None]:
np.random.seed(1)
amostra_100_elementos = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),100)]
print('Média amostra {}'.format(np.mean(amostra_100_elementos)))
print('Desvio amostra {}'.format(np.std(amostra_100_elementos)))
print('Desvio estimado amostras {}'.format(np.std(amostra_100_elementos)/np.sqrt(len(amostra_100_elementos))))
print('Margem erro {}'.format(100*2*np.std(amostra_100_elementos)/np.sqrt(len(amostra_100_elementos))/np.mean(amostra_100_elementos)))


# o desvio padrão das médias das amostras é desvio da população / sqrt(samples)
#print(np.std(populacao_lognorm)/np.sqrt(100) )

## E se o intervalo de confiança desejado for diferente do fornecido por um desvio padrão?

Utilizar a função interval para localizar os pontos exatos que indicarão os limites para alcançar a probabilidade indicada.

No caso de desejar 99% de confiânça, multiplicar por 2,58 o desvio padrão, não por 2 como no caso de 95% de confiança.

In [None]:
from scipy.stats import norm
from scipy.stats import kstest

mean = 0
std = 1
rv = norm(loc=mean, scale=std)

print(rv.std() )
print(rv.interval(0.9545))

print(rv.interval(0.99))

## Distribuição t de Student

Quando utilizado o desvio padrão da amostra no lugar do desvio da população, o correto é usar a distribuição t de Student no lugar da distribuição Normal para cálculo do intervalo de confiança.

Entretanto, a distribuição t aproxima-se da Normal para amostras com mais de 30 elementos, por isso mantivemos a distribuição Normal nos cálculos acima.

No exemplo seguinte, para 100 elementos na amostra (graus de liberdade = amostras-1), os valores são muito semelhantes aos obtidos para a Normal no exemplo acima.

In [None]:
from scipy.stats import t
from scipy.stats import kstest


rv = t(df=(100-1))

print(rv.std() )
print(rv.interval(0.9545))

print(rv.interval(0.99))

## Teorema do limite central normalizado

Dado um conjunto de variáveis aleatórias, realizando a soma, subtraindo por n X média_população e dividindo por (desvio_população X raiz de n), temos uma normal standard

<font size="6" color="red">Correlação entre Variáveis</font>

A correlação analisa possíveis relacionamentos existentes entre variáveis distintas. Procura determinar se são independentes ou dependentes e, no último caso, qual o tipo de dependência.

Vamos a um exemplo: o relatório de felicidade por pais da ONU, que mede o índice de felicidade por nação e seus indicadores (fonte: https://www.kaggle.com/unsdsn/world-happiness).


In [None]:
if IN_KAGGLE:
    df = pd.read_csv("../input/2017.csv")
else:
    df = pd.read_csv("2017.csv")
    

df.head(2)

In [None]:
df = df.loc[:,[  'Happiness.Score',  'Economy..GDP.per.Capita.', 'Family',
       'Health..Life.Expectancy.', 'Freedom', 'Generosity',
       'Trust..Government.Corruption.','Dystopia.Residual']]

In [None]:
plt.figure(figsize=(14,6))

_ = df['Happiness.Score'].hist( bins=50, density=True)

plt.xlabel('Índice de felicidade')
plt.ylabel('Probabilidade')
plt.title('Histogram do índice de felicidade')

plt.show()

Vamos calcular o índice de correlação entre as variáveis do relatório.

Uma forma visual e simples de analisar correlações é através de scatter plots.

In [None]:
df.corr()

In [None]:
# Aparentemente economia é fortemente correlacionada com felicidade

_ = df.plot(figsize=(14,6), kind='scatter', x='Happiness.Score', y='Economy..GDP.per.Capita.' )

In [None]:
# Já a generosidade não apresenta correlação significativa

plt.figure()

_ = df.plot(figsize=(14,6),kind='scatter', x='Happiness.Score', y='Generosity' )

In [None]:
from pandas.plotting import scatter_matrix

_ = scatter_matrix(df, figsize=(14,10), alpha=0.2, diagonal='kde')


Mais formalmente, as medidas mais usadas de correlação são:

Covariância: mede a variação conjunta das duas variáveis em torno de suas médias

Coeficiente de correlação de Pearson: mede a variação conjunta das variáveis em torno da média, variações normalizadas pelo desvio padrão (mais fácil interpretação porque o resultado fica no intervalo [-1 1])

Coeficiente de correlação de Spearman: calcula o coeficiente de correlação de Pearson utilizando rank order dos elementos dos arrays

In [None]:
#df.plot(figsize=(14,6), kind='scatter', x='Happiness.Score', y='Economy..GDP.per.Capita.' )
np.cov(df[['Happiness.Score','Economy..GDP.per.Capita.']].values.T)

In [None]:
#df.plot(figsize=(14,6), kind='scatter', x='Happiness.Score', y='Economy..GDP.per.Capita.' )
np.corrcoef(df[['Happiness.Score','Economy..GDP.per.Capita.']].values.T)

In [None]:
from scipy.stats import spearmanr

rho, pval = spearmanr(df[['Happiness.Score','Economy..GDP.per.Capita.']].values)
print(rho)
print(pval)

## Correlação não linear

As correlações analisadas até agora são lineares, indicando se ambas as variáveis tem igual variação em torno da média.

Em correlações não lineares o pressuposto acima não se configura, embora haja correlação entre as variáveis.

Por isso há que se ter cuidado com a análise dos indicadores acima.

In [None]:
x=np.arange(0, 8.1, 0.05)
y = np.sin(np.pi*x)

fig, ax1 = plt.subplots(figsize=(14,8))
ax1.plot( y)
plt.grid()
plt.tight_layout()
plt.show()

print(len(x))

print(np.corrcoef(x,y))

## Autocorrelação

É a correlação feita com a própria variável, considerando um intervalo, normalmente tempo

In [None]:
# https://machinelearningmastery.com/gentle-introduction-autocorrelation-partial-autocorrelation/

from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf

fig, ax = plt.subplots(2,1,figsize=(14,8))
plot_acf(y,ax=ax[0])
plot_pacf(y,ax=ax[1])

plt.show()

## Correlação não significa causalidade

A existência de correlação entre variáveis não significa, necessariamente, que uma variável afete diretamente o valor da outra.

A correlação indica que há movimentação conjunta de ambas as variáveis, efeito que pode ser produzido por uma terceira variável.

No exemplo abaixo, ambas as variáveis (sen e cos) estão fortemente correlacionadas (-1). Porém, o que afeta o valor da ambas é o ângulo original.

Para exemplos concretos, ver o link abaixo.

http://www.tylervigen.com/spurious-correlations


In [None]:
x=np.arange(0, 8.1, 0.05)
y1 = np.sin(np.pi*x)
y2 = np.cos(np.pi*(x+1/2))

fig, ax = plt.subplots(2,1,figsize=(14,8))
ax[0].plot(y1)
ax[1].plot(y2)
plt.tight_layout()
plt.show()


print(np.corrcoef(y1,y2))

<font size="6" color="red">Análise Temporal</font>

Análise de séries temporais está fora do escopo deste trabalho.

A questão aqui colocada é simplesmente a verificação se os dados coletados estão variando no tempo ou não, ou seja, se a série é estacionária.

Mais formalmente colocando, a maioria das análises feitas até o momento pressupõe que as variáveis aleatórias (amostras) sejam iid, independentes e identicamente distribuídas. Caso as variáveis coletadas sofram mudança ao longo do tempo, deixarão de ser identicamente distribuídas (oriundas da mesma distribuição), o que invalida os testes apresentados.

Vejamos um exemplo onde uma distribuição normal é afetada pela passagem do tempo:


In [None]:
mean = 0
std = 1
repeticoes=1000

rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)

mean_ = np.mean(populacao_norm)
std_ = np.std(populacao_norm)

print('População normal, média {}, desvio padrão {}'.format(mean_, std_))

populacao_norm += np.linspace(0.0,5*std,repeticoes)

mean_ = np.mean(populacao_norm)
std_ = np.std(populacao_norm)

print('População normal alterada, média {}, desvio padrão {}'.format(mean_, std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)



fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].plot(populacao_norm,'.')
axs[0].grid(True)
axs[0].set_title('populacao_norm')

axs[1].hist(populacao_norm, density=True, facecolor='g', alpha=0.75, bins=50)
axs[1].plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')
axs[1].grid(True)
axs[1].set_title('populacao_norm')

plt.show()

Neste exemplo, tanto a simples plotagem dos dados (esquerda), como a distribuição de probabilidade (esquerda) dão indícios de não estacionariedade. Há testes estatísticos para verificação de estacionariedade (ex. Dickey-Fuller).

Neste caso, devem ser usadas técnicas de análise de séries temporais para eliminação da tendência temporal e, só então, fazer a análise da série estacionária resultante.

<font size="6" color="red">Outliers</font>

Outliers são medidas que se afastam das demais medidas de um conjunto.

Podem derivar de erros de medição ou se tratar de eventos raros.

Em ambos os caso merecem atenção, ou para que sejam corrigidos, no caso de erro, ou para verificar a origem de tais eventos raros.

Resumidamente podemos usar duas técnicas para localização de Outliers: desvio padrão e percentis.

Independente da técnica, a plotagem de um gráfico boxplot é útil para verificarmos sua presença.


In [None]:
repeticoes = 1000

# População normal
mean = 5
std = 1.3
rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)

fig, axs = plt.subplots(1, 1, figsize=(10,6))
_ = plt.boxplot(populacao_norm,vert =False, meanline =True)

## Utilizando desvio padrão

In [None]:
media = np.mean(populacao_norm)
std = np.std(populacao_norm)

print('Média {}, STD {}'.format(media,std))

outliers1 = np.where(populacao_norm > (media+3*std))
outliers2 = np.where(populacao_norm < (media-3*std))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

populacao_norm[outliers]

## Utilizando quartis

In [None]:
q25, q75 = np.percentile(populacao_norm, 25), np.percentile(populacao_norm, 75)

iqr= q75 - q25

outliers1 = np.where(populacao_norm > (q75+1.5*iqr))
outliers2 = np.where(populacao_norm < (q25-1.5*iqr))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

populacao_norm[outliers]

<font size="6" color="red">Teste de Hipótese</font>

Fonte: https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/

O teste de hipótese refere-se à comparação entre a hipótese nula (H0) e a hipótese alternativa (H1).

Queremos garantir que, dado que H0 esteja correta, a probabilidade de aceitar H1 seja reduzida, normalmente fixada em 0,05 ou 0,01. A esse valor chamamos p value (nível de significância).

Sempre haverá possibilidade de erro, ou seja, podemos aceitar H1 mesmo quando H0 esteja correta. Porém a probabilidade do erro deve ser baixa.

As hipóteses são normalmente de dois tipos: 

- 1 sided: o valor de uma distribuição é maior ou menor que outra

- 2 sided: o valor de uma distribuição é diferente de outra, ou seja, é maior ou menor que outra 



## Vamos estudar um exemplo passo-a-passo para compreender o conceito

Em 30 lançamentos de uma moeda HONESTA, espera-se que ocorram 15 caras, com desvio padrão de 2,73

Veja o cálculo:

In [None]:
from scipy.stats import binom
tentativas = 30
rv_honesta = binom(tentativas, 1/2)
populacao_honesta = rv_honesta.rvs(size=1000000)
print(rv_honesta.mean())
print(rv_honesta.std())


Supondo agora que nos foi dada uma amostra com o 100 resultados (número de caras) de 30 lançamentos, cuja média foi 12,23.

Dado que a média foi menor do que seria esperado de uma moeda HONESTA (diferença de 2,7), podemos afirmar que os resultados foram obtidos com uma moeda não honesta?

In [None]:
rv = binom(tentativas, 1/2.5)
resultado = rv.rvs(size=100)
print(np.mean(resultado))

A hipótese nula (H0) é que a moeda seja realmente honesta e que a diferença deva-se a mero acaso.

A hipótese alternativa (H1) é que a moeda não seja honesta.

Como já aprendemos no teorema do limite central, as amostras de uma moeda HONESTA deveria ter média 15 e desvio igual ao desvio da população dividido pela raiz do tamanho da amosta. Veja o cálculo:

In [None]:
amostras = 500
medias = np.zeros((amostras,1))
for i in range(0,amostras,1):
    medias[i]=np.mean(populacao_honesta[np.random.randint(0, len(populacao_honesta),100)])

print(medias.mean())
print(medias.std())    

fig, axs = plt.subplots(1, 1, figsize=(14,6))


axs.hist(medias, density=True, facecolor='g', alpha=0.75, bins=50)
axs.grid(True)
axs.set_title('Distribuição das médias')

plt.show()

Conforme previsto, a média das amostras (14,988) corresponde à media da população e o desvio das amostras é o da população dividido por 10.

Agora, sendo a moeda honesta, qual a chance de obtermos uma amostra com média 12,23?

Vamos calcular a probabilidade de obtermos um valor que seja 12,23 ou menor com uma moeda honesta:

In [None]:
rv_honesta.cdf(12.23)

Há 18% de chance de uma moeda honesta produzir uma amostra cuja média seja 12,23 ou menor.

Há 2 x 18% de termos uma média cuja diferença em relação a 15 seja maior que 2,7.

Ou seja, se a moeda for honesta (H0), caso afirmemos que é desonesta, estaremos errados em 2 X 18% (36%) das vezes.

Se estabelecermos nosso nível de significância em 5% (admitirmos no máximo 5% de possibilidade de erro), não podemos afirmar que a moeda é desonesta, ou seja, não podemos recusar H0.

Concluindo, apesar da diferença entre a média esperada (15) e a obtida (12,23), continuamos considerando a moeda honesta.

## Vamos estudar um segundo exemplo 

In [None]:
if IN_KAGGLE:
    df = pd.read_csv("../input/2016.csv")
else:
    df = pd.read_csv("2016.csv")
df.head(2)

In [None]:
df.Region.unique()

In [None]:
dfWE = df.loc[df.Region == 'Western Europe',['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual']]

dfLC = df.loc[df.Region == 'Latin America and Caribbean',['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual']]

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].hist(dfWE['Happiness Score'], density=True, facecolor='g', alpha=0.75)
axs[0].grid(True)
axs[0].set_title('Western Europe')

print(dfWE['Happiness Score'].mean())
print(dfWE['Happiness Score'].std())

axs[1].hist(dfLC['Happiness Score'], density=True, facecolor='g', alpha=0.75)
axs[1].grid(True)
axs[1].set_title('Latin America and Caribbean')

print(dfLC['Happiness Score'].mean())
print(dfLC['Happiness Score'].std())

In [None]:
from scipy import stats

stats.ttest_ind(dfWE['Happiness Score'].values,dfLC['Happiness Score'].values, equal_var=False)

In [None]:
from scipy import stats 

stats.ttest_ind(dfWE['Happiness Score'].values,dfLC['Happiness Score'].values, equal_var=True)


<font size="6" color="red">Anexo I - Funções Úteis</font>

## Gerando números aleatórios


In [None]:
# Gerando int - biblioteca python standard
print(random.randrange(100, 1000, 2))
print(random.randint(100, 1000))

# Gerando int - biblioteca numpy
print(np.random.randint(100, 1000,2))

# Gerando float - biblioteca python standard
print(random.random())
print(random.uniform(100, 1000))
print(random.normalvariate(1, 1))

# Gerando float - biblioteca numpy
print(np.random.random(5))
print(np.random.randn(5))

np.random.random_sample(size=100)

## Gerando números não aleatórios

In [None]:
print(np.linspace(0.0,1.0,11))
print(np.arange(0.0,10.0,3))
print(np.logspace(0.0,10.0,3))


## Escolha

In [None]:
# Escolha com reposição
# usando numpy np.random.choice(10,size=10,replace=True)


faces = list(range(1,7))
lancamentos = 600
pesos = [1/6,1/6,0.5/6,0.5/6,2/6,1/6]
resultados = random.choices(population=faces, weights=pesos, k=lancamentos)
#print(resultados)
for i in faces:
    print('Face {}, peso {}, vezes {}'.format(i,pesos[i-1],resultados.count(i)))

In [None]:
# Escolha sem reposição
# usando numpy np.random.choice(10,size=10,replace=False)


lista = list(range(1,7))
random.sample(population=lista, k=len(lista))


## Embaralhamento

In [None]:
# Embaralhamento
# usando numpy np.random.choices

lista = list(range(1,7))
random.shuffle(lista)
lista

<font size="6" color="red">Anexo II - Referências</font>

Tutoriais

https://www.youtube.com/watch?v=Iq9DzN6mvYA

https://machinelearningmastery.com/how-to-generate-random-numbers-in-python/

http://nbviewer.jupyter.org/url/norvig.com/ipython/Probability.ipynb

https://www.youtube.com/watch?v=KhAUfqhLakw

https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

https://www.datacamp.com/community/tutorials/python-statistics-data-science

https://machinelearningmastery.com/


Distribuições de probabilidade

http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

Cursos

https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+1T2018/course/#block-v1:UCSanDiegoX+DSE210x+1T2018+type@chapter+block@c1c0e5a497924a40b800bf69e96b4004

Documentação bibliotecas Python

https://docs.python.org/3/library/statistics.html

https://docs.python.org/3/library/random.html

Documentação bibliotecas SciPy

https://docs.scipy.org/doc/scipy/reference/stats.html

Documentação bibliotecas NumPy

https://docs.scipy.org/doc/numpy/reference/routines.random.html

https://docs.scipy.org/doc/numpy/reference/routines.statistics.html

Dataframe

http://pandas.pydata.org/pandas-docs/version/0.13/visualization.html
