<font size="10" color="black">Introdução à Probabilidade e Estatística</font>

Eduardo Chaves Ferreira

## O que será tratado no curso

Conceito de incerteza

Diferença entre análise estatística e análise probabilística

Diferença entre probabilidade/estatística e aprendizado de máquina

Introdução à probabilidade

Distribuições de probabilidade

Conceitos de estatística

Estatística Descritiva - Conceitos básicos 

Inferência Estatística

Teorema do limite central

Grau de certeza e intervalo de confiânça

Outliers



## O que não será tratado no curso

Matemática pura

Demonstrações

Conceitos aprofundados de probabilidade e estatística

## Onde estamos no processo de mineração de dados?

[--Extração e limpeza--]

           [--Estatística--]
           
                   [--Regras determinísticas--]
                   
                              [--Mineração de dados--]

## Importação de bibliotecas usadas nos exemplos

In [None]:
'''
As bibliotecas usadas são:
random
statistic
numpy.random
scipy.stats
pandas
matplotlib
statsmodels
pandas-profiling
'''

import numpy as np
import matplotlib.pyplot as plt
import math
import random
import pandas as pd
import scipy.stats as stat

import os

path = os.environ['PATH']

if path.startswith('C'):
    IN_KAGGLE = False
else:
    IN_KAGGLE = True

## Mantendo a reprodutibilidade dos resultados

Antes da geração de números aleatórios é importante inicializar o gerador de números para que os resultados sejam os mesmos

In [None]:
# Para uso com funções da biblioteca standard (ex random.randint)
random.seed(1)
# Para uso com funções da biblioteca numpy (ex np.random.randint)
np.random.seed(1)

# Quando for passada como parâmetro a seed
random_state = 1

## Funções gerais usadas nos exemplos

In [None]:
# Permutação: possibilidades de colocação de n objetos em n posições = n!
def permutacao (n):
    return math.factorial(n)

# Arranjo: p objetos em n posições, ordem importa = n!/(n-p)!
def arranjo (n,p):
    return math.factorial(n)/math.factorial(n-p)

# Combinação: p objetos em n posições, ordem não importa = n!/(n-p)!p!
def combinacao (n,p):
    return math.factorial(n)/(math.factorial(n-p)*math.factorial(p))

# Variações possíveis havendo n slots e p possibilidades para cada um
def possibilidades(n,p):
    return p**n

<font size="6" color="red">Conceito de Incerteza</font>

Há processos que são descritos de forma precisa, por equações analíticas.

Exemplo: aceleração de um corpo submetido a uma força
a = F/m

Conseguimeos determinar precisamente a aceleração do corpo de acordo com F e m

Neste caso não há necessidade de utilizar probabilidade ou estatística

Vamos ao exemplo:

In [None]:
# Para qualquer valor de F podemos determinar precisamente qual será a aceleração do corpo

m = 1
F = np.arange(0.0,10.0,1)
a = F/m

fig, ax = plt.subplots(figsize=(10,6))
plt.plot(F,a,'*')
plt.plot(F,a)

plt.xlabel('Força')
plt.ylabel('Aceleração')
plt.title('Força X Aceleração')
plt.grid(True)

plt.show()

Há processos cujo resultado não é determinístico, ou seja, seu resultado pode variar entre execuções.

Tais processos são chamados <b>estocásticos</b>.

Um exemplo é o lançamento de uma moeda.

Neste caso podemos usar probabilidade/estatística para quantificar a incerteza do resultado.

In [None]:
# No lançamento da moeda não podemos prever qualquer resultado específico, 
# mas podemos determinar a probabilidade de cada resultado

# Inicialização de variáveis
escolhas = ['Cara','Coroa']
lancamentos = 100
# Executa 100 lançamentos da moeda com probabilidade 6/10 de Cara e 4/10 de Coroa
resultados = random.choices(population=escolhas, weights=[6/10,4/10], k=lancamentos)

fig, ax = plt.subplots(figsize=(10,6))
ind = range(1,len(escolhas)+1)
# Calcula o percentual de Caras e Coroas
proporcoes = [resultados.count('Cara')/lancamentos*100,resultados.count('Coroa')/lancamentos*100]
plt.bar(ind,proporcoes,align='center')
ax.set_xticks(ind)
ax.set_xticklabels(escolhas)


plt.xlabel('Resultado')
plt.ylabel('Proporção')
plt.title('Resultados de lançamentos de moeda não equilibrada')
plt.grid(True)
plt.show()

Neste exemplo não podemos garantir o resultado de nenhum lançamento específico, podemos, porém, verificar que temos aproximadamente 0,6 de probabilidade de cara e 0,4 de coroa. 

Embora haja incerteza, conseguimos quantificá-la de alguma forma.

Note que as proporções encontradas não são exatamente 60% e 40%. Isso porque, apesar de estabelecermos probabilidades para cara e coroa de 0,4 e 0,6, não há certeza em relação a cada lançamento. É isso, justamente, que caracteriza um processo estocástico e o diferencia de um processo determinístico.



<font size="6" color="red">Quando usar probabilidade/estatística?</font>

Se você tem um processo determinístico com regras **conhecidas**, não usará.

Se você tem um processo determinístico cujas regras não conhece, pode usar estatística descritiva para conhecer melhor o processo e depreender suas regras.

Pode ser também que o processo seja determinístico, mas a obtenção das regras seja tão complexa que seja preferível tratá-lo como um processo estocástico.

Se você tem um processo estocástico (aleatório), com certeza usará.


<font size="6" color="red">Diferença entre análise estatística (descritiva e inferência) e análise probabilística</font>

Há processos estocásticos sobre os quais conhecemos as <b>probabilidades básicas</b>. 

Como exemplo temos o lançamento de uma moeda, que, caso seja equilibrada, tem probabilidade de 0,5 para Cara e Coroa.

Neste caso, usando as probabilidades básicas, podemos inferir o comportamento de eventos complexos. Por exemplo, a probabilidade de obtermos m caras em n lançamentos.

Nessas condições, utilizamos ferramentas de <font color="red">análise probabilística</font>.

Há situações em que temos apenas dados gerados pelo processo estocástico (toda a população ou somente uma amostra), sem conhecer as probabilidades básicas que conduzem o processo. Por exemplo, temos o resultado de pesquisas eleitorais com pequenas parcelas da população. 

Nesta situação, usamos <font color="red">análise estatística</font> para analisar os dados (estatística descritiva) e inferir as características do processo (inferência estatística).



<font size="6" color="red">Diferença entre estatística e probabidade na prática</font>

Probabilidade trata do mundo "teórico", quando as probabilidades básicas são bem definidas e seguidas pelos processos, ou seja, quase nunca ocorre no mundo real.

Estatística trata do mundo "real", como as coisas acontecem de verdade. Os eventos são afetados por muitas variáveis, dificilmente seguem regras probabilísticas precisas, ou melhor, seguem regras muito complexas, de difícil determinação.

Probabilidade traz muitos conceitos que fundamentam a análise estatística, principalmente a inferência estatística.


<font size="6" color="red">Diferença entre probabilidade/estatística e aprendizado de máquina</font>


Como será apresentado, a estatística descritiva, juntamente com a visualização de dados, permite descobrir informações relevantes sobre cada variável analisada, bem como relações entre elas.

Entretanto, quando a quantidade de variáveis em análise é grande e/ou seu relacionamento complexo, normalmente não linear, não conseguimos inferir corretamente as relações existentes, seja por limitação de nossa capacidade de avaliação, seja pela limitação dos métodos estatísticos.

Nesse momento são usadas técnicas de <font color="red">aprendizado de máquina</font> para tentar descobrir as relações complexas presentes nos dados.

Ambas as técnicas (estatística e aprendizado de máquina) atuam sobre dados, buscando extrair informações. 

A principal diferença é até onde vai nossa capacidade de interpretação e a partir de onde delegamos a interpretação para a máquina.

Técnicas estatísticas têm a vantagem de apresentar resultados com margem de erro e nível de confiânça. Aprendizado de máquina tem a vantagem de conseguir tratar relacionamentos complexos.


In [None]:
# exemplo: 3 variáveis de entrada com relacionamento não linear entre elas

# Cria três variáveis com valores aleatórios uniformemente distribuídos no intervalo [0,0 1,0)
x = np.random.random_sample(size=1000)
y = np.random.random_sample(size=1000)
z = np.random.random_sample(size=1000)

# Cria uma variável formada pela combinação não linear das três anteriores
w = x**2-y**2+z**3
# Escalona w para que fique no intervalo [-1 1]
w = w/np.max(np.abs(w))




In [None]:
plt.subplots(figsize=(14,6))
plt.plot(x,w,'.')
plt.xlabel('x')
plt.ylabel('w')
plt.title('w = x**2-y**2+z**3')
plt.grid(True)
plt.show()

plt.subplots(figsize=(14,6))
plt.xlabel('w')
plt.ylabel('Probabilidade')
plt.title('Distribuição de probabilidade de W')
plt.grid(True)
n, bins, patches = plt.hist(w, density=True, facecolor='g', alpha=0.75, bins=50)
plt.show()


print('Matriz de correlações entre as variáveis')
print(np.corrcoef([x,y,z,w]))

print("\nAnálise estatística/probabilística")
print("Média de w {}, desvio padrão de w {}".format(np.mean(w),np.std(w)))

A análise do gráfico não permite visualizar o relacionamento entre as variáveis (no caso w e x).

A matriz de correlação sugere a existência de dependência entre as variáveis de entrada (x,y,z) e saída (w).

Porém, a definição correta das relações é de difícil concepção sem uso de machine learning.

Usando somente probabilidade, podemos caracterizar a distribuição de probabilidade dos valores de w como uma normal de média 0,1 e desvio padrão de 0,3

In [None]:
from sklearn.neural_network import MLPRegressor

# Cria uma matriz de 3 colunas com as variáveis de entrada x, y e z
x_ = np.concatenate((np.reshape(x,(-1,1)),np.reshape(y,(-1,1)),np.reshape(z,(-1,1))), axis=1)
# Cria uma matriz de 1 coluna com a variável w
y_ = np.reshape(w,(-1,1))

# Treina o modelo com 900 valores e testa com 100 valores
x_train = x_[0:900,:]
y_train = y_[0:900,:]
x_test = x_[900:1000,:]
y_test = y_[900:1000,:]

estimator = MLPRegressor(
                              learning_rate = 'adaptive',
                              random_state = random_state,
                              verbose=True,
                                max_iter = 200,
                            hidden_layer_sizes = [100,50,40,30,20,10],   
                    solver = 'adam',
                    alpha = 0.0001,
                    activation = 'relu'
                            )

estimator.fit(x_train,y_train)


In [None]:
pd.DataFrame(estimator.loss_curve_).plot(figsize=(14,6))

In [None]:
# Testa o modelo com os 100 exemplos reservados para teste (não usados no treinamento), 
# de forma a verificar a capacidade de generalização

plt.subplots(figsize=(14,6))
plt.plot(y_test,'r.')
plt.plot(estimator.predict(x_test),'b*')
plt.xlabel('Amostra de teste')
plt.ylabel('w')
plt.title('w = x**2-y**2+z**3  -  Vermelho = valor real, Azul = previsão da rede neural')
plt.grid(True)
plt.show()

A rede neural conseguiu capturar corretamente o relacionamento não linear entre as variáveis.


<font size="6" color="red">Introdução à probabilidade</font>



Teoria matemática para cálculo de probabilidade de eventos complexos considerando as probabilidades de eventos simples que formam o evento complexo.

Por exemplo, o lançamento de uma moeda é um evento simples, com probabilidades conhecidas. O número de caras obtidas em n  lançamentos da mesma moeda é um evento complexo, cujas probabilidades podem ser deduzidas levando-se em conta as probabilidades dos eventos simples. 

## Probabilidade - Contagem

O cálculo das probabilidades de eventos complexos pode ser feito de maneira analítica em sua forma mais simples: contagem.

No exemplo do lançamento de moedas, a probabilidade de obtermos 15 caras em 30 lançamentos pode ser calculada dividindo o número de eventos favoráveis pelo total de eventos possíveis. Para isso calculamos de quantas maneiras podemos obter 15 caras em 30 lançamentos, dividindo pelo número total de eventos possíveis em 30 lançamentos:


In [None]:
# Cálculo analítico baseado em contagem 
# Númerador = número possível de 15 caras em 30 lançamentos, denominador = total de resultados possíveis em 30 lançamentos da moeda
combinacao(30,15)/possibilidades(30,2)

## Probabilidade - Solução analítica - Probabilidades simples

O cálculo das probabilidades de eventos complexos pode ser feito de maneira analítica, considerando as probabilidades simples.

No exemplo do lançamento de moedas, a probabilidade de obtermos m caras em n lançamentos (considerando uma moeda honesta) é dada por:

P(n,m) = Combinação(n,m) x 0,5^m x 0,5^(n-m)

Considerando 30 lançamentos (n=30), vamos calcular a probabilidade de obtermos m caras: 

In [None]:
# Cálculo analítico baseado na probabilidade básica
probabilidades = np.zeros((31,1))
for i in range(0,31,1):
    probabilidades[i]=combinacao(30,i)*((1/2)**(i))*((1/2)**(30-i))

plt.bar(range(0,31,1),probabilidades[:,0], facecolor='black', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

In [None]:
print('Soma das probabilidades {}'.format(sum(probabilidades)))

Observa-se que, apesar de termos uma solução analítica, continuamos sem certeza quanto aos resultados.

A solução analítica informa as probabilidades do evento, não o resultado em si.

## Probabilidade - Solução numérica - Simulação

O cálculo das probabilidades de eventos complexos pode ser bastante difícil considerando a solução analítica. Soluções analíticas envolvem o conhecimento de análise combinatória e probabilidade.

Em casos em que não sabemos ou não queremos recorrer à solução analítica, podemos usar simulações computacionais para chegarmos aos mesmos resultados. Tais cálculos são chamados simulações de Monte-Carlo.

Neste caso, a probabilida é estimada pela frequência de ocorrências.

Vamos resolver o problema anterior (número de caras em 30 lançamentos) simplesmente simulando e estimando as probabilidades:

### 100 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 100
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='black', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print (np.sum(probabilidades))

### 1000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 1000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

### 10000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 10000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='black', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

### 100000 simulações

In [None]:
# Cálculo por simulação - usando probabilidade básica
Cara = 1
Coroa = 0
Moeda = [Cara,Coroa]
Equilibrio = [1/2,1/2]
lancamentos = 30
repeticoes = 100000
np.random.seed(1)
resultado = np.random.choice(a=Moeda, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(0,lancamentos+1,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,lancamentos,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

In [None]:
probabilidades

Com o aumento do número de simulações o resultado numérico converge para o resultado analítico

<font size="3" color="blue">Exercício: Se quiséssemos simular o lançamento de dois dados para verificar as probabilidades da soma dos valores, como ficaria o código acima?</font>

In [None]:
Dado = [1,2,3,4,5,6]
Equilibrio = [1/6,1/6,1/6,1/6,1/6,1/6]
lancamentos = 2
repeticoes = 100000
np.random.seed(1)
#Simula 100000 lançamentos de dois dados e soma, em cada um dos 100000 lançamentos, os resultados obtidos pelos 2 dados
resultado = np.random.choice(a=Dado, p=Equilibrio, replace=True, size=(repeticoes,lancamentos))
resultado=np.sum(resultado, axis=1)
probabilidades,_ = np.histogram(a=resultado, density=True, bins=range(1,14,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(1,13,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('Soma dois dados')
plt.ylabel('Probabilidade')
plt.title('Histogram Dado')
plt.grid(True)
plt.show()

# Probabilidade - Teoria

Probabilidade é a frequência, no longo prazo, de determinado resultado de um processo estocástico.

Por exemplo, o lançamento de uma moeda "honesta", realizado várias vezes, produzirá um número de caras e coroas idêntico, ou seja, a frequência de caras será igual à de coroas (50%), que corresponde à probabilidade de obter uma cara ou uma coroa em qualquer lançamento (0,5). 

Probabilidade é, então, a medida de certeza com que podemos esperar a ocorrência de determinado evento, resultado de um experimento aleatório. 

A probabilidade recebe um número no intervalo de zero a um. Já a frequência e apresentada como percentual, variando de 0 a 100.

A probabilidade não dá certeza alguma sobre um evento específico, apenas garante que, no longo prazo, a frequência se aproximará da probabilidade.

Conforme demonstrado no exemplo anterior, quanto maior o número de experimentos, mais a frequência irá se aproximar da probabilidade real. 

# Probabilidade - Variáveis aleatórias

Variável aleatória (X) é o resultado de <font color="red">uma execução</font> de um processo estocástico. Por exemplo, o resultado de um lançamento de um dado é uma variável aleatória. Cada lançamento representa uma variável aleatória X.

A variável aleatória pode assumir um conjunto de valores (xi), que formam o <font color="red">espaço amostral</font> da variável X. No lançamento do dado, os valores possíveis são os números de 1 a 6. A esse espaço amostral, representado por todos os valores possíveis de serem assumidos pela variável aleatória, designamos, geralmente, pela letra Omega,

A cada valor possível da variável aleatória, ou seja, a cada ponto do espaço amostral, podemos associar uma probabilidade, que é a frequência, no longo prazo, que a variável assumirá tal valor. No lançamento do dado (honesto), cada valor possível no espaço amostral tem probabilidade 1/6. 

Ao conjunto de probabilidades associadas aos valores possíveis, chamamos de <font color="red">distribuição de probabilidade</font> da variável aleatória X.

Quando o espaço amostral é finito ou infinito enumerável é chamado espaço discreto (variável aleatória discreta), por exemplo o lançamento de um dado.

Se o espaço amostral é infinito não-enumerável, é chamado espaço não-discreto ou contínuo (variável aleatória contínua), por exemplo a temperatura medida em cada dia do ano.



# Probabilidade - Conceitos

Evento é um sub conjunto qualquer do espaço amostral, por exemplo, o resultado do lançamento do dado der valores 1 ou 2.

A probabilidade do evento é a soma das probabilidades dos pontos do conjunto

A probabilidade da união de dois eventos (OU), ex. probabilidade do dado dar resultado maior que 5 OU menor que 2, é a soma das probabilidades dos dois eventos menos a probabilidade da interseção. Se os eventos são independentes, basta somar as probabilidades.

A probabilidade da interseção de dois eventos (E), ex. probabilidade do dado dar resultado maior que 5 E menor que 2, é a probabilidade do evento A, dado que B ocorreu, vezes a probabilidade do evento B Se os eventos são independentes, basta multiplicar as probabilidades.



<font size="6" color="red">Distribuições de probabilidade</font>

## Probability Mass Function (PMF) e Probability Density Function (PDF)

Conforme exposto, é a função que associa a cada valor possível de uma variável aleatória uma probabilidade.

Caso a variável seja discreta, teremos uma <b>PMF</b>, caso a variável seja contínua, teremos uma <b>PDF</b>.

ATENÇÃO: a PMF dá a probabilidade de um ponto do espaço amostral, a PDF dá a probabilidade num intervalo, considerando que, para variáveis contínuas, a probabilidade de cada ponto é zero. Entretanto, as funções em python que implementam a PDF estimam a probabilidade do ponto pela probabilidade do intervalo infinitesimal.

Tomando como exemplo a variável aleatória que representa o número de caras obtidas em 30 lançamentos de uma moeda honesta (variável discreta), sua PMF é demonstrada a seguir:

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pmf(range(0,31,1))

plt.bar(range(0,31,1),resultado)

plt.xlabel('# Cara')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Valor da PMF em 15: {}, correspondente à probabilidade de 15 caras em 30 lançamentos'.format(rv.pmf(15)))
print('Valor da PMF em 0: {}, correspondente à probabilidade de 0 caras em 30 lançamentos'.format(rv.pmf(0)))
print('Soma das probabilidades {}'.format(sum(resultado)))

 A PMF da distribuição mostra que, em 14,45% das vezes que lançarmos 30 vezes uma moeda, obteremos 15 caras.
 
 Mostra também que, em 0,0000000931% das vezes, obteremos zero caras. Um evento pouco provável, mas possível.

## Função de probabilidade acumulada: Cumulative Distribution Function (CDF)

É a probabilidade da variável aleatória assumir um valor menor ou igual à x.

Tomando como exemplo a variável aleatória que representa o número de caras obtidas em 30 lançamentos de uma moeda honesta (variável discreta), sua CDF é demonstrada a seguir:

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

# calcula probabilide de obter 0,1,2,...30 ou menos caras em 30 lançamentos
resultado = rv.cdf(range(0,31,1))

plt.bar(range(0,31,1),resultado)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Probabilidade de conseguirmos 15 ou menos caras {}'.format(rv.cdf(15)))


 A CDF da distribuição mostra que há 57,22% de probabilidade da moeda produzir 15 ou menos caras em 30 lançamentos.

## Outras funções de probabilidade

Além da PMF, PDF e CDF, podemos citar:

-Survival function: 1-CDF

-Interval: pontos da PMF que delimitam um percentual das probabilidades (ver exemplo a seguir)

In [None]:
# Usando scipy

from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

resultado = rv.cdf(range(0,31,1))

# Calcula o interval, em número de caras, para o qual intervalo temos 95% de certeza de acertar o resultado
intervalo = rv.interval(0.95)

print('Com 95% de chance teremos entre {} e {} caras em 30 lançamentos'.format(intervalo[0],intervalo[1]))


## Medidas de tendência, dispersão e dependência para variáveis aleatórias

São medidas baseadas nos pontos do espaço amostral e na probabilidade de cada ponto.

Em estatística descritiva temos medidas semelhante, só que, como não há informações sobre as probabilidades básicas, os cálculos serão diferentes, não tomando como base as probabilidades (podem usar frequências).

Esperança ou média de X, E(X) - é uma medida de tendência calculada como a soma dos produtos de cada x do espaço amostral pela probabilidade p(x)

Variância de X - é uma medida de dispersão calculada como a esperança do quadrado da diferença entre x e a média

Desvio padrão de X - é uma medida de dispersão calculada como a raiz quadrada da variância. É mais usada como medida de dispersão por estar na mesma unidade da variável X

Dadas duas variáveis aleatórias X e Y, define-se como medida de dependência entre elas a covariância e o coeficiente de correlação, que serão estudadas na estatística descritiva.

In [None]:
from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

media = rv.mean()

print('Média {}'.format(media))

variancia = rv.var()

print('Variância {}'.format(variancia))

desvio_padrao = rv.std()

print('Desvio padrão {}'.format(desvio_padrao))

prob_media = rv.pmf(media)

print('Probabilidade da média {} é {}'.format(media,prob_media))

desv = (rv.cdf(media+desvio_padrao)-rv.cdf(media-desvio_padrao))

print('Probabilidade do resultado estar afastado até 1 desvio padrão da média é {}'.format(desv))

# Distribuições de probabilidade

Fonte: http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

<img src="http://blog.cloudera.com/wp-content/uploads/2015/12/distribution.png" height="800" width="800"> 

# Distribuições discretas

Bernoulli - distribuição que representa uma escolha binária, com probabilidades p e 1-p. Como exemplo um lançamento de uma moeda.

Binomial - representa a soma de sucessos em n execuções de um processo binário. Como exemplo o número de caras em n lançamentos de uma moeda. Outro exemplo é o número de bolas pretas retiradas de um cesto contendo bolas brancas e pretas (com reposição).

Hipergeométrica - representa a soma de bolas pretas retiradas de um cesto contendo bolas brancas e pretas (sem reposição).

Poisson - número de chamdas recebidas num intervalo de tempo.

Discrete Uniform - cada ponto do espaço tem igual probabilidade. Como exemplo o lançamento de um dado.

Geométrica - número de fracassos antes de um sucesso. Por exemplo, no lançamento de moeda, o número de coroas antes de uma cara.

Binomial negativa - número de fracassos antes de n sucessos

Uniform

# Distribuições contínuas

Exponencial - tempo decorrido entre chamadas de um call center, com taxa de chamadas constante.

Weibull - tempo até falha, quando a taxa de falha não é constante no tempo.

Chi2 - soma de quadrados de valores normalmente distribuídos

Gama - tempo até n eventos ocorrerem

Normal (Gaussiana) - soma de variáveis aleatórias

Log-normal - utilizada quando o logarítmo dos valores é distribuído segundo a normal. Produto de variáveis aleatórias

Uniform

# Qui-Quadrado

In [None]:
from scipy.stats import chi2
graus = 3
rv = chi2(graus)
x = np.linspace(0,15,1000)
# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(x)
plt.subplots(figsize=(14,6))
plt.plot(x,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Qui-Quadrado com 3 graus de liberdade')
plt.grid(True)
plt.show()

# Cauchy

In [None]:
from scipy.stats import cauchy
tentativas = 30
rv = cauchy()
x = np.linspace(-10,10,1000)
# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(x)
plt.subplots(figsize=(14,6))
plt.plot(x,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Cauchy [0 1]')
plt.grid(True)
plt.show()

# Uniforme

In [None]:
from scipy.stats import uniform
tentativas = 30
rv = uniform()
x = np.linspace(0,2,1000)
# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(x)
plt.subplots(figsize=(14,6))
plt.plot(x,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Uniforme [0 1]')
plt.grid(True)
plt.show()

# Distribuição binomial

In [None]:
from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pmf(range(0,31,1))
plt.subplots(figsize=(14,6))
plt.plot(range(0,31,1),resultado, color='black')

plt.xlabel('Número de caras')
plt.ylabel('Probabilidade')
plt.title('Distribuição Binomial')
plt.grid(True)
plt.show()

In [None]:
from scipy.stats import binom
tentativas = 30
rv = binom(tentativas, 1/2)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pmf(range(0,31,1))
plt.subplots(figsize=(14,6))
plt.bar(range(0,31,1),resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Binomial (30, 0,5)')
plt.grid(True)
plt.show()

# Bernoulli

In [None]:
# Poisson

from scipy.stats import bernoulli

rv = bernoulli(0,4)



# Gama

In [None]:
# Poisson

from scipy.stats import gengamma
graus = 30
a, c = 4.42, -3.12
rv = gengamma(a, c)
variacao = np.linspace(0,2,1000)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(variacao)
plt.subplots(figsize=(14,6))
plt.plot(variacao,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Gama (alfa 4,4 - beta -3,1)')
plt.grid(True)
plt.show()

# t-Student

In [None]:
# t-Student

from scipy.stats import t
graus = 30
rv = t(graus)
variacao = np.linspace(-10,10,1000)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(variacao)
plt.subplots(figsize=(14,6))
plt.plot(variacao,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição t-Student (Graus de liberdade 30)')
plt.grid(True)
plt.show()

# Poisson

In [None]:
# Poisson

from scipy.stats import poisson
taxa = 10
rv = poisson(taxa)
variacao = range(0,50,1)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pmf(variacao)
plt.subplots(figsize=(14,6))
plt.bar(variacao,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Poisson (taxa 10)')
plt.grid(True)
plt.show()

# Exponencial

In [None]:
# Exponencial

from scipy.stats import expon
lambda_ = 1 # taxa
rv = expon( scale=lambda_)


variacao = np.linspace(0,5,1000)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(variacao)
plt.subplots(figsize=(14,6))
plt.plot(variacao,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Exponencial(lambda 1)')
plt.grid(True)
plt.show()

## Distribuição Normal (Gaussiana)

Pela importância, vamos estudar algumas propriedades da normal

In [None]:
# Poisson

from scipy.stats import norm
mean = 0
std = 1
rv = norm(loc=mean, scale=std)


variacao = np.linspace(-5,5,1000)

# calcula probabilide de obter 0,1,2,...30 caras em 30 lançamentos
resultado = rv.pdf(variacao)
plt.subplots(figsize=(14,6))
plt.plot(variacao,resultado, color='black')

plt.xlabel('x')
plt.ylabel('Probabilidade')
plt.title('Distribuição Normal(0,1)')
plt.grid(True)
plt.show()

In [None]:
# Normal
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html#scipy.stats.norm


from scipy.stats import norm
from scipy.stats import kstest

mean = 0
std = 1
rv = norm(loc=mean, scale=std)
np.random.seed(1)
resultado = rv.rvs(size=1000)

n, bins, patches = plt.hist(resultado, density=True, facecolor='black', alpha=0.75, bins=50)
intervalo = np.linspace(mean-5*std,mean+5*std, num=50)

plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')

plt.title('Distribuição normal')
plt.grid(True)
plt.show()

In [None]:
print('Probabilidade do valor 0: {}'.format(rv.pdf(0)))
print('Probabilidade de valor menor ou igual a 0: {}'.format(rv.cdf(0)))
print('Média: {}'.format(rv.mean()))
print('Mediana: {}'.format(rv.median()))
print('Variância: {}'.format(rv.var()))
print('Desvio padrão: {}'.format(rv.std()))


In [None]:
fig1, ax1 = plt.subplots()
ax1.set_title('Box Plot')
ax1.boxplot(resultado)

In [None]:

tamanho_amostra = (len(resultado))

tamanho_amostra_entre_1_desvios = sum( (resultado>(mean-1*std)) & (resultado<(mean+1*std)) )
tamanho_amostra_entre_2_desvios = sum( (resultado>(mean-2*std)) & (resultado<(mean+2*std)) )
tamanho_amostra_entre_3_desvios = sum( (resultado>(mean-3*std)) & (resultado<(mean+3*std)) )

print('Percentual dos dados entre {} desvios: {}'.format(1,tamanho_amostra_entre_1_desvios*100/tamanho_amostra))
print('Percentual dos dados entre {} desvios: {}'.format(2,tamanho_amostra_entre_2_desvios*100/tamanho_amostra))
print('Percentual dos dados entre {} desvios: {}'.format(3,tamanho_amostra_entre_3_desvios*100/tamanho_amostra))

In [None]:
# Determinação de parâmetros baseado nos dados

media, desvio = norm.fit(resultado)

In [None]:
#https://plot.ly/python/normality-test/

# Teste de normalidade
    
kstest(resultado, 'norm')


## Distribuição Log-Normal

Em que pese a importância da normal, muitos processos seguem distribuições exponenciais ou lognormais

A log-normal é particularmente interessante por duas propriedades:

-Representa a distribuição da multiplicação de variáveis aleatórias

-Representa a distribuição de variáveis cujo log tem distribuição normal

In [None]:

s = 0.3
repeticoes = 100000

rv = stat.lognorm(s=s)

populacao = rv.rvs(size=repeticoes, random_state=random_state)

print('Média: {}'.format(rv.mean()))
print('Mediana: {}'.format(rv.median()))
print('Variância: {}'.format(rv.var()))
print('Desvio padrão: {}'.format(rv.std()))

In [None]:
n, bins, patches = plt.hist(populacao, density=True, facecolor='black', alpha=0.75, bins=50)


plt.title('Distribuição logonormal')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')
plt.grid(True)
plt.show()

In [None]:
fig1, ax1 = plt.subplots()
ax1.set_title('Box Plot')
ax1.boxplot(populacao)

In [None]:
n, bins, patches = plt.hist(np.log(populacao), density=True, facecolor='g', alpha=0.75, bins=50)


plt.title('O log da var aleatória logonormal tem distribuição normal')
plt.xlabel('Valores')
plt.ylabel('Probabilidade')
plt.grid(True)
plt.show()

In [None]:
plt.plot(populacao,'.')

plt.xlabel('Amostra')
plt.ylabel('Valor')
plt.title('Distribuição logonormal')
plt.grid(True)
plt.show()

<font size="6" color="red">Conceitos de estatística</font>



Estatística é a ciência que se dedica à coleta, análise e interpretação de dados (https://pt.wikipedia.org/wiki/Estatística)

É utilizada quando não conhecemos as probabilidades básicas do processo estocástico em análise, temos apenas os dados gerados na execução do processo.

Por exemplo, no lançamento de moeda não honesta, sobre a qual não conhecemos as probabilidades de Cara e Coroa, podemos registrar o resultado de n lançamentos e realizar análise estatística sobre esses dados.

O ramo da estatística que analisa, descreve e sumariza um conjunto de dados é a **<b>estatística descritiva</b>**.



<b>População</b> é o conjunto de dados representando todas as observações possíveis, <b>amostra</b> é o conjunto de dados representando apenas uma parte dessas observações. 

Valores calculados a partir da população são chamados parâmetros populacionais. Quando esses mesmos valores são calculados a partir da amostra denominam-se estatísticas amostrais.

<b>Inferência estatística</b> significa inferir fatos acerca de uma população a partir de resultados observados na amostra. 

Quando inferimos fatos sobre a população normalmente não apresentamos simplesmente o valor, informamos também nosso grau de certeza e o intervalo de confiança (ex. pesquisa eleitoral)

## Exemplo: Análise estatística sobre o número de caras em n lançamentos de Moeda

O processo estocástico é o lançamento da moeda e a contagem no número de caras em 30 lançamentos

Supomos que não conhecemos os parâmetros do processo (qual probabilidade de cara/coroa), temos apenas amostras

In [None]:
# Geração da população, esta parte é desconhecida para o estatístico

lancamentos = 30
repeticoes = 100000
np.random.seed(1)
populacao = np.random.binomial(30, 1/4, size=repeticoes)



In [None]:
# Estatística descritiva da população

probabilidades,_ = np.histogram(a=populacao, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probabilidade')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Média: {}'.format(np.mean(populacao)))
print('Probabilidade Cara: {}'.format(np.mean(populacao)/lancamentos))

Analisando a população, concluímos que a probabilidade básica da moeda gerar uma cara é 0,25.

Normalmente não possuímos dados sobre toda a população (pode ser caro obter tais dados, o processo de amostragem ser destrutivo, não haver tempo para captura, etc). Neste caso temos que extrair uma amostra da população e, com base na análise da amostra, inferir conclusões sobre toda a população:


In [None]:
# Amostra de 1% da população
amostra = populacao[np.random.randint(0, len(populacao),int(0.01*repeticoes))]

In [None]:
# Estatística descritiva da amostra

probabilidades,_ = np.histogram(a=amostra, density=True, bins=range(0,31,1))

#n, bins, patches = plt.hist(resultado, density=True, facecolor='g', alpha=0.75, bins=range(0,31,1))
plt.bar(range(0,30,1),probabilidades, facecolor='g', alpha=0.75)

plt.xlabel('# Caras')
plt.ylabel('Probability')
plt.title('Histogram Moeda')
plt.grid(True)
plt.show()

print('Média: {}'.format(np.mean(amostra)))
print('Probabilidade Cara: {}'.format(np.mean(amostra)/lancamentos))

Com base na amostra, calculamos que a probabilidade de Cara é 0,253, bem próxima da probabilidade real de 0,25.

A questão a ser definida é o quanto a informação obtida na amostra está próxima da informação da população e qual tamanho da amostra é necessário para termos confiânça sobre nossas conclusões. Para isso, temos que entender o <b>Teorema do Limite Central</b>.

Antes, porém, vamos estudar a estatística descritiva. Após, no estudo da inferência estatística, veremos o teorema.

<font size="6" color="red">Estatística Descritiva - Conceitos básicos</font>



Conforme já definido, é o ramo da estatística que analisa, descreve e sumariza um conjunto de dados.

<b>Os dados capturados podem ser calssificados como:</b>

-Qualitativos nominais (não numéricos, sem ordem) - ex. sexo

-Qualitativos ordinais (não numéricos, com ordem) - ex. grau de instrução

-Quantitativos contínuos (numéricos não intervalados) - ex. salário

-Quantitativos discretos (numéricos intervalados) - ex. número de filhos


<br>Da mesma forma que na análise probabilística, dados qualitativos ordinais (representados como quantitativos) e dados quantitativos podem ser analisados segundo medidas de posição e dispersão, que podem ser aplicadas tanto à população (parâmetros populacionais) como à amostra (estatísticas amostrais).

<b>São medidas de posição: </b>

Moda (valor mais frequente - não funciona corretamente em distribuições contínuas), 

Média (soma de m valores dividida por m), 

Mediana (valor na posição central de um conjunto ordenado) e 

Quartis (reqpresentam as posições 25%-Q1, 50%-Q2 e 75%-Q3)


<b>São medidas de dispersão: </b>

Amplitude (máximo-mínimo), 

Intervalo-Interquartil (Q3-Q1), 

Variância (média dos quadrados das diferenças entre a variável e a média), 

Desvio Padrão (raiz da variância) e 

Coeficiente de Variação (desvio padrão dividido pela média)


<b>São medidas de forma: </b>

Curtose (achatamento, onde 0 caracteriza a normal, maior que 0 representa afunilamento e menor que 0 achatamento) e 

Assimetria (skewness, onde 0 caracteriza simetria, maior que 0 caracteriza maior distribuição à direira e menor que 0 caracteriza maior distribuição à esquerda)

<br><b>IMPORTANTE</b>: mediadas de posição e dispersão são relevantes para entendermos os dados em análise, porém, a melhor forma de termos uma visão completa é através das distribuições de frequências, obtidas através do histograma.

<br><b>IMPORTANTE</b>: para ter uma visão consolidade das mediadas de posição e dispersão usar o boxplot.

In [None]:

repeticoes = 100000
mean = 5
np.random.seed(1)

# População lognormal
s = 0.8
rv_lognorm = stat.lognorm(s=s,loc=mean-1.3)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)

# População normal
std = 1.3
rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)



In [None]:




fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].plot(populacao_lognorm,'.')
axs[0].grid(True)
axs[0].set_title('populacao_lognorm')

axs[1].plot(populacao_norm,'.')
axs[1].grid(True)
axs[1].set_title('populacao_norm')

plt.show()

In [None]:
print('\nPopulação lognormal: \nmédia {}, \ndesvio padrão {}, \nmoda {}, \nmediana {}, \nCurtose {}, \nSimetria {}'.format(
    np.mean(populacao_lognorm), 
    np.std(populacao_lognorm),
    stat.mode(populacao_lognorm),
    np.median(populacao_lognorm),
    stat.kurtosis(populacao_lognorm),
    stat.skew(populacao_lognorm)
))

In [None]:
print('\nPopulação normal: \nmédia {}, \ndesvio padrão {}, \nmoda {}, \nmediana {}, \nCurtose {}, \nSimetria {}'.format(
    np.mean(populacao_norm), 
    np.std(populacao_norm),
    stat.mode(populacao_norm),
    np.median(populacao_norm),
    stat.kurtosis(populacao_norm),
    stat.skew(populacao_norm)
))

Observe que os dois conjuntos de dados possuem médias e desvios muito parecidos, apesar de serem totalmente diferentes.

Por isso a simples análise dos parâmetros populacionais não é suficiente para se ter uma ideia precisa da população em análise.

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].hist(populacao_lognorm, density=True, facecolor='black', alpha=0.75, bins=50)
axs[0].grid(True)
axs[0].set_title('populacao_lognorm')
axs[0].set_xlabel('Idade')
axs[0].set_ylabel('Proporção')

axs[1].hist(populacao_norm, density=True, facecolor='black', alpha=0.75, bins=50)
axs[1].grid(True)
axs[1].set_title('populacao_norm')
axs[1].set_xlabel('Idade')
axs[1].set_ylabel('Proporção')

plt.show()

A análise das distribuições de frequência permite uma visão muito mais clara da configuração das populações.

### BoxPlot

O BoxPlot traz as seguintes marcas:

-Caixa definida pelo primeiro quartil, mediana e terceiro quartil

-Fios alongados para além da caixa na distância 1,5 X (Q3 - Q1). Para distribuições não simétricas, as medidas inferior e superior do fio são ajustadas, com multiplicadores distintos da relação anterior. Nesses casos, os fios não são simétricos em relação à caixa (Detalhes em https://en.wikipedia.org/wiki/Box_plot).

-Outliers marcados além da extensão do fio

In [None]:
dados = np.concatenate((populacao_lognorm, populacao_norm), 0)
dados = np.reshape(dados,(2,repeticoes))
dados = dados.T


In [None]:
fig, axs = plt.subplots(1, 1, figsize=(10,6))
_ = plt.boxplot(dados,vert =False, labels =['lognorm','norm'], meanline =True)
plt.title('Boxplot')

## Teste de normalidade

Muitos métodos em estatística partem do princípio que a distribuição dos dados é normal.

Para que sejam usados com segurança é importante testar os dados quanto à normalidade.

Uma das formas mais efetivas é o qqplot.

Fonte: https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/

In [None]:
from statsmodels.graphics.gofplots import qqplot

fig, axs = plt.subplots(1, 2, figsize=(14,6))

qqplot(populacao_lognorm, line='s', ax=axs[0])
axs[0].set_title('populacao_lognorm')

qqplot(populacao_norm, line='s', ax=axs[1])
axs[1].set_title('populacao_norm')

plt.show()



## Observação sobre o cálculo da variância (correção de bessel)

Sendo a variância uma média, o esperado seria a divisão por n (número de elementos na amostra)

Entretanto, tal divisão torna o estimador tendencioso, sendo correto dividir por n-1.

Caso n seja muito grande, tal diferença é imperceptível, para amostras menores o valor fica evidente.

Em numpy usar o parâmetro ddof=1.

Vamos ao exemplo:

In [None]:
repeticoes = 100000
mean = 5

# População lognormal
s = 0.8
rv_lognorm = stat.lognorm(s=s,loc=mean-1.3)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)

amostra_1000 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),1000)]
amostra_100 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),100)]
amostra_10 = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),10)]

print('Desvios real {}\n'.format(rv_lognorm.std()))

print('\nDesvios amostra 1000 sem correção {}'.format(np.std(amostra_1000)))
print('Desvios amostra 1000 com correção {}'.format(np.std(amostra_1000, ddof =1)))

print('\nDesvios amostra 100 sem correção {}'.format(np.std(amostra_100)))
print('Desvios amostra 100 com correção {}'.format(np.std(amostra_100, ddof =1)))

print('\nDesvios amostra 10 sem correção {}'.format(np.std(amostra_10)))
print('Desvios amostra 10 com correção {}'.format(np.std(amostra_10, ddof =1)))

<font size="6" color="red">Inferência Estatística</font>



Conforme já descrito, a inferência estatística busca estender para a população informações obtidas na amostra.

Para tratarmos de inferência, é preciso primeiro estudar o teorema do limite central.

<font size="6" color="red">Teorema do limite central</font>



O teorema estabelece que a distribuição da soma de variáveis aleatórias <b>iid (independentes e identicamente distribuídas)</b> tende para uma distribuição normal, independente da distribuição original das variáveis. (Fonte: https://en.wikipedia.org/wiki/Central_limit_theorem)

Para compreender melhor o significado do teorema, vamos a um exemplo:

Vamos considerar 100.000 doações feitas para um candidato, cujo valor mínimo de doação foi estabelecido em R$ 48.

O comportamento esperado é que a grande maioria faça a contribuição mínima.

Haverá, porém, contribuições acima do mínimo, em valores diversos e quantidades reduzidas.

Com isso, temos uma distribuição semelhante a uma log-normal ou exponencial, veja o gráfico.

In [None]:
# Vamos criar uma população distribuída de forma lognormal


repeticoes = 100000
mean = 50

# População lognormal
s = 0.9
np.random.seed(1)
rv_lognorm = stat.lognorm(s=s,loc=mean)
populacao_lognorm = rv_lognorm.rvs(size=repeticoes, random_state=random_state)

escolhas = [0,1]
sexo_doadores = random.choices(population=escolhas, weights=[6/10,4/10], k=repeticoes)
sexo_doadores = np.asarray(sexo_doadores, dtype=np.int)




In [None]:



print('Mínimo {}'.format(np.min(populacao_lognorm)))
print('Máximo {}'.format(np.max(populacao_lognorm)))
print('Média {}'.format(np.mean(populacao_lognorm)))
print('Desvio {}'.format(np.std(populacao_lognorm)))
print('Var {}'.format(np.var(populacao_lognorm)))

fig, axs = plt.subplots(1, 1, figsize=(14,6))

axs.hist(populacao_lognorm, density=False, facecolor='black', alpha=0.75, bins=100)
axs.set_xlabel('Valor doação')
axs.set_ylabel('Quantidade')
axs.grid(True)
axs.set_title('Doações')


plt.show()

In [None]:

p = np.sum(sexo_doadores)/repeticoes
p

In [None]:
p*(1-p)

In [None]:
np.var(sexo_doadores)

De toda a "população" de doações, vamos retirar várias amostras para estudar seu comportamento.

Observação: Numa situação real, seria extraída apenas uma amostra.

In [None]:
tamanho_amostra = 1000
selecionados = np.random.randint(0, len(populacao_lognorm),tamanho_amostra)


In [None]:

amostra_sexo_doadores = sexo_doadores[selecionados]
np.sum(amostra_sexo_doadores)/tamanho_amostra

In [None]:

amostra = populacao_lognorm[selecionados]
print('Mínimo {}'.format(np.min(amostra)))
print('Máximo {}'.format(np.max(amostra)))
print('Média {}'.format(np.mean(amostra)))
print('Desvio {}'.format(np.std(amostra)))
print('Desvio {}'.format(np.std(amostra, ddof =1)))
print('Var {}'.format(np.var(amostra, ddof =1)))

print('Raiz tamanho {}'.format(np.sqrt(tamanho_amostra)))
print('Desvio / Raiz tamanho {}'.format(np.std(amostra, ddof =1)/np.sqrt(tamanho_amostra)))

In [None]:
# Vamos extrair 1000 amostras e calcular suas médias
amostras = 1000
tamanho_amostra = 300
np.random.seed(1)
medias = np.zeros((amostras,1))
variancias= np.zeros((amostras,1))
qtd_sexo_masculino= np.zeros((amostras,1))
percentuais = np.zeros((amostras,1))
for i in range(0,amostras,1):
    medias[i]=np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])
    percentuais[i] = np.sum(sexo_doadores[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])/tamanho_amostra
    qtd_sexo_masculino[i] = np.sum(sexo_doadores[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])
    variancias[i]=np.var(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])


In [None]:
# A distribuição das médias aproxima-se de uma Normal, independente da distribuição original que gerou as amostras
from scipy.stats import norm
n, bins, patches = plt.hist(medias, density=True, facecolor='black', alpha=0.75, bins=50)

mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média das médias das amostras {}'.format(mean_))
print('Desvio das médias das amostras {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('Média da amostra')
plt.ylabel('Probabilidade')
plt.title('Histogram de médias')
plt.grid(True)
plt.show()

In [None]:
def calcula_Z_normal(confianca):
    mean = 0
    std = 1
    rv = norm(loc=mean, scale=std)
    return rv.interval(confianca)[1]

def calcula_Z_tstudent(confianca, tamanho_amostra):
    mean = 0
    std = 1
    rv = t(df=(tamanho_amostra-1))
    return rv.interval(confianca)[1]

calcula_Z_normal(0.99)

In [None]:
from scipy.stats import norm
n, bins, patches = plt.hist(variancias, density=True, facecolor='black', alpha=0.75, bins=50)

mean_ = np.mean(variancias)
std_ = np.std(variancias)
print('Média das variancias {}'.format(mean_))
print('Desvio das variancias {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('Variancias')
plt.ylabel('Probabilidade')
plt.title('Histogram de médias')
plt.grid(True)
plt.show()

In [None]:
# A distribuição das médias aproxima-se de uma Normal, independente da distribuição original que gerou as amostras
from scipy.stats import norm
n, bins, patches = plt.hist(percentuais, density=True, facecolor='black', alpha=0.75, bins=50)

mean_ = np.mean(percentuais)
std_ = np.std(percentuais)
print('Média das proporções das amostras {}'.format(mean_))
print('Desvio das proporções das amostras {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('Proporções nas amostras')
plt.ylabel('Probabilidade')
plt.title('Histogram de proporções')
plt.grid(True)
plt.show()

In [None]:
from scipy.stats import norm
n, bins, patches = plt.hist(qtd_sexo_masculino, density=True, facecolor='black', alpha=0.75, bins=50)

mean_ = np.mean(qtd_sexo_masculino)
std_ = np.std(qtd_sexo_masculino)
print('Média das qtd_sexo_masculino {}'.format(mean_))
print('Desvio das qtd_sexo_masculino {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('qtd_sexo_masculino')
plt.ylabel('Probabilidade')
plt.title('Histogram de proporções')
plt.grid(True)
plt.show()

## Intervalo de confiança

Conforme previsto pelo teorema do limite central, a distribuição das médias das amostras (considerando que a média é uma soma de variáveis aleatórias dividida pelo número de elementos) tende para a distribuição normal.

Além disso, a média dessa distribuição tende para a média da população.

Perceba que, apesar da distribuição original das amostras ter distribuição completamente diferente da normal, as médias das amostras tendem à normal.

Uma consequência extremamente importante do teorema é que, dada a distribuição normal, tem-se que, com 95,45% de certeza, a média de qualquer amostra estará a dois desvios padrão da média da população.

No exemplo em questão, teremos:

In [None]:
mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média das médias das amostras {}'.format(mean_))
print('Desvio das médias das amostras {}'.format(std_))
print('Dois desvios {}'.format(2*std_))

print('Intervalo de 95,45% de confiança {} - {}'.format(mean_-2*std_,mean_+2*std_))

Reforçando a conclusão acima: podemos garantir com 95,45% de confiança que qualquer amostra terá sua média entre 50,22 e 50,49.

Essa conclusão é válida somente para a população em análise, considerando uma amostra com tamanho 1000.

Para testarmos tal conclusão, vamos verificar a média de dez amostras aleatórias:


In [None]:
np.random.seed(1)
for i in range(0,10,1):
    print('Média da amostra {}: {}'.format(i,
                                np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])))

## Margem de erro

Outra conclusão importante que podemos chegar é a margem de erro.

Antes estávamos trabalhando com várias amostras, calculando a média de cada uma, e concluímos que qualquer amostra, com 95% de chande, terá sua média entre dois desvios padrão da média real da população.

Mas, na vida real, não fazemos várias amostras, temos apenas uma para trabalhar. Com os valores dessa amostra precisamos inferir um valor para a população. Por exemplo, calculando a média da amostra quero inferir a média da população.

Assim, dado o valor da média de uma amostra, podemos estabelecer a margem de erro com 2 desvios padrão para o nível de confiança de 95%. Melhor explicando, dada a média calculada na amostra, se estabelecemos um intervalo com dois desvios padrão, para mais e para menos da média da amostra, podemos afirmar, com 95% de chance, que a média real da população estará nesse intervalo.

Vamos analisar os resultados obtidos acima, considerando a margem de erro e a média real da população (50.36):


In [None]:
np.random.seed(1)
tamanho_amostra = 1000
std_ = np.std(populacao_lognorm)/np.sqrt(tamanho_amostra)
print('Tamanho amostra {}, margem de erro considerando dois desvios {}, média real da população {}'.format(tamanho_amostra,2*std_, np.mean(populacao_lognorm)))
# Vamos capturar 10 amostras da população
for i in range(0,10,1):
    # Para cada amostra i calculamos a média
    media_i = np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])
    print('Amostra {}, média {}, com margem de erro de dois desvios, a média da população estará entre {} e {} com 95% de chance'.format(i,
                                                                    media_i,
                                                                   media_i-2*std_,
                                                                   media_i+2*std_))

Os exemplos acima consideraram uma amostra de 1000, correspondente a 1% da população, uma amostra relativamente grande.

Vamos diminuir nossa amostra para 100 e ver o impacto no grau de confiânça e margem de erro:


In [None]:
np.random.seed(1)
tamanho_amostra = 100
std_ = np.std(populacao_lognorm)/np.sqrt(tamanho_amostra)
print('Tamanho amostra {}, margem de erro considerando dois desvios {}, média real da população {}'.format(tamanho_amostra,2*std_, np.mean(populacao_lognorm)))
# Vamos capturar 10 amostras da população
for i in range(0,10,1):
    # Para cada amostra i calculamos a média
    media_i = np.mean(populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)])
    print('Amostra {}, média {}, com margem de erro de dois desvios, a média da população estará entre {} e {} com 95% de chance'.format(i,
                                                                    media_i,
                                                                   media_i-2*std_,
                                                                   media_i+2*std_))

Para obtermos o mesmo nível de confiança de 95.45%, a margem de erro cresce de 0.13 (1000 amostras) para 0,43 (100 amostras)

## Comparação do desvio das amostras com o desvio da população

O desvio padrão das médias das amostras é igual ao desvio da população dividido pela raiz do tamanho da amostra.

Como a margem de erro é proporcional ao desvio das médias, conclui-se que:

-A margem de erro crece conforme for maior o desvio padrão da população

-A margem de erro crece com a diminuição do tamanho da amostra

## Generalizando o resultado

Fixado o nível de confiânça, estabelecemos a quantidade de desvios padrão.
Para 95,45%, temos dois desvios padrão.

Dada uma amostra, para 95% de confiança, a margem de erro será 2x(desvio_populacao/raiz(tamanho_amostra))



## Mas não sabemos o desvio da população...

Como, em geral, não sabemos o desvio padrão da população, vamos aproximá-lo com o desvio da amostra. Como o desvio da amostra aproxima o desvio da população, devemos, da mesma forma, dividi-la pela raiz(tamanho_amostra).

Assim, a margem de erro será calculada, para 95% de confiança, como (2xdesvio_amostra/raiz(tamanho_amostra))

Um exemplo:

In [None]:
np.random.seed(1)
tamanho_amostra = 100
amostra_100_elementos = populacao_lognorm[np.random.randint(0, len(populacao_lognorm),tamanho_amostra)]
print('Média amostra (estima a média da população) {}'.format(np.mean(amostra_100_elementos)))
print('Desvio amostra (estima o desvio da população) {}'.format(np.std(amostra_100_elementos)))
print('Desvio estimado da média das amostras (desvio da população/raiz(tamanho amostra)) {}'.format(np.std(amostra_100_elementos)/np.sqrt(tamanho_amostra)))
print('Margem erro (considerando dois desvios para a confiança de 95%) {}'.format(2*np.std(amostra_100_elementos)/np.sqrt(tamanho_amostra)))


# o desvio padrão das médias das amostras é desvio da população / sqrt(samples)


## E se o intervalo de confiança desejado for diferente do fornecido por um desvio padrão?

Utilizar a função interval para localizar os pontos exatos (número de desvios) que indicarão os limites para alcançar a probabilidade indicada.

No caso de desejar 99% de confiânça, serão 2,58 desvios, não 2 como no caso de 95% de confiança.

In [None]:
from scipy.stats import norm


def calcula_numero_desvios_normal_para_confianca(confianca):
    mean = 0
    std = 1
    rv = norm(loc=mean, scale=std)
    return rv.interval(confianca)[1]

In [None]:
calcula_numero_desvios_normal_para_confianca(0.9545)

In [None]:
calcula_numero_desvios_normal_para_confianca(0.99)

## Distribuição t de Student

Quando utilizado o desvio padrão da amostra no lugar do desvio da população, o correto é usar a distribuição t de Student no lugar da distribuição Normal para cálculo do intervalo de confiança.

Entretanto, a distribuição t aproxima-se da Normal para amostras com mais de 30 elementos, por isso mantivemos a distribuição Normal nos cálculos acima.

No exemplo seguinte, para 100 elementos na amostra (graus de liberdade = amostras-1), os valores são muito semelhantes aos obtidos para a Normal no exemplo acima.

In [None]:
from scipy.stats import t


def calcula_numero_desvios_tstudent_para_confianca(confianca, tamanho_amostra):
    mean = 0
    std = 1
    rv = t(df=(tamanho_amostra-1))
    return rv.interval(confianca)[1]

In [None]:
calcula_numero_desvios_tstudent_para_confianca(0.9545, 100)

In [None]:
calcula_numero_desvios_tstudent_para_confianca(0.99, 100)

## RESUMINDO

Dada uma amostra, para calcular a margem de erro para dado grau de confiânça, faça o seguinte:

1-Calcule a média da amostra ex. media_amostra = np.mean(amostra)

2-Calcule o desvio da amostra ex. desvio_amostra = np.std(amostra)

3-Calcule quantos desvios precisará para seu grau de confiânça ex. numero_desvios = calcula_numero_desvios_tstudent_para_confianca(confiança, tamanho_amostra)

4-Calcule o desvio das amostras ex. desvio_amostras = desvio_amostra/np.sqrt(tamanho_amostra)

5-Calcule a margem de erro ex. margem_erro = numero_desvios*desvio_amostras

6-Calcule o intervalo ex. inferior = media_amostra-margem_erro, superior = media_amostra+margem_erro

## Efeito da variância da população na margem de erro

<font size="3" color="blue">Exercício: Vamos testar o efeito da segmentação de uma população heterogênea no cálculo da margem de erro</font>

Considerando o Brasil dividido somente em duas regiões, vamos arbitrar a seguinte distribuição populacional: Sudeste 60% e Nordeste 40%

Supondo que a distribuição de votos para candidatos seja normal.

No Sudeste o candidato X tem 31% dos votos com desvio 4. No Nordeste tem 16% com desvio também 4.

Considere a população total 100.000 pessoas.

Crie duas distribuições normais representando a votação do candidato em cada região. Crie exemplos das distribuições até o total de 100.000 (respeitando as proporções das regiões).

Crie a populacao Brasil unindo as duas populações e embaralhando.

Plote o histograma dessa população calculândo média e desvio.

Obtenha uma amostra de 100 elementos. Calcule, com base na amostra, a margem de erro considerando o nível de confiânça de 95,45%.

Obtenha uma amostra de 40 elementos da população do Nordeste e uma com 60 elementos da população do Sudeste. Calcule, com base nas amostras, a margem de erro considerando o nível de confiânça de 95,45%. Una as duas amostras e calcule a margem de erro de toda a população.

Verifique que, utilizando a pesquisa segmentada, a margem de erro é menor que a da população sem segmentação.

In [None]:
from scipy.stats import norm


mean = 16
std = 4
rvNordeste = norm(loc=mean, scale=std)

mean = 31
std = 4
rvSudeste = norm(loc=mean, scale=std)


proporcao_Nordeste = 28/(28+42)
populacaoNordeste = rvNordeste.rvs(size=int(proporcao_Nordeste*100000), random_state=random_state)
print('Média {}'.format(np.mean(populacaoNordeste)))
print('Desvio {}'.format(np.std(populacaoNordeste)))
print('Tamanho {}'.format(len(populacaoNordeste)))


proporcao_Sudeste = 42/(28+42)
populacaoSudeste = rvSudeste.rvs(size=int(proporcao_Sudeste*100000), random_state=random_state)
print('Média {}'.format(np.mean(populacaoSudeste)))
print('Desvio {}'.format(np.std(populacaoSudeste)))
print('Tamanho {}'.format(len(populacaoSudeste)))

populacaoBrasil = np.concatenate((populacaoNordeste,populacaoSudeste))
np.random.shuffle(populacaoBrasil)

fig, axs = plt.subplots(1, 1, figsize=(14,6))

axs.hist(populacaoBrasil, density=True, facecolor='g', alpha=0.75, bins=100)
axs.grid(True)
axs.set_title('Distribuição Brasil')


plt.show()

print('Média {}'.format(np.mean(populacaoBrasil)))
print('Desvio {}'.format(np.std(populacaoBrasil)))
print('Tamanho {}'.format(len(populacaoBrasil)))

In [None]:
amostras = 1000
tamanho_amostra = 100
np.random.seed(1)
medias = np.zeros((amostras,1))
for i in range(0,amostras,1):
    medias[i]=np.mean(populacaoBrasil[np.random.randint(0, len(populacaoBrasil),tamanho_amostra)])

In [None]:
# A distribuição das médias aproxima-se de uma Normal, independente da distribuição original que gerou as amostras

n, bins, patches = plt.hist(medias, density=True, facecolor='g', alpha=0.75, bins=50)

mean_ = np.mean(medias)
std_ = np.std(medias)
print('Média {}'.format(mean_))
print('Desvio {}'.format(std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)
plt.plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')

plt.xlabel('Média')
plt.ylabel('Probabilidade')
plt.title('Histogram de médias')
plt.grid(True)
plt.show()

In [None]:
np.random.seed(1)
amostra_1 = populacaoBrasil[np.random.randint(0, len(populacaoBrasil),tamanho_amostra)]
media_1 =np.mean(amostra_1)
std_1 =np.std(amostra_1)

print('Média {}'.format(media_1))
print('Desvio {}'.format(std_1))
print('Desvio corrigido {}'.format(std_1/np.sqrt(tamanho_amostra)))
print('O valor real estará entre {} e {}'.format(media_1-2*std_1/np.sqrt(tamanho_amostra),
                                                media_1+2*std_1/np.sqrt(tamanho_amostra)))

In [None]:
np.random.seed(2)
amostra_Nordeste = populacaoNordeste[np.random.randint(0, len(populacaoNordeste),40)]
media_Nordeste =np.mean(amostra_Nordeste)
std_Nordeste =np.std(amostra_Nordeste)

print('Média {}'.format(media_Nordeste))
print('Desvio {}'.format(std_Nordeste))
print('Desvio corrigido {}'.format(std_Nordeste/np.sqrt(40)))
min_Nordeste = media_Nordeste-2*std_Nordeste/np.sqrt(40)
max_Nordeste = media_Nordeste+2*std_Nordeste/np.sqrt(40)
print('O valor real estará entre {} e {}'.format(min_Nordeste,max_Nordeste
                                                ))

In [None]:
np.random.seed(2)
amostra_Sudeste = populacaoSudeste[np.random.randint(0, len(populacaoSudeste),60)]
media_Sudeste =np.mean(amostra_Sudeste)
std_Sudeste =np.std(amostra_Sudeste)

print('Média {}'.format(media_Sudeste))
print('Desvio {}'.format(std_Sudeste))
print('Desvio corrigido {}'.format(std_Sudeste/np.sqrt(60)))
min_Sudeste = media_Sudeste-2*std_Sudeste/np.sqrt(60)
max_Sudeste = media_Sudeste+2*std_Sudeste/np.sqrt(60)
print('O valor real estará entre {} e {}'.format(min_Sudeste,max_Sudeste
                                                ))

In [None]:
print(min_Nordeste*proporcao_Nordeste + min_Sudeste*proporcao_Sudeste)
print(max_Nordeste*proporcao_Nordeste + max_Sudeste*proporcao_Sudeste)

<font size="6" color="red">Outliers</font>

Outliers são medidas que se afastam das demais medidas de um conjunto.

Podem derivar de erros de medição ou se tratar de eventos raros.

Em ambos os caso merecem atenção, ou para que sejam corrigidos, no caso de erro, ou para verificar a origem de tais eventos raros.

Resumidamente podemos usar duas técnicas para localização de Outliers: desvio padrão e percentis.

Independente da técnica, a plotagem de um gráfico boxplot é útil para verificarmos sua presença.


In [None]:
repeticoes = 1000

# População normal
mean = 5
std = 1.3
rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)

fig, axs = plt.subplots(1, 1, figsize=(10,6))
_ = plt.boxplot(populacao_norm,vert =False, meanline =True)

## Utilizando desvio padrão

In [None]:
media = np.mean(populacao_norm)
std = np.std(populacao_norm)

print('Média {}, STD {}'.format(media,std))

outliers1 = np.where(populacao_norm > (media+3*std))
outliers2 = np.where(populacao_norm < (media-3*std))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

populacao_norm[outliers]

## Utilizando quartis

In [None]:
q25, q75 = np.percentile(populacao_norm, 25), np.percentile(populacao_norm, 75)

iqr= q75 - q25

outliers1 = np.where(populacao_norm > (q75+1.5*iqr))
outliers2 = np.where(populacao_norm < (q25-1.5*iqr))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

populacao_norm[outliers]

<font size="3" color="blue">Exercício: Outliers no índice de felicidade</font>


Plotar o boxplot com os indicadores do índice de felicidade

Verificar se há indicadores com outliers

Escolher um dos indicadores com outliers e verificar quais são os países que são outliers usando quartis e desvio padrão.

In [None]:
if IN_KAGGLE:
    df_original = pd.read_csv("../input/2017.csv")
else:
    df_original = pd.read_csv("2017.csv")
    

df_original.head(2)

In [None]:
df = df_original.loc[:,[  'Happiness.Score',  'Economy..GDP.per.Capita.', 'Family',
       'Health..Life.Expectancy.', 'Freedom', 'Generosity',
       'Trust..Government.Corruption.','Dystopia.Residual']]

In [None]:
fig, axs = plt.subplots(1, 1, figsize=(10,6))
_ = plt.boxplot(df.T,vert =False, meanline =True)

In [None]:
populacao_norm = df.Family.values

q25, q75 = np.percentile(populacao_norm, 25), np.percentile(populacao_norm, 75)

iqr= q75 - q25

outliers1 = np.where(populacao_norm > (q75+1.5*iqr))
outliers2 = np.where(populacao_norm < (q25-1.5*iqr))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

df_original.Country[outliers[0]]

In [None]:
media = np.mean(populacao_norm)
std = np.std(populacao_norm)

print('Média {}, STD {}'.format(media,std))

outliers1 = np.where(populacao_norm > (media+3*std))
outliers2 = np.where(populacao_norm < (media-3*std))

outliers = np.concatenate( (outliers1,outliers2), axis=1)

df_original.Country[outliers[0]]

<font size="6" color="red">Anexo I - Funções Úteis</font>

## Gerando números aleatórios


In [None]:
# Gerando int - biblioteca python standard
print(random.randrange(100, 1000, 2))
print(random.randint(100, 1000))

# Gerando int - biblioteca numpy
print(np.random.randint(100, 1000,2))

# Gerando float - biblioteca python standard
print(random.random())
print(random.uniform(100, 1000))
print(random.normalvariate(1, 1))

# Gerando float - biblioteca numpy
print(np.random.random(5))
print(np.random.randn(5))

np.random.random_sample(size=100)

## Gerando números não aleatórios

In [None]:
print(np.linspace(0.0,1.0,11))
print(np.arange(0.0,10.0,3))
print(np.logspace(0.0,10.0,3))


## Escolha

In [None]:
# Escolha com reposição
# usando numpy np.random.choice(10,size=10,replace=True)


faces = list(range(1,7))
lancamentos = 600
pesos = [1/6,1/6,0.5/6,0.5/6,2/6,1/6]
resultados = random.choices(population=faces, weights=pesos, k=lancamentos)
#print(resultados)
for i in faces:
    print('Face {}, peso {}, vezes {}'.format(i,pesos[i-1],resultados.count(i)))

In [None]:
# Escolha sem reposição
# usando numpy np.random.choice(10,size=10,replace=False)


lista = list(range(1,7))
random.sample(population=lista, k=len(lista))


## Embaralhamento

In [None]:
# Embaralhamento
# usando numpy np.random.choices

lista = list(range(1,7))
random.shuffle(lista)
lista

<font size="6" color="red">Anexo II - Referências</font>

Tutoriais

https://www.youtube.com/watch?v=Iq9DzN6mvYA

https://machinelearningmastery.com/how-to-generate-random-numbers-in-python/

http://nbviewer.jupyter.org/url/norvig.com/ipython/Probability.ipynb

https://www.youtube.com/watch?v=KhAUfqhLakw

https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

https://www.datacamp.com/community/tutorials/python-statistics-data-science

https://machinelearningmastery.com/


Distribuições de probabilidade

http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

Cursos

https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+1T2018/course/#block-v1:UCSanDiegoX+DSE210x+1T2018+type@chapter+block@c1c0e5a497924a40b800bf69e96b4004

Documentação bibliotecas Python

https://docs.python.org/3/library/statistics.html

https://docs.python.org/3/library/random.html

Documentação bibliotecas SciPy

https://docs.scipy.org/doc/scipy/reference/stats.html

Documentação bibliotecas NumPy

https://docs.scipy.org/doc/numpy/reference/routines.random.html

https://docs.scipy.org/doc/numpy/reference/routines.statistics.html

Dataframe

http://pandas.pydata.org/pandas-docs/version/0.13/visualization.html
