# An√°lise Estat√≠stica de Dados
## P√≥s Gradua√ß√£o em Ci√™ncia de Dados e Big Data - PUC Minas

Datasets:
* https://www.kaggle.com/PromptCloudHQ/imdb-data

Refer√™ncias:
* http://www.scipy-lectures.org/packages/statistics/index.html

Dicas:
* https://github.com/JosPolfliet/pandas-profiling

### √çndice:
* [Tabelas de frequ√™ncias](#Resumo-de-dados-com-tabelas-de-frequ√™ncias)
* [Medidas de Tend√™ncia Central](#Medidas-de-tend√™ncia-central)
    * [M√©dia](#M√©dia)
    * [Mediana](#Mediana)
    * [Moda](#Moda)
* [Medidas de posi√ß√£o](#Medidas-de-posi√ß√£o)
    * [Separatrizes](#Separatrizes)
    * [Score z](#Score-z)
* [Medidas de dispers√£o](#Medidas-de-dispers√£o)
    * [Amplitude](#Amplitude)
    * [Desvio padr√£o](#Desvio-padr√£o)
* [Correla√ß√£o](#Correla√ß√£o)
* [Representa√ß√µes gr√°ficas](#Representa√ß√µes-gr√°ficas)
    * [Gr√°fico de linhas](#Gr√°fico-de-linhas)
    * [Gr√°fico de barras](#Gr√°fico-de-barras)
    * [Gr√°fico de setores](#Gr√°fico-de-setores)
    * [Histograma](#Histograma)
    * [Diagrama de dispers√£o](#Diagrama-de-dispers√£o)
    * [Boxplot](#Boxplot)
* [Probabilidades](#Probabilidades)
    * [Simula√ß√µes](#Simula√ß√µes)
    * [O problema de Monty Hall](#O-problema-de-Monty-Hall)
* [Infer√™ncia](#Infer√™ncia)
    * [Intervalos de confian√ßa](#Intervalos-de-confian√ßa)
    * [Testes de hip√≥teses](#Testes-de-hip√≥teses)

In [None]:
import math
import random

import matplotlib.pyplot as plt
from matplotlib import style
import pandas as pd
import scipy
import scipy.stats
import numpy as np

%matplotlib inline

In [None]:
imdb_data = pd.read_csv('datasets/IMDB-Movie-Data.csv')

In [None]:
imdb_data.head()

In [None]:
imdb_data.info()

In [None]:
imdb_data['main_genre'] = imdb_data.Genre.apply(lambda x: x.split(',')[0]).values
imdb_data.head()

## Resumo de dados com tabelas de frequ√™ncias

### Dados discretos: G√™nero

In [None]:
# O m√©todo value_counts de um pandas DataFrame ou pandas Series retorna os valores e a frequ√™ncia
#  de ocorr√™ncia dos mesmos ordenado do mais frequente para o menos frequente

imdb_data.main_genre.value_counts()

In [None]:
# Para a frequ√™ncia relativa √© s√≥ usar o par√¢metro normalize=True

imdb_data.main_genre.value_counts(normalize=True)

In [None]:
# Pandas possui a fun√ß√£o cumsum() para fazer a soma cumulativa
# Com isso podemos fazer a Frequ√™ncia acumulada

imdb_data.main_genre.value_counts().cumsum()

In [None]:
# Gerando um DataFrame com todas essas frequ√™ncias
pd.DataFrame({'Fa': imdb_data.main_genre.value_counts(),
              'Fac': imdb_data.main_genre.value_counts().cumsum(),
              'Fr': imdb_data.main_genre.value_counts(normalize=True)})

### Dados cont√≠nuos: Rating

In [None]:
import math
n = imdb_data.shape[0]

In [None]:
# Para dados cont√≠nuos precisamos definir os limites de classes ou, ao menos, a quantidade de classes

# Calculando apenas a quantidade de classes atrav√©s da raiz de n
# Usamos o sort=False para que os dados fiquem ordenados pela classe e n√£o pela frequ√™ncia
# Passamos tamb√©m o par√¢metro bins com a quantidade de classes
imdb_data.Rating.value_counts(sort=False, bins=math.sqrt(n))

In [None]:
# Uma outra forma mais "bonitinha" √© usar a fun√ß√£o pd.cut
# 
# Esta fun√ß√£o identifica em qual bin est√° o dado. Por√©m ela retorna uma pd.Series com os bins 
# onde os dados est√£o. Temos, ent√£o, que fazer o value_counts.

pd.cut(imdb_data.Rating, bins=math.sqrt(n)).value_counts(sort=False)

In [None]:
# Outra vantagem do pd.cut √© que podemos passar os limites das classes e n√£o apenas o intervalo de classes.

# Vamos calcular "na unha" as classes para a coluna Rating
k = math.sqrt(n)
k = 20 if k > 20 else int(k) # Limita a quantidade de classes em 20. Opcional
h = (imdb_data.Rating.max() - imdb_data.Rating.min()) / (k - 1)
bins = [imdb_data.Rating.min() - h/2]
for i in range(k):
    bins.append(bins[i] + h)
pd.cut(imdb_data.Rating, bins).value_counts(sort=False)

In [None]:
# A fun√ß√£o pd.cut √© √∫til para transformar uma vari√°vel cont√≠nua em discreta no seu DataFrame

imdb_data['Rating Bin'] = pd.cut(imdb_data.Rating, bins)
imdb_data.head()

[Voltar](#√çndice:)

## Medidas de tend√™ncia central

### M√©dia

In [None]:
# pandas DataFrames e pandas Series t√™m m√©todos espec√≠ficos para calcular a m√©dia das colunas

imdb_data.mean()

In [None]:
# Se, por algum motivo, quiser calcular a m√©dia das linhas

imdb_data.mean(axis=1)

In [None]:
# Se n√£o for um pandas DataFrame, precisa da biblioteca Numpy para alta performance
# ou do m√≥dulo statistics sem precisar instalar nada

import numpy as np
import statistics

data_list_√≠mpar = [1, 2, 3, 4, 5]
data_list_par = [1, 2, 3, 4]

print(np.mean(data_list_√≠mpar))
print(np.mean(data_list_par))
print(statistics.mean(data_list_√≠mpar))

In [None]:
# Cuidado com os missings. 
statistics.mean(imdb_data.Metascore)

In [None]:
# numpy.mean j√° resiste bem aos missings
np.mean(imdb_data.Metascore)

In [None]:
# Gerando dados para comparar a performance
big_data = [random.gauss(0, 1) for i in range(1000000)]

In [None]:
%%timeit
np.mean(big_data)

In [None]:
%%timeit
statistics.mean(big_data)

### Propriedades alg√©bricas da m√©dia

In [None]:
big_m√©dia = np.mean(big_data)
desvios = [data - big_m√©dia for data in big_data]
print("Soma dos desvios em rela√ß√£o √† m√©dia: {:0.8f}".format(sum(desvios)))

In [None]:
constantes = [random.gauss(0, 0.1) for i in range(10)]

for constante in constantes:
    print("Soma dos quadrados dos desvios em rela√ß√£o a {:0.3f}: {:0.8f}".format(constante,
                                                                                sum([(data - constante)**2 for data in big_data])))
    
print("Soma dos quadrados dos desvios em rela√ß√£o √† m√©dia: {:0.8f}".format(constante,
                                                                            sum([(data - big_m√©dia)**2 for data in big_data])))

In [None]:
print("M√©dia dos dados:", big_m√©dia)
m√©dia3 = np.mean([np.multiply(data, 3) for data in big_data])
print("M√©dia dos dados multiplicados por tr√™s:", m√©dia3)
print("Diferen√ßa entre essa m√©dia e big_m√©dia x 3:", m√©dia3 - (big_m√©dia * 3.0))
print('Essa m√©dia √© "igual" a big_m√©dia x 3?', math.isclose(m√©dia3, big_m√©dia*3))
print()
m√©dia2 = np.mean([data/2 for data in big_data])
print("M√©dia dos dados divididos por dois:", m√©dia2)
print("Diferen√ßa entre essa m√©dia e big_m√©dia / 2:", m√©dia2 - big_m√©dia/2)
print('Essa m√©dia √© "igual" a big_m√©dia / 2?', math.isclose(m√©dia2, big_m√©dia/2))

### Mediana

In [None]:
# Mesma coisa com a mediana
imdb_data.median()

In [None]:
print(np.median(data_list_√≠mpar))
print(np.median(data_list_par))
print(statistics.median(data_list_par))

In [None]:
# Cuidado com dados faltantes

np.median(imdb_data.Metascore)

In [None]:
# Pra isso numpy tem uma s√©rie de m√©todos que come√ßam com numpy.nan
np.nanmedian(imdb_data.Metascore)

In [None]:
# Como a m√©dia e a mediana se comportam com dados extremos?
data = [2, 3, 4, 2, 3, 1, 3]
print("M√©dia de {}: {:0.2f}".format(data, np.mean(data)))
print("Mediana de {}: {}".format(data, np.median(data)))
data_extremo = data + [1000]
print("M√©dia de {}: {}:".format(data_extremo, np.mean(data_extremo)))
print("Mediana de {}: {}".format(data_extremo, np.median(data_extremo)))

### Moda

In [None]:
imdb_data.mode()

In [None]:
# Numpy n√£o tem um m√©todo para c√°lculo da moda. Esse m√©todo est√° no m√≥dulo scipy.stats
from scipy import stats
moda = stats.mode(['a', 'b', 'c', 'd', 'e', 'e', 'f', 'f', 'f', 'g', 'h'])
print("Moda: {[0]}".format(moda))
print("Frequ√™ncia: {[1]}".format(moda))

In [None]:
statistics.mode(['a', 'b', 'c', 'd', 'e', 'e', 'f', 'f', 'f', 'g', 'h'])

In [None]:
# O problema do m√©todo mode do m√≥dulo statistics √© que se existir mais de uma moda
# o c√≥digo gera uma exce√ß√£o


statistics.mode(['a', 'b', 'c', 'd', 'e', 'e', 'f', 'f', 'g', 'g', 'h'])

In [None]:
# Numpy/Scipy retornam a primeira moda, n√£o retornam todas üòí
stats.mode(['a', 'b', 'c', 'd', 'e', 'e', 'f', 'f', 'g', 'g', 'h'])

In [None]:
%%timeit
statistics.mode([1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 7, 7, 8])

In [None]:
%%timeit
stats.mode([1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 7, 7, 8])

## Medidas de posi√ß√£o
### Separatrizes

In [None]:
# No m√©todo quantile do pandas DataFrame ou pandas Series o percentil vai de 0 a 1
imdb_data.quantile(0.25)

In [None]:
# No numpy.percentile ou numpy.nanpercentile j√° √© de 0 a 100
np.nanpercentile(imdb_data['Revenue (Millions)'], 25)

In [None]:
data_list_par

In [None]:
# Comparando o manual com o autom√°tico

#Usando a interpola√ß√£o 'midpoint' para comparar com o que n√≥s convencionamos
np.percentile(data_list_par, 75, interpolation='midpoint')

In [None]:
# Fazendo 'na unha'


def percentil(data, i):
    n = len(data)
    # Econtrando a posi√ß√£o
    P = i * (n + 1) / 100
    if P == int(P):
        percent = data[P-1]
    else:
        P = int(P)
        percent = (data[P-1] + data[P])/2

    return percent

percentil(data_list_par, 75)

In [None]:
percentil(data_list_√≠mpar, 75)

In [None]:
np.percentile(data_list_√≠mpar, 75)

In [None]:
data_list_√≠mpar

### _Score_ z

In [None]:
# O pandas n√£o tem uma fun√ß√£o pronta mas √© relativamente f√°cil fazer a transforma√ß√£o
imdb_data[['Runtime (Minutes)', 'Rating', 'Votes',
       'Revenue (Millions)', 'Metascore']].apply(lambda col: (col - col.mean())/col.std())

In [None]:
# Numpy tamb√©m n√£o, ent√£o tem que apelar para o scipy.stats
# O problema √© que ele n√£o consegue as colunas com missing

print(stats.zscore(imdb_data[['Runtime (Minutes)', 'Rating', 'Votes',
       'Revenue (Millions)', 'Metascore']], ddof=1))

In [None]:
# Neste caso a melhor op√ß√£o √© usar o scikit-learn pois ele armazena
# a m√©dia e o desvio padr√£o usados na transforma√ß√£o

# O 'problema' √© que n√£o aceita valores missing....

from sklearn import preprocessing

# Cria a inst√¢ncia do objeto StandardScaler
zscorer = preprocessing.StandardScaler()

# Armazena os dados de m√©dia e desvio padr√£o das colunas
zscorer.fit(imdb_data[['Runtime (Minutes)', 'Rating', 'Votes']])

# Efetivamente aplica a transforma√ß√£o utilizando a m√©dia e desvio armazenados
# Voc√™ pode aplicar o m√©todo transform em bases futuras com as mesmas vari√°veis!
zscorer.transform(imdb_data[['Runtime (Minutes)', 'Rating', 'Votes']])

## Medidas de dispers√£o
### Amplitude

In [None]:
# pandas n√£o nos fornece um m√©todo para calcular a amplitude...

imdb_data[['Rank', 'Year', 'Runtime (Minutes)', 'Rating', 'Votes',
       'Revenue (Millions)', 'Metascore']].apply(lambda col: col.max() - col.min())

In [None]:
# numpy.ptp n√£o funcionou diretamente com o DataFrame. Tive que transformar em um array

# Novamente o problema com os dados faltantes
np.ptp(imdb_data[['Rank', 'Year', 'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']].values, axis=0)


### Desvio padr√£o

In [None]:
# Aqui aparece a quest√£o do ddof. O denominador da f√≥rmula do
# desvio padr√£o √© n-ddof. Como na f√≥rmula que definimos o
# denominador √© n-1 recomendo usar ddof=1; mas s√≥ para efeitos
# acad√™micos. Para efeitos pr√°ticos em um projeto de DS pode
# deixar ddof=0 pois o desvio padr√£o nesses casos √© um orientador
# e n√£o um n√∫mero sobre o qual efetivamente se tomar√£o decis√µes
# erradas com base em diferen√ßas na segunda ou terceira casa decimal

imdb_data.std(ddof=1)

In [None]:
np.std(imdb_data.Metascore, ddof=1)

In [None]:
np.std([1, 2, 3, 4], ddof=1)

In [None]:
k = [1, 2, 3, 4]
np.sqrt(sum([(i-2.5)**2 for i in k])/3)

## Correla√ß√£o

In [None]:
imdb_data[['Year', 'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']].corr()