# Noções de Estatística

![alt text](https://joaomrcarvalho.github.io/images/Figure4.14.jpg)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Frequências 

### Frequência absoluta

In [None]:
data = pd.read_csv('https://joaomrcarvalho.github.io/datasets/dm/adult.data')

data.head()

In [None]:
print(data['education'].value_counts())

print('----------------------------------------------------------')

print(pd.crosstab(index = data['education'],columns='count'))

In [None]:
freq_tab = pd.crosstab(index = data['education'],columns='count')

print(freq_tab)

print('--------------------------------------------------------------------------')

freq_tab = pd.crosstab(index = data['education'],columns='count',normalize=True)
print(freq_tab)

In [None]:
freq_tab.plot.bar()

In [None]:
freq_tab = pd.crosstab(index = data['education'],columns=data['sex'])

freq_tab 

In [None]:
pd.crosstab(index = data['education'], columns=data['sex'], normalize='index')

In [None]:
pd.crosstab(index = data['education'],columns=data['sex'],normalize='columns')


In [None]:
freq_tab = pd.crosstab(index = data['education'],columns=data['sex'],normalize='all')

freq_tab

In [None]:
freq_tab = pd.crosstab(index = data['education'],columns=data['sex'],normalize='all',margins=True)
freq_tab

In [None]:
freq_tab = pd.crosstab(index = [data['sex'],data['race']], columns=data['education'],margins=True)

freq_tab

In [None]:
freq_tab.loc[' Female'] 

In [None]:
freq_tab[' Bachelors']

In [None]:
print(data.head())

data['freq_fnlwgt'], bins = pd.cut(data['fnlwgt'], bins=30, labels=[x for x in range(30)], include_lowest=True, retbins=True)    

print(data[['freq_fnlwgt','fnlwgt']].head(5))

print('-------------------------------------------------------------------------------------------------------')

print(bins)

## Estatística descritiva

### Medidas básicas

In [None]:
data = pd.read_csv('https://joaomrcarvalho.github.io/datasets/dm/adult.data')

s_data = data[['age','occupation','capital-gain']]
s_data.head()

In [None]:
s_data['capital-gain'].sum()

In [None]:
s_data[['capital-gain','age']].mean(skipna=True)

**Sugestão de Exercício:** Separar os indivíduos por: quem recebe acima da média quem recebe abaixo da média. De seguida, calcular a idade média de cada grupo e ver se existe algum padrão.

In [None]:
sorted_data = s_data.sort_values(by='age')

print(sorted_data.head(5))

print('-------------------------------------------------------------------------------------------')

print(sorted_data.tail(5))

In [None]:
sorted_data['capital-gain-cum'] = sorted_data['capital-gain'].cumsum()

sorted_data.plot.line(x='age',y='capital-gain-cum')

In [None]:
s_data.describe()

In [None]:
s_data.describe(include='all')

In [None]:
print(s_data.count())

print('-----------------------------------------------------------------------')

print(s_data['age'].count())

In [None]:
print(s_data.max())

print('------------------------------------------------------------------------------------------------------------')

print(s_data.min())

In [None]:
print(s_data.median())

print('---------------------------------------------------------------------------------')

print(s_data['age'].median())

In [None]:
print(s_data['age'].var())

In [None]:
print(s_data['age'].var(ddof=0))

In [None]:
print(s_data['age'].std())

In [None]:
import numpy as np

r_data = s_data.copy() 

r_data.drop(r_data[r_data['age'] >= 70].index,inplace=True)

var_original = s_data['age'].var()
var_copia = r_data['age'].var()

print(var_original/var_copia)

print('------------------------------------------------')

std_original = s_data['age'].std()
std_copia = r_data['age'].std()

print(std_original/std_copia)

### Introdução à Correlação

In [None]:
data = pd.read_csv('https://joaomrcarvalho.github.io/datasets/dm/auto-mpg.data', delim_whitespace=True, header=None,
            names = ['mpg', 'cylinders', 'displacement','horsepower',
            'weight', 'acceleration', 'model_year', 'origin', 'name'],
            na_values='?')

data.dropna(inplace=True)

data.head()

In [None]:
# obtemos a covariância entre a variável 'displacement' e a variável 'horsepower'
print(data['displacement'].cov(data['horsepower']))

In [None]:
data.plot.scatter(x='displacement',y='horsepower')

In [None]:
print(data['displacement'].cov(data['mpg']))

In [None]:
data.plot.scatter(x='displacement',y='mpg')

In [None]:
print(data['mpg'].cov(data['acceleration']))

data.plot.scatter(x='acceleration',y='mpg')

In [None]:
data.cov()

In [None]:
covm = data.cov()

covm.style.background_gradient(cmap='coolwarm',axis=1)

In [None]:
print(data['displacement'].corr(data['horsepower'],method='pearson'))
# Nota: o valor default para o parâmetro 'method' da função '.corr' já é pearson

data.plot.scatter(x='displacement',y='horsepower')

In [None]:
print(data['displacement'].corr(data['mpg'],method='pearson'))

data.plot.scatter(x='displacement',y='mpg')

In [None]:
print(data['mpg'].corr(data['acceleration'],method='pearson'))

data.plot.scatter(x='acceleration',y='mpg')

Tal como a covariância, também podemos obter a matriz de correlação de Pearson: 

In [None]:
corr_m = data.corr()

corr_m.style.background_gradient(cmap='coolwarm',axis=1)

In [None]:
# !wget 'https://joaomrcarvalho.github.io/datasets/dm/coinbaseUSD_1-min_data_2014-12-01_to_2019-01-09.zip'
# !unzip 'coinbaseUSD_1-min_data_2014-12-01_to_2019-01-09.zip'

df = pd.read_csv('coinbaseUSD_1-min_data_2014-12-01_to_2019-01-09.csv')

# para o nosso caso, vamos apenas trabalhar com as variáveis 'Timestamp' e 'Open'
data = df[['Timestamp','Open']]

data.dropna(inplace=True)

data.head()

In [None]:
data.plot.scatter(x='Timestamp',y='Open',figsize=(30,5))

In [None]:
data.iloc[-69900:-69800].plot.scatter(x='Timestamp',y='Open',figsize=(15,7))

In [None]:
# vamos ver quais as correlações utilizando apenas este pedaço dos dados
chuck = data.iloc[-69900:-69800:].copy()

print(chuck['Timestamp'].corr(chuck['Open'],method='pearson'))

print(chuck['Timestamp'].corr(chuck['Open'],method='spearman'))

In [None]:
data.iloc[-69900:-69700].plot.scatter(x='Timestamp',y='Open',figsize=(15,7))

In [None]:
chuck = data.iloc[-69900:-69700:].copy()

print(chuck['Timestamp'].corr(chuck['Open'],method='pearson'))
print(chuck['Timestamp'].corr(chuck['Open'],method='spearman'))

## Distribuições Estatísticas

In [None]:
space = np.random.randint(1,21,1000)

print(space)

In [None]:
def pmf(vector):
    pmd = []
    value = 1
    
    while value <= max(vector):
        
        count = 0
        for x in vector:
            if x <= value:
                count += 1
        pmd.append(float(count)/len(vector))
        value += 1
    return pmd

pmd = pmf(space)

pmd

In [None]:
plt.plot(range(len(pmd)),pmd)

In [None]:
events = pd.Series(space)

events.plot.kde()

### Distribuição de  Bernoulli 

In [None]:
plt.bar([0,1],[0.5,0.5])

In [None]:
plt.bar([0,1],[0.02,0.98])

### A distribuição uniforme 

In [None]:
# vamos criar uma pd.Series contendo as várias bolas do saco
balls_data = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])

# vamos desenhar um histograma para analisarmos a distribuição da probabilidade dessa variável
balls_data.plot.hist(bins=12)

### A distribuição Binomial

In [None]:
# vamos definir a fórmula para esta distribuição
from math import factorial

def binomial(x, n, p):
    return float(factorial(n)) / (factorial(x) * factorial(n - x)) * p ** x * (1 - p)**(n - x)

In [None]:
p_k = pd.Series([binomial(x,101,0.5) for x in range(1, 101)])

p_k.index = range(1, 101)

p_k.plot.bar(figsize=(17,8))

In [None]:
p_k = pd.Series([binomial(x,101,0.16666667) for x in range(1,101)])
p_k.index = range(1,101)

p_k.plot.bar(figsize=(17,8))

###  A distribuição Normal

In [None]:
dn = pd.Series(np.random.randn(500))

dn.plot.kde()

In [None]:
dn = pd.Series(np.random.randn(10000))

dn.plot.kde()

In [None]:
print(np.mean(dn))
print(np.median(dn))

### Analisar a distribuição de um conjunto de dados

In [None]:
data = pd.read_csv('https://joaomrcarvalho.github.io/datasets/dm/iris.data',names=['x1','x2','x3','x4','species'])
data.head()

In [None]:
x1 = data['x1']

x1.plot.kde()

In [None]:
print(x1.mean())

print(x1.median())

In [None]:
print(x1.skew())

x1.plot.kde()

In [None]:
x2 = data['x2']

print(x2.kurt())

x2.plot.kde()

**Sugestão de Exercício:** Analisar a distribuição das variáveis 'x1' e 'x2' com os dados divididos por espécies. Criar regras com base nessas variáveis que permitam definir se os valores correspondem à espécie 1, 2 ou 3. 

Dica: Qual o skew da variável x1 para cada uma das espécies? Que informação isso fornece sobre a relação desse valor com a sua média?

**Sugestão de Exercício 2:** Testar a função scipy.stats.normaltest para testar se uma distribuição é normal ( https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html ).

## O teorema do limite central

In [None]:
from scipy.stats import skewnorm

r = pd.Series(skewnorm.rvs(2000, size=250000,loc=5,scale=1))

print('Média da população: {}'.format(r.mean()))
print('Mediana da população: {}'.format(r.median()))
print('Skew da população: {}'.format(r.skew()))

r.plot.kde(figsize=(20,7))


In [None]:
def getSampleMean(vector, sample_size):
    sample = np.random.choice(vector, sample_size)
    return sample.mean()

In [None]:
sample_mean_5 = []

for _ in range(50000):
    sample_mean_5.append(getSampleMean(r,5))

In [None]:
sample_mean_30 = []
for _ in range(50000):
    sample_mean_30.append(getSampleMean(r,30))

    
sample_mean_120 = []
for _ in range(50000):
    sample_mean_120.append(getSampleMean(r,120))

    
sample_mean_3600 = []
for _ in range(50000):
    sample_mean_3600.append(getSampleMean(r,3600))

In [None]:
means = pd.DataFrame({'size_5':sample_mean_5,
                      'size_30':sample_mean_30,
                      'size_120':sample_mean_120,
                      'size_3600':sample_mean_3600})

In [None]:
means.plot.kde(figsize=(25,10))

In [None]:
def playDices(n_times):   
    means = []
    values = []
    
    for i in range(1, n_times+1):
        values.append(np.random.randint(1,7))
        
        means.append(sum(values)/float(i))
    return means,values

In [None]:
means, values = playDices(10000)

simu_df = pd.DataFrame({'means':means,
                        'values':values})

In [None]:
simu_df.iloc[:200]['means'].plot.line(figsize=(20,5),ylim=(1,6))

In [None]:
simu_df['values'].plot.kde()

## Introdução à redução de dimensionalidade

### Introdução - lidar com imagens

In [None]:
# importar conjunto de dados MNIST directamente do scikit-learn
from sklearn.datasets import load_digits

digits = load_digits()

data = digits['data']

labels = digits['target']

print(data.shape)

In [None]:
image = data[0].reshape((8,8))

In [None]:
plt.imshow(image)

### Análise de Componentes Principais (PCA)

In [None]:
from sklearn.decomposition import PCA 

pca = PCA(n_components=2)

reduced_data = pca.fit_transform(data)

print(reduced_data)

In [None]:
plt.scatter(reduced_data[:,0],reduced_data[:,1],c=labels)

### T-distributed Stochastic Neighbor Embedding 

In [None]:
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2,learning_rate=300,perplexity = 30,early_exaggeration = 12,init = 'random')
reduced_data = tsne.fit_transform(data)

In [None]:
plt.scatter(reduced_data[:,0],reduced_data[:,1],c=labels)