# 4.3. Conceitos fundamentais de estatística para os modelos de crédito

In [2]:
import numpy as np
import pandas as pd
from scipy import stats

In [3]:
# Capturando os dados para a análise

def consulta_bc(codigo_bcb):
    url = "http://api.bcb.gov.br/dados/serie/bcdata.sgs.{}/dados?formato=json".format(codigo_bcb)
    df = pd.read_json(url)
    df["data"] = pd.to_datetime(df["data"], dayfirst=True)
    df.set_index("data", inplace=True)
    return df

ipca = consulta_bc(433) # índice nacional de preços ao consumidor-amplo IBGE

In [4]:
ipca["valor"].describe()

count    513.000000
mean       5.969454
std       10.877966
min       -0.680000
25%        0.380000
50%        0.780000
75%        6.840000
max       82.390000
Name: valor, dtype: float64

In [6]:
ipca["valor"].describe()[2]

10.877966230453449

In [7]:
# Medidas de tendência central
# Média

media = np.mean(ipca["valor"])
media

5.969454191033146

In [8]:
# Medidas de tendência central
# Mediana

np.median(ipca["valor"])

0.78

In [9]:
# Medidas de tendência central
# Moda

moda = stats.mode(ipca["valor"])

print("O valor da moda é {} com um total de registros de {}".format(moda.mode[0], moda.count[0]))

O valor da moda é 0.24 com um total de registros de 7


In [11]:
# Range - Intervalo
# O intervalo dá uma medida de quão distantes estão os valores.
# O intervalo é simplesmente calculado como o valor máximo - valor mínimo

np.ptp(ipca["valor"])

83.07000000000001

In [12]:
# Variância

np.round(np.var(ipca["valor"]), 3)

118.099

In [14]:
ipca["valor"].mean()

5.969454191033146

In [15]:
ipca["valor"].std()

10.877966230453449

In [13]:
# Desvio Padrão

# A variância pode ficar muito grande para grandes conjuntos de dados e, portanto,
# muitas vezes usaremos o desvio padrão, que é a raiz quadrada da variância.
# 68,2% dos dados estão dentro de 1 desvio padrão da média,
# 95,4% estão dentro de 2 desvios padrão da média e
# 99,7% estão dentro de 3 desvios padrão.

np.round(np.std(ipca["valor"]), 3)

10.867

In [17]:
# Erro padrão

# O erro padrão da média (SE da média) estima a variabilidade entre as médias amostrais
# que você obteria se coletasse várias amostras da mesma população.
# O erro padrão da média estima a variabilidade entre amostras enquanto
# o desvio padrão mede a variabilidade dentro de uma única amostra.

np.round(stats.sem(ipca["valor"]), 3)

0.48

Servir como base para a criação de novas variáveis para os nossos modelos preditivos!