In [None]:
!pip install hmmlearn

In [None]:
#Manipulação de Dados
import pandas as pd
import numpy as np

#Visualização de Dados
import missingno
import matplotlib.pyplot as plt

#Estatistica
from scipy.stats import norm
from scipy.stats import probplot

#markov
from hmmlearn import hmm

#Leitura do documento CSV
df = pd.read_csv("VALE.csv")



In [None]:
df.head(5)

In [None]:
df.tail(5)

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
# A describe é responsavel por encontrar os valores estatisticos da tabela (media, valor minimo, maximo, valores unicos, etc)
df.describe(include="all")

In [None]:
#apresenta a quantidade de linhas x colunas
df.shape

In [None]:
linha, coluna = df.shape

In [None]:
print(f"Número de linhas é: {linha}")

In [None]:
print(f"Número de colunas é: {coluna}")

In [None]:
#apresenta todas as colunas disponiveis no BD
df.columns

In [None]:
#seleciona colunas
df.Close

In [None]:
#renomeando a coluna Adj Close para Adj_close
df.rename(columns={"Adj Close" : "Adj_close"}, inplace=True)

In [None]:
df.Adj_close

Dados Faltantes

In [None]:
df.isnull().any()

In [None]:
#vê quantos valores estão null
df[df.isnull().any(axis=1)].head()

In [None]:
#a missingno é uma das bibliotecas de visualização de dados e nela são passados o dataframe e o tamanho da matriz

missingno.matrix(df, figsize=(40,10))

In [None]:
#apaga os valores faltantes e adiciona na df
df = df.dropna()

In [None]:
#olha se ainda existe algum valor falso
df.isnull().any()

In [None]:
#mostra as informações dos dados
df.info()

In [None]:
df.dtypes

In [None]:
#altera o tipo da coluna, aqui no exemplo está alterando a coluna Date que está no tipo Object e coloca no tipo datetime
df['Date'] = pd.to_datetime(df['Date'])

In [None]:
df.dtypes

In [None]:
#apresenta a maior data e a menor
df['Date'].min(), df['Date'].max()

In [None]:
#criando um novo dataframe com base no df, nesse novo vai ser pego as colunas 'Close', 'Adj_close' e está colocando como index a Date
df2 = pd.DataFrame(data = df[['Close', 'Adj_close']].to_numpy(), index=df["Date"], columns = [['Close', 'Adj_close']])

In [None]:
#mostra o df2
df2

In [None]:
#plotagem do df2 com legenda e tamanho da matriz 10x10
df2.plot(legend=True, figsize=(20,10))

In [None]:
df.head()

In [None]:
#pega o valor do dia anterior
df['P_close'] = df['Close'].shift(1)

In [None]:
df.head()

In [None]:
#inserçao de uma nova coluna com base nas colunas P_close e Close, onde ele faz a coluna Close dividida pela P_close e depois diminui 1
df['Return'] = df['Close'] / df['P_close'] - 1

In [None]:
df.head()

In [None]:
#calcula o percentual de retorno (faz a mesma coisa que a linha anterior)
df["Return2"] = df['Close'].pct_change(1)

In [None]:
df.head()

In [None]:
#deleta a coluna
del df['Return2']

In [None]:
df.head()

In [None]:
#Cria uma nova coluna com o log do valor vindo de return  
df['Log_Return'] = np.log(df['Return']+ 1)

In [None]:
df.head()

In [None]:
#Encontra a media e o desvio padrao
df['Return'].mean(), df['Return'].std()

In [None]:
#Encontra a media e o desvio padrao
df['Log_Return'].mean(), df['Log_Return'].std()

In [None]:
#plot um histograma
df['Return'].hist(bins=100)

#a distribuição tem formato de sino, o que quer dizer que é uma distribuição normal

In [None]:
df['Log_Return'].hist(bins=100)

In [None]:
x= np.linspace(df['Return'].min(), df['Return'].max(), 100)

In [None]:
#calcula a probabilidade
y= norm.pdf(x, loc= df['Return'].mean(), scale= df['Return'].std())

In [None]:
plt.plot(x,y)
df['Return'].hist(bins=100, density=True)

In [None]:
#graficos de probabilidades
probplot(df['Return'].dropna(), dist='norm', fit=True, plot=plt)

#o dropna esta apagando os alores que nao existem
#dist é o tipo de distribuição (tipo do grafico)
#fit é o ajuste dos dados

In [None]:
#calculo da simetria
df['Return'].skew()

#Em Estatística, a assimetria, também conhecida como obliquidade é uma medida da 
#falta de simetria de uma determinada distribuição de frequência. É definida por:
# {\displaystyle \mathrm {v={\frac {m_{3}}{\sigma ^{3}}}} }
# Onde m₃ é o terceiro Momento central e σ é o desvio-padrão.

In [None]:
#calculo da curtose
df['Return'].kurtosis()

#Em estatística descritiva, a curtose é uma medida de forma que caracteriza o 
#achatamento da curva da função de distribuição de probabilidade. É usualmente definida como:
# {\displaystyle \mathrm {{\frac {m_{4}}{\sigma ^{4}}}+} } Onde {\displaystyle \mathrm {m_{4}} } é
#o quarto momento central e σ é o desvio-padrão.


In [None]:
#calculo do intervalo de confiança
values = df['Return'].dropna().to_numpy() 

#Em estatística, intervalo de confiança é um tipo de estimativa por intervalo de 
#um parâmetro populacional desconhecido. Introduzido na estatística por Jerzy Neyman em 1937,
# é um intervalo observado que pode variar de amostra para amostra e que com dada 
#frequência inclui o parâmetro de interesse real não observável.

#Aqui foi criado um array com os valores de confiança, cada um em uma linha diferente do array

In [None]:
values

In [None]:
m = values.mean()
s = values.std(ddof=1)

#tá fazendo o calculo da média e do desvio padrao dos valores encontrados no array

In [None]:
low = m - 1.96 * s / np.sqrt(len(values))

#calculo para encontrar o menor valor

high = m + 1.96 * s / np.sqrt(len(values))

#calculo para encontrar o maior valor

In [None]:
df['Return'].hist(bins=100, density = True, figsize=(20,10))
plt.axvline(m, label="mean", color='red')
plt.axvline(low, label="low", color='green')
plt.axvline(high, label="high", color='green')
plt.axvline(0, label="zero", color='blue')
plt.legend()

In [None]:
plt.axvline(m, label="mean", color='red')
plt.axvline(low, label="low", color='green')
plt.axvline(high, label="high", color='green')
plt.axvline(0, label="zero", color='blue')
plt.legend()

In [None]:
df3 = pd.read_csv('VALE.csv', index_col=0, parse_dates=True)

In [None]:
df3.head()

In [None]:
df3_close = pd.DataFrame(df3['Close'])

In [None]:
df3_close.head()

In [None]:
df3_close.plot()

In [None]:
df3_close['Close'].plot(figsize=(20,10), label="Vale")
df3_close['Close'].rolling(10).mean().plot(label="10 dias")
df3_close['Close'].rolling(50).mean().plot(label="50 dias")

#media movel

In [None]:
df3_ret = np.log(df3_close.pct_change(1)+1)

In [None]:
df3_ret.plot(figsize=(20,10))

In [None]:
df3_ret['Close'].plot( figsize=(20,6), label="Vale")
df3_ret['Close'].rolling(10).mean().plot(label="10 dias")
df3_ret['Close'].rolling(50).mean().plot(label="50 dias")

In [None]:
df4 = pd.read_csv('VALE.csv', index_col='Date', parse_dates=True)

In [None]:
df4.head()

In [None]:
retorno = np.log(df4['Close']).diff()

In [None]:
retorno.dropna(inplace=True)

In [None]:
retorno.hist(bins=50)

In [None]:
model = hmm.GaussianHMM(n_components=2, covariance_type= "diag")

In [None]:
model

In [None]:
X = retorno.to_numpy().reshape(-1,1)

In [None]:
model.fit(X)