## Importando dados

In [None]:
import yfinance as yf

In [None]:
ticker = yf.Ticker('petr4.sa')
data = ticker.history(period='1y')

In [None]:
data[['Open', 'Close']].plot()

## Criando um filtro para os dados e colocando em um dataframe

In [None]:
df = data.filter(like='gh', axis=1) #cria um filtro nas colunas (axis=1) para trazer todas as que possuem gh no nome
df

In [None]:
df = data[(data.index > '2023-10-01')] #traz todos os dados com o índice (nesse caso a data) maior que o valor passado
df

## Substituição de valores

In [None]:
df['New dividends'] = data['Dividends'].where(data.Dividends == 0)
df

In [None]:
df['New dividends'].fillna(2.0)
df.Dividends.replace(0.0, 3.0, inplace=True)
df

In [None]:
df.drop(['High', 'Low'], axis=1)

In [None]:
df.head()

In [None]:
import pandas as pd

In [None]:
df['date'] = df.index
df.head()

In [None]:
df.drop(columns='date', inplace=True)

## Criando médias móveis de periodos 5 e 21 dias

In [None]:
df['mm5d'] = df.Close.rolling(5).mean()
df.head(10)

In [None]:
df['mm21d'] = df.Close.rolling(21).mean()
df.head(21)

In [None]:
df[['Close', 'mm5d', 'mm21d']].plot()

## Normalização
Muito utilizado em modelos de machine learning para equalizar dados de diferentes grandezas. Os valores são ajustados entre uma escala de 0 e 1. Esta alteração não muda a distribuição dos dados, porém é recomendado retirar os outliers, que veremos a seguir.
### usando MinMaxScaler

In [None]:
df.head(1)

In [None]:
df.columns = ['open', 'high', 'low', 'close', 'volume', 'dividends', 'stock_split', 'new_dividends', 'mm5d', 'mm21d']
df.head()

In [None]:
features = df.drop(['open', 'close', 'volume'], axis=1)

In [None]:
from sklearn.preprocessing import MinMaxScaler
# Normalizando os dados de entrada (feature)
# Gerando novo padrão
scaler = MinMaxScaler().fit(features)
features_scale = scaler.transform(features)

print('Features: ', features_scale.shape)
print(features_scale) 

### Log
transformação logarítmica é usada para lidar com dados distorcidos, aproximando-os de uma distribuição normal, diminuir os efeitos dos outliers

In [None]:
import numpy as np
import matplotlib.pyplot as plt
log= pd.DataFrame()
log['x_log'] = np.log(df.open)
log['y_log'] = np.log(df.close)
plt.sca
plt.scatter(x=log.x_log, y=log.y_log)
plt.show()

### Gerando histograma dos dados

In [None]:
plt.hist(df['open'], bins=30, rwidth=0.8)

### Z-score
 o z-score é uma métrica que descreve em termos de desvio padrão o quanto um valor está acima ou abaixo da média de um grupo de valores

1 desvio padrão da média quer dizer que 68% dos dados estão na média do conjunto de dados e os 32% restantes são considerados outliers sendo 16% acima da média e 16% abaixo.

2 desvios padrões da média quer dizer que 95% dos dados estão na média do conjunto de dados e os 5% restantes são considerados outliers sendo 2,5% acima da média e 2,5% abaixo.

3 desvios padrões da média quer dizer que 99,7% dos dados estão na média do conjunto de dados e os 0,3% restantes são considerados outliers sendo 0,15% acima da média e 0,15% abaixo.

In [None]:
df['open_zscore'] = (df.open - df.open.mean()) / df.open.std()
df.head()

### filtrando zscore maior que 1 desvios padrão

In [142]:


# df = df[(df.open_zscore < -3) & (df.open_zscore > 3)]
df[(df.open_zscore > -1) & (df.open_zscore < 1)]

Unnamed: 0_level_0,open,high,low,close,volume,dividends,stock_split,new_dividends,mm5d,mm21d,open_zscore
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2023-10-13 00:00:00-03:00,34.455970,35.004724,34.446341,34.927704,66943700,3.0,0.0,0.0,33.708892,,-0.849599
2023-10-16 00:00:00-03:00,35.043232,35.428320,34.619630,35.312794,49626600,3.0,0.0,0.0,34.319260,,-0.653859
2023-10-17 00:00:00-03:00,35.332050,36.265892,35.264660,36.265892,68814800,3.0,0.0,0.0,34.842983,,-0.557592
2023-10-18 00:00:00-03:00,36.573966,37.170855,36.496946,37.084209,85931700,3.0,0.0,0.0,35.480308,,-0.143649
2023-10-19 00:00:00-03:00,36.930174,37.036075,36.506572,36.910919,56016600,3.0,0.0,0.0,36.100304,,-0.024920
...,...,...,...,...,...,...,...,...,...,...,...
2024-03-11 00:00:00-03:00,35.669998,37.740002,35.299999,35.650002,127528700,3.0,0.0,0.0,38.708000,40.989524,-0.444951
2024-03-12 00:00:00-03:00,36.349998,37.230000,36.160000,36.820000,76139100,3.0,0.0,0.0,38.080000,40.749524,-0.218299
2024-03-13 00:00:00-03:00,36.900002,37.330002,36.310001,36.380001,45140600,3.0,0.0,0.0,37.188000,40.515238,-0.034977
2024-03-14 00:00:00-03:00,36.740002,36.919998,36.150002,36.220001,39983400,3.0,0.0,0.0,36.354001,40.288095,-0.088307


## Encoding para dados categóricos

Quando trabalhamos com dados categóricos, em nosso dataset, estamos falando de dados como sexo, caixa postal, cor. Não podemos usar esses dados diretamente em nossos modelos, eles precisam ser convertidos em números que representem a categoria e esse processo é chamado de enconding

In [147]:
dados = {
    'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva', 'Frank', 'Grace', 'Helen', 'Ivan', 'Julia'],
    'Idade': [25, 30, 22, 28, 35, 40, 27, 33, 29, 24],
    'Gênero': ['Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino', 'Feminino', 'Masculino', 'Feminino']
}
df_pessoas = pd.DataFrame(dados)
df_pessoas

Unnamed: 0,Nome,Idade,Gênero
0,Alice,25,Feminino
1,Bob,30,Masculino
2,Carol,22,Feminino
3,David,28,Masculino
4,Eva,35,Feminino
5,Frank,40,Masculino
6,Grace,27,Feminino
7,Helen,33,Feminino
8,Ivan,29,Masculino
9,Julia,24,Feminino


In [149]:
dummies_genero = pd.get_dummies(df_pessoas['Gênero'])
dummies_genero

Unnamed: 0,Feminino,Masculino
0,True,False
1,False,True
2,True,False
3,False,True
4,True,False
5,False,True
6,True,False
7,True,False
8,False,True
9,True,False


Um problema em utilizar a função get_dummies é o que chamamos de multicolinearidade, isso quer dizer que em modelos de regressão linear os dados devem ser independentes entre si, e quando criamos esses dados dummies, os valores das variáveis contém uma correlação.

Para evitar esse problema precisamos excluir uma das colunas, e a função get_dummies já possui um parâmetro que faz isso que é o drop_first= True

In [151]:
df_pessoas = pd.get_dummies(df_pessoas, columns=['Gênero'], drop_first=True)
df_pessoas

Unnamed: 0,Nome,Idade,Gênero_Masculino
0,Alice,25,False
1,Bob,30,True
2,Carol,22,False
3,David,28,True
4,Eva,35,False
5,Frank,40,True
6,Grace,27,False
7,Helen,33,False
8,Ivan,29,True
9,Julia,24,False


## Expressões regulares

Achar expressões que comecem ou terminem com algo, utiliza-se o .

In [170]:
import re

Unnamed: 0,Nome,Idade,Gênero_Masculino
0,Alice,25,False
1,Bob,30,True
2,Carol,22,False
3,David,28,True
4,Eva,35,False


In [172]:
reg = df_pessoas.filter(regex='^N')
reg

Unnamed: 0,Nome
0,Alice
1,Bob
2,Carol
3,David
4,Eva
5,Frank
6,Grace
7,Helen
8,Ivan
9,Julia


In [181]:
df_pessoas.replace(25,26, regex=True)

Unnamed: 0,Nome,Idade,Gênero_Masculino
0,Alice,26,False
1,Bob,30,True
2,Carol,22,False
3,David,28,True
4,Eva,35,False
5,Frank,40,True
6,Grace,27,False
7,Helen,33,False
8,Ivan,29,True
9,Julia,24,False


In [186]:
np.ones(shape=(2,4)).T

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])