# Projeto Ciencia de Dados: Carteira de Ações com Inteligência Artificial

- Projeto Inspiração: https://medium.com/swlh/teaching-a-machine-to-trade-stocks-like-warren-buffett-part-i-445849b208c6
- Resumo Fundamentos Empresas BR: https://fundamentus.com.br/index.php

### Criar Dicionários de Dataframes com cada empresa

In [40]:
import pandas as pd
import os

empresas = ["ABEV3", "AZUL4", "BTOW3", "B3SA3", "BBSE3", "BRML3", "BBDC4", "BRAP4", "BBAS3", "BRKM5", "BRFS3", "BPAC11", "CRFB3", "CCRO3", "CMIG4", "HGTX3", "CIEL3", "COGN3", "CPLE6", "CSAN3", "CPFE3", "CVCB3", "CYRE3", "ECOR3", "ELET6", "EMBR3", "ENBR3", "ENGI11", "ENEV3", "EGIE3", "EQTL3", "EZTC3", "FLRY3", "GGBR4", "GOAU4", "GOLL4", "NTCO3", "HAPV3", "HYPE3", "IGTA3", "GNDI3", "ITSA4", "ITUB4", "JBSS3", "JHSF3", "KLBN11", "RENT3", "LCAM3", "LAME4", "LREN3", "MGLU3", "MRFG3", "BEEF3", "MRVE3", "MULT3", "PCAR3", "PETR4", "BRDT3", "PRIO3", "QUAL3", "RADL3", "RAIL3", "SBSP3", "SANB11", "CSNA3", "SULA11", "SUZB3", "TAEE11", "VIVT3", "TIMS3", "TOTS3", "UGPA3", "USIM5", "VALE3", "VVAR3", "WEGE3", "YDUQ3"]
fundamentos = {}
arquivos = os.listdir("balancos")

for arquivo in arquivos:
    nome = arquivo[-9:-4]
    if "11" in nome:
        nome = arquivo[-10:-4]
    if nome in empresas:
        print(nome)
        # pegar o balanco daquela empresa
        balanco = pd.read_excel(f'balancos/{arquivo}', sheet_name=0)
        # na primeira coluna colocar o título com o nome da empresa
        balanco.iloc[0, 0] = nome
        # pegar 1ª linha e tornar um cabeçalho
        balanco.columns = balanco.iloc[0]
        balanco = balanco[1:]
        # tornar a 1ª coluna (que agora tem o nome da emrpesa)
        balanco = balanco.set_index(nome)

        dre = pd.read_excel(f'balancos/{arquivo}', sheet_name=1)
        # na primeira coluna colocar o título com o nome da empresa
        dre.iloc[0, 0] = nome
        # pegar 1ª linha e tornar um cabeçalho
        dre.columns = dre.iloc[0]
        dre = dre[1:]
        # tornar a 1ª coluna (que agora tem o nome da emrpesa)
        dre = dre.set_index(nome)

        # concatenar balanco e dre
        fundamentos[nome] = pd.concat([balanco, dre])

# Agora, 'fundamentos' contém os dados combinados das empresas

# sheet_name é o valor da aba já que cada arquivo balanço possui duas abas

ABEV3
AZUL4
B3SA3
BBAS3
BBDC4
BBSE3
BEEF3
BPAC11
BRAP4
BRDT3
BRFS3
BRKM5
BRML3
BTOW3
CCRO3
CIEL3
CMIG4
COGN3
CPFE3
CPLE6
CRFB3
CSAN3
CSNA3
CVCB3
CYRE3
ECOR3
EGIE3
ELET6
EMBR3
ENBR3
ENEV3
ENGI11
EQTL3
EZTC3
FLRY3
GGBR4
GNDI3
GOAU4
GOLL4
HAPV3
HGTX3
HYPE3
IGTA3
ITSA4
ITUB4
JBSS3
JHSF3
KLBN11
LAME4
LCAM3
LREN3
MGLU3
MRFG3
MRVE3
MULT3
NTCO3
PCAR3
PETR4
PRIO3
QUAL3
RADL3
RAIL3
RENT3
SANB11
SBSP3
SULA11
SUZB3
TAEE11
TIMS3
TOTS3
UGPA3
USIM5
VALE3
VIVT3
VVAR3
WEGE3
YDUQ3


### Pegar Preços das Ações nas Datas Correspondentes

In [41]:
cotacoes_df = pd.read_excel('Cotacoes.xlsx')
cotacoes = {}
for empresa in cotacoes_df['Empresa'].unique():
    cotacoes[empresa] = cotacoes_df.loc[cotacoes_df['Empresa']==empresa, :]

### Remover empresas que tem cotações vazias da análise (mesmo após o tratamento que fizemos na hora de pegar as cotações)

In [43]:
for empresa in empresas:
    if cotacoes[empresa].isnull().values.any():
        cotacoes.pop(empresa)
        fundamentos.pop(empresa)
empresas = list(cotacoes.keys())
print(len(empresas))

65


### Juntar fundamentos com Preço da Ação

In [None]:
# no cotações jogar as datas para indice
# no fundamentos:
    # trocar as linhas por colunas 
    # tratar os dados para formato de data do python
    # juntar os fundamentos com linha Adj Close das Cotações
for empresa in fundamentos:
    tabela = fundamentos[empresa].T  # realiza um transpose de linhas com colunas
    tabela.index = pd.to_datetime(tabela.index, format="%d/%m/%Y")    # transforma em formato de data "to_datetime"
    tabela_cotacao = cotacoes[empresa].set_index("Date")  # transforma a coluna de data em indice
    tabela_cotacao = tabela_cotacao[["Adj Close"]] # remove as linhas inuteis e deixa apenas as linhas que eu irei utilizar 
    # passa essa coluna dentro de 2 colchetes para ela ser passada no formato de tabela
    tabela = tabela.merge(tabela_cotacao, right_index=True, left_index=True) # junta apenas as linhas que estão presentes na tabela da direita e da esquerda
    tabela.index.name = empresa
    fundamentos[empresa] = tabela   
     

### Tratar colunas
    
1. Vamos pegar apenas empresas que possuem as mesmas colunas
2. Ajeitar colunas com nome repetido
3. Analisar valores vazios nas colunas

#### 1. Remover da análise colunas que não existem em alguma tabela

####  2. Ajeitando colunas com o mesmo nome

#### 3. Analisar valores vazios nas colunas

### Criando os rótulos: Comprar, Não Comprar ou Vender?

Não queremos saber quando vender, mas inclui essa categoria para conseguir identificar quando que o nosso modelo vai sugerir uma compra quando na verdade o melhor momento era vender. Isso significa que o modelo errou "mais" do que quando sugeriu comprar e simplesmente o certo era não comprar

Regra: 
1. Subiu mais do que o Ibovespa (ou caiu menos) -> Comprar (Valor = 2)
2. Subiu menos do que o Ibovespa até Ibovespa - 2% (ou caiu mais do que Ibovespa até Ibovespa -2%) -> Não Comprar (Valor = 1)
3. Subiu menos do que o Ibovespa - 2% (ou caiu mais do que Ibovespa -2%) -> Vender (Valor = 0)

### Hora de tornar tudo 1 dataframe só

### Análise Exploratória

#### 1. Quantidade de Respostas em cada Tipo de Decisão

#### 2. Correlação

#### Vamos remover Todas as Colunas "já explicadas" pelo Ativo Total

### Vamos partir para Feature Selection

Será que todas essas features são importantes mesmo para o nosso modelo? Muitas features nem sempre é bom, se pudermos reduzir sem perder eficiência do nosso modelo, melhor

Aqui temos 2 alternativas:

1. Seguir com todas as features e depois tentar melhorar o nosso modelo
2. Usar algum critério para selecionar as melhores features para prever e criar o modelo a partir apenas dessa seleção menor de features

Vou seguir com a opção 2, porque é mais rápida e, caso dê certo, facilita a nossa vida. Se der errado, a gente volta aqui e refaz o processo

### Aplicação do StandardScaler para melhorar nossos modelos de MachineLearning

### Separação dos dados em treino e teste

### Criação de um Dummy Classifier (Uma baseline para ver se os nossos modelos são melhores do que puro chute)

### Métricas de Avaliação

- Precisão vai ser nossa métrica principal
- Recall pode ser útil, mas precisão no caso de ações é mt mais importante.

Explicação: Foto dos Gatos e Cachorros na Wikipedia: https://en.wikipedia.org/wiki/Precision_and_recall

### Modelos que vamos testar
- AdaBoost
- Decision Tree
- Random Forest
- ExtraTree
- Gradient Boost
- K Nearest Neighbors (KNN)
- Logistic Regression
- Naive Bayes
- Support Vector Machine (SVM)
- Rede Neural

### Agora vamos ao tunning do modelo

- é bom sempre incluir no tuning os parâmetros "padrões" do modelo, se não poder ser que vc só encontre resultados piores

### Vamos seguir então com o Modelo BLA tunado para ser o nosso modelo

- Agora ao que interessa...será que vamos conseguir escolher boas ações e ter uma carteira rentável?
- Para isso, temos que pegar o último Trimestre (que não usamos para treinar o modelo nem testar) e ver como ele teria saído até o momento em que gravo esse vídeo...

### Repetindo os passos com a base fundamentos só que pegando apenas o último tri de cada empresa

### Agora fazemos a previsão de decisões