# Projeto Ciencia de Dados: Carteira de Ações com Inteligência Artificial

- Projeto Inspiração: https://medium.com/swlh/teaching-a-machine-to-trade-stocks-like-warren-buffett-part-i-445849b208c6
- Resumo Fundamentos Empresas BR: https://fundamentus.com.br/index.php

### Criar Dicionários de Dataframes com cada empresa

In [20]:
import pandas as pd
import os

# Lista das empresas
empresas = ["ABEV3", "AZUL4", "BTOW3", "B3SA3", "BBSE3", "BRML3", "BBDC4", "BRAP4", "BBAS3", "BRKM5", 
            "BRFS3", "BPAC11", "CRFB3", "CCRO3", "CMIG4", "HGTX3", "CIEL3", "COGN3", "CPLE6", "CSAN3", 
            "CPFE3", "CVCB3", "CYRE3", "ECOR3", "ELET6", "EMBR3", "ENBR3", "ENGI11", "ENEV3", "EGIE3", 
            "EQTL3", "EZTC3", "FLRY3", "GGBR4", "GOAU4", "GOLL4", "NTCO3", "HAPV3", "HYPE3", "IGTA3", 
            "GNDI3", "ITSA4", "ITUB4", "JBSS3", "JHSF3", "KLBN11", "RENT3", "LCAM3", "LAME4", "LREN3", 
            "MGLU3", "MRFG3", "BEEF3", "MRVE3", "MULT3", "PCAR3", "PETR4", "BRDT3", "PRIO3", "QUAL3", 
            "RADL3", "RAIL3", "SBSP3", "SANB11", "CSNA3", "SULA11", "SUZB3", "TAEE11", "VIVT3", "TIMS3", 
            "TOTS3", "UGPA3", "USIM5", "VALE3", "VVAR3", "WEGE3", "YDUQ3"]

# Dicionário para armazenar os dados
fundamentos = {}

# Diretório dos arquivos
diretorio = "IA_Carteira45Z/balancos-20240720T050244Z-001/balancos/"

# Listar os arquivos no diretório
arquivos = os.listdir(diretorio)

# Loop através dos arquivos
for arquivo in arquivos:
    # Extrair o nome do arquivo
    nome = arquivo[-9:-4]
    if "11" in nome:
        nome = arquivo[-10:-4]
    
    # Verificar se o nome está na lista de empresas
    if nome in empresas:
        # Construir o caminho completo para o arquivo
        caminho_balanco = os.path.join(diretorio, arquivo)
        
        # Ler os dados dos arquivos Excel
        try:
            balanco = pd.read_excel(caminho_balanco, sheet_name=0, engine='xlrd')
            dre = pd.read_excel(caminho_balanco, sheet_name=1, engine='xlrd')
        except Exception as e:
            print(f"Erro ao ler o arquivo {arquivo}: {e}")
            continue
        
        # Verificar se os dados foram lidos corretamente
        if balanco.empty or dre.empty:
            print(f"Arquivo {arquivo} está vazio ou não foi lido corretamente.")
            continue
        
        # Imprimir as colunas do DataFrame para verificação
        print(f"Colunas do balanco para {nome}: {balanco.columns}")
        
        # Manipulação dos DataFrames
        balanco.columns = balanco.iloc[0]
        balanco = balanco[1:]
        balanco.iloc[0,0] = nome
        
        # Verificar se a coluna nome está nas colunas
        if nome not in balanco.columns:
            print(f"Nome {nome} não está presente nas colunas do DataFrame balanco.")
            continue
        
        balanco = balanco.set_index(nome)
        
        # Exibir os DataFrames
        display(balanco)
        display(dre)
        
        # Armazenar os DataFrames no dicionário
        fundamentos[nome] = {'balanco': balanco, 'dre': dre}
        
        break  # Para sair do loop após encontrar o primeiro arquivo válido

# Verificar os dados armazenados
print(fundamentos)



Colunas do balanco para VALE3: Index(['XLSWrite 1.34 Copyright(c) 1999,2000 Axolot Data',
       'Balanço Patrimonial - VALE', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9',
       'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13',
       'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17',
       'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25',
       'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29',
       'Unnamed: 30', 'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33',
       'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37',
       'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41',
       'Unnamed: 42'],
      dtype='object')
Nome VALE3 não está presente nas colunas do DataFrame balanco.
Colunas do balanco para NTCO3: Index(['XLSWrite 1.34 Copyright(c) 1999,2000 Axolot Data',
       'Balanço Patr

### Pegar Preços das Ações nas Datas Correspondentes

### Remover empresas que tem cotações vazias da análise (mesmo após o tratamento que fizemos na hora de pegar as cotações)

### Juntar fundamentos com Preço da Ação

### Tratar colunas
    
1. Vamos pegar apenas empresas que possuem as mesmas colunas
2. Ajeitar colunas com nome repetido
3. Analisar valores vazios nas colunas

#### 1. Remover da análise colunas que não existem em alguma tabela

####  2. Ajeitando colunas com o mesmo nome

#### 3. Analisar valores vazios nas colunas

### Criando os rótulos: Comprar, Não Comprar ou Vender?

Não queremos saber quando vender, mas inclui essa categoria para conseguir identificar quando que o nosso modelo vai sugerir uma compra quando na verdade o melhor momento era vender. Isso significa que o modelo errou "mais" do que quando sugeriu comprar e simplesmente o certo era não comprar

Regra:
1. Subiu mais do que o Ibovespa (ou caiu menos) -> Comprar (Valor = 2)
2. Subiu menos do que o Ibovespa até Ibovespa - 2% (ou caiu mais do que Ibovespa até Ibovespa -2%) -> Não Comprar (Valor = 1)
3. Subiu menos do que o Ibovespa - 2% (ou caiu mais do que Ibovespa -2%) -> Vender (Valor = 0)

### Hora de tornar tudo 1 dataframe só

### Análise Exploratória

#### 1. Quantidade de Respostas em cada Tipo de Decisão

#### 2. Correlação

#### Vamos remover Todas as Colunas "já explicadas" pelo Ativo Total

### Vamos partir para Feature Selection

Será que todas essas features são importantes mesmo para o nosso modelo? Muitas features nem sempre é bom, se pudermos reduzir sem perder eficiência do nosso modelo, melhor

Aqui temos 2 alternativas:

1. Seguir com todas as features e depois tentar melhorar o nosso modelo
2. Usar algum critério para selecionar as melhores features para prever e criar o modelo a partir apenas dessa seleção menor de features

Vou seguir com a opção 2, porque é mais rápida e, caso dê certo, facilita a nossa vida. Se der errado, a gente volta aqui e refaz o processo

### Aplicação do StandardScaler para melhorar nossos modelos de MachineLearning

### Separação dos dados em treino e teste

### Criação de um Dummy Classifier (Uma baseline para ver se os nossos modelos são melhores do que puro chute)

### Métricas de Avaliação

- Precisão vai ser nossa métrica principal
- Recall pode ser útil, mas precisão no caso de ações é mt mais importante.

Explicação: Foto dos Gatos e Cachorros na Wikipedia: https://en.wikipedia.org/wiki/Precision_and_recall

### Modelos que vamos testar
- AdaBoost
- Decision Tree
- Random Forest
- ExtraTree
- Gradient Boost
- K Nearest Neighbors (KNN)
- Logistic Regression
- Naive Bayes
- Support Vector Machine (SVM)
- Rede Neural

### Agora vamos ao tunning do modelo

- é bom sempre incluir no tuning os parâmetros "padrões" do modelo, se não poder ser que vc só encontre resultados piores

### Vamos seguir então com o Modelo BLA tunado para ser o nosso modelo

- Agora ao que interessa...será que vamos conseguir escolher boas ações e ter uma carteira rentável?
- Para isso, temos que pegar o último Trimestre (que não usamos para treinar o modelo nem testar) e ver como ele teria saído até o momento em que gravo esse vídeo...

### Repetindo os passos com a base fundamentos só que pegando apenas o último tri de cada empresa

### Agora fazemos a previsão de decisões