# Projeto Final de Ciência de Dados

* **Nome(s): Daniel de Almeida Duque**
* **Matrícula(s): 2016101739**
* **Email: daniel.duque@edu.ufes.br**
* **Curso(s): Graduação em Engenharia de Computação**
* **Vídeo: https://youtu.be/-HhDjuRzMSc**

Considerações iniciais 
  * Durante as análises, **"ação"** e **"empresa"** serão usados como sinônimos.
  * Análises feitas com os dados do dia 21/03. 

## 1. Introdução

A partir das ferramentas de obtenção de dados _web_ (_urllib_ e _BeautifulSoup_), processamento de dados (_pandas_, _scipy_, _etc.._), visualização de dados (_matplotlib_ e _seaborn_), classificação (_sklearn_, _DecisionTreeClassifier_) aprendidas nas aulas de introdução à Ciência de Dados e pesquisas por conta própria, foram realizadas análises e classificações das ações da Bolsa de Valores Brasileira (Ibovespa) com base em seus indicadores financeiros.


## 2. Definição do problema

O problema consiste em analisar e classificar as ações listadas na Ibovespa com base em seus indicadores financeiros (conjunto de dados detalhado na seção 3).

A análise será feita dividindo as ações de acordo com seus setores e visualizando os indicadores em comparação com as ações "rivais". Com isso, será possível obter _insights_ para classificá-las.

A classificação será feita comparando os indicadores financeiros das ações para cada setor e definindo se a ação vale a pena ser comprada ou não conforme o preço atual dela, além de analisar graficamente para que a comparação seja feita mais facilmente.


## 3. Descrição do conjunto de dados

### 3.1. Descrição detalhada do conjunto de dados



Os dados foram obtidos fazendo _web scraping_ do site: https://statusinvest.com.

Antes de coletar os dados, foi feito um arquivo de texto com o código de todas as ações da Ibovespa para acessar o site um a um e coletar as informações da ação correspondente. Exemplo: https://statusinvest.com.br/acoes/abev3

Os dados estão listados abaixo:

* Valor da ação
  * Valor atual da ação
  * Valor mínimo em 52 semanas
  * Valor máximo em 52 semanas
  * % de valorização nos últimos 12 meses

* Quantidade de ações
  * Liquidez média diaria (Quanto, por dia, aproximadamente é comercializado da ação)
  * % de participação no Ibovespa (Quantos % a ação representa na Ibovespa)

* Indicadores de Valuation
  * D.Y (Relação entre proventos pagos e o preço atual da ação)
  * P/L (Ideia de quanto o mercado está disposto a pagar pelos lucros da ação)
  * PEG RATIO (Trade-off relativo entre o preço da ação, lucro por ação e crescimento esperado da empresa)
  * P/VP (Preço atual da ação / Valor patrimonial por ação)
  * EV/EBITDA (Mostra quanto tempo levaria para o valor calculado no EBITDA pagar o investimento feito para comprá-la.)
  * EV/EBIT (Mostra quanto tempo levaria para o valor calculado no EBIT pagar o investimento feito para comprá-la.)
  * P/EBITDA (Preço atual da ação / EBITDA)
  * P/EBIT (Preço atual da ação / EBIT)
  * VPA (Indica o valor patrimonial de uma ação)
  * P/ATIVO (Preço atual da ação / Ativos totais por ação)
  * LPA (Lucro por ação. Indica a empresa é lucrativa (positivo) ou não (negativo))
  * P/SR (Preço atual da ação / Receita líquida por ação)
  * P/CAP. GIRO (Preço atual da ação / Capital de giro)
  * P/ATIVO CIRC. LÍQ. (Preço atual da ação / Ativo Circ. Líquido por ação)

* Indicadores de Endividamento
  * DÍV. LÍQUIDA/PL (Quanto de dívida da empresa está sendo usada para financiar os seus ativos em relação ao patrimônio dos acionistas)
  * DÍV. LÍQUIDA/EBITDA (Quanto tempo seria necessário para pagar a dívida líquida da empresa considerando o EBITDA atual. Grau de endividamento.)
  * DÍV. LÍQUIDA/EBIT (Quanto tempo seria necessário para pagar a dívida líquida da empresa considerando o EBIT atual. Grau de endividamento.)
  * PL/ATIVOS (Patrimônio líquido / Ativos)
  * PASSIVOS/ATIVOS (Relação entre os ativos (circulantes e não circulantes) e os passivos de uma empresa)
  * LÍQ. CORRENTE (Capacidade de pagamento da empresa no curto prazo)

* Indicadores de Eficiência
  * M. BRUTA (Lucro bruto / Receita líquida)
  * M. EBITDA (EBITDA / Receita líquida)
  * M. EBIT (EBIT / Receita líquida)
  * M. LÍQUIDA (Lucro líquido / Receita líquida)

* Indicadores de Rentabilidade
  * ROE (Lucro líquido / Patrimônio líquido)
  * ROA (Lucro líquido / Ativo total)
  * ROIC (Mede a rentabilidade de dinheiro que uma empresa é capaz de gerar em função de todo o capital investido, incluindo os aportes por meio de dívidas.)
  * GIRO ATIVOS (Mede se a empresa está utilizando o seu ativo para produzir riqueza, através da venda de seus produtos e/ou serviços)

* Indicadores de Crescimento
  * CAGR RECEITAS 5 ANOS (CAGR = Taxa de crecimento anual composta)
  * CAGR LUCROS 5 ANOS (CAGR = Taxa de crecimento anual composta)

* Empresa
  * Patrimônio líquido
  * Ativos
  * Ativo circulante
  * Dívida bruta
  * Disponibilidade em caixa
  * Dívida líquida
  * Valor de mercado
  * Valor de firma
  * nº total de papéis (Total de ações da empresa. As ações que estão em circulação)

* Atuação no mercado
  * Setor de atuação
  * Subsetor de atuação
  * Segmento de atuação

### 3.2. Obtenção dos dados

* O _google drive_ foi utilizado para acessar os arquivos de entrada e guardar os arquivos de saída.

* Diversas funções foram criadas para pegar os dados necessários, separadamente, e depois guardá-los em um _dataframe_ para serem modificados depois.

#### Acesso ao google drive

#### Coleta dos Dados

In [None]:
import pandas as pd
import time

In [None]:
import urllib.error
import urllib.request
import socket

from bs4 import BeautifulSoup
from unidecode import unidecode

In [None]:
def get_page(url):
    try:
        req = urllib.request.Request(url, 
                                     headers = {'User-Agent': 'Mozilla/5.0 \
        (X11; Ubuntu; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) \
        Chrome/55.0.2919.83 Safari/537.36'})
        with urllib.request.urlopen(req, timeout = 5) as f:
            return f.read()
    except socket.timeout as e1:
        print('\tTime out')
    except urllib.error.URLError as e2:
        print('\tURL error')
    except urllib.error.HTTPError as e3:
        print('\tHTTP error')
    return None

In [None]:
def clean_title(title):
  return unidecode(title.get_text().strip().lower().replace('.','').replace(' ','_'))

In [None]:
def get_valor_atual(soup):
  div_valor_atual = soup.find('div', {'class': 'pb-3 pb-md-5'})

  values_div_valor_atual = div_valor_atual.find_all('strong', {'class': 'value'})
  values_div_valor_atual.pop(3)

  return {'valor_atual': values_div_valor_atual[0].get_text(),
          'min_52_semanas': values_div_valor_atual[1].get_text(),
          'max_52_semanas': values_div_valor_atual[2].get_text(),
          'valorizacao_12m': values_div_valor_atual[3].get_text()}

In [None]:
def get_liquidez_diaria(soup):
  classe = 'top-info top-info-1 top-info-sm-2 top-info-md-3 top-info-xl-n sm d-flex justify-between'
  div_tipo = soup.find('div', {'class': classe})

  info_div_tipo = div_tipo.find_all('div', {'class': 'info'})[2]  
  liquidez_diaria = info_div_tipo.find('strong', {'class': 'value'})
  
  return {'liquidez_media_diaria': liquidez_diaria.get_text()}

In [None]:
def get_indicadores(soup):
  div_indicadores = soup.find('div', {'class': 'indicator-today-container'})

  title_div_indicadores = div_indicadores.find_all('h3')
  title_indicadores = [clean_title(x) for x in title_div_indicadores]

  values_div_indicadores = div_indicadores.find_all('strong', {'class': 'value d-block lh-4 fs-4 fw-700'})
  values_indicadores = [x.get_text() for x in values_div_indicadores]

  return {key:value for key, value in zip(title_indicadores, values_indicadores)}

In [None]:
def get_patrimonio(soup):
  div_patrimonio = soup.find('div', {'class': 'top-info info-3 sm d-flex justify-between mb-3'})

  title_div_patrimonio = div_patrimonio.find_all('h3', {'class': 'title m-0'})
  title_div_patrimonio.pop(0)
  title_div_patrimonio.pop()
  title_patrimonio = [clean_title(x) for x in title_div_patrimonio]

  values_div_patrimonio = div_patrimonio.find_all('strong', {'class': 'value'})
  values_div_patrimonio.pop(8)
  values_div_patrimonio.pop()
  values_patrimonio = [x.get_text() for x in values_div_patrimonio]

  return {key:value for key, value in zip(title_patrimonio, values_patrimonio)}

In [None]:
def get_setor(soup):
  classe = 'top-info top-info-1 top-info-sm-2 top-info-md-n sm d-flex justify-between '
  div_setor = soup.find('div', {'class': classe})

  values_div_setor = div_setor.find_all('strong', {'class': 'value'})

  return {'setor_de_atuacao': values_div_setor[0].get_text(),
          'subsetor_de_atuacao': values_div_setor[1].get_text(),
          'segmento_de_atuacao': values_div_setor[2].get_text()}

In [None]:
def get_df_dados():
  with open('codes_ibov10.txt') as f:
    # le os codigos das acoes
    lines = f.readlines()
    lines = map(lambda x:x.rstrip('\n'), lines)

    list_dict_dados = []

    # pega os dados de cada acao e adiciona em um dicionario
    for code in lines:
      try:
        # pega o html e deixa bonito com o beautiful soup
        content = get_page('https://statusinvest.com.br/acoes/' + code)
        decoded = content.decode('utf-8')
        soup = BeautifulSoup(decoded, 'html.parser')

        # pega os dados uteis e coloca em dicionarios
        valor = get_valor_atual(soup)
        liquidez = get_liquidez_diaria(soup)
        indicadores = get_indicadores(soup)
        patrimonio = get_patrimonio(soup)
        setor = get_setor(soup)
        codigo = {'codigo': code}

        # concatena todos dicionarios
        dict_dados = {**codigo, **valor, **liquidez, **indicadores, **patrimonio, **setor}

        # adiciona na lista de dicionarios
        list_dict_dados.append(dict_dados)
      except:
        # se nao der pra acessar uma acao, so ignora
        print("Não consegui ler: " + code)
        continue
    
    return pd.DataFrame(list_dict_dados)

### 3.3. Limpeza dos Dados

* Foi criada uma função para limpar e padronizar os dados e seus respectivos tipos.

  1. Converter as _strings_: "-", "--", "-%", "--%" em "0" (para converter em _float_)
  2. Substituir todos os pontos por vazio. (para converter em _float_)
  3. Substituir todas as vírgulas por ponto. (para converter em _float_)
  4. Tirar as porcentagens e deixar em _float_. (53,3% -> 0.533)
  5. Converter _string_ em _float_.
  

In [None]:
def clean_dados(df):
  # Coloca '0' se for: '-', '--', '-%', '--%'
  df[df.eq('-')] = '0'
  df[df.eq('--')] = '0'
  df[df.eq('-%')] = '0'
  df[df.eq('--%')] = '0'

  # Aplica as funcoes de limpeza dos dados
  df = df.applymap(lambda x: x.replace('.',''))
  df = df.applymap(lambda x: x.replace(',','.'))

  # string com % -> float com 3 casa decimais
  def percentage_to_float(s):
    if '%' in s:
      return round(float(s.replace('%',''))/100, 3)
    else:
      return s

  # string -> float
  def string_to_float(s):
    try:
      return round(float(s), 3)
    except:
      return s
    
  df = df.applymap(lambda x: percentage_to_float(x))
  df = df.applymap(lambda x: string_to_float(x))
  
  return df

### 3.4. Coleta dos dados

Devido ao tempo despendido para coletar os dados usando _Web Scraping_, decidiu-se escrever os dados coletados em um _CSV_ para facilitar o acesso e a usabilidade do programa.

* Descomentar o _web scraping_ caso ainda não tenha o arquivo _CSV_ com os dados coletados.

* Descomentar o _CSV_ caso já tenha executado o _web scraping_ e gerado o CSV.

Obs: Alguns tempos de execução do _Web Scraping_ para coletar os dados de 419 ações foram de 4 minutos a 8 minutos, conforme a demanda do site.

In [None]:
from datetime import datetime

# Pega data atual para usar no titulo do arquivo csv
today = datetime.today().strftime('%d_%m_%Y')

# Nome do arquivo csv
csv_name = 'dados_' + today + '.csv'

#### _Web Scraping_

In [None]:
# start = time.time()

# # Pega os dados brutos e coloca em um dataframe
# df_raw = get_df_dados()

# # Coloca a coluna de codigo como index
# df_raw = df_raw.set_index('codigo')

# # Limpa os dados originais e coloca em um dataframe
# df_clean = clean_dados(df_raw)

# # Escreve os dados limpos em um csv com separador virgula
# df_clean.to_csv(csv_name)

# finish = time.time()
# elapse = round((finish - start)/60, 2)

# # Exemplo de uma execução -> Pegou 419 ações em 5.69 min
# print('Web scraping de ' + str(len(df_clean)) + ' ações. Feito em: ' + str(elapse) + ' min')

#### CSV

In [None]:
# Le arquivo csv com os dados para um dataframe
df_clean = pd.read_csv(csv_name, index_col=0)

## 4. Metodologia


Realizei diversas filtragens de dados e criação de algumas categorias para as ações. As categorias definidas são baseadas em pesquisas relacionadas ao mercado financeiro e como alguns investidores famosos escolhem suas ações utilizando os indicadores disponíveis. 

Foram criadas árvores de decisão para verificar se é possível classificar a ação como "investível" utilizando todos ou parte dos dados coletados anteriormente.

Foram criados gráficos para melhor visualização, comparação visual entre os dados e conseguir finalizar a análise. 

A partir das ações investíveis, será possível escolher as melhores ações de acordo com o que foi pesquisado e analisado.

### 4.1. Filtragem dos Dados

#### Justificativa da Filtragem

Filtros iniciais para tirar as ações que não valem a pena serem analisadas.

1. Deixar apenas uma ação de cada empresa, ou seja, as ações que têm final 3. 
  * Exemplo
    * A empresa Sanepar tem as ações SAPR3, SAPR4, SAPR11.
    * Somente SAPR3 será mantida.
  * Justificativa
    * Os indicadores mudam muito pouco entre as ações da mesma empresa.
    * Não há motivo imediato de investir em várias ações da mesma empresa.   


2. A liquidez média diária da ação tem que ser no mínimo 1000 operações por dia.
  
  * Cálculo: $ LiquidezMediaDiaria = 1000 \cdot ValorAtual $

  * Justificativa
    * Esse filtro é necessário porque **NÃO** é interessante analisar ações que são infimamente compradas ou vendidas, pois elas são muito pouco conhecidas e variam **MUITO** o preço **(+/- 50%, 100%, 200%)** diariamente, o que torna a ação instável e difícil de ser analisada.
  
  

#### Função da Filtragem

In [None]:
def filter_dados(df):
  # Tira 2 colunas que nao serao usadas
  df.drop('segmento_de_listagem', axis='columns', inplace=True)
  df.drop('free_float', axis='columns', inplace=True)

  # Filtra com base na liquidez media diaria
  min_liquidez = 1000  
  filtro_1_liquidez = df.liquidez_media_diaria >= (min_liquidez * df.valor_atual)
  df = df[filtro_1_liquidez]

  # Filtra com base no index (codigo).
  # O codigo tem que ter 3 para que não repita as ações da mesma empresa:
  # Ex: SAPR11, SAPR4, SAPR3
  codigos_com_tres = [i for i in df.index if '3' in i]
  df = df.loc[df.index.isin(codigos_com_tres)]
  return df

#### Aplicação da Filtragem

In [None]:
# Copia os dados para outro dataframe para manter o dataframe original intacto
df = df_clean.copy()

# Tira algumas acoes que estao muito discrepantes que nao valem a pena serem analisadas
df = filter_dados(df)

In [None]:
df_clean.shape

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.describe()

### 4.2. Categorias dos dados

#### Justificativa das Categorias

* Empresa Barata (1 - sim, 0 - não)
  * 0 <= PEG Ratio <= 10
  * P/VP <= 2
  * P/ATIVO <= 5

* Empresa Saudável (1 - sim, 0 - não)
  * DL/EBITDA <= 3
  * DL/PL <= 1
  * LPA >= 0

* Empresa Eficiente (1 - sim, 0 - não)
  * MARGEM EBITDA > 0.2 (20%)
  * MARGEM LÍQUIDA > 0.1 (10%)

* Empresa Rentável (1 - sim, 0 - não)
  * ROE >= 0.1
  * ROA >= 0.05
  * ROIC >= 0.1

* Empresa Crescendo (1 - sim, 0 - não)
  * CAGR RECEITAS 5 ANOS > 0
  * CAGR LUCROS 5 ANOS > 0

* Empresa barata em relação as outras empresas do mesmo setor (1 - sim, 0 - não)
  * Empresa barata 
  * EV/EBITDA < mediana(EV/EBITDA das empresas do setor)

* Empresa investível
  * Empresa Saudável
  * Empresa Crescendo

#### Função das Categorias

In [None]:
def eh_empresa_barata(row):
  return 1 if (row['peg_ratio'] >= 0 and row['peg_ratio'] <= 10) and row['p/vp'] <= 2 and row['p/ativo'] <= 5 else 0

def eh_empresa_saudavel(row):
  return 1 if row['div_liquida/ebitda'] <= 3 and row['div_liquida/pl'] <= 1 and row['lpa'] >= 0 else 0

def eh_empresa_eficiente(row):
  return 1 if row['m_ebitda'] >= 0.2 and row['m_liquida'] >= 0.1 else 0

def eh_empresa_rentavel(row):
  return 1 if row['roe'] >= 0.1 and row['roa'] >= 0.05 and row['roic'] >= 0.1 else 0

def eh_empresa_crescendo(row):
  return 1 if row['cagr_receitas_5_anos'] > 0 and row['cagr_lucros_5_anos'] > 0 else 0

cotacao_dolar = 5.00 # data: 17_03_2022
def empresa_tamanho_capitalizacao(row):
  valor_mercado_dolar = row['valor_de_mercado'] / cotacao_dolar
  if valor_mercado_dolar >= 50e6 and valor_mercado_dolar < 300e6:
    return 'micro_caps'
  elif valor_mercado_dolar >= 300e6 and valor_mercado_dolar < 2e9:
    return 'small_caps'
  elif valor_mercado_dolar >= 2e9 and valor_mercado_dolar < 10e9:
    return 'between_small_caps_and_blue_chips'
  elif valor_mercado_dolar >= 10e9:
    return 'blue_chips'

def eh_empresa_barata_em_relacao_ao_setor(row, df):
  mediana_ev_ebitda_setor = df[df['setor_de_atuacao'] == row['setor_de_atuacao']]['ev/ebitda'].median() # usar mediana para os outliers nao afetarem
  return 1 if row['eh_empresa_barata'] == 1 and row['ev/ebitda'] < mediana_ev_ebitda_setor else 0

def eh_empresa_investivel(row):
  return 1 if row['eh_empresa_saudavel'] == 1 and row['eh_empresa_crescendo'] == 1 else 0

#### Aplicação das Categorias

In [None]:
df['eh_empresa_barata'] = df.apply(lambda r: eh_empresa_barata(r), axis=1)
df['eh_empresa_saudavel'] = df.apply(lambda r: eh_empresa_saudavel(r), axis=1)
df['eh_empresa_eficiente'] = df.apply(lambda r: eh_empresa_eficiente(r), axis=1)
df['eh_empresa_rentavel'] = df.apply(lambda r: eh_empresa_rentavel(r), axis=1)
df['eh_empresa_crescendo'] = df.apply(lambda r: eh_empresa_crescendo(r), axis=1)

df['tamanho_empresa'] = df.apply(lambda r: empresa_tamanho_capitalizacao(r), axis=1)

df['eh_empresa_barata_em_relacao_ao_setor'] = df.apply(lambda r: eh_empresa_barata_em_relacao_ao_setor(r, df), axis=1)

df['eh_empresa_investivel'] = df.apply(lambda r: eh_empresa_investivel(r), axis=1)

In [None]:
df.head()

## 5. Resultados

### 5.1. Classificação com _Decision Tree_

#### Justificativa da _Decision Tree_


A ideia é classificar, usando _Decision Tree_, as ações de acordo com a categoria "eh_empresa_investivel", definida anteriormente. Serão utilizados tanto os indicadores que definiram, ou não, as categorias anteriores.

O **y** que queremos prever é "eh_empresa_investivel", ou seja, de acordo com a definição realizada na seção 4.2, ela tem que ser "saudável" e "crescendo".

* Saudável é definido por DL/EBITDA, DL/PL e LPA.
* Crescendo é definido por CAGR RECEITAS 5 ANOS e CAGR LUCROS 5 ANOS.

Considerando isso, caso seja escolhido o **X** da _Decision Tree_, usando um ou vários desses dados, este será um viés para a _Decision Tree_, pois os próprios dados definem se "eh_empresa_investivel".

Obs: No _dataframe_, índice de cada dado que dá viés para a _Decision Tree_

* DL/EBITDA - 20
* DL/PL - 19
* LPA - 15
* CAGR RECEITAS 5 ANOS - 33
* CAGR LUCROS 5 ANOS - 34

In [None]:
df.info()

In [None]:
# lower_bound, upper_bound = 00, 19 # valuation
# lower_bound, upper_bound = 19, 25 # endividamento
# lower_bound, upper_bound = 25, 29 # eficiencia
# lower_bound, upper_bound = 29, 33 # rentabilidade
# lower_bound, upper_bound = 33, 35 # crescimento
# lower_bound, upper_bound = 35, 43 # valores da empresa

#### Função da _Decision Tree_

In [None]:
from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import classification_report
from sklearn.metrics import ConfusionMatrixDisplay

In [None]:
def predict_with_decision_tree(df, lower_bound=0, upper_bound=43, test_size=0.25, random_state=42):
  X = df.values[:, lower_bound:upper_bound]
  y = df.values[:, -1].astype('int')
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

  dt = DecisionTreeClassifier()
  dt.fit(X_train, y_train)
  y_predict = dt.predict(X_test)

  print(classification_report(y_test, y_predict))
  ConfusionMatrixDisplay.from_predictions(y_test, y_predict, normalize='true');

#### Aplicação da _Decision Tree_

##### Indicadores de Valuation


In [None]:
lower_bound, upper_bound = 00, 19 # valuation
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Indicadores de Endividamento


In [None]:
lower_bound, upper_bound = 19, 25 # endividamento
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Indicadores de Eficiência


In [None]:
lower_bound, upper_bound = 25, 29 # eficiencia
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Indicadores de Rentabilidade


In [None]:
lower_bound, upper_bound = 29, 33 # rentabilidade
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Indicadores de Crescimento


In [None]:
lower_bound, upper_bound = 33, 35 # crescimento
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Valores da Empresa

In [None]:
lower_bound, upper_bound = 35, 43 # valores da empresa
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Valuation e Endividamento

In [None]:
# lower_bound, upper_bound = 00, 19 # valuation
# lower_bound, upper_bound = 19, 25 # endividamento
# lower_bound, upper_bound = 29, 33 # rentabilidade
# lower_bound, upper_bound = 33, 35 # crescimento
# lower_bound, upper_bound = 35, 43 # valores da empresa

lower_bound, upper_bound = 00, 25 # valuation e endividamento
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Valuation, endividamento e rentabilidade

In [None]:
# lower_bound, upper_bound = 00, 19 # valuation
# lower_bound, upper_bound = 19, 25 # endividamento
# lower_bound, upper_bound = 29, 33 # rentabilidade
# lower_bound, upper_bound = 33, 35 # crescimento
# lower_bound, upper_bound = 35, 43 # valores da empresa

lower_bound, upper_bound = 00, 33 # valuation, endividamento e rentabilidade
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

##### Valuation, endividamento, rentabilidade e crescimento

In [None]:
# lower_bound, upper_bound = 00, 19 # valuation
# lower_bound, upper_bound = 19, 25 # endividamento
# lower_bound, upper_bound = 29, 33 # rentabilidade
# lower_bound, upper_bound = 33, 35 # crescimento
# lower_bound, upper_bound = 35, 43 # valores da empresa

lower_bound, upper_bound = 00, 35 # valuation, endividamento, rentabilidade e crecimento
predict_with_decision_tree(df, lower_bound=lower_bound, upper_bound=upper_bound)

#### Análise do resultado da _Decision Tree_

A _Decision Tree_ conseguiu prever muito bem, utilizando parte dos dados que definem se uma empresa é "investível", o que faz sentido devido ao viés.

1. A melhor _Decision Tree_ gerada foi aquela que utilizou os indicadores de: valuation, endividamento, rentabilidade e crescimento juntos. É possível afirmar que essa _Decision Tree_ foi a melhor porque usa todos os dados que definem o y, ou seja, é como se ela tivesse todos os x possíveis que definem uma f(x).

2. A segunda melhor _Decision Tree_ foi aquela que utilizou apenas os dados de crescimento. A justificativa é parecida com a melhor _Decision Tree_, mas utilizando apenas algumas informações que definem o y.

3. A terceira melhor _Decision Tree_ foi aquela que utilizou apenas os dados de endividamento. A justificativa é a mesma da segunda melhor _Decision Tree_.

4. A quarta melhor _Decision Tree_ foi bem interessante, pois foi construída usando apenas os dados de rentabilidade: roe, roa, roic e giro ativos. A _Decision Tree_ que foi gerada é interessante porque nela não foram usados os dados com viés, assim como o foram nas três melhores _Decision Tree_ e ela conseguiu classificar de maneira razoável se uma ação é investível ou não, apenas usando os dados de rentabilidade.

### 5.2 Analise Gráfica dos Dados

#### Justificativa da análise gráfica

Devido a quantidade de dados, e como eles estão disposto no _dataframe_, decidiu-se que é necessário utilizar gráficos para comparar as melhores ações investíveis. Com isso, será possível escolher as melhores ações com base em alguns parâmetros; seja ela a mais barata, eficiente ou rentável. 

Usar gráficos para a análise é extremamente necessário, pois o programa também será utilizado por pessoas que não têm conhecimento em programação e, assim, poderão apenas visualizar os gráficos e terem _insights_ sobre as melhores ações e o porquê de investir nelas.

#### Visualização geral das empresas

In [None]:
import numpy as np
import scipy as sp
import seaborn as sns
import matplotlib.pyplot as plt

##### 1. Ações investíveis

In [None]:
sns.countplot(data = df, x = 'eh_empresa_investivel');

plt.grid(alpha=.5)
plt.title('1 = investível, 0 = não é investível');

In [None]:
round(len(df[df['eh_empresa_investivel']==1])/len(df), 2)

* Pode-se perceber que 30% das ações são investíveis 

##### 2. A partir das investíveis, verificar se são eficientes, rentáveis ou baratas

In [None]:
df_investivel = df[df['eh_empresa_investivel'] == 1]

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, sharey=True, figsize=(8, 6))


sns.countplot(data = df_investivel,
              x = 'eh_empresa_barata',
              ax=ax1,
              );

sns.countplot(data = df_investivel,
              x = 'eh_empresa_eficiente',
              ax=ax2,
              );

sns.countplot(data = df_investivel,
              x = 'eh_empresa_rentavel',
              ax=ax3,
              );

ax1.grid(alpha=.5)
ax2.grid(alpha=.5)
ax3.grid(alpha=.5)
fig.suptitle('Ações Investíveis - Eficiente x Rentável x Barata');

In [None]:
round(len(df_investivel[df_investivel['eh_empresa_barata'] == 1])/len(df_investivel), 2)

* Das ações investíveis, cerca de 45% está barata

In [None]:
round(len(df_investivel[df_investivel['eh_empresa_eficiente'] == 1])/len(df_investivel), 2)

* Das ações investíveis, cerca de 56% está eficiente

In [None]:
round(len(df_investivel[df_investivel['eh_empresa_rentavel'] == 1])/len(df_investivel), 2)

* Das ações investíveis, cerca de 52% está rentável

##### 3. A partir das investíveis e eficientes, verificar se são rentáveis ou baratas 

In [None]:
df_investivel_eficiente = df_investivel[df_investivel['eh_empresa_eficiente'] == 1]

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(8, 6))

sns.countplot(data = df_investivel_eficiente,
              x = 'eh_empresa_barata',
              ax=ax1,
              );

sns.countplot(data = df_investivel_eficiente,
              x = 'eh_empresa_rentavel',
              ax=ax2,
              );

ax1.grid(alpha=.5)
ax2.grid(alpha=.5)
fig.suptitle('Ações Investíveis e Eficientes - Rentável x Barata');

In [None]:
round(len(df_investivel_eficiente[df_investivel_eficiente['eh_empresa_barata'] == 1])/len(df_investivel_eficiente), 2)

* Das ações investíveis e eficientes, cerca de 53% está barata

In [None]:
round(len(df_investivel_eficiente[df_investivel_eficiente['eh_empresa_rentavel'] == 1])/len(df_investivel_eficiente), 2)

* Das ações investíveis e eficientes, cerca de 58% está rentável

##### 4. A partir das investíveis e rentáveis, verificar se são eficientes ou baratas 

In [None]:
df_investivel_rentavel = df_investivel[df_investivel['eh_empresa_rentavel'] == 1]

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(8, 6))

sns.countplot(data = df_investivel_rentavel,
              x = 'eh_empresa_barata',
              ax=ax1,
              );

sns.countplot(data = df_investivel_rentavel,
              x = 'eh_empresa_eficiente',
              ax=ax2,
              );

ax1.grid(alpha=.5)
ax2.grid(alpha=.5)
fig.suptitle('Ações Investíveis e Rentáveis - Eficiente x Barata');

In [None]:
round(len(df_investivel_rentavel[df_investivel_rentavel['eh_empresa_barata'] == 1])/len(df_investivel_rentavel), 2)

* Das ações investíveis e rentáveis, cerca de 45% está barata

In [None]:
round(len(df_investivel_rentavel[df_investivel_rentavel['eh_empresa_eficiente'] == 1])/len(df_investivel_rentavel), 2)

* Das ações investíveis e rentáveis, cerca de 64% está eficiente

##### 5. A partir das investíveis, eficientes e rentáveis, verificar se são baratas

In [None]:
df_investivel_eficiente_rentavel = df_investivel_eficiente[df_investivel_eficiente['eh_empresa_rentavel'] == 1]

In [None]:
fig, ax1 = plt.subplots(1, 1, sharey=True, figsize=(8, 6))

sns.countplot(data = df_investivel_eficiente_rentavel,
              x = 'eh_empresa_barata',
              ax=ax1,
              );

ax1.grid(alpha=.5)
fig.suptitle('Ações Investíveis, Eficientes e Rentáveis - Baratas');

In [None]:
round(len(df_investivel_eficiente_rentavel[df_investivel_eficiente_rentavel['eh_empresa_barata'] == 1])/len(df_investivel_eficiente_rentavel), 2)

* Das ações investíveis, eficientes e rentáveis, cerca de 48% está barata

##### 6. Ações investíveis, eficientes, rentáveis e baratas

In [None]:
df_investivel_eficiente_rentavel_barata = df_investivel_eficiente_rentavel[df_investivel_eficiente_rentavel['eh_empresa_barata'] == 1]

In [None]:
def plota(df):
  # Tamanho do grafico
  plt.figure(figsize = (10, 10))

  # Plota os pontos do dataframe
  sns.scatterplot(data = df,
                  x = 'roe',
                  y = 'dy',
                  hue = df['setor_de_atuacao'],
                  size = 'm_liquida',
                  );

  # Plota o texto do codigo da acao
  for i in range(df.shape[0]):
    plt.text(x = df['roe'][i] + abs(df['roe'][i]/500),
              y = df['dy'][i] + abs(df['dy'][i]/500),
              s = df.index[i],
              fontstyle = 'italic',
              fontweight = 'bold',
              size = 12
              )

  plt.xlabel(r'ROE $\longrightarrow$Melhor', fontweight = 'bold')
  plt.ylabel(r'DY $\longrightarrow$Melhor', fontweight = 'bold')
  plt.title('As melhores e mais baratas ações de acordo com as classes definidas manualmente', fontweight = 'bold')

In [None]:
plota(df_investivel_eficiente_rentavel_barata)

Após a filtragem feita, é interessante perceber que nem todos o setores estão presentes no gráfico, ou seja, algumas ações foram deixadas de fora e o setor não teria nenhum tipo de ação dita anteriormente. Com isso, será analisado cada setor separadamente, considerando apenas se a ação é investível.

#### Pré-Análise Gráfica por Setor

##### Justificativa para dividir por setor

1. Usar apenas as ações investíveis para deixar apenas as ações essenciais e comparar os indicadores.
2. Dividir de acordo com cada setor e analisar separadamente, porque deve-se comparar sempre ações que estão no mesmo nicho para que essa comparação seja justa e o resultado faça sentido.

In [None]:
df_grafico = df_investivel.copy()

##### Função para dividir por setor

In [None]:
# Faz o setor de atuacao virar uma chave em lower case, sem espaco, sem acento 
clean_key = lambda k: unidecode(k).lower().replace(' ','_')

# Dicionario que a chave eh o setor e o valor eh um dataframe com as acoes desse setor
dict_groupby_setor = {clean_key(k):v for k, v in df_grafico.groupby(['setor_de_atuacao'])}

# Ver tamanho de cada dataframe
dict_groupby_setor_sizes = {k:len(v) for k, v in dict_groupby_setor.items()}

# Ordena o tamanho de cada dataframe
sorted(dict_groupby_setor_sizes.items(), key = lambda item: item[1])

##### Aplicação para dividir por setor

In [None]:
# Cria um dataframe para cada setor -> analisar separadamente
df_bens_industriais = dict_groupby_setor['bens_industriais']
df_comunicacoes = dict_groupby_setor['comunicacoes']
df_consumo_ciclico = dict_groupby_setor['consumo_ciclico']
df_consumo_nao_ciclico = dict_groupby_setor['consumo_nao_ciclico']
df_financeiro_e_outros = dict_groupby_setor['financeiro_e_outros']
df_materiais_basicos = dict_groupby_setor['materiais_basicos']
df_petroleo_gas_e_biocombustiveis = dict_groupby_setor['petroleo_gas_e_biocombustiveis']
df_saude = dict_groupby_setor['saude']
df_tecnologia_da_informacao = dict_groupby_setor['tecnologia_da_informacao']
df_utilidade_publica = dict_groupby_setor['utilidade_publica']

In [None]:
df_comunicacoes

In [None]:
df_saude

##### _Scatterplot_ para comparar indicadores por setor

In [None]:
def scatterplot_indicadores_df(df, indicador1, indicador2, indicador3):
  width = 12
  height = 9
  
  # Tamanho do grafico
  plt.figure(figsize = (width, height))

  # Plota os pontos do dataframe
  sns.scatterplot(data = df,
                  x = indicador1,
                  y = indicador2,
                  hue = df.index,
                  size = indicador3,
                  );
  # plt.axis('scaled')
  # Plota o texto do codigo da acao
  for i in range(df.shape[0]):
    plt.text(x = df[indicador1][i] + abs(df[indicador1][i]/500),
             y = df[indicador2][i] + abs(df[indicador2][i]/500),
             s = df.index[i],
             fontstyle = 'italic',
             fontweight = 'bold',
             size = 12
             )


  # dy, m_ebitda, m_liquida, roe, roa, cagr_receitas_5_anos, cagr_lucros_5_anos
  maior_melhor = ['dy', 'm_ebitda', 'm_liquida', 'roe', 'roa', 'cagr_receitas_5_anos', 'cagr_lucros_5_anos']
  
  if indicador1 in maior_melhor:
    xlabel_text = indicador1.upper() + r'$\longrightarrow$Melhor'
  else:
    xlabel_text = r'Melhor$\longleftarrow$' + indicador1.upper()
  
  if indicador2 in maior_melhor:
    ylabel_text = indicador2.upper() + r'$\longrightarrow$Melhor'
  else:
    ylabel_text = r'Melhor$\longleftarrow$' + indicador2.upper()


  plt.xlabel(xlabel_text, fontweight = 'bold')
  plt.ylabel(ylabel_text, fontweight = 'bold')
  plt.title('Ações investíveis do setor de ' + str(df['setor_de_atuacao'][0]), fontweight = 'bold')

#### Análise gráfica por setor

Objetivo: **Escolher 2 ações de cada setor**



In [None]:
sorted(dict_groupby_setor_sizes.items(), key = lambda item: item[1])

##### Comunicações

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_comunicacoes, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_comunicacoes, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Comunicações, as 2 ações escolhidas foram: **TIMP3 e VIVT3**

* Foi simples escolher as ações, pois há somente 2 ações investíveis.

* No entanto, vale comparar a diferença entre elas
  * TIMP3 está um pouco mais eficiente e rentável do que a VIVT3
  * VIVT3 está com o _dividend yield_ mais alto, pois ela é mais madura do que a TIMP3

##### Tecnologia e Informação

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_tecnologia_da_informacao, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_tecnologia_da_informacao, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Tecnologia e Informação, as 2 ações escolhidas foram: **SQIA3 e TOTS3**

* Foi simples escolher as ações, pois há somente 2 ações investíveis.

* No entanto, vale comparar a diferença entre elas
  * SQIA3 está mais barata, porém menos eficiente e rentável do que TOTS3
  * O _dividend yield_ das duas é tão baixo que nem vale a pena comparar



##### Petróleo Gás e Biocombustíveis

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_petroleo_gas_e_biocombustiveis, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_petroleo_gas_e_biocombustiveis, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Petróleo Gás e Biocombustíveis, as 2 ações escolhidas foram: **ENAT3 e PRIO3**

* Foi simples escolher as ações, pois há somente 2 ações investíveis.

* No entanto, vale comparar a diferença entre elas
  * ENAT3 está mais barata, porém tem menos caixa do que PRIO3
  * ENAT3 está mais eficiente e rentável do que PRIO3



##### Materiais Básicos

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_materiais_basicos, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_materiais_basicos, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Materiais Básicos, as 2 ações escolhidas foram: **VALE3 e UNIP3**

* Serão escolhidas as 2 melhores ações dentre as 4 que ficaram.

* De acordo com o gráfico, é nítido as 2 melhores ações: VALE3 e UNIP3

* Comparando a diferença entre elas
  * VALE3 e UNIP3 estão mais baratas, mais eficientes e mais rentáveis do que EUCA3 e DTEX3



##### Consumo Não Cíclico

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_consumo_nao_ciclico, 'peg_ratio', 'div_liquida/pl', 'roe')

In [None]:
scatterplot_indicadores_df(df_consumo_nao_ciclico, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Consumo Não Cíclico, as 2 ações escolhidas foram: **AGRO3 e SLCE3**

* Serão escolhidas as 2 melhores ações dentre as 6 que ficaram.

* As mais baratas ficaram CAML3 e NTCO3, porém não são tão eficientes nem rentávies.

* As mais eficientes e rentáveis foram AGRO3 e SLCE3, sendo que estão um pouco mais caras que CAML3 e NTCO3, ou seja, elas são as escolhidas.




##### Bens Industriais

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_bens_industriais, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_bens_industriais, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Bens Industriais, as 2 ações escolhidas foram: **TGMA3 e WEGE3**

* Serão escolhidas as 2 melhores ações dentre as 6 que ficaram.

* As mais baratas ficaram sendo TUPY3, HAGA3, TGMA3, no entanto, a HAGA3 é bem eficiente, mas não é rentável; TUPY3 é pouco eficiente e pouco rentável; e TGMA3 é um pouco mais eficiente e rentáveldo que TUPY3. Entre as 3, a melhor delas por estar mais barata, eficiente e rentável é a TGMA3.

* As mais caras ficaram sendo CARD3, WEGE3, FRAS3, no entanto, a melhor em eficiência e rentabilidade é a WEGE3, além de estar mais barata do que a FRAS3. Entre as 3, a que está com preço mais equilibrado, é eficiente e rentável, é a WEGE3.

##### Saúde

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_saude, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_saude, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Saúde, as 2 ações escolhidas foram: **PARD3 e ODPV3**

* Serão escolhidas as 2 melhores ações dentre as 7 que ficaram.

* PARD3 e ODPV3 estão entre as melhores de eficiência e rentabilidade, além de terem pouca ou nenhuma dívida e não estarem caras.

##### Utilidade Pública

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_utilidade_publica, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_utilidade_publica, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Utilidade Pública, as 2 ações escolhidas foram: **CPLE3 e EQPA3**

* Serão escolhidas as 2 melhores ações dentre as 9 que ficaram.

* Inicialmente, pode-se verificar que CPLE3 está sem dívida, barata, é eficiente e rentável.

* TAEE3 é muito eficiente e rentável, porém o _PEG Ratio_ está negativo, ou seja, o lucro está caindo, e ela não está barata.

* EQPA3 é bem rentável e um pouco eficiente, além de não estar cara, e sem dívida, ou seja, é uma boa escolha.

##### Consumo Cíclico

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_consumo_ciclico, 'peg_ratio', 'div_liquida/ebitda', 'roe')

In [None]:
scatterplot_indicadores_df(df_consumo_ciclico, 'roe', 'm_liquida', 'dy')

###### Análise

* No setor de Consumo Cíclico, as 2 ações escolhidas foram: **CGRA3 e LEVE3**

* Serão escolhidas as 2 melhores ações dentre as 14 que ficaram.

* CGRA3 é eficiente e rentável, não tem dívida e está barata.

* LEVE3 é menos eficiente do que CGRA3 e mais rentável, não tem dívida e também está barata.

##### Financeiro e Outros

###### Gráficos

In [None]:
scatterplot_indicadores_df(df_financeiro_e_outros, 'peg_ratio', 'roe', 'dy')

In [None]:
scatterplot_indicadores_df(df_financeiro_e_outros, 'roe', 'm_liquida', 'peg_ratio')

###### Análise

* No setor de Financeiro e Outros, as 2 ações escolhidas foram: **ITSA3 e B3SA3**

* No setor de bens industriais, deve-se escolher as 2 melhores ações dentre as 14 que ficaram.

* As mais eficientes e rentáveis são LOGG3, ITSA3 e B3SA3. No entanto, B3SA3 está cara em relação a elas, porém é a mais rentável. ITSA3 está bem equilibrada em comparação às três ações.

#### Melhores ações de cada setor

* Comunicações: TIMS3 e VIVT3
* Tecnologia e Informação: SQIA3 e TOTS3
* Petróleo Gás e Biocombustíveis: ENAT3 e PRIO3
* Materiais Básicos: VALE3 e UNIP3
* Consumo Não Cíclico: AGRO3 e SLCE3
* Bens Industriais: TGMA3 e WEGE3
* Saúde: PARD3 e ODPV3
* Utilidade Pública: CPLE3 e EQPA3
* Consumo Cíclico: CGRA3 e LEVE3
* Financeiro e Outros: ITSA3 e B3SA3

## 6. Conclusões e Discussões

A partir das análises feitas e os resultados obtidos, pode-se perceber que a análise foi feita mais qualitativamente do que quantitativamente, pois as categorias das empresas definidas durante a metodologia são baseadas em pesquisas externas, usando livros de investimento e outras fontes que dizem quando uma empresa é boa ou não para investir. Com isso, o estudo tem como viés as fontes utilizadas e também a forma como os dados foram padronizados, pois pode haver erro.

As categorias que a _Decision Tree_ tinha que predizer foram criadas a partir dos próprios dados. Com isso, a _Decision Tree_ buscou a classificação do que é uma "empresa investível"; ou seja, quando todos os dados que definiam uma categoria foram colocados como entrada para a _Decision Tree_, ela conseguiu classificar com 100% de certeza. Isso é devido ao viés de criar a categoria a partir dos mesmos dados que a árvore usa pra classificar, ou seja, deveria ter criado as categorias a partir de dados externos.

A visualização gráfica foi bem útil para comparar as ações de setores diferentes, ao invés de somente fazer uma função que escolha as melhores. É importante lembrar que as ações foram comparadas com as concorrentes do seu setor e foi oportuno fazer essa verificação visualmente. Cabe salientar que há uma taxa maior de erro na hora de escolher as melhores, mas, ainda assim, é adequado, pois é possível consultar de novo e mais vezes os gráficos e comparar outros indicadores.

A partir do projeto feito, devido ao problema da _Decision Tree_ e a comparação apenas visual das ações do mesmo setor, utilizarei o mesmo como molde para um projeto futuro onde usarei os dados de anos anteriores e farei a análise de forma mais robusta. Assim sendo, será possível validar se as ações escolhidas foram boas realmente ou não, e, quem sabe, desenvolver um algoritmo de predição para as melhores ações de cada setor da Ibovespa.

## 7. Referências

Aulas

* Aulas 1 a 5
* Aulas 16, 18, 20

Pesquisa - Python

* https://seaborn.pydata.org/generated/seaborn.barplot.html

* https://seaborn.pydata.org/generated/seaborn.displot.html

* https://seaborn.pydata.org/generated/seaborn.catplot.html

* https://seaborn.pydata.org/generated/seaborn.countplot.html

* https://seaborn.pydata.org/generated/seaborn.scatterplot.html

* https://seaborn.pydata.org/tutorial/color_palettes.html

* https://seaborn.pydata.org/examples/index.html

* https://medium.com/@vladbezden/how-to-set-seaborn-plot-size-in-jupyter-notebook-63ffb1415431

* https://stackoverflow.com/questions/46027653/adding-labels-in-x-y-scatter-plot-with-seaborn

* https://towardsdatascience.com/how-to-add-text-labels-to-scatterplot-in-matplotlib-seaborn-ec5df6afed7a

* https://matplotlib.org/3.5.1/api/_as_gen/matplotlib.pyplot.text.html

* https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.arrow.html

* https://matplotlib.org/3.5.1/api/_as_gen/matplotlib.pyplot.annotate.html

* https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

Pesquisa/Estudo - Investimentos

* https://capitalizo.com.br/small-caps-blue-chips-e-micro-caps-entenda-as-diferencas/

* Aswath Damoran - Valuation, Como Avaliar Empresas e Escolher as Melhores Ações

* Suno - Aprenda a investir em dividendos

* Gustavo Cerbasi - Investimentos inteligentes