# [CONFIG] Instalações e pacotes

## Sistema (os, makedirs, glob, listdir, load_dotenv)

In [None]:
from os import makedirs
import os
import glob
from os import listdir

### Para pegar os arquivos .env
# from pathlib import Path  # Python 3.6+ only
import dotenv
dotenv.load_dotenv(dotenv_path='../.env') # Pega da pasta acima dessa
def load_dotenv():
    """Load the .env file normally and also from the current directory."""
    dotenv.load_dotenv()
    dotenv.load_dotenv(dotenv.find_dotenv(usecwd=True))

load_dotenv()


## Pega o var_caminho da variável de ambiente
import sys
# caution: path[0] is reserved for script path (or '' in REPL)
sys.path.insert(1, os.environ.get('var_caminho_fonte'))

var_caminho = os.environ.get('var_caminho_fonte')
# var_caminho


## Pega bibliotecas de caminhos diversos
# import importlib
# try:
    # importlib.reload(sys.modules['modulo'])
# except:
    # pass
# from modulo import funcao

## Básicos (numpy, math, display, locale, time, random, re)

In [1]:
# !python -m pip install jupyter


# !python -m pip install IPython
from IPython.display import display

import math

# !python -m pip install numpy
import numpy as np

import locale
# locale.setlocale(locale.LC_ALL, "pt_BR.UTF-8")  # Use "" for auto, or force e.g. to "en_US.UTF-8"

import time
from datetime import datetime, timedelta, date

from pandas.tseries.offsets import BDay # para os dias úteis
# today = datetime.datetime.today()
# print(today - BDay(4)) # 4 dias úteis atrás

# # !python -m pip install random
import random
random.seed(42)

# !python -m pip install regex
import re

## Leitura e análise de dados (Excel, Pandas, Spark)

In [None]:
# !python -m pip install findspark

# !python -m pip install openpyxl
# import openpyxl

# !python -m pip install xlsxwriter
# import xlsxwriter

# !python -m pip install xlrd
# import xlrd

# !python -m pip install python-calamine
# import python_calamine


# !python -m pip install pandas
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
# pd.set_option('display.float_format', lambda x: '%.2f' % x)

## Drive (para ler e escrever arquivos)

In [None]:
# # PARA A LEITURA DOS DADOS EM PLANILHA DE SHEETS
# # https://stackoverflow.com/questions/71686960/typeerror-credentials-need-to-be-from-either-oauth2client-or-from-google-auth
# from google.colab import drive
# from google.colab import auth
# # !pip install gspread
# import gspread
# from google.auth import default
# creds, _ = default()

# auth.authenticate_user()
# gc = gspread.authorize(creds)
# drive.mount('/content/drive')

## Visualização (matplotlib, seaborn, plotly)

In [None]:
# !python -m pip install matplotlib
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from matplotlib import ticker
from matplotlib.ticker import FormatStrFormatter, StrMethodFormatter

# !python -m pip install seaborn
import seaborn as sns

# !python -m pip install plotly
# import plotly.graph_objects as go
# import plotly.express as px
# from plotly.subplots import make_subplots

# !python -m pip install graphviz
import graphviz

## Automação (selenium, schedule)

In [None]:
# !python -m pip install selenium
# !python -m pip install schedule

# from selenium import webdriver
# from selenium.webdriver.common.keys import Keys
# from selenium.webdriver.common.by import By
# import schedule

## Classificação (sklearn)

In [None]:
!python -m pip install scikit-learn
!python -m pip install -U imbalanced-learn
!python -m pip install kneed

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

## Clusterização (sklearn)

In [None]:
!python -m pip install scikit-learn
!python -m pip install -U imbalanced-learn
!python -m pip install kneed

from sklearn import datasets
from sklearn.model_selection import train_test_split

from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

from sklearn.metrics import accuracy_score, balanced_accuracy_score, silhouette_score, adjusted_rand_score

## Visão computacional (OpenCV)

In [None]:
# !python -m pip install opencv-python

## Séries temporais (statsmodels, Prophet)

In [None]:
!python -m pip install statsmodels
from statsmodels.tsa.seasonal import seasonal_decompose

!python -m pip install prophet
from prophet import Prophet

## Redes neurais (tensorflow, keras)

In [None]:
!python -m pip install tensorflow

import tensorflow as tf
from tensorflow.keras.utils import to_categorical

from keras.models import Sequential
from keras.layers import Dense

## Finanças (yfinance, mplfinance)

In [None]:
# https://pypi.org/project/yfinance/
# https://github.com/ranaroussi/yfinance/wiki/Ticker

!python -m pip install yfinance
import yfinance as yf

!python -m pip install mplfinance
import mplfinance as mpf

# # Em R
# # https://cran.r-project.org/web/packages/BatchGetSymbols/index.html

## Leitura de dados em sites e APIs (Beautiful Soup e requests)

In [None]:
# !python -m pip install BeautifulSoup
from bs4 import BeautifulSoup

# !python -m pip install requests
import requests

## Regresão (sklearn)

In [None]:
# !python -m pip install scikit-learn

from sklearn.linear_model import LinearRegression

# Funções

## Leitura

### Leitura de arquivos com ID no Drive (_le_arquivos_drive_)

In [1]:
def le_arquivos_drive(id_arquivo):
    from pydrive.auth import GoogleAuth
    from pydrive.drive import GoogleDrive
    from google.colab import auth
    from oauth2client.client import GoogleCredentials

    !python -m pip install PyDrive# &> /dev/null

    auth.authenticate_user()
    gauth = GoogleAuth()
    gauth.credentials = GoogleCredentials.get_application_default()
    drive = GoogleDrive(gauth)

    # id_arquivo = "1sgkZW8mQCGdG_4DicIXFTCn3d-RBoRIk" # Altere o token dos dados aqui

    download = drive.CreateFile({'id': id_arquivo})

    download.GetContentFile('file.csv')
    dados  = pd.read_csv("file.csv")

    return dados
    # dados.head()

### Leitura de arquivos em uma pasta local (_empilha_arquivos_pasta_)

In [None]:
def empilha_arquivos_pasta(
    caminho_pasta,
    formato, 
    sep = ",",
    imprimir_nomes_arquivos = True, 
    adicionar_arquivo_base = True,
    imprimir_check = True,
    remover_duplicatas = False,
    nome_aba = None,
    palavra_chave_arquivo = None,
    ):
    
    bd = pd.DataFrame()
    check = 0
    arquivos_nao_lidos = []

    for filename in os.listdir(caminho_pasta):
        if ( (filename.endswith("." + formato.lower())) | (formato == "") ) * (palavra_chave_arquivo.lower() in filename.lower()):

            if imprimir_nomes_arquivos == True:
                print("Lendo arquivo " + filename)

            try:
                if formato.lower() == "csv":
                    try:
                        try:
                            novoArquivo = pd.read_csv(caminho_pasta + "\\" + filename, sep = sep, encoding = "utf-8", engine = "python")
                        except:
                            novoArquivo = pd.read_csv(caminho_pasta + "\\" + filename, encoding = "utf-8", engine = "python")
                    except:
                        try:
                            novoArquivo = pd.read_csv(caminho_pasta + "\\" + filename, sep = sep, encoding='iso-8859-1', engine = "python")
                        except:
                            novoArquivo = pd.read_csv(caminho_pasta + "\\" + filename, encoding='iso-8859-1', engine = "python")
                            
                elif formato.lower() == "xlsx":
                    if nome_aba is None:
                        novoArquivo = pd.read_excel(caminho_pasta + "\\" + filename)
                    else:
                        novoArquivo = pd.read_excel(caminho_pasta + "\\" + filename, sheet_name = nome_aba)


                if adicionar_arquivo_base == True:
                    novoArquivo["Arquivo"] = filename

                print("Leitura do arquivo " + filename + " concluída (" + str(len(novoArquivo)) + " linhas)")
                check = check + len(novoArquivo)
                bd = pd.concat([bd, novoArquivo])
                # print("Leitura do arquivo " + filename + " concluída (" + str(len(novoArquivo)) + " linhas)")
            
            except:
                print("Erro no arquivo " + filename)
                arquivos_nao_lidos.append(filename)
            
            continue
        else:
            continue

    if imprimir_check == True:
        if (len(bd) == check):
            check = "ok"
        else:
            check = "nok"
        print("Check: " + check + ", " + str(len(bd))) 

    if remover_duplicatas == True:
        bd = bd.drop_duplicates()

    return [bd, arquivos_nao_lidos]

In [1]:
# [bd_empilhada, arquivos_nao_lidos] = empilha_arquivos_pasta(
#     caminho_pasta = r'C:\Users\ricardopeloi\pasta',
#     formato = 'xlsx', 
#     # sep = ",",
#     imprimir_nomes_arquivos = True, 
#     adicionar_arquivo_base = True,
#     imprimir_check = True,
#     remover_duplicatas = False,
#     nome_aba = None,
#     )

# bd_empilhada

### Lê arquivo do Google Sheets em CSV (_convert_google_sheet_url_)

In [None]:
def convert_google_sheet_url(url):
    # Regular expression to match and capture the necessary part of the URL
    pattern = r'https://docs\.google\.com/spreadsheets/d/([a-zA-Z0-9-_]+)(/edit#gid=(\d+)|/edit.*)?'

    # Replace function to construct the new URL for CSV export
    # If gid is present in the URL, it includes it in the export URL, otherwise, it's omitted
    replacement = lambda m: f'https://docs.google.com/spreadsheets/d/{m.group(1)}/export?' + (f'gid={m.group(3)}&' if m.group(3) else '') + 'format=csv'

    # Replace using regex
    new_url = re.sub(pattern, replacement, url)

    return new_url

# caminho = "https://docs.google.com/spreadsheets/d/1FO7R8HkhqqHfVgup5-52DTDKT_roiVpBARNTlgxchCo/edit#gid"
# base = pd.read_csv(convert_google_sheet_url(caminho))
# base

### Amostra da base (_amostra_da_base_)

In [None]:
def amostra_da_base(bd, qtd_por_grupo, taxa_de_conversao, random_state = 1):
    quantidade = min(int(round(qtd_por_grupo/taxa_de_conversao, 0)), len(bd))
    
    if random_state == False:
        return bd.sample(n = quantidade)
    else:
        return bd.sample(n = quantidade, random_state = random_state)

## Tratamentos básicos

### Elimina colunas NA (_elimina_colunas_NA_)

In [7]:
def elimina_colunas_NA(
    base,
    imprime_colunas_vazias = False,
    imprime_colunas_completas = False,
    imprime_colunas_parciais = False,
    remove_da_base = True,
    retorna_parciais = False
    ):

    tamanho_da_base = len(base)

    colunas_vazias = []
    colunas_completas = []
    colunas_parciais = []

    for coluna in base.columns:
        tamanho_da_coluna = len(base[base[coluna].isna()])
        if tamanho_da_coluna == tamanho_da_base:
            # print(coluna)
            colunas_vazias.append(coluna)
        elif tamanho_da_coluna == 0:
            colunas_completas.append(coluna)
        else:
            colunas_parciais.append(coluna)

    if imprime_colunas_vazias == True:
        if len(colunas_vazias) == 0:
            print("Não há colunas NA")
        else:
            print("Colunas vazias: " + str(colunas_vazias))
            
    if imprime_colunas_completas == True:
        if len(colunas_completas) == 0:
            print("Não há colunas completas")
        else:
            print("Colunas completas: " + str(colunas_completas))
    
    if imprime_colunas_parciais == True:
        if len(colunas_parciais) == 0:
            print("Não há colunas parciais")
        else:
            print("Colunas parciais: " + str(colunas_parciais))

    if remove_da_base == True:
        base = base.drop(colunas_vazias, axis = 1)
    
    if retorna_parciais == True:
        return [base, colunas_parciais]
    else:
        return base

### Adiciona campo agrupado (_adiciona_campo_agrupado_)

In [8]:
def adiciona_campo_agrupado(
    bd_limpa, bd_unificada, 
    campos_identificadores, 
    novo_campo, 
    imprime_campos = True,
    imprime_checks = True
    ):
    
    novo_campos_identificadores = campos_identificadores.copy()
    novo_campos_identificadores.append(novo_campo)
    if imprime_campos == True:
        print(str(novo_campos_identificadores))

    bd_limpa_com_campos = bd_limpa[novo_campos_identificadores] \
        .groupby(novo_campos_identificadores).first().reset_index()

    bd_limpa_com_campos = bd_limpa_com_campos.groupby(campos_identificadores).last()

    if novo_campo in bd_unificada.columns:
        bd_unificada_novo = bd_unificada.drop(novo_campo, axis = 1).join(bd_limpa_com_campos, how = "outer")
    else:
        bd_unificada_novo = bd_unificada.join(bd_limpa_com_campos, how = "outer")

    if imprime_checks == True:
        print(novo_campo + " vazios: " + str(len(bd_unificada_novo[bd_unificada_novo[novo_campo].isna()])))
        print(novo_campo + " não vazios: " + str(len(bd_unificada_novo[~bd_unificada_novo[novo_campo].isna()])))

    return bd_unificada_novo

### Completa dígitos, por exemplo padronizar chaves, CPF, etc (_completa_digitos_)

In [1]:
def completa_digitos(texto, qtd):
    quantidade_zeros = qtd - len(texto)

    contador = quantidade_zeros
    while contador > 0:
        texto = "0" + texto
        contador = contador - 1

    # print(len(texto))

    return texto

# bd["Ano-Mês"] = bd["Ano"].astype(str) + "-" + bd["Mês"].astype(str).apply(lambda x: completa_digitos(x, 2))

### Consolida primeiro campo não NA entre duas opções (_consolida_primeiro_campo_existente_)

In [None]:
def consolida_primeiro_campo_existente(campoA, campoB):
    try:
        import numpy as np

        if np.isnan(campoA):
            return campoB
        else:
            return campoA
    except:
        if pd.isnull(campoA):
            return campoB
        else:
            return campoA

### Agrupar cada coluna (_agrupamento_cada_coluna_)

In [None]:
def agrupamento_cada_coluna(
    bd, 
    coluna_completa, 
    colunas_ignoradas = [], 
    ascending = False,
    imprime_tabelas = True,
    ):
    
    from IPython.display import display

    campos_com_erro = []
    dict_campos = {}

    colunas = bd.columns.drop(coluna_completa)

    if len(colunas_ignoradas) > 0:
        colunas = colunas.drop(colunas_ignoradas)
    
    for coluna in colunas:
        try: 
            temp_coluna = bd.fillna("(vazio)").groupby(coluna).count()[[coluna_completa]].rename(columns = {coluna_completa: "Quantidade"}).sort_values("Quantidade", ascending = ascending)

            if ascending == False:
                temp_coluna["%"] = temp_coluna["Quantidade"]/temp_coluna["Quantidade"].sum()
                temp_coluna["% acumulado"] = temp_coluna["%"].cumsum()
            
            if imprime_tabelas == True:
                display(temp_coluna)
                
            dict_campos[coluna] = temp_coluna
            # limpa(temp_coluna)
        
        except:
            campos_com_erro.append(coluna)
            #print("Campo " + coluna + " deu erro =/")
    
    return [campos_com_erro, dict_campos]

### Exemplos de repetições na BD (_exemplos_repeticoes_na_bd_)

In [None]:
def exemplos_repeticoes_na_bd(
    bd_filtro_linhas, 
    campos_filtro_colunas, 
    coluna_completa, 
    ascending = False
    ):
    
    print("A tabela possui " + str(len(bd_filtro_linhas[campos_filtro_colunas])) + " linhas na base vezes na base")
    
    bd_agrupada = bd_filtro_linhas[campos_filtro_colunas+[coluna_completa]] \
        .groupby(campos_filtro_colunas).count() \
        .rename(columns = {coluna_completa: "Quantidade"}) \
        .sort_values("Quantidade", ascending = ascending)

    return bd_agrupada

### De Para com map (_de_para_map_), exemplo com meses

In [None]:
dict_mes = {
    "Janeiro": 1,
    "Fevereiro": 2,
    "Março": 3,
    "Abril": 4,
    "Maio": 5,
    "Junho": 6,
    "Julho": 7,
    "Agosto": 8,
    "Setembro": 9,
    "Outubro": 10,
    "Novembro": 11,
    "Dezembro": 12,
}
# bd["Mês"] = bd["Mês"].map(dict_mes)

### De Para basicão com loc (_de_para_)

In [None]:
def de_para(tabela_de_para, coluna_de):
    try:
        return tabela_de_para.loc[coluna_de][0]
    except:
        return np.nan

### Concatenação de colunas (parâmetros), usando uma lista como referência (_concat_parametros_)

In [None]:
def concat_parametros(
  lista_parametros,
  tabela,
):

  str_parametros = ""
  for parametro in lista_parametros:
    if parametro == lista_parametros[-1]:
      str_parametros = str_parametros + str(parametro)

    else:
      str_parametros = str(parametro) + " - " + str_parametros

  tabela[str_parametros] = ""
  for parametro in lista_parametros:
    if parametro == lista_parametros[-1]:
      tabela[str_parametros] = tabela[str_parametros] + tabela[parametro].astype(str)

    else:
      tabela[str_parametros] = tabela[parametro].astype(str) + " - " + tabela[str_parametros]
      # str_parametros = str_parametros + parametro
    

  # display(tabela)

  return (str_parametros, tabela)

### Encaixa um determinado valor entre dois valores que são representados por listas de faixas mínimas e máximas (_encaixa_na_faixa_)

In [None]:
def encaixa_na_faixa(faixa_minima, faixa_maxima, valor, tipo = "less-inclusive"):
    faixa_minima.sort()
    faixa_maxima.sort()

    tabela_personalizada = pd.DataFrame(index = faixa_minima, data = faixa_maxima) \
                                        .reset_index() \
                                        .rename(columns = {"index": "Faixa mínima", 0: "Faixa máxima"}).astype(float)

    tabela_personalizada["Faixa"] = tabela_personalizada["Faixa mínima"].astype(str).str.split(".").str[0] + \
                                     " a " + \
                                     tabela_personalizada["Faixa máxima"].astype(str).str.split(".").str[0]
    
    if tipo == "more-inclusive":
        
        for contador in range(len(tabela_personalizada)):
            if (valor > tabela_personalizada.iloc[contador]["Faixa mínima"]) & (valor <= tabela_personalizada.iloc[contador]["Faixa máxima"]):
                # display(tabela_personalizada.iloc[contador])
                return tabela_personalizada.iloc[contador]["Faixa"]
        
        return "Fora das faixas"

    if tipo == "inclusive":
        
        for contador in range(len(tabela_personalizada)):
            if (valor >= tabela_personalizada.iloc[contador]["Faixa mínima"]) & (valor <= tabela_personalizada.iloc[contador]["Faixa máxima"]):
                # display(tabela_personalizada.iloc[contador])
                return tabela_personalizada.iloc[contador]["Faixa"]
        
        return "Fora das faixas"

    # if tipo == "exclusive": \\ mutuamente exclusivo (não tem igual)

    else:
    # if tipo == "less-inclusive":

        for contador in range(len(tabela_personalizada)):
            if (valor >= tabela_personalizada.iloc[contador]["Faixa mínima"]) & (valor < tabela_personalizada.iloc[contador]["Faixa máxima"]):
                # display(tabela_personalizada.iloc[contador])
                return tabela_personalizada.iloc[contador]["Faixa"]
        
        return "Fora das faixas"


# lista_idade_minima = [float("-inf"), 17, 25, 31, 41, 51]
# lista_idade_maxima = [16, 24, 30, 40, 50, float("inf")]

# encaixa_na_faixa(lista_idade_minima, lista_idade_maxima, 0)

### Seleciona últimos meses em uma base que tenha coluna de "Ano-Mês" (_selecionar_ultimos_meses_)

In [1]:
def selecionar_ultimos_meses(bd, coluna_ano_mes, qtd_ultimos_meses = 12):
    lista_ano_mes_ordenada = bd[coluna_ano_mes].unique()
    lista_ano_mes_ordenada.sort()
    # print(lista_ano_mes_ordenada[-qtd_ultimos_meses:])

    return bd[bd[coluna_ano_mes].isin(lista_ano_mes_ordenada[-qtd_ultimos_meses:])]

# base_DRE_consolidado_12_meses = selecionar_ultimos_meses(base_DRE_consolidado, "Ano-Mês", qtd_ultimos_meses = 12)
# base_DRE_consolidado_12_meses[["Ano-Mês", "Faturamento Bruto (R$)"]].groupby("Ano-Mês").sum()

## Análise exploratória

### Imprimir o cabeçalho e alguns linhas de bases que tenham muitas colunas (_imprimir_head_todas_colunas_)

In [None]:
def imprimir_head_todas_colunas(
        bd,
        qtd_linhas = 2,
        qtd_colunas_display = 10,
):
    qtd_colunas = len(bd.columns)
    for n in range(int(qtd_colunas/qtd_colunas_display)):
        display(bd.iloc[:qtd_linhas, (n*qtd_colunas_display):((n+1)*qtd_colunas_display)])

    display(bd.iloc[:qtd_linhas, ((n+1)*qtd_colunas_display):])

# imprimir_head_todas_colunas(
#         bd,
#         # qtd_linhas = 2,
#         qtd_colunas_display = 12,
# )

### Análise exploratória básica de todos os campos da base - MUITO ÚTIL (_analise_exploratoria_)

In [None]:
def analise_exploratoria(
    bd,
    imprime_todas_colunas = False,
    imprime_info_colunas = True,
    imprime_colunas_vazias = False,
    imprime_colunas_completas = False,
    imprime_colunas_parciais = False,
    remove_da_base = True,
    retorna_parciais = False,
    # detalhar_colunas_parciais = True,
    colunas_ignoradas = []
    ):

    # COMEÇANDO PELAS COLUNAS DISPONÍVEIS E INFO
    if imprime_todas_colunas == True:
        display(bd.columns)
    
    if imprime_info_colunas == True:
        for i in range(int(np.ceil(len(bd.columns)/20))):
            display(bd.iloc[:, (i*20):min((i+1)*20, len(bd.columns))].info())

    # DETALHAMENTO DE QUAIS COLUNAS SÃO NA OU PARCIAIS
    if retorna_parciais == True:
        [bd_semNA, colunas_parciais] = elimina_colunas_NA(
            bd,
            imprime_colunas_vazias = imprime_colunas_vazias,
            imprime_colunas_completas = imprime_colunas_completas,
            imprime_colunas_parciais = imprime_colunas_parciais,
            remove_da_base = remove_da_base,
            retorna_parciais = True
        )

        print(colunas_parciais)

        # if detalhar_colunas_parciais == True:
            # for coluna in colunas_parciais:
                # print(coluna)
                # print("# " + coluna + ": " + str(len(colunas_parciais[colunas_parciais[coluna].isna()])))
    else:
        colunas_parciais = []

        bd_semNA = elimina_colunas_NA(
            bd,
            imprime_colunas_vazias = imprime_colunas_vazias,
            imprime_colunas_completas = imprime_colunas_completas,
            imprime_colunas_parciais = imprime_colunas_parciais,
            remove_da_base = remove_da_base,
            retorna_parciais = retorna_parciais
        )

    [campos_com_erro, colunas_agrupadas] = agrupamento_cada_coluna(
        bd.reset_index(), 
        coluna_completa = bd_semNA.drop(colunas_parciais, axis = 1).reset_index().columns[0],
        colunas_ignoradas = colunas_ignoradas
    )
    
    if retorna_parciais == True:
        return [bd_semNA, colunas_parciais, colunas_agrupadas, campos_com_erro]
    else:
        return [bd_semNA, colunas_agrupadas, campos_com_erro]

### Faz um gráfico de frequências com base na coluna escolhida (_plot_feature_freq_)

In [None]:
def plot_feature_freq(bd, coluna, showing=30):
    import matplotlib.ticker as mticker

    plt.figure(figsize=(16, 4))
    plt.subplot(121)

    labels, counts = np.unique(bd[coluna].dropna(), return_counts=True)

    # ordena pelas mais frequentes
    p = np.argsort(counts)[::-1]
    labels, counts = labels[p], counts[p]
    
    tabela_grafico = pd.DataFrame( data = [labels[:showing], counts[:showing]]).T
    tabela_grafico.columns = ["Labels", "Values"]
    # display(tabela_grafico)

    g = sns.barplot(data = tabela_grafico, x = "Labels", y = "Values")
    # g.set_xticks(tabela_grafico["Values"])
    g.xaxis.set_major_locator(mticker.FixedLocator(g.get_xticks()))
    g.set_xticklabels(tabela_grafico["Labels"], rotation=90)
    
    # return g

# plot_feature_freq(bd_dados_completos, "sector", showing=30)

## Exportação de dados

### Retorna caminho acima de alguma pasta, útil para quando o caminho contém planilhas para leitura, mas você quer exportar na pasta de cima (_retorna_caminho_pasta_acima_)

In [3]:
def retorna_caminho_pasta_acima(
        caminho_pasta,
        com_barra = False,
        var_split = "/"
        ):
    caminho_acima = ""
    for i in caminho_pasta.split(var_split):
        if i == caminho_pasta.split(var_split)[-1]:
            break
        caminho_acima = caminho_acima + i + "/"

    if com_barra == True:
        return caminho_acima
    else:
        return caminho_acima[:-1]

#### CHECKS
display(os.getcwd())

retorna_caminho_pasta_acima(
        os.getcwd(),
        com_barra = True,
        var_split = "\\"
        )

### Exportar para o Excel, já com uma tabelinha pronta para fazer Pivot Tables (_exporta_excel_com_tabela_)

In [None]:
def exporta_excel_com_tabela(
        bd,
        caminho_nome_arquivo
        ):
    # https://stackoverflow.com/questions/58326392/how-to-create-excel-table-with-pandas-to-excel
    # import pandas as pd

    # Create a Pandas dataframe from some data.
    # data = [10, 20, 30, 40, 50, 60, 70, 80]
    # df = pd.DataFrame({'Rank': data,
                    # 'Country': data,
                    # 'Population': data,
                    # 'Data1': data,
                    # 'Data2': data})

    # Create a Pandas Excel writer using XlsxWriter as the engine.
    writer = pd.ExcelWriter(caminho_nome_arquivo, engine='xlsxwriter')

    # Convert the dataframe to an XlsxWriter Excel object. Turn off the default
    # header and index and skip one row to allow us to insert a user defined
    # header.
    bd.to_excel(writer, sheet_name='Sheet1', startrow=1, header=False, index=False)

    # Get the xlsxwriter workbook and worksheet objects.
    workbook = writer.book
    worksheet = writer.sheets['Sheet1']

    # Get the dimensions of the dataframe.
    (max_row, max_col) = bd.shape

    # Create a list of column headers, to use in add_table().
    column_settings = []
    for header in bd.columns:
        column_settings.append({'header': header})

    # Add the table.
    worksheet.add_table(0, 0, max_row, max_col - 1, {'columns': column_settings})

    # Make the columns wider for clarity.
    worksheet.set_column(0, max_col - 1, 12)

    # Close the Pandas Excel writer and output the Excel file.
    writer.close()


# exporta_excel_com_tabela(
        # bd = dados_consolidado,
        # caminho_nome_arquivo = caminho + "Custo e Volume de Produção.xlsx"
        # )

## Visualizações rápidas

### Histograma padrão (_histograma_padrao_)

In [2]:
def histograma_padrao(
    dados_x,
    titulo = np.nan,
    dados_indice = np.nan,
    tipo = "hist",
    grid = False,
    legend = True,
    linha_media = np.nan,
    qtd_bins = 10,
    espessura = 0.8,
    limite_x_min = np.nan, limite_x_max = np.nan,
    limite_y_min = np.nan, limite_y_max = np.nan,
    ):
  
    plt.figure(figsize = (20,8))

    if not(pd.isnull(titulo)):
      plt.title(titulo, fontsize = 16)

    if tipo == "hist":
        n, bins, edges = plt.hist(
            dados_x,
            bins = qtd_bins,
            rwidth = espessura
            )
        plt.xticks(bins)
        ax1 = plt.gca()
        ax1.xaxis.set_major_formatter(ticker.StrMethodFormatter("{x:,.0f}"))

    elif tipo == "bar":
        plt.bar(
            dados_indice,
            dados_x,
            width = espessura
            )

  
  
    if not(math.isnan(linha_media)):
        plt.axvline(x=linha_media, color = "black", label='Média')
    
    if legend == True:
        plt.legend()
    
    plt.grid(grid)

    if (not(math.isnan(limite_x_max))) & (not(math.isnan(limite_x_min))):
      # print(limite_x_min)
      # print(~math.isnan(limite_x_max))
      plt.xlim(limite_x_min, limite_x_max)
  
    if (not(math.isnan(limite_y_max))) & (not(math.isnan(limite_y_min))):
      plt.ylim(limite_y_min, limite_y_max)
  
    plt.show()

    if tipo == "hist":
        return n, bins, edges

### Gráfico no Matplotlib com rótulos (_grafico_com_rotulos_)

In [None]:
def grafico_com_rotulos(
    dados, coluna_x, coluna_y, 
    tipo_grafico = "bar", titulo_grafico = "", tamanho_grafico = (20, 8),
    fig = None, ax = None, 
    tamanho_fonte = 12, grossura_barra = 1,
    cor_x = "b", rotacao_x = 0, 
    formato_y = ":.2f", rotacao_y = 0, limite_min_y = None, limite_max_y = None,
    xytext_label_y = (0,10),
  ):
  
  # dados_plot = dados_cliente[dados_cliente["% Faturamento Acumulado"] < 0.40]

  if fig is None:
    fig = plt.figure(figsize = tamanho_grafico)
  
  plt.clf()
  plt.rcParams.update({'font.size': tamanho_fonte})


  ys = dados[coluna_y]
  xs = np.arange(len(dados[coluna_x]))

  if (tipo_grafico == "bar") | (tipo_grafico == "line"):
    if (tipo_grafico == "bar"):
      plt.bar(
          x = xs,
          height = ys,
          width = grossura_barra,
          label = coluna_y,
      )
    elif (tipo_grafico == "line"):
      plt.plot(
        xs,
        ys,
        cor_x + "o-",
        label = coluna_y,
      )

    # display(cor_x + "o-")


    ax1 = plt.gca()
    if (limite_min_y is not None) & (limite_max_y is not None):
      ax1.set_ylim([min(dados[coluna_y])*limite_min_y, max(dados[coluna_y])*limite_max_y])

    ax1.set_ylabel(coluna_y, color = cor_x)
    ax1.set_xlabel(coluna_x)

    for x,y in zip(xs,ys):
        formato_y_rotulo = "{" + formato_y + "}"
        label = formato_y_rotulo.format(y)

        plt.annotate(label, # this is the text
                    (x,y), # these are the coordinates to position the label
                    textcoords="offset points", # how to position the text
                    xytext = xytext_label_y, # distance from text to points (x,y)
                    ha='center', # horizontal alignment can be left, right or center
                    color = cor_x,
                    rotation = rotacao_y)


    ax1.xaxis.set_tick_params(rotation = rotacao_x)

    # fig.legend()
    plt.xticks(xs, dados[coluna_x])
    formato_y_eixo = "{x" + formato_y + "}"
    ax1.yaxis.set_major_formatter(ticker.StrMethodFormatter(formato_y_eixo))

  elif tipo_grafico == "barh":
    plt.barh(
        y = xs,
        width = ys,
        height = grossura_barra,
        # label = coluna_y,
    )
    ax1 = plt.gca()
    ax1.set_yticks(xs, dados[coluna_x])

    ax1.set_ylabel(coluna_x)
    ax1.set_xlabel(coluna_y, color = cor_x)
    ax1.invert_yaxis()

    if (limite_min_y is not None) & (limite_max_y is not None):
      ax1.set_xlim([min(dados[coluna_y])*limite_min_y, max(dados[coluna_y])*limite_max_y])

    for x,y in zip(xs,ys):
      label = formato_y.format(y)

      plt.annotate(label, # this is the text
                (y, x), # these are the coordinates to position the label
                textcoords="offset points", # how to position the text
                xytext = (xytext_label_y[1], xytext_label_y[0]), # distance from text to points (x,y)
                ha='center', # horizontal alignment can be left, right or center
                color = cor_x,
                rotation = rotacao_y)

  plt.title(titulo_grafico)
  plt.show()

## Machine Learning

## Treinamento de modelos (_treina_e_roda_modelo_)

In [None]:
def treina_e_roda_modelo(
    dados,
    colunas_treino,
    coluna_resultado,
    
    estimador = "SVC",
    proporcao = 0.25,
    SEED = 42,
    print_tamanho = True,
    print_score = True,
    print_confusion_matrix = False,
    
    DummyClassifier__estrategia = None,
    
    DecisionTreeClassifier__retornar_visualizacao = False,
    DecisionTreeClassifier__max_depth = None,
    
    RandomForestClassifier__n_estimators = 100,
    
    feature_selection = None,
    scaler = None,
):
    from sklearn.model_selection import train_test_split
    # from sklearn.preprocessing import StandardScaler
    
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.ensemble import RandomForestClassifier
    # from sklearn.svm import LinearSVC
    from sklearn.svm import SVC
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.dummy import DummyClassifier
    
    # from sklearn.metrics import accuracy_score
    from sklearn.metrics import confusion_matrix
    from sklearn.tree import export_graphviz
    import graphviz
    import os
    os.environ["PATH"] += os.pathsep + 'C:/Program Files/Graphviz/bin' # https://stackoverflow.com/questions/35064304/runtimeerror-make-sure-the-graphviz-executables-are-on-your-systems-path-aft

    np.random.seed(SEED)


    # DIVIDE A BASE NAS PORÇÕES DE TESTE E TREINO, X E Y
    [original_x_treino, original_x_teste, y_treino, y_teste] = train_test_split(
        dados.loc[:, colunas_treino],
        dados.loc[:, coluna_resultado],
        test_size = proporcao,
        stratify = dados.loc[:, coluna_resultado] # mesma proporção de y
    )
    
    
    # SELECIONA AS FEATURES COM BASE NO ARGUMENTO E REESCALA SE NECESSÁRIO
    if feature_selection is not None:
        feature_selection.fit(original_x_treino, y_treino)
        x_treino = feature_selection.transform(original_x_treino)
        x_teste = feature_selection.transform(original_x_teste)
        
    if (scaler is None) | ((estimador is not None) * (estimador != "DecisionTreeClassifier")): # Não é necessário reescalar para árvore de decisão
        if feature_selection is None:
            x_treino = original_x_treino
            x_teste = original_x_teste
    else:
        if feature_selection is None:
            scaler.fit(original_x_treino)
            x_treino = scaler.transform(original_x_treino)
            x_teste = scaler.transform(original_x_teste)
        else:
            scaler.fit(x_treino)
            x_treino = scaler.transform(x_treino)
            x_teste = scaler.transform(x_teste)


    # IMPRIME O TAMANHO DE CADA PORÇÃO
    if print_tamanho == True:
        print("Tamanho treino: " + str(len(x_treino)))
        print("Tamanho teste: " + str(len(x_teste)))


    # INSTANCIA O ESTIMADOR ESCOLHIDO. SE NÃO HOUVER ESTIMADOR, RETORNA APENAS AS PORÇÕES SELECIONADAS E REESCALADAS
    if estimador is None:
        return [
            [original_x_treino, original_x_teste, y_treino, y_teste], 
            [x_treino, x_teste],
            feature_selection
        ]  
    elif estimador == "SVC":
        modelo = SVC(gamma = "auto")
    
    elif estimador == "RandomForestClassifier":
        modelo = RandomForestClassifier(n_estimators = RandomForestClassifier__n_estimators)

    elif estimador == "DecisionTreeClassifier":
        if DecisionTreeClassifier__max_depth is None:
            modelo = DecisionTreeClassifier()
        else:
            modelo = DecisionTreeClassifier(max_depth = DecisionTreeClassifier__max_depth)

    elif estimador == "MultinomialNB":
        modelo = MultinomialNB()
        
    elif estimador == "Dummy":
        if DummyClassifier__estrategia is None:  
            modelo = DummyClassifier()
        else:
            modelo = DummyClassifier(strategy = DummyClassifier__estrategia)
        
    else:
        return print("Estimador " + estimador + " não encontrado")
    
    
    # TREINA O ESTIMADOR ESCOLHIDO
    try:
        modelo.fit(x_treino, y_treino)
    except ValueError:
        return print("ValueError")

    # AVALIA O MODELO
    
    # previsoes = modelo.predict(x_teste)
    # taxa_de_acerto = accuracy_score(y_teste, previsoes)

    taxa_de_acerto = modelo.score(x_teste, y_teste)
    
    if print_score == True:
        print("Taxa de acerto do modelo " + estimador + ": {:.2%}".format(taxa_de_acerto))
        
    if print_confusion_matrix == True:
        matriz_confusao = confusion_matrix(y_teste, modelo.predict(x_teste))
        # print(matriz_confusao)
        sns.set(font_scale = 2)
        sns.heatmap(matriz_confusao, annot = True, fmt = "d").set(xlabel = "Predição", ylabel = "Real")
        plt.show()
    
    # RETORNA VISÃO GRÁFICA PARA O DECISION TREE CLASSIFIER
    if (DecisionTreeClassifier__retornar_visualizacao == True) * (estimador == "DecisionTreeClassifier"):
        # return export_graphviz(modelo, out_file = None)
        dot_data = export_graphviz(
            modelo, 
            feature_names = colunas_treino,
            filled = True,
            rounded = True,
            class_names = ["Não", "Sim"]
        )
        grafico = graphviz.Source(dot_data)
        return grafico
    
    # RETORNA BASES E MODELO PARA OUTROS ESTIMADORES
    return [
        modelo, 
        [original_x_treino, original_x_teste, y_treino, y_teste], 
        [x_treino, x_teste], 
        feature_selection,
        # previsoes, 
        taxa_de_acerto
    ]

### GridSearch padronizado (_treina_modelo_grid_)

In [None]:
def treina_modelo_grid(
  x_train,
  y_train,
  modelo,
  param_grid,
  cv = 10,
  scoring = "neg_mean_absolute_error",
  tipo = "grid",
  random_state_seed = 1082141,
  n_iter = 50
):
  from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
  
  if tipo == "grid":
      grid = GridSearchCV(
          modelo, 
          param_grid, 
          cv = cv, 
          scoring = scoring, 
          return_train_score = True,
      )

  elif tipo == "randomized":
      # print("Busca randomizada em " + str(n_iter) + " combinações de parâmetros.")
      grid = RandomizedSearchCV(
          modelo, 
          param_grid, 
          cv = cv, 
          scoring = scoring, 
          return_train_score = True,
          random_state = random_state_seed,
          n_iter = n_iter,
      )

  grid.fit(x_train, y_train)

  return grid

### Definimos range de hiperparâmetros
# n_neighbors_range = range(10, 20)
# metric_range = ["cityblock", "cosine", "euclidean", "haversine", "l1", "l2", "manhattan", "nan_euclidean", "minkowski"]
# algorithm_range = ["auto", "ball_tree", "kd_tree", "brute"]

# param_grid = dict(algorithm = algorithm_range)
# # display(param_grid) 

# grid_melhor_algorithm = treina_modelo_grid(
#     dados_treino_X,
#     dados_treino_y,
#     KNeighborsClassifier(n_neighbors = 12, metric = "euclidean"),
#     param_grid,
#     cv = 5,
#     scoring = "accuracy",
#     tipo = "grid",
#     random_state_seed = numero_aleatorio,
#     # n_iter = 50
# )

# # print(grid.best_score_)
# # grid.best_estimator_
# tabela_resultados = pd.concat([
#   pd.json_normalize(pd.DataFrame(grid_melhor_algorithm.cv_results_)["params"]),
#   pd.DataFrame(grid_melhor_algorithm.cv_results_)[["rank_test_score", "mean_test_score"]]
# ], axis = 1).set_index("rank_test_score").sort_index()


# plt.figure(figsize = (15,8))
# display(tabela_resultados)
# plt.bar(x = tabela_resultados["algorithm"], height = tabela_resultados["mean_test_score"]);

## Finanças, Day Trade

### Regressão linear com pontos de uma ação (_criar_regressao_bd_acao_)

In [None]:
def criar_regressao_bd_acao(
  bd_acao,
  coluna = "Close",
  print_variaveis = False,
  plot_grafico = False,
  tamanho_figsize = (10,5),
  rotacao = 45,
  titulo = "Pontos no fechamento da ação",
  var_pular_final_de_semana_feriados = False,
):
  # bd_acao

  bd_acao_coluna = bd_acao.reset_index()[[bd_acao.index.name, coluna]]
  # bd_acao_coluna

  # from sklearn.linear_model import LinearRegression

  X = bd_acao_coluna.reset_index()["index"].array.reshape(-1, 1)
  y = bd_acao_coluna.loc[:, coluna].array.reshape(-1, 1)

  modelo_linear = LinearRegression()
  modelo_linear.fit(X, y)

  bd_acao_coluna.loc[:, "Regressão"] = modelo_linear.predict(X)
  # bd_acao_fim

  desvio_padrao = bd_acao_coluna[coluna].std()
  media = bd_acao_coluna[coluna].mean()
  alfa = modelo_linear.coef_[0][0]
  valor_fechamento = bd_acao_coluna.sort_index(ascending = False).iloc[0][coluna]

  # margem = 0.005
  margem = desvio_padrao/media

  if print_variaveis == True:
    display("Média: " + "{:.4f}".format(media))
    display("Desvio padrão: " + "{:.4f}".format(desvio_padrao))
    display("Desvio padrão (%): " + "{:.4f}".format(margem))
    display("Inclinação da reta (alfa, coeficiente angular): " + "{:.4f}".format(alfa))
    display("Valor de fechamento (R$): " + "{:.2f}".format(valor_fechamento))


  if plot_grafico == True:
    plt.figure(figsize = tamanho_figsize)

    ax = plt.gca()

    if var_pular_final_de_semana_feriados == True:
      ax.xaxis.set_major_locator(ticker.LinearLocator(len(bd_acao_coluna)))
      # ax.xaxis.set_major_formatter(mdates.ConciseDateFormatter(ax.xaxis.get_major_locator()))
      # ax.xaxis.set_major_formatter(mdates.DateFormatter(fmt = "%d/%m/%y"))

      plt.xticks(rotation = rotacao)

      plt.scatter(x = bd_acao_coluna[bd_acao.index.name].dt.strftime("%d/%m/%y").astype(str), y = coluna, data = bd_acao_coluna, edgecolors='black', facecolors='none')

      plt.plot(bd_acao_coluna[bd_acao.index.name].dt.strftime("%d/%m/%y").astype(str), bd_acao_coluna["Regressão"]-desvio_padrao, color = "blue", linestyle='dashed')
      plt.plot(bd_acao_coluna[bd_acao.index.name].dt.strftime("%d/%m/%y").astype(str), bd_acao_coluna["Regressão"], color='green')
      plt.plot(bd_acao_coluna[bd_acao.index.name].dt.strftime("%d/%m/%y").astype(str), bd_acao_coluna["Regressão"]+desvio_padrao, color = "blue", linestyle='dashed')

      # ax.xaxis.set_major_formatter(mdates.DateFormatter(fmt = "%d/%m/%y"))
      # ax.xaxis.set_major_formatter(mdates.ConciseDateFormatter(ax.xaxis.get_major_locator()))

    else:
      ax.xaxis.set_major_formatter(mdates.ConciseDateFormatter(ax.xaxis.get_major_locator()))

      plt.xticks(bd_acao_coluna[bd_acao.index.name], rotation = rotacao)

      plt.scatter(x = bd_acao_coluna[bd_acao.index.name], y = coluna, data = bd_acao_coluna, edgecolors='black', facecolors='none')

      plt.plot(bd_acao_coluna[bd_acao.index.name], bd_acao_coluna["Regressão"]-desvio_padrao, color = "blue", linestyle='dashed')
      plt.plot(bd_acao_coluna[bd_acao.index.name], bd_acao_coluna["Regressão"], color='green')
      plt.plot(bd_acao_coluna[bd_acao.index.name], bd_acao_coluna["Regressão"]+desvio_padrao, color = "blue", linestyle='dashed')


    plt.title(titulo)
    plt.show()

  return [bd_acao_coluna, media, desvio_padrao, modelo_linear, valor_fechamento]

### Candle Plot (_candle_plot_)

In [None]:
def candle_plot(
    dados,
    volume = True,
    mav = np.nan,
    colors = ["orange", "yellow", "blue"],
    titulo = "",
    ):

  # !python -m pip install plotly
  from plotly.subplots import make_subplots
  import plotly.graph_objects as go
  
  if volume == True:
    fig = make_subplots(
        rows = 2,
        cols = 1,
        shared_xaxes = True,
        vertical_spacing = 0.1,
        subplot_titles = ("Candlesticks", "Volume transacionado"),
        row_width = [0.2, 0.7]
    )
  else:
    fig = make_subplots(
        rows = 1,
        cols = 1,
        shared_xaxes = True,
        vertical_spacing = 0.1,
        subplot_titles = ("Candlesticks"),
        row_width = [0.2, 0.7]
    )

  fig.add_trace(go.Candlestick(x=dados.index,
                      open = dados['Open'],
                      high = dados['High'],
                      low = dados['Low'],
                      close = dados['Close']),
                row = 1, col = 1)

  if mav is not np.nan:
    for i in range(len(mav)):
      # print(i)
      dados["Close "+ str(mav[i]) +" dias"] = dados["Close"].rolling(window=mav[i]).mean()
      fig.add_trace(go.Scatter(x=dados.index,
                          y = dados["Close "+ str(mav[i]) +" dias"],
                          mode = "lines",
                          name = "Média móvel fechamento " + str(mav[i]) + " dias",
                          marker=dict(color=colors[i])),
                    row = 1, col = 1)

  if volume == True:
    fig.add_trace(go.Bar(x=dados.head(60).index,
                        y = dados['Volume'],
                        name = "Volume"),
                  row = 2, col = 1)


  fig.update_layout(
      yaxis_title = "Preço",
      xaxis_rangeslider_visible=False,
      title=titulo,
      )

  fig.show()

# candle_plot(
#     dados = dados_candle_matp_media_movel.head(60),
#     volume = True,
#     mav = [7,14],
#     # colors = ["orange", "yellow", "blue"],
#     titulo = "PETR4.SA",
#     )

### Plota candlesticks e acha martelos (_plota_candlestick_acha_martelos_)

In [None]:
def plota_candlestick_acha_martelos(
    acao,
    periodo = "21d",
    intervalo = "1d",
    taxa_máxima_para_ser_martelo = 0.2,
    display_tabela_martelo = True,
    display_candlestick = True,

  ):

  bd_acao = yf.Ticker(acao).history(
      period = periodo,
      interval = intervalo
  )
  bd_acao["Amplitude Open-Close"] = abs(bd_acao["Open"] - bd_acao["Close"])
  bd_acao["Amplitude High-Low"] = abs(bd_acao["High"] - bd_acao["Low"])

  # taxa_máxima_para_ser_martelo = 0.2
  bd_acao["Martelo?"] = (bd_acao["Amplitude Open-Close"] < taxa_máxima_para_ser_martelo * bd_acao["Amplitude High-Low"])

  lista_datas_martelo = bd_acao[bd_acao["Martelo?"] == True].sort_index(ascending = False).index.to_pydatetime()
  string_datas_martelo = ""
  for data in lista_datas_martelo:
    string_datas_martelo = data.strftime("%d/%m/%y") + ", " + string_datas_martelo

  # string_datas_martelo[:-2]


  if display_tabela_martelo == True:
    display(bd_acao[bd_acao["Martelo?"] == True])

  if display_candlestick == True:
    candle_plot(
    bd_acao,
    volume = True,
    # mav = np.nan,
    # colors = ["orange", "yellow", "blue"],
    titulo = acao,
    )

  return [bd_acao, string_datas_martelo]

[_, string_datas_martelo] = plota_candlestick_acha_martelos(
    acao =  "PETR3" + ".SA",
    periodo = "60d",
    intervalo = "1d",
    taxa_máxima_para_ser_martelo = 0.2,
    display_tabela_martelo = True,
    display_candlestick = True,
  );

display(string_datas_martelo)

## Outros

### Limpa memória - NÃO FUNCIONA (_retrieve_name_, _limpa_)

In [None]:
def retrieve_name(var):
    import inspect

    callers_local_vars = inspect.currentframe().f_back.f_locals.items()
    
    return [var_name for var_name, var_val in callers_local_vars if var_val is var][0]

def limpa(ponteiro):
    try:
        del(ponteiro)
        import gc
        gc.collect()
    except:
        print("Não foi possível limpar "+ retrieve_name(ponteiro))

# Leitura

In [None]:
# caminho_pasta = r"C:/Users/ricardopeloi/..."
# arquivo = "abc.xlsx"

# bd_arquivo = pd.ExcelFile(caminho_pasta + "\\" + arquivo)
# bd_arquivo.sheet_names

# bd = pd.read_excel(caminho_pasta + "\\" + arquivo, sheet_name = 'aba')
# bd

# Análise exploratória

# Preparação de dados

## One hot encoding

## Balanceamento

## Separação treino e teste

## Normalização

# Classificação/Regressão

# TO-DO