In [None]:
import pandas as pd
from data_source import DataSource
from visualization import Visualization
from preprocessing import Preprocessing 
from model_training import ModelTraining
from model_inference import ModelInference

In [None]:
### Configuração da base de dados
data = DataSource(name_id='id', name_target='target')

In [None]:
### Cria arquivo para treino
data.set_df_train(path_original='../data/estaticos_market.csv')

In [None]:
### Set target column
col_target = pd.read_csv('../data/estaticos_portfolio1.csv', usecols=['id']).id
data.set_target_by_index(serie_index=col_target)

In [None]:
### Configura o processamento automático das features
pre = Preprocessing(data, max_missing=40., max_variance=2., rfe='LR', pca=.95, manual_feat=None)

In [None]:
### Optional manual analise columns. 
#### Syntax: COLUMN_NAME        TYPE   [FILLNA ENCODE  [DROP_FIRST]] #COMMENTS
col_analise = [             
    ('fl_matriz',               'cat',  None,   True,   True),
    ('de_natureza_juridica',    'cat',  None,   False),
    ('sg_uf',                   'cat',  None,   False),
    ('natureza_juridica_macro', 'cat',  None,   True,   False),
    ('de_ramo',                 'cat',  None,   False),
    ('idade_empresa_anos',      'num',  None,   False)
]

In [None]:
### Análise de Feature
x_train, y_train = pre.process()
Visualization(x_train).features_corralations()

In [None]:
Visualization(x_train).feature_analise('qt_socios', y=y_train)

In [None]:
### Define que tipo de modelos vamos testar para a solução
model = ModelTraining(pre, regression=False)

In [None]:
### Executa o preprocessamento escolhe e treina o modelo
%time trained_model = model.training()

In [None]:
### Executa o modelo treinado e gera o resultado
%time y_pred = ModelInference(trained_model).predict()

In [None]:
### Exibição dos leads escolhidos
index = data.get_columns(is_train_stage=False)
df_answer = pd.DataFrame(y_pred, index=index, columns=['target'])
df_answer.nlargest(n=100, columns='target')

## TO DO:

- [x] verificar porque o catboost não está funcionando para as versões do Pandas acima da 1.0.4
- [x] implementar preenchimento parametrizado de nulls
- [ ] implementar balanceamento 
- [ ] adicionar o dataframe à uma variável da classe DataSource
- [x] gerar logs com o loguru na classe Preprocessing
- [ ] visualizar classificação de dados utilizando pca (aula 9)
- [x] implementar métrica
- [ ] implementar métricas para hiperparâmetros
- [ ] implementar técnicas de performance dos algorítimos 
- [ ] implementar matriz da confusão
- [ ] incorporar analise dos dados de teste e treino à classe DataSource
- [ ] implementar análise visual automática de features com a classe de visualização 
- [x] integrar classe de experimentos
- [x] incorporar classe de visualização para a análise dos dados ao projeto
- [x] gerar logs com o loguru na classe DataSource
- [x] gerar logs com o loguru na classe Visualization
- [x] gerar logs com o loguru na classe Experiments
- [ ] gerar logs com o loguru na classe Metrics
- [x] gerar logs com o loguru na classe Model_Training
- [x] gerar logs com o loguru na classe Model_Inference
