## Filtra fundos a partir do cadastro da CVM importado através do notebook 001_leitura_cadastro_fundos_20210219

## Data: 19/02/2021

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.style.use('fivethirtyeight')
pd.set_option('max_colwidth', 200)  # Altera largura máxima das colunas
pd.set_option('display.max_colwidth', None)

import seaborn as sns; 
sns.set(rc={'figure.figsize':(17,6)})

plt.rcParams['axes.labelsize'] = 16
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['ytick.labelsize'] = 14

import os
import datetime
from dateutil.relativedelta import relativedelta
import time
from time import perf_counter

import glob
import pickle

#!pip install openpyxl
from openpyxl import Workbook

#!pip install pytz
import pytz
local_tz = pytz.timezone('America/Sao_Paulo')

In [5]:
current_dir =  '/home/jovyan/work/@Fund_Eval/CVM/Cadastro/'

In [10]:
cadastro = pd.read_pickle(current_dir+'df_cadastro_ate_20201221.pkl')

In [12]:
cadastro.shape

(258156, 36)

## Estatísticas descritivas sobre o cadastro dos fundos

In [15]:
cadastro.columns


Index(['CNPJ_FUNDO', 'DENOM_SOCIAL', 'DT_REG', 'DT_CONST', 'DT_CANCEL', 'SIT',
       'DT_INI_SIT', 'DT_INI_ATIV', 'DT_INI_EXERC', 'DT_FIM_EXERC', 'CLASSE',
       'DT_INI_CLASSE', 'RENTAB_FUNDO', 'CONDOM', 'FUNDO_COTAS',
       'FUNDO_EXCLUSIVO', 'TRIB_LPRAZO', 'INVEST_QUALIF', 'TAXA_PERFM',
       'VL_PATRIM_LIQ', 'DT_PATRIM_LIQ', 'DIRETOR', 'CNPJ_ADMIN', 'ADMIN',
       'PF_PJ_GESTOR', 'CPF_CNPJ_GESTOR', 'GESTOR', 'CNPJ_AUDITOR', 'AUDITOR',
       'INF_TAXA_PERFM', 'CNPJ_CUSTODIANTE', 'CUSTODIANTE', 'CNPJ_CONTROLADOR',
       'CONTROLADOR', 'TAXA_ADM', 'INF_TAXA_ADM'],
      dtype='object')

In [14]:
cadastro.SIT.value_counts()

EM FUNCIONAMENTO NORMAL    125836
CANCELADA                  123377
FASE PRÉ-OPERACIONAL         8925
LIQUIDAÇÃO                      8
INCORPORAÇÃO                    1
EM LIQUIDAÇÃO ORDINÁRIA         1
Name: SIT, dtype: int64

In [16]:
cadastro.FUNDO_COTAS.value_counts()

N    134186
S    123970
Name: FUNDO_COTAS, dtype: int64

In [17]:
cadastro.FUNDO_EXCLUSIVO.value_counts()

N    203097
S     55045
Name: FUNDO_EXCLUSIVO, dtype: int64

## Exclui fundos que não estão em funcionamento normal e fundos Exclusivos

In [18]:
cadastro = cadastro[(cadastro['SIT'] == 'EM FUNCIONAMENTO NORMAL') & (cadastro['FUNDO_EXCLUSIVO'] == 'N')]

In [21]:
cadastro.FUNDO_COTAS.value_counts()

N    50133
S    46784
Name: FUNDO_COTAS, dtype: int64

In [19]:
cadastro.FUNDO_EXCLUSIVO.value_counts()   # Saniy check!

N    96917
Name: FUNDO_EXCLUSIVO, dtype: int64

In [20]:
cadastro.INVEST_QUALIF.value_counts()

S    68327
N    28590
Name: INVEST_QUALIF, dtype: int64

## Filtra os multimercados 

In [22]:
multimerc = cadastro[cadastro['CLASSE'] == 'Fundo Multimercado']

In [23]:
multimerc.FUNDO_COTAS.value_counts()

S    31706
N    30983
Name: FUNDO_COTAS, dtype: int64

In [24]:
multimerc.INVEST_QUALIF.value_counts()

S    50568
N    12121
Name: INVEST_QUALIF, dtype: int64

## Filtra os fundos de ações 

In [25]:
stocks = cadastro[cadastro['CLASSE'] == 'Fundo de Ações']

In [26]:
stocks.FUNDO_COTAS.value_counts()

N    8737
S    7809
Name: FUNDO_COTAS, dtype: int64

In [27]:
stocks.INVEST_QUALIF.value_counts()

S    9788
N    6758
Name: INVEST_QUALIF, dtype: int64

## Filtra os fundos cambiais

In [28]:
cambial = cadastro[cadastro['CLASSE'] == 'Fundo Cambial']

In [29]:
cambial.FUNDO_COTAS.value_counts()

N    208
S    208
Name: FUNDO_COTAS, dtype: int64

In [30]:
cambial.INVEST_QUALIF.value_counts()

N    345
S     71
Name: INVEST_QUALIF, dtype: int64

## Salva em csv e em pkl

In [31]:
current_dir

'/home/jovyan/work/@Fund_Eval/CVM/Cadastro/'

In [32]:
time_start = perf_counter()

cadastro.to_pickle(current_dir + 'cadastro_fundos_ready_to_go_20210219.pkl') 
cadastro.to_csv(current_dir + 'cadastro_fundos_ready_to_go_20210219.csv',sep = ';' ,encoding='utf-8') 

time_end = perf_counter()
elapsed_time = time_end - time_start
print(' ****salvar cadastros FILTRADOS demorou ', round(elapsed_time,2) , ' segundos *****')

 ****salvar cadastros FILTRADOS demorou  34.06  segundos *****


In [33]:
time_start = perf_counter()


multimerc.to_pickle(current_dir + 'cadastro_fundos_multimercado_ready_to_go_20210219.pkl') 
multimerc.to_csv(current_dir + 'cadastro_fundos_multimercado_ready_to_go_20210219.csv',sep = ';' ,encoding='utf-8') 

time_end = perf_counter()
elapsed_time = time_end - time_start
print(' ****salvar cadastros FILTRADOS demorou ', round(elapsed_time,2) , ' segundos *****')

 ****salvar cadastros FILTRADOS demorou  18.79  segundos *****


In [None]:
time_start = perf_counter()

stocks.to_pickle(current_dir + 'cadastro_fundos_acoes_ready_to_go_20210219.pkl') 
stocks.to_csv(current_dir + 'cadastro_fundos_acoes_ready_to_go_20210219.csv',sep = ';' ,encoding='utf-8') 

time_end = perf_counter()
elapsed_time = time_end - time_start
print(' ****salvar cadastros FILTRADOS demorou ', round(elapsed_time,2) , ' segundos *****')

In [None]:
time_start = perf_counter()


cambial.to_pickle(current_dir + 'cadastro_fundos_cambiais_ready_to_go_20210219.pkl') 
cambial.to_csv(current_dir + 'cadastro_fundos_cambiais_ready_to_go_20210219.csv',sep = ';' ,encoding='utf-8') 

time_end = perf_counter()
elapsed_time = time_end - time_start
print(' ****salvar cadastros FILTRADOS demorou ', round(elapsed_time,2) , ' segundos *****')