# Projeto 03.01-investiment-funds

Iremos explorar dados da Comissão de Valores Mobiliários (CVM) para fornecer uma análise detalhada de fundos de investimento. Utilizando bibliotecas como Pandas e Requests, demonstramos como extrair dados cadastrais e de rentabilidade dos fundos.

# Principais Destaques:
- **Extração de Dados:** Utilizamos o Pandas e Requests para coletar informações cruciais da CVM.
- **Análise Detalhada:** Demonstramos como conciliar dados cadastrais e de rentabilidade para uma análise abrangente.
- **Estudo de Caso 001 - Maiores Fundos de Investimento:** Análise: Quais são os maiores fundos de investimento?
- **Estudo de Caso 002 - Fundos de Investimento:** Análise dos principais Fundos para insights específicos.

Espero que este projeto forneça uma compreensão prática e valiosa da análise de fundos de investimento, contribuindo para seu conhecimento e habilidades em Ciência de Dados Financeiros. Sinta-se à vontade para explorar, contribuir e compartilhar seus comentários!

In [27]:
# Pandas - Biblioteca de Análise de dados
# Requests - Biblioteca para executar requisições diretamente no site da CVM
# ZipFile - Biblioteca que irá tratar dados comptactados (.zip) 
import pandas as pd
import requests
import zipfile

# Configurando o Pandas para exibir números de ponto flutuante com até quatro casas decimais
# Configuração importante ao lidar com volumes de dados grandes ou em contextos financeiros onde a precisão nos números é importante.
pd.options.display.float_format = '{:.4f}'.format

In [28]:
# Obtendo os dados diretamente da CVM - Referência: Jan de 2023
year = '2023'
month = '01'

url = f'https://dados.cvm.gov.br/dados/FI/DOC/INF_DIARIO/DADOS/inf_diario_fi_{year}{month}.zip'
download = requests.get(url)

In [29]:
# Downlaod do arquivo do arquivo compactado
with open(f'inf_diario_fi{year}{month}.zip', 'wb') as cvm_file:
    cvm_file.write(download.content)

# Extraindo o conteúdo do arquivo compactado 
zip_file = zipfile.ZipFile(f'inf_diario_fi{year}{month}.zip')

In [30]:
# Obtém número de arquivos dentro do arquivo compactado
print(f'Número de arquivo(s): {len(zip_file.namelist())}')

Número de arquivo(s): 1


In [31]:
# Lendo os dados do arquivo CSV
fund_data = pd.read_csv(zip_file.open(zip_file.namelist()[0]), sep=';', encoding='ISO-8859-1')
fund_data

Unnamed: 0,TP_FUNDO,CNPJ_FUNDO,DT_COMPTC,VL_TOTAL,VL_QUOTA,VL_PATRIM_LIQ,CAPTC_DIA,RESG_DIA,NR_COTST
0,FI,00.017.024/0001-53,2023-01-02,1101835.9100,30.9744,1104834.8400,0.0000,0.0000,1
1,FI,00.017.024/0001-53,2023-01-03,1102410.1800,30.9889,1105351.5600,0.0000,0.0000,1
2,FI,00.017.024/0001-53,2023-01-04,1102994.2400,31.0033,1105864.8200,0.0000,0.0000,1
3,FI,00.017.024/0001-53,2023-01-05,1103561.7500,31.0173,1106363.8700,0.0000,0.0000,1
4,FI,00.017.024/0001-53,2023-01-06,1103794.8600,31.0308,1106846.3600,0.0000,0.0000,1
...,...,...,...,...,...,...,...,...,...
542273,FI,97.929.213/0001-34,2023-01-25,78130059.0600,10.2940,78227454.4800,0.0000,0.0000,2
542274,FI,97.929.213/0001-34,2023-01-26,78147564.9200,10.2962,78244483.2200,0.0000,0.0000,2
542275,FI,97.929.213/0001-34,2023-01-27,78202661.6900,10.3058,78316942.3200,0.0000,0.0000,2
542276,FI,97.929.213/0001-34,2023-01-30,78223467.1800,10.3085,78337270.2500,0.0000,0.0000,2


# Dicionário de Dados
URL - https://dados.cvm.gov.br/dados/FI/DOC/INF_DIARIO/META/meta_inf_diario_fi.txt

In [32]:
# Obtendo o dicionário de dados
url_meta_info = 'https://dados.cvm.gov.br/dados/FI/DOC/INF_DIARIO/META/meta_inf_diario_fi.txt'
meta_info = requests.get(url_meta_info)

# Salvando o arquivo com encoding ISO-8859-1
with open('meta_info.txt', 'w', encoding='ISO-8859-1') as meta_file:
    meta_file.write(meta_info.content.decode('ISO-8859-1'))

# Lendo o arquivo novamente com o mesmo encoding
with open('meta_info.txt', 'r', encoding='ISO-8859-1') as meta_file:
    conteudo = meta_file.read()

# Solução aplicada para verificar o dicionário de dados sem problema de encoding

# Obtendo os dados de cadastro

URL 01 - https://dados.cvm.gov.br/dataset/fi-cad/resource/1baccbb6-cd82-49f6-b70f-5a7d5ad7d616

URL 02 - https://dados.cvm.gov.br/dados/FI/CAD/DADOS/cad_fi.csv

URL 03 - https://dados.cvm.gov.br/dados/FI/CAD/META/meta_cad_fi.txt

Para uma melhor análise precisamos saber os dados cadastrais de cada fundo. 
Um Fundo de Investimento pode ter vários CNPJ's, por esse motivo, deveremos analisar através do nome.

In [33]:
# Obtendo os dados cadastrais dos Fundos de Investimento

reg_data = pd.read_csv('https://dados.cvm.gov.br/dados/FI/CAD/DADOS/cad_fi.csv', sep=';', encoding='ISO-8859-1')

# Obtendo os dados de CNPJ do fundo e sua denominação social
reg_data = reg_data[['CNPJ_FUNDO','DENOM_SOCIAL']]

# Garantindo que iremos ter apenas 01 CNPJ associado a 01 Razão Social
reg_data = reg_data.drop_duplicates()
reg_data

  reg_data = pd.read_csv('https://dados.cvm.gov.br/dados/FI/CAD/DADOS/cad_fi.csv', sep=';', encoding='ISO-8859-1')


Unnamed: 0,CNPJ_FUNDO,DENOM_SOCIAL
0,00.000.684/0001-21,DEUTSCHE BANK FDO APLIC QUOTAS FDO INV FINANCE...
1,00.000.731/0001-37,ITAMARITI CASH FUNDO APLICACAO QUOTAS FDOS INV...
2,00.000.732/0001-81,FUNDO APLIC. QUOTAS DE F.I. SANTANDER CURTO PRAZO
3,00.000.740/0001-28,FUNDO DE APLIC EM QUOTAS DE FUNDOS DE INV BMC ...
4,00.000.749/0001-39,BALANCE FUNDO APLICACAO QUOTAS FUNDO INVESTIME...
...,...,...
74908,31.674.280/0001-47,MEDIA VENTURE ESG INCENTIVADO - FUNDO DE FINAN...
74909,32.222.962/0001-81,Fundo de Financiamento da Indústria Cinematogr...
74910,48.879.897/0001-00,FUNDO DE FINANCIAMENTO DA INDÚSTRIA CINEMATOG...
74911,52.714.528/0001-26,INVESTIMAGE 4 - FUNDO DE FINANCIAMENTO DA INDÚ...


In [34]:
# Aplicando filtro - Ordenando os dados por data
start_date_month = (fund_data['DT_COMPTC'].sort_values(ascending=True).unique())[0]
end_date_month = (fund_data['DT_COMPTC'].sort_values(ascending=True).unique())[-1]

# Filtrando os dados - Obtendo os valores do primeiro e último dia de cada CNPJ
filtered_data = fund_data[(fund_data['DT_COMPTC'].isin([start_date_month, end_date_month]))]
filtered_data

Unnamed: 0,TP_FUNDO,CNPJ_FUNDO,DT_COMPTC,VL_TOTAL,VL_QUOTA,VL_PATRIM_LIQ,CAPTC_DIA,RESG_DIA,NR_COTST
0,FI,00.017.024/0001-53,2023-01-02,1101835.9100,30.9744,1104834.8400,0.0000,0.0000,1
21,FI,00.017.024/0001-53,2023-01-31,1109593.7000,31.2568,1111949.7900,0.0000,0.0000,1
22,FI,00.068.305/0001-35,2023-01-02,37300224.0600,31.5885,37285024.3200,0.0000,0.0000,6300
43,FI,00.068.305/0001-35,2023-01-31,37314325.0300,31.8864,37305629.4700,0.0000,12757.8800,6270
44,FI,00.071.477/0001-68,2023-01-02,3620475267.0000,11.3616,3620077685.8100,737901.0300,16642091.1100,65498
...,...,...,...,...,...,...,...,...,...
542233,FI,97.711.801/0001-05,2023-01-31,84310979.3200,2.8854,86280473.0500,0.0000,0.0000,1
542234,FI,97.929.197/0001-80,2023-01-02,138789374.1300,4.5063,138652468.6900,0.0000,0.0000,13
542255,FI,97.929.197/0001-80,2023-01-31,152743337.7500,4.9599,152609759.3900,0.0000,0.0000,13
542256,FI,97.929.213/0001-34,2023-01-02,63835651.3600,10.1327,77001610.6500,0.0000,0.0000,2


# Merge - Associar os dados da tabela de dados cadastrais (reg_data) com os valores da tabela (fund_data)

In [35]:
# A partir de uma chave primária (CNPJ_FUNDO), iremos associar os dados cadastrais com a tabela de dados filtrados

# pd.merge = Usado quando queremos combinar linhas de dois ou mais DataFrames com base em uma chave comum (ou conjunto de chaves)
# how = 'left' - Se houver algum fundo na tabela 'filtered_data' que não estiver na tabela 'reg_data', iremos manter a informação desse fundo na tabela filtrada (mesmo sem os dados cadastrais)
# Se um fundo estiver na tabela de Dados Cadastrais (reg_data) e não tiver informações na tabela de dados filtrados (filtered_data), esse dado será ignorado
merge_tmp = pd.merge(filtered_data, reg_data, how='left', left_on=['CNPJ_FUNDO'], right_on=['CNPJ_FUNDO'])

# Filtrando os principais dados (melhorando visualização do Dataframe)
final_base = merge_tmp[['CNPJ_FUNDO','DENOM_SOCIAL','DT_COMPTC','VL_QUOTA','VL_PATRIM_LIQ','NR_COTST']]
final_base

Unnamed: 0,CNPJ_FUNDO,DENOM_SOCIAL,DT_COMPTC,VL_QUOTA,VL_PATRIM_LIQ,NR_COTST
0,00.017.024/0001-53,FUNDO DE INVESTIMENTO RENDA FIXA EXPONENCIAL,2023-01-02,30.9744,1104834.8400,1
1,00.017.024/0001-53,FUNDO DE INVESTIMENTO RENDA FIXA EXPONENCIAL,2023-01-31,31.2568,1111949.7900,1
2,00.068.305/0001-35,FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS DE IN...,2023-01-02,31.5885,37285024.3200,6300
3,00.068.305/0001-35,FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS DE IN...,2023-01-31,31.8864,37305629.4700,6270
4,00.071.477/0001-68,BB RENDA FIXA AUTOMÁTICO EMPRESA SIMPLES FUNDO...,2023-01-02,11.3616,3620077685.8100,65498
...,...,...,...,...,...,...
49313,97.711.801/0001-05,953 FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS D...,2023-01-31,2.8854,86280473.0500,1
49314,97.929.197/0001-80,LECT FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS ...,2023-01-02,4.5063,138652468.6900,13
49315,97.929.197/0001-80,LECT FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS ...,2023-01-31,4.9599,152609759.3900,13
49316,97.929.213/0001-34,WHG SISTEMA II FUNDO DE INVESTIMENTO MULTIMERC...,2023-01-02,10.1327,77001610.6500,2


# Obter os 5 maiores fundos de investimentos

In [36]:
# Agrupar o resultado final por CNPJ e calcular a diferença entre o valor patrimonial do início e final do mês
vl_patrim_groupby = final_base.groupby('CNPJ_FUNDO')['VL_PATRIM_LIQ'].diff()

vl_patrim_groupby

# Obtendo o 'index' dos 5 maiores fundos de investimentos em valores patrimoniais - Referência Jan de 2023
top_5_funds = vl_patrim_groupby.sort_values(ascending=False).head(5)
top_5_funds

47114   13462206529.2300
42439   13460347862.4200
526      7483343137.8100
19525    6390411469.4500
4212     5527563340.1500
Name: VL_PATRIM_LIQ, dtype: float64

In [37]:
# Validando o calclulo dos maiores fundos de investimento

# Nosso DataFrame cria uma sequência padrão de índice. Entao devemos usar o método 'iloc' para obter o valor de determinado índice.
print(f'\nFundo 01-A\n{final_base.iloc[42438]}')
print(f'\nFundo 01-B\n{final_base.iloc[42439]}')

vl_patrim_diff = final_base.iloc[42439]['VL_PATRIM_LIQ'] - final_base.iloc[42438]['VL_PATRIM_LIQ']

print(f'\nDiff Valor Patrimonial:{vl_patrim_diff}')


Fundo 01-A
CNPJ_FUNDO                                      42.592.315/0001-15
DENOM_SOCIAL     BB RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO DE ...
DT_COMPTC                                               2023-01-02
VL_QUOTA                                                    1.1104
VL_PATRIM_LIQ                                    107205573338.2400
NR_COTST                                                     71053
Name: 42438, dtype: object

Fundo 01-B
CNPJ_FUNDO                                      42.592.315/0001-15
DENOM_SOCIAL     BB RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO DE ...
DT_COMPTC                                               2023-01-31
VL_QUOTA                                                    1.1198
VL_PATRIM_LIQ                                    120665921200.6600
NR_COTST                                                     18232
Name: 42439, dtype: object

Diff Valor Patrimonial:13460347862.419998


# Resultado Final 
Quais os 05 maiores fundos em valor patrimonial?

Referência: Jan de 2023

In [38]:
for index in top_5_funds.index:

    # Nome do Fundo
    denom_social = final_base.iloc[index]['DENOM_SOCIAL']
    
    # CNPJ
    cnpj = final_base.iloc[index]['CNPJ_FUNDO']

    # Valor Patrimonial
    valor_patr = int(final_base.iloc[index]['VL_PATRIM_LIQ']/1000000000)
    
    print(f'\nFundo: {denom_social}\nCNPJ: {cnpj}\nPossui um o valor patrimonial de R$ {valor_patr} Bilhões')


Fundo: BB TOP RENDA FIXA CURTO PRAZO AUTOMÁTICO II FUNDO DE INVESTIMENTO
CNPJ: 46.133.770/0001-03
Possui um o valor patrimonial de R$ 120 Bilhões

Fundo: BB RENDA FIXA CURTO PRAZO AUTOMÁTICO FUNDO DE INVESTIMENTO EM COTAS DE FUNDOS DE INVESTIMENTO
CNPJ: 42.592.315/0001-15
Possui um o valor patrimonial de R$ 120 Bilhões

Fundo: BB EXTRAMERCADO EXCLUSIVO FAT FUNDO DE INVESTIMENTO RENDA FIXA
CNPJ: 02.266.145/0001-64
Possui um o valor patrimonial de R$ 55 Bilhões

Fundo: BB TOP RENDA FIXA SIMPLES FUNDO DE INVESTIMENTO
CNPJ: 27.146.328/0001-77
Possui um o valor patrimonial de R$ 91 Bilhões

Fundo: SICREDI - FUNDO DE INVESTIMENTO LIQUIDEZ RENDA FIXA
CNPJ: 08.212.681/0001-63
Possui um o valor patrimonial de R$ 29 Bilhões


# To Do
- Calcular o retorno mensal de um determinado fundo
- Calcular a rentabilidade de cada fundo