# Desafio

Neste desafio vamos trabalhar com duas bases de dados da classe de ativos Fundos Imobiliários (FIIs). Primeiro, obtenha os dados atualizados de FIIs no
site <https://statusinvest.com.br> (FII > Busca Avançada > Buscar > Download). Depois, obtenha os preços diários do fundo imobiliário de shopping VISC11
no período de 01/01/2022 até 12/03/2023 pelo site <https://br.investing.com/> (Histórico). Faça o tratamento de dados inicialmente pelo Excel (CSV para XLSX, conversão tipo geral para numérico etc.) nas duas bases. Salve os arquivos de dados Bruto (CSV) e os de dados Limpos (XLSX) em suas respectivas pastas conforme orientação em aulas passadas. Depois crie um programa em Python através do Google Colab, capaz de ler, manipular e construir gráficos dos dados conforme descritos nas atividades abaixo.

## 1. Importação e limpeza dos dados

In [2]:
import pandas as pd

fundos_df = pd.read_csv("00-dados-brutos/fundos-imob.csv", delimiter=";")

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   TICKER                   432 non-null    object
 1   PRECO                    432 non-null    object
 2   ULTIMO DIVIDENDO         376 non-null    object
 3   DY                       432 non-null    object
 4   VALOR PATRIMONIAL COTA   432 non-null    object
 5   P/VP                     363 non-null    object
 6   LIQUIDEZ MEDIA DIARIA    329 non-null    object
 7   PERCENTUAL EM CAIXA      425 non-null    object
 8   CAGR DIVIDENDOS 3 ANOS   181 non-null    object
 9    CAGR VALOR CORA 3 ANOS  185 non-null    object
 10  PATRIMONIO               432 non-null    object
 11  N COTISTAS               427 non-null    object
 12  GESTAO                   432 non-null    object
 13   N COTAS                 432 non-null    object
dtypes: object(14)
memory usage: 47.4+ KB


In [3]:
fundos_df.head()

Unnamed: 0,TICKER,PRECO,ULTIMO DIVIDENDO,DY,VALOR PATRIMONIAL COTA,P/VP,LIQUIDEZ MEDIA DIARIA,PERCENTUAL EM CAIXA,CAGR DIVIDENDOS 3 ANOS,CAGR VALOR CORA 3 ANOS,PATRIMONIO,N COTISTAS,GESTAO,N COTAS
0,THRA11,13850,130000.0,0,954,1452.0,,14047.0,9073.0,214.0,"14.050.683,35","2.084,00",Passiva,"1.472.728,00"
1,CXCI11,7532,830000.0,1220,9039,83.0,"91.830,71",116.0,,,"186.004.058,68","5.497,00",Ativa,"2.057.726,00"
2,MFAI11,5602,570000.0,1371,6614,85.0,"46.123,58",27.0,,,"20.905.527,77","3.445,00",Ativa,"316.074,00"
3,RBCB11,1900,300000.0,0,0,,,,-1504.0,,000,46200,Ativa,"53.100,00"
4,SFRO11,0,,0,593,,,10253.0,,,"5.191.438,53",2000,Passiva,"875.758,00"


É possível verificar que o nome de algumas colunas tem um espaço em branco. Então é necessário fazer um tratamento para remover esses espacos.

In [4]:
fundos_df.columns = fundos_df.columns.str.strip()

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   TICKER                  432 non-null    object
 1   PRECO                   432 non-null    object
 2   ULTIMO DIVIDENDO        376 non-null    object
 3   DY                      432 non-null    object
 4   VALOR PATRIMONIAL COTA  432 non-null    object
 5   P/VP                    363 non-null    object
 6   LIQUIDEZ MEDIA DIARIA   329 non-null    object
 7   PERCENTUAL EM CAIXA     425 non-null    object
 8   CAGR DIVIDENDOS 3 ANOS  181 non-null    object
 9   CAGR VALOR CORA 3 ANOS  185 non-null    object
 10  PATRIMONIO              432 non-null    object
 11  N COTISTAS              427 non-null    object
 12  GESTAO                  432 non-null    object
 13  N COTAS                 432 non-null    object
dtypes: object(14)
memory usage: 47.4+ KB


É possível verificar que os dados números foram importados como texto no formato brasileiro (separação de '.' para as centenas, milhares, etc e ',' para decimais). O primeiro passo transformar esses dados para números (float)

In [5]:
colunas_numericas = fundos_df.columns.to_list()
colunas_numericas.remove('TICKER')
colunas_numericas.remove('GESTAO')

for col in colunas_numericas:
    print('Tratando coluna ' + col)
    fundos_df[col]=fundos_df[col].str.replace('.','').str.replace(',','.')
    fundos_df[col]=pd.to_numeric(fundos_df[col])

print()
fundos_df.info()

Tratando coluna PRECO
Tratando coluna ULTIMO DIVIDENDO
Tratando coluna DY
Tratando coluna VALOR PATRIMONIAL COTA
Tratando coluna P/VP
Tratando coluna LIQUIDEZ MEDIA DIARIA
Tratando coluna PERCENTUAL EM CAIXA
Tratando coluna CAGR DIVIDENDOS 3 ANOS
Tratando coluna CAGR VALOR CORA 3 ANOS
Tratando coluna PATRIMONIO
Tratando coluna N COTISTAS
Tratando coluna N COTAS

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   TICKER                  432 non-null    object 
 1   PRECO                   432 non-null    float64
 2   ULTIMO DIVIDENDO        376 non-null    float64
 3   DY                      432 non-null    float64
 4   VALOR PATRIMONIAL COTA  432 non-null    float64
 5   P/VP                    363 non-null    float64
 6   LIQUIDEZ MEDIA DIARIA   329 non-null    float64
 7   PERCENTUAL EM CAIXA     425 non-null    float64


  fundos_df[col]=fundos_df[col].str.replace('.','').str.replace(',','.')


In [6]:
fundos_df.head()

Unnamed: 0,TICKER,PRECO,ULTIMO DIVIDENDO,DY,VALOR PATRIMONIAL COTA,P/VP,LIQUIDEZ MEDIA DIARIA,PERCENTUAL EM CAIXA,CAGR DIVIDENDOS 3 ANOS,CAGR VALOR CORA 3 ANOS,PATRIMONIO,N COTISTAS,GESTAO,N COTAS
0,THRA11,138.5,0.13,0.0,9.54,14.52,,140.47,90.73,2.14,14050680.0,2084.0,Passiva,1472728.0
1,CXCI11,75.32,0.83,12.2,90.39,0.83,91830.71,1.16,,,186004100.0,5497.0,Ativa,2057726.0
2,MFAI11,56.02,0.57,13.71,66.14,0.85,46123.58,0.27,,,20905530.0,3445.0,Ativa,316074.0
3,RBCB11,19.0,0.3,0.0,0.0,,,,-15.04,,0.0,462.0,Ativa,53100.0
4,SFRO11,0.0,,0.0,5.93,,,102.53,,,5191439.0,20.0,Passiva,875758.0


Agora vamos verificar dados faltantes.

In [7]:
contagem_faltantes = fundos_df.isnull().sum()
contagem_faltantes[contagem_faltantes > 0].sort_values(ascending=False)

CAGR DIVIDENDOS 3 ANOS    251
CAGR VALOR CORA 3 ANOS    247
LIQUIDEZ MEDIA DIARIA     103
P/VP                       69
ULTIMO DIVIDENDO           56
PERCENTUAL EM CAIXA         7
N COTISTAS                  5
dtype: int64

Podemos verificar que os dados faltantes existem apenas em campos numéricos. O tratamento adotado será preencher com zeros.

In [22]:
colunas_com_valores_faltando = fundos_df.columns[fundos_df.isna().any()]

fundos_df[colunas_com_valores_faltando] = fundos_df[colunas_com_valores_faltando].fillna(0)

In [23]:
contagem_faltantes = fundos_df.isnull().sum()
contagem_faltantes[contagem_faltantes > 0].sort_values(ascending=False)

Series([], dtype: int64)

Salvando esses dados tratados no excel.

In [None]:
fundos_df.to_excel('01-dados-limpos/fundos_imob.xlsx', index=False)