## 1. Limpeza dos dados

_Obs:_ Para a execução desse desafio vários pontos foram utilizados exemplos do Chat Gpt.

Importando pandas para o tratamento dos dados.

In [1]:
import pandas as pd

### 1.1. Limpeza dos dados de FIIs

Importando os dados de fundos imobiliádios do site Status invest.

In [2]:
fundos_df = pd.read_csv("00-dados-brutos/fundos-imob.csv", delimiter=";")

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   TICKER                   432 non-null    object
 1   PRECO                    432 non-null    object
 2   ULTIMO DIVIDENDO         376 non-null    object
 3   DY                       432 non-null    object
 4   VALOR PATRIMONIAL COTA   432 non-null    object
 5   P/VP                     363 non-null    object
 6   LIQUIDEZ MEDIA DIARIA    329 non-null    object
 7   PERCENTUAL EM CAIXA      425 non-null    object
 8   CAGR DIVIDENDOS 3 ANOS   181 non-null    object
 9    CAGR VALOR CORA 3 ANOS  185 non-null    object
 10  PATRIMONIO               432 non-null    object
 11  N COTISTAS               427 non-null    object
 12  GESTAO                   432 non-null    object
 13   N COTAS                 432 non-null    object
dtypes: object(14)
memory usage: 47.4+ KB


In [3]:
fundos_df.head()

Unnamed: 0,TICKER,PRECO,ULTIMO DIVIDENDO,DY,VALOR PATRIMONIAL COTA,P/VP,LIQUIDEZ MEDIA DIARIA,PERCENTUAL EM CAIXA,CAGR DIVIDENDOS 3 ANOS,CAGR VALOR CORA 3 ANOS,PATRIMONIO,N COTISTAS,GESTAO,N COTAS
0,THRA11,13850,130000.0,0,954,1452.0,,14047.0,9073.0,214.0,"14.050.683,35","2.084,00",Passiva,"1.472.728,00"
1,CXCI11,7532,830000.0,1220,9039,83.0,"91.830,71",116.0,,,"186.004.058,68","5.497,00",Ativa,"2.057.726,00"
2,MFAI11,5602,570000.0,1371,6614,85.0,"46.123,58",27.0,,,"20.905.527,77","3.445,00",Ativa,"316.074,00"
3,RBCB11,1900,300000.0,0,0,,,,-1504.0,,000,46200,Ativa,"53.100,00"
4,SFRO11,0,,0,593,,,10253.0,,,"5.191.438,53",2000,Passiva,"875.758,00"


É possível verificar que o nome de algumas colunas tem um espaço em branco. Então é necessário fazer um tratamento para remover esses espacos.

In [4]:
fundos_df.columns = fundos_df.columns.str.strip()

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   TICKER                  432 non-null    object
 1   PRECO                   432 non-null    object
 2   ULTIMO DIVIDENDO        376 non-null    object
 3   DY                      432 non-null    object
 4   VALOR PATRIMONIAL COTA  432 non-null    object
 5   P/VP                    363 non-null    object
 6   LIQUIDEZ MEDIA DIARIA   329 non-null    object
 7   PERCENTUAL EM CAIXA     425 non-null    object
 8   CAGR DIVIDENDOS 3 ANOS  181 non-null    object
 9   CAGR VALOR CORA 3 ANOS  185 non-null    object
 10  PATRIMONIO              432 non-null    object
 11  N COTISTAS              427 non-null    object
 12  GESTAO                  432 non-null    object
 13  N COTAS                 432 non-null    object
dtypes: object(14)
memory usage: 47.4+ KB


É possível verificar que os dados números foram importados como texto no formato brasileiro (separação de '.' para as centenas, milhares, etc e ',' para decimais). O primeiro passo transformar esses dados para números (float)

In [5]:
def converter_colunas_para_numericos(df, columns):
    for col in columns:
        df[col]=df[col].str.replace('.','',regex=False).str.replace(',','.',regex=False).replace('[^0-9\.]+', '', regex=True)
        df[col]=pd.to_numeric(df[col])

In [6]:
# Separo as columnas numéricas
colunas_numericas = fundos_df.columns.to_list()
colunas_numericas.remove('TICKER')
colunas_numericas.remove('GESTAO')

# Converto as colunas numéricas
converter_colunas_para_numericos(fundos_df, colunas_numericas)

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   TICKER                  432 non-null    object 
 1   PRECO                   432 non-null    float64
 2   ULTIMO DIVIDENDO        376 non-null    float64
 3   DY                      432 non-null    float64
 4   VALOR PATRIMONIAL COTA  432 non-null    float64
 5   P/VP                    363 non-null    float64
 6   LIQUIDEZ MEDIA DIARIA   329 non-null    float64
 7   PERCENTUAL EM CAIXA     425 non-null    float64
 8   CAGR DIVIDENDOS 3 ANOS  181 non-null    float64
 9   CAGR VALOR CORA 3 ANOS  185 non-null    float64
 10  PATRIMONIO              432 non-null    float64
 11  N COTISTAS              427 non-null    float64
 12  GESTAO                  432 non-null    object 
 13  N COTAS                 432 non-null    float64
dtypes: float64(12), object(2)
memory usage: 47

In [7]:
fundos_df.head()

Unnamed: 0,TICKER,PRECO,ULTIMO DIVIDENDO,DY,VALOR PATRIMONIAL COTA,P/VP,LIQUIDEZ MEDIA DIARIA,PERCENTUAL EM CAIXA,CAGR DIVIDENDOS 3 ANOS,CAGR VALOR CORA 3 ANOS,PATRIMONIO,N COTISTAS,GESTAO,N COTAS
0,THRA11,138.5,0.13,0.0,9.54,14.52,,140.47,90.73,2.14,14050680.0,2084.0,Passiva,1472728.0
1,CXCI11,75.32,0.83,12.2,90.39,0.83,91830.71,1.16,,,186004100.0,5497.0,Ativa,2057726.0
2,MFAI11,56.02,0.57,13.71,66.14,0.85,46123.58,0.27,,,20905530.0,3445.0,Ativa,316074.0
3,RBCB11,19.0,0.3,0.0,0.0,,,,15.04,,0.0,462.0,Ativa,53100.0
4,SFRO11,0.0,,0.0,5.93,,,102.53,,,5191439.0,20.0,Passiva,875758.0


Agora vamos verificar dados faltantes.

In [8]:
def verificar_dados_faltando(df):
    contagem_faltantes = df.isnull().sum()
    return contagem_faltantes[contagem_faltantes > 0].sort_values(ascending=False)

In [9]:
verificar_dados_faltando(fundos_df)

CAGR DIVIDENDOS 3 ANOS    251
CAGR VALOR CORA 3 ANOS    247
LIQUIDEZ MEDIA DIARIA     103
P/VP                       69
ULTIMO DIVIDENDO           56
PERCENTUAL EM CAIXA         7
N COTISTAS                  5
dtype: int64

Podemos verificar que os dados faltantes existem apenas em campos numéricos. O tratamento adotado será preencher com zeros.

In [10]:
colunas_com_valores_faltando = fundos_df.columns[fundos_df.isna().any()]

fundos_df[colunas_com_valores_faltando] = fundos_df[colunas_com_valores_faltando].fillna(0)

In [11]:
verificar_dados_faltando(fundos_df)

Series([], dtype: int64)

Agora com todos os dados preenchidos verificamos quais colunas float na verdade são compostas apenas por inteiros e convertemos.

In [12]:
# Converto as colunas numéricas
for col in colunas_numericas:
    if (fundos_df[col] % 1 == 0).all():
        fundos_df[col] = fundos_df[col].astype(int)

fundos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   TICKER                  432 non-null    object 
 1   PRECO                   432 non-null    float64
 2   ULTIMO DIVIDENDO        432 non-null    float64
 3   DY                      432 non-null    float64
 4   VALOR PATRIMONIAL COTA  432 non-null    float64
 5   P/VP                    432 non-null    float64
 6   LIQUIDEZ MEDIA DIARIA   432 non-null    float64
 7   PERCENTUAL EM CAIXA     432 non-null    float64
 8   CAGR DIVIDENDOS 3 ANOS  432 non-null    float64
 9   CAGR VALOR CORA 3 ANOS  432 non-null    float64
 10  PATRIMONIO              432 non-null    float64
 11  N COTISTAS              432 non-null    int64  
 12  GESTAO                  432 non-null    object 
 13  N COTAS                 432 non-null    int64  
dtypes: float64(10), int64(2), object(2)
memory

In [23]:
fundos_df.head()

Unnamed: 0,TICKER,PRECO,ULTIMO DIVIDENDO,DY,VALOR PATRIMONIAL COTA,P/VP,LIQUIDEZ MEDIA DIARIA,PERCENTUAL EM CAIXA,CAGR DIVIDENDOS 3 ANOS,CAGR VALOR CORA 3 ANOS,PATRIMONIO,N COTISTAS,GESTAO,N COTAS
0,THRA11,138.5,0.13,0.0,9.54,14.52,0.0,140.47,90.73,2.14,14050680.0,2084,Passiva,1472728
1,CXCI11,75.32,0.83,12.2,90.39,0.83,91830.71,1.16,0.0,0.0,186004100.0,5497,Ativa,2057726
2,MFAI11,56.02,0.57,13.71,66.14,0.85,46123.58,0.27,0.0,0.0,20905530.0,3445,Ativa,316074
3,RBCB11,19.0,0.3,0.0,0.0,0.0,0.0,0.0,15.04,0.0,0.0,462,Ativa,53100
4,SFRO11,0.0,0.0,0.0,5.93,0.0,0.0,102.53,0.0,0.0,5191439.0,20,Passiva,875758


Salvando esses dados tratados no excel.

In [13]:
fundos_df.to_excel('01-dados-limpos/fundos_imob.xlsx', index=False)

### 1.1. Cotações da VISC11

Importando os dados das cotações do fundo **_VISC11 - Vinci Shopping Centers Fundo de Investimento Imobiliário_**

In [14]:
cotacoes_visc11 = pd.read_csv('00-dados-brutos/VISC11-230101-230312.csv')


cotacoes_visc11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Data      48 non-null     object
 1   Último    48 non-null     object
 2   Abertura  48 non-null     object
 3   Máxima    48 non-null     object
 4   Mínima    48 non-null     object
 5   Vol.      48 non-null     object
 6   Var%      48 non-null     object
dtypes: object(7)
memory usage: 2.8+ KB


In [15]:
cotacoes_visc11.head()

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,10.03.2023,10350,10470,10680,10350,"41,15K","-1,14%"
1,09.03.2023,10469,10504,10544,10460,"16,35K","-0,33%"
2,08.03.2023,10504,10500,10590,10500,"18,17K","0,04%"
3,07.03.2023,10500,10496,10550,10457,"26,25K","0,04%"
4,06.03.2023,10496,10448,10547,10401,"20,52K","0,46%"


Podemos verificar que vários campos tempo acentuação. Primeiramente vamos remover esses acentos dos nomes das colunas

In [16]:
import unicodedata

def remover_acentuacao(input_str):
    nfkd_form = unicodedata.normalize('NFKD', input_str)
    return u"".join([c for c in nfkd_form if not unicodedata.combining(c)])

In [17]:
cotacoes_visc11 = cotacoes_visc11.rename(columns=lambda x: remover_acentuacao(x))

cotacoes_visc11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Data      48 non-null     object
 1   Ultimo    48 non-null     object
 2   Abertura  48 non-null     object
 3   Maxima    48 non-null     object
 4   Minima    48 non-null     object
 5   Vol.      48 non-null     object
 6   Var%      48 non-null     object
dtypes: object(7)
memory usage: 2.8+ KB


Podemos verificar que todos os campos estão como texto sendo que a maioria são campos numéricos e o primeiro é uma data.

Vamos começar convertendo os campos numéricos da mesma forma que anteriormente.

In [18]:
colunas_numericas = cotacoes_visc11.columns.to_list()
colunas_numericas.remove('Data')

converter_colunas_para_numericos(cotacoes_visc11, colunas_numericas)

# Renomeando a coluna Vol. para Vol.(K)
cotacoes_visc11=cotacoes_visc11.rename(columns={'Vol.':'Vol.(K)'})

cotacoes_visc11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Data      48 non-null     object 
 1   Ultimo    48 non-null     float64
 2   Abertura  48 non-null     float64
 3   Maxima    48 non-null     float64
 4   Minima    48 non-null     float64
 5   Vol.(K)   48 non-null     float64
 6   Var%      48 non-null     float64
dtypes: float64(6), object(1)
memory usage: 2.8+ KB


Agora vamos converter a coluna Data.

In [19]:
cotacoes_visc11['Data'] = pd.to_datetime(cotacoes_visc11['Data'], format='%d.%m.%Y')

cotacoes_visc11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Data      48 non-null     datetime64[ns]
 1   Ultimo    48 non-null     float64       
 2   Abertura  48 non-null     float64       
 3   Maxima    48 non-null     float64       
 4   Minima    48 non-null     float64       
 5   Vol.(K)   48 non-null     float64       
 6   Var%      48 non-null     float64       
dtypes: datetime64[ns](1), float64(6)
memory usage: 2.8 KB


Agora vamos verificar se existem dados faltando.

In [20]:
verificar_dados_faltando(cotacoes_visc11)

Series([], dtype: int64)

In [21]:
cotacoes_visc11.head()

Unnamed: 0,Data,Ultimo,Abertura,Maxima,Minima,Vol.(K),Var%
0,2023-03-10,103.5,104.7,106.8,103.5,41.15,1.14
1,2023-03-09,104.69,105.04,105.44,104.6,16.35,0.33
2,2023-03-08,105.04,105.0,105.9,105.0,18.17,0.04
3,2023-03-07,105.0,104.96,105.5,104.57,26.25,0.04
4,2023-03-06,104.96,104.48,105.47,104.01,20.52,0.46


Salvando as cotações em um Excel.

In [22]:
fundos_df.to_excel('01-dados-limpos/VISC11-230101-230312.xlsx', index=False)