<center><b>UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO</b> </center>
<center><b>Inteligência Artificial</b></center>


<h3><center>Implementação de algoritmos de aprendizado de máquina para análise de
padrões em ações do mercado Financeiro</center></h3>


<div style="text-align: right;">Anderson Carlos da Silva Morais</div>
<div style="text-align: right;">Anderson Matheus Melo da Silva</div>



<center><b>Proposta</b></center>
<b>Introdução:</b> Nos últimos anos, temos presenciado a popularização e disseminação da inteligência
artificial e dos algoritmos de aprendizado de máquina em várias áreas. Um campo que tem se
beneficiado dessas tecnologias é o mercado financeiro, onde o uso desses algoritmos para análise de
ações tem se tornado uma prática comum. No entanto, é importante destacar que a promessa de
retornos financeiros milagrosos e a venda de produtos e softwares enganosos têm gerado
desconfiança nesse cenário.

<b>Objetivo:</b> O objetivo deste projeto é explorar o uso de algoritmos de aprendizado de máquina para agrupar fundos imobiliários que possuem padrões similares de forma ética e didática. O projeto busca fornecer um
ambiente de estudo no qual será possível aplicar diferentes algoritmos de ML, em especifício algoritmos de aprendizagem não supervisionada com foco na clusterização em um
contexto real, utilizando um conjunto de dados definido de fundos imobiliários.
**Metodologia:**
1. <b>Coleta de Dados:</b> Será realizado um levantamento de dados históricos de
fundos imobiliários, utilizando fontes confiáveis e de acesso público. Para cada fundo seguirá uma quantidade de características necessária para caracterizar o fundo em um determinado grupo.
2. <b>Pré-processamento dos Dados:</b> Os dados coletados passarão por um processo de limpeza e
transformação, a fim de remover ruídos e garantir a qualidade dos dados. Serão aplicadas
técnicas de normalização e tratamento de valores ausentes, quando necessário.
3. <b>Exploração de Algoritmos de Aprendizado de Máquina:</b> Serão utilizados três diferentes
algoritmos de aprendizado de máquina: árvore de decisão, algoritmos de clusterização e um  algoritmo genético para análise e agrupamento dos fundos imobiliários. Cada algoritmo será aplicado e
avaliado em termos de desempenho na identificação de grupos relevantes de fundos imobiliários.
4. <b>Avaliação e Interpretação dos Resultados:</b> Os resultados obtidos serão analisados e
interpretados de forma a identificar um grupo com padrão ótimo. O grupo de padrão ótimo buscado se trata de fundos imobiliários que apresentem características de pouca volatilidade com uma boa rentabilidade, sendo os pontos de interesse para perfis de investidores conservadores e agressivos. É
importante ressaltar que este projeto não tem como objetivo fornecer recomendações de
compra ou venda de ações, mas sim estudar os conceitos de ML em um contexto real.

<b>Justificativa:</b> O projeto visa, além de explorar os conhecimentos em inteligência artificial, mostrar padrões de um grupo de dados que muitas vezes passa despercebido, por determinadas situações como:
- quando um investidor busca um fundo imobiliário, o próprio investidor se vê preso sobre seu perfil de investidor, ou viés, tomando decisões associadas a ele, mesmo que subconscietemente;
- Já outra situação é que, o tempo necessário para analisar cada fundo imobiliário em busca de um fundo ótimo se torna muito oneroso, tendo um algoritmo que diminua as possibilidades, facilita a análise do investidor e torna o processo mais simplificado.

Ao final do projeto, espera-se obter um maior entendimento sobre o uso de ML no
mercado financeiro, contribuindo para o avanço do conhecimento nessa área.

<b>Observação:</b> É importante ressaltar que este projeto destina-se apenas ao estudo e compreensão dos
conceitos de aprendizado de máquina em um contexto real. Não deve ser interpretado como
recomendação de compra ou venda de papeis. Sempre consulte profissionais especializados antes de
tomar decisões financeiras.



# Etapa 1: Coleta de Dados

In [1]:
# Realizando as importações das bibliotecas necessárias
import pandas as pd # Para o tratamento de dados
import numpy as np # Para o tratamento de dados
import cfscrape # Para realizar a requisição na raspagem de dados
# from bs4 import BeautifulSoup as bs # Para auxiliar na raspagem de dados
import unidecode # Para o tratamento de Strings
import datetime # Para exportar os dados com a data da raspagem 

A base de dados usada para o projeto é o site [Fundamentus](https://www.fundamentus.com.br/fii_resultado.php).

In [2]:
# Usando a biblioteca cfscrape para obter uma requisição do site

# cabeçalhos para acessar
# headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36"}

# url do site
url = "https://www.fundamentus.com.br/fii_resultado.php"

# ferramenta de scrap para obter a requisição
scraper = cfscrape.create_scraper()
response = scraper.get(url)

In [3]:
# Printando a resposta da requisição HTTP, caso 200 é que tudo deu certo
print(response)

<Response [200]>


In [4]:
## Resíduo de análise antigas, não excluir! ##
# Acessando o conteúdo HTML da resposta da requisição com formatação html esparço, mais fácil de se trabalhar
# soup = bs(response.content, "html.parser")

# Para visualizar o HTML do site basta tirar o ; do recurso abaixo
# soup.content

In [5]:
## Resíduo de análise antigas, não excluir! ##
# Filtrando o HTML para apenas a tabela de ações
# n = soup.find("table")

In [6]:
## Resíduo de análise antigas, não excluir! ##
# type(n)

In [7]:
# Lendo a tabela HTML como um dataframe do Pandas

# O código gera uma lista das tabelas encontradas no HTML, sendo as tabelas representadas como dataframes
# basta indicar o índice da tabela para acessá-la
dt= pd.read_html(response.content)[0]
dt

## Uma maneira alternativa de acessar a lista de dataframes ##

# gerando a lista de dataframes
# dt= pd.read_html(response.content)
# Acessando o dataframe
# dt[0]

Unnamed: 0,Papel,Segmento,Cotação,FFO Yield,Dividend Yield,P/VP,Valor de Mercado,Liquidez,Qtd de imóveis,Preço do m2,Aluguel por m2,Cap Rate,Vacância Média
0,AAZQ11,Títulos e Val. Mob.,929,"4,66%","10,05%",97,223.306.000,909.542,0,000,000,"0,00%","0,00%"
1,ABCP11,Shoppings,7234,"17,04%","7,56%",79,340.655.000,59.895,1,"4.453,69","1.068,00","23,98%","3,90%"
2,AEFI11,Outros,17490,"8,03%","0,00%",121,411.893.000,0,7,"4.272,21",34717,"8,13%","0,00%"
3,AFCR11,,10315,"18,21%","0,00%",99,186.437.000,0,0,000,000,"0,00%","0,00%"
4,AFHI11,Títulos e Val. Mob.,9820,"10,87%","12,16%",102,296.510.000,1.326.260,0,000,000,"0,00%","0,00%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
415,XTED11,Lajes Corporativas,882,"-0,45%","0,00%",62,44.228.400,0,1,"2.647,63",000,"0,00%","0,00%"
416,YCHY11,Híbrido,"1.000,00","1,25%","0,00%",998,3.708.170.000,0,10,"8.157,50",6574,"0,81%","0,00%"
417,YUFI11,Residencial,9500,"3,33%","3,86%",93,46.801.800,359,28,"10.338,60",88244,"8,54%","0,00%"
418,ZAVI11,Híbrido,12700,"5,77%","8,37%",93,117.668.000,167.639,8,"2.910,17",16312,"5,61%","1,10%"


# Etapa 2: Pré-processamento dos Dados

Essa etapa é voltada ao tratamento dos dados obtidos da raspagem, pois durante o processo os dados sofreram alterações na sua tipagem, além de estarem em um formato que dificulte o trabalho dentro de um ambiente de programação.

Um cuidado que será tomado para evitar o tempo na coleta de dados caso os dados sofram uma formatação errada é de usar uma cópia do dataset Original nas formatações.

In [8]:
# Criando um cópia do dataset original para o tratamento de dados
dt_test = dt.copy()

In [9]:
# Observando as informações dos dados do Dataframe para identificar as limpezas necessárias
dt_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Papel             420 non-null    object
 1   Segmento          416 non-null    object
 2   Cotação           420 non-null    object
 3   FFO Yield         420 non-null    object
 4   Dividend Yield    420 non-null    object
 5   P/VP              420 non-null    int64 
 6   Valor de Mercado  420 non-null    object
 7   Liquidez          420 non-null    object
 8   Qtd de imóveis    420 non-null    int64 
 9   Preço do m2       420 non-null    object
 10  Aluguel por m2    420 non-null    object
 11  Cap Rate          420 non-null    object
 12  Vacância Média    420 non-null    object
dtypes: int64(2), object(11)
memory usage: 42.8+ KB


In [10]:
# Visualizando o nome das colunas
dt_test.columns

Index(['Papel', 'Segmento', 'Cotação', 'FFO Yield', 'Dividend Yield', 'P/VP',
       'Valor de Mercado', 'Liquidez', 'Qtd de imóveis', 'Preço do m2',
       'Aluguel por m2', 'Cap Rate', 'Vacância Média'],
      dtype='object')

**Obs:** As colunas possuem nomes com caracteres inválidos e que dificultam o trabalho, sendo necessário modifica-las

In [11]:
## Resíduo de análise antigas, não excluir! ##
# Salvando os antigos nomes das colunas para um possível uso futuro
# colunas_antigas = dt_test.columns

# Modificando os nomes das colunas para um padrão mais usual de se trabalhar
colunas = []
for nome in dt_test.columns:
    text = nome.strip().replace(' ','_').lower().replace('/','_sobre_') # múltiplos tratamentos de strings
    text = unidecode.unidecode(text) # removendo caracteres acentuados 
    colunas.append(text)
    
colunas

['papel',
 'segmento',
 'cotacao',
 'ffo_yield',
 'dividend_yield',
 'p_sobre_vp',
 'valor_de_mercado',
 'liquidez',
 'qtd_de_imoveis',
 'preco_do_m2',
 'aluguel_por_m2',
 'cap_rate',
 'vacancia_media']

In [12]:
# Atribuindo as novas colunas
dt_test.columns = colunas

In [13]:
# Visualizando a modificação
dt_test.head(3)

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val. Mob.,929,"4,66%","10,05%",97,223.306.000,909.542,0,000,000,"0,00%","0,00%"
1,ABCP11,Shoppings,7234,"17,04%","7,56%",79,340.655.000,59.895,1,"4.453,69","1.068,00","23,98%","3,90%"
2,AEFI11,Outros,17490,"8,03%","0,00%",121,411.893.000,0.0,7,"4.272,21",34717,"8,13%","0,00%"


**Obs:** os dados numéricos estão usando o separador de casas decimais com vírgula, realizando o tratamento:

In [14]:
# Removendo a pontuação dos dados no Dataset
# Os códigos a partir daqui devesse tomar cuidado para não rodar mais de uma vez, para evitar gerar erros.
dt_test = dt_test.apply(lambda x: x.str.replace(".",'', regex=True) if x.dtype=="object" else x)

## Resíduo de análise antigas, não excluir! ##
# Não funciona
# dt_test.replace(',','.', regex=True, inplace=True)

In [15]:
# Visualizando o dataset para verificar se o tratamento foi aplicado
# Algumas colunas irão precisar de tratamento especiais, realizados mais na frente
dt_test

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val Mob,929,"4,66%","10,05%",97,223306000,909542,0,000,000,"0,00%","0,00%"
1,ABCP11,Shoppings,7234,"17,04%","7,56%",79,340655000,59895,1,445369,106800,"23,98%","3,90%"
2,AEFI11,Outros,17490,"8,03%","0,00%",121,411893000,0,7,427221,34717,"8,13%","0,00%"
3,AFCR11,,10315,"18,21%","0,00%",99,186437000,0,0,000,000,"0,00%","0,00%"
4,AFHI11,Títulos e Val Mob,9820,"10,87%","12,16%",102,296510000,1326260,0,000,000,"0,00%","0,00%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
415,XTED11,Lajes Corporativas,882,"-0,45%","0,00%",62,44228400,0,1,264763,000,"0,00%","0,00%"
416,YCHY11,Híbrido,100000,"1,25%","0,00%",998,3708170000,0,10,815750,6574,"0,81%","0,00%"
417,YUFI11,Residencial,9500,"3,33%","3,86%",93,46801800,359,28,1033860,88244,"8,54%","0,00%"
418,ZAVI11,Híbrido,12700,"5,77%","8,37%",93,117668000,167639,8,291017,16312,"5,61%","1,10%"


**Obs:** modificando o separador decimal para o ponto:

In [16]:
# Substituindo a vígula por ponto no dataset
dt_test.replace(',','.', regex=True, inplace=True)

## Resíduo de análise antigas, não excluir! ##
## Outra forma de fazer ##
#dt_test = dt_test.apply(lambda x: x.str.replace(",",".") if x.dtype=="object" else x)

In [17]:
# Visualizando o dataset para verificar se o tratamento foi aplicado
dt_test

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val Mob,929,4.66%,10.05%,97,223306000,909542,0,000,000,0.00%,0.00%
1,ABCP11,Shoppings,7234,17.04%,7.56%,79,340655000,59895,1,4453.69,1068.00,23.98%,3.90%
2,AEFI11,Outros,17490,8.03%,0.00%,121,411893000,0,7,4272.21,34717,8.13%,0.00%
3,AFCR11,,10315,18.21%,0.00%,99,186437000,0,0,000,000,0.00%,0.00%
4,AFHI11,Títulos e Val Mob,9820,10.87%,12.16%,102,296510000,1326260,0,000,000,0.00%,0.00%
...,...,...,...,...,...,...,...,...,...,...,...,...,...
415,XTED11,Lajes Corporativas,882,-0.45%,0.00%,62,44228400,0,1,2647.63,000,0.00%,0.00%
416,YCHY11,Híbrido,1000.00,1.25%,0.00%,998,3708170000,0,10,8157.50,6574,0.81%,0.00%
417,YUFI11,Residencial,9500,3.33%,3.86%,93,46801800,359,28,10338.60,88244,8.54%,0.00%
418,ZAVI11,Híbrido,12700,5.77%,8.37%,93,117668000,167639,8,2910.17,16312,5.61%,1.10%


In [18]:
# Visualizando os tipos das colunas para os próximos tratamentos
dt_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   papel             420 non-null    object
 1   segmento          416 non-null    object
 2   cotacao           420 non-null    object
 3   ffo_yield         420 non-null    object
 4   dividend_yield    420 non-null    object
 5   p_sobre_vp        420 non-null    int64 
 6   valor_de_mercado  420 non-null    object
 7   liquidez          420 non-null    object
 8   qtd_de_imoveis    420 non-null    int64 
 9   preco_do_m2       420 non-null    object
 10  aluguel_por_m2    420 non-null    object
 11  cap_rate          420 non-null    object
 12  vacancia_media    420 non-null    object
dtypes: int64(2), object(11)
memory usage: 42.8+ KB


**Obs:** Os tipos de cada colunas estão como texto, é necessário fazer a tipagem correta das colunas para o tipo numérico e deixar as colunas percentuais em um formato decimal. O caso das colunas especiais: **preco_do_m2, aluguel_por_m2, cotacao e segmento** será tratado mais adiante.

In [19]:
# Colunas numéricas
colunas_numericas = ["p_sobre_vp",
                     "valor_de_mercado",
                     "liquidez",
                     "qtd_de_imoveis"]

for coluna in colunas_numericas:
    dt_test[coluna] = dt_test[coluna].astype(float) # Modificando o tipo da coluna

# Colunas percentuais
colunas_percentuais = ["ffo_yield",
                       "dividend_yield",
                       "cap_rate",
                       "vacancia_media"]

for coluna in colunas_percentuais:
    dt_test[coluna] = dt_test[coluna].str.replace("%","", regex=True).astype(float) # Removendo o % e transformando em tipo float
    dt_test[coluna] = dt_test[coluna].apply(lambda x: x/100) # passando a porcentagem para a forma decimal

# p_sobre_vp precisa do mesmo ajuste para o formato decimal
dt_test.p_sobre_vp = dt_test.p_sobre_vp.apply(lambda x: x/100) # passando a porcentagem para a forma decimal

In [20]:
# Visualizando o dataset para verificar se o tratamento foi aplicado corretamente
dt_test

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val Mob,929,0.0466,0.1005,0.97,2.233060e+08,909542.0,0.0,000,000,0.0000,0.000
1,ABCP11,Shoppings,7234,0.1704,0.0756,0.79,3.406550e+08,59895.0,1.0,4453.69,1068.00,0.2398,0.039
2,AEFI11,Outros,17490,0.0803,0.0000,1.21,4.118930e+08,0.0,7.0,4272.21,34717,0.0813,0.000
3,AFCR11,,10315,0.1821,0.0000,0.99,1.864370e+08,0.0,0.0,000,000,0.0000,0.000
4,AFHI11,Títulos e Val Mob,9820,0.1087,0.1216,1.02,2.965100e+08,1326260.0,0.0,000,000,0.0000,0.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
415,XTED11,Lajes Corporativas,882,-0.0045,0.0000,0.62,4.422840e+07,0.0,1.0,2647.63,000,0.0000,0.000
416,YCHY11,Híbrido,1000.00,0.0125,0.0000,9.98,3.708170e+09,0.0,10.0,8157.50,6574,0.0081,0.000
417,YUFI11,Residencial,9500,0.0333,0.0386,0.93,4.680180e+07,359.0,28.0,10338.60,88244,0.0854,0.000
418,ZAVI11,Híbrido,12700,0.0577,0.0837,0.93,1.176680e+08,167639.0,8.0,2910.17,16312,0.0561,0.011


In [21]:
# Visualizando os tipos de dados do dataset
dt_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420 entries, 0 to 419
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   papel             420 non-null    object 
 1   segmento          416 non-null    object 
 2   cotacao           420 non-null    object 
 3   ffo_yield         420 non-null    float64
 4   dividend_yield    420 non-null    float64
 5   p_sobre_vp        420 non-null    float64
 6   valor_de_mercado  420 non-null    float64
 7   liquidez          420 non-null    float64
 8   qtd_de_imoveis    420 non-null    float64
 9   preco_do_m2       420 non-null    object 
 10  aluguel_por_m2    420 non-null    object 
 11  cap_rate          420 non-null    float64
 12  vacancia_media    420 non-null    float64
dtypes: float64(8), object(5)
memory usage: 42.8+ KB


In [22]:
# Modificando uma configuração do pandas para melhorar a visualização de valores muito grandes
pd.set_option('display.float_format', '{:.2f}'.format)

In [23]:
# Visualizando o dataset novamente
dt_test

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val Mob,929,0.05,0.10,0.97,223306000.00,909542.00,0.00,000,000,0.00,0.00
1,ABCP11,Shoppings,7234,0.17,0.08,0.79,340655000.00,59895.00,1.00,4453.69,1068.00,0.24,0.04
2,AEFI11,Outros,17490,0.08,0.00,1.21,411893000.00,0.00,7.00,4272.21,34717,0.08,0.00
3,AFCR11,,10315,0.18,0.00,0.99,186437000.00,0.00,0.00,000,000,0.00,0.00
4,AFHI11,Títulos e Val Mob,9820,0.11,0.12,1.02,296510000.00,1326260.00,0.00,000,000,0.00,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
415,XTED11,Lajes Corporativas,882,-0.00,0.00,0.62,44228400.00,0.00,1.00,2647.63,000,0.00,0.00
416,YCHY11,Híbrido,1000.00,0.01,0.00,9.98,3708170000.00,0.00,10.00,8157.50,6574,0.01,0.00
417,YUFI11,Residencial,9500,0.03,0.04,0.93,46801800.00,359.00,28.00,10338.60,88244,0.09,0.00
418,ZAVI11,Híbrido,12700,0.06,0.08,0.93,117668000.00,167639.00,8.00,2910.17,16312,0.06,0.01


**Obs:** agora tratando os casos especiais, que são, para a coluna segmento a presença de valores do tipo NaN, que como estão em uma coluna textual serão substituidos pelo texto "Desconhecido". Já as colunas "preco_do_m2", "cotação" e "aluguel_por_m2" que exigem um tratamento especifíco para uma notação monetária com duas casas decimais.

In [24]:
# Tratando os dados do tipo NaN para serem o texto "Desconhecido"
dt_test.segmento = dt_test.segmento.fillna('Desconhecido') 

In [25]:
# Tratando a coluna de "preco_do_m2"
# Quando foi feita o tratamentos de dados anteriores alguns valores perderam seu separador decimal e outros não

# Removendo os pontos para um tratamento uniforme nos dados
dt_test.preco_do_m2 = dt_test.preco_do_m2.str.replace(".","", regex=True)

# Sabemos que todos os aluguéis possuem duas casas decimais e estão no mesmo padrão, podemos mover o separador em duas casas dividindo por 100
dt_test.preco_do_m2 = dt_test.preco_do_m2.astype(float).apply(lambda x: x/100) # Divindindo todos os valores por 100, garantido duas casas decimais e modificando para o tipo para numérico

In [26]:
# Tratando a coluna de "aluguel_por_m2"
# Quando foi feita o tratamentos de dados anteriores alguns valores perderam seu separador decimal e outros não

# Removendo os pontos para um tratamento uniforme nos dados
dt_test.aluguel_por_m2 = dt_test.aluguel_por_m2.str.replace(".","", regex=True)

# Sabemos que todos os aluguéis possuem duas casas decimais e estão no mesmo padrão, podemos mover o separador em duas casas dividindo por 100
dt_test.aluguel_por_m2 = dt_test.aluguel_por_m2.astype(float).apply(lambda x: x/100) # Divindindo todos os valores por 100, garantido duas casas decimais e modificando para o tipo para numérico

In [27]:
# Tratando a coluna de cotação
# Quando foi feita o tratamentos de dados anteriores alguns valores perderam seu separador decimal e outros não

# Removendo os pontos para um tratamento uniforme nos dados
dt_test.cotacao = dt_test.cotacao.str.replace(".","", regex=True)

# Sabemos que todos os preços possuem duas casas decimais e estão no mesmo padrão, podemos mover o separador em duas casas dividindo por 100
dt_test.cotacao = dt_test.cotacao.astype(float).apply(lambda x: x/100) # Divindindo todos os valores por 100, garantido duas casas decimais e modificando o tipo para numérico

In [28]:
dt_test# Visualizando o dataset para verificar se o tratamento foi aplicado
dt_test.head(10)

Unnamed: 0,papel,segmento,cotacao,ffo_yield,dividend_yield,p_sobre_vp,valor_de_mercado,liquidez,qtd_de_imoveis,preco_do_m2,aluguel_por_m2,cap_rate,vacancia_media
0,AAZQ11,Títulos e Val Mob,9.29,0.05,0.1,0.97,223306000.0,909542.0,0.0,0.0,0.0,0.0,0.0
1,ABCP11,Shoppings,72.34,0.17,0.08,0.79,340655000.0,59895.0,1.0,4453.69,1068.0,0.24,0.04
2,AEFI11,Outros,174.9,0.08,0.0,1.21,411893000.0,0.0,7.0,4272.21,347.17,0.08,0.0
3,AFCR11,Desconhecido,103.15,0.18,0.0,0.99,186437000.0,0.0,0.0,0.0,0.0,0.0,0.0
4,AFHI11,Títulos e Val Mob,98.2,0.11,0.12,1.02,296510000.0,1326260.0,0.0,0.0,0.0,0.0,0.0
5,AFOF11,Títulos e Val Mob,91.6,0.11,0.01,0.99,63313200.0,0.0,0.0,0.0,0.0,0.0,0.0
6,AGCX11,Outros,1235.5,0.01,0.0,11.4,14317200000.0,0.0,77.0,106755.0,1121.97,0.01,0.07
7,AGRX11,Híbrido,10.68,0.06,0.15,1.05,102113000.0,335733.0,0.0,0.0,0.0,0.0,0.0
8,AIEC11,Lajes Corporativas,69.95,0.13,0.12,0.74,337508000.0,589331.0,2.0,14245.7,2195.11,0.15,0.0
9,ALMI11,Lajes Corporativas,766.02,0.02,0.0,0.38,85163800.0,57326.0,1.0,1874.53,179.2,0.1,0.56


**Obs:** Como os dados variam diariamente, é interessante adicionar as datas de cada raspagem para diferenciar o conjunto de dados

In [29]:
# Resgatando a data do sistema para exportar o arquivo com sua data respectiva de tratamento

dia_de_raspagem = datetime.datetime.now().date() # puxando as datas
dia_de_raspagem = dia_de_raspagem.strftime("_%d_%m_%Y") # definindo o formatado da data
dt_test.to_csv(f"planilhas_fundamentus_fii/teste{dia_de_raspagem}.csv", index=False) # exportando como arquivo csv

# Etapa 3: Exploração dos Algoritmos
Nessa etapa, estão representados três algoritmos de agrupamento de dados que se destacaram:
- Árvore de decisão;
- Algoritmo de clusterização;
- Algoritmo genéticos;

# Etapada 4: Avaliação e Interpretação dos Resultados