# 1. Coleta de dados
- Por meio de scraping do sítio virtual da ANBIMA, entre os resultados de pesquisa de fundos ESG.
- Faz primeiro o scraping dos links das páginas de resultados de pesquisa. Em seguida, acessa cada um dos links, faz o scraping da página respectiva e descarrega o regulamento. Trata os erros numa segunda tentativa, ressaltando a necessidade de o usuário descarregar os regulamentos manualmente. Finalmente, corrige erros de formatação.
    - Requer instalação de webdriver Chromedriver na variável de ambiente PATH. Mais informações em README.md.
- Converte arquivos pdf em txt e salva na pasta ..data/txt.

## Scraping

### Elabora lista de todos os links

In [1]:
import sys
sys.path.append('../src')
import os
links = []
erros = []
metadados = []
diretorio = '../data/pdf/'
if not os.path.exists(diretorio):
    # Se não existir, cria o diretório
    os.makedirs(diretorio)





In [2]:
links = scraping.anbima('https://data.anbima.com.br/fundos?page=1&size=100&asg=Sim') # Primeira página de pesquisa

In [3]:
links2 = scraping.anbima('https://data.anbima.com.br/busca/fundos/?q=esg&page=1&size=100&') # Segunda página de pesquisa

In [4]:
links3 = scraping.anbima('https://data.anbima.com.br/busca/fundos/?q=esg&page=2&size=100&') # Terceira página de pesquisa

In [5]:
total_links = links + links2 + links3
total_links = list(set(total_links)) # Eliminar links duplicados


### Descarrega regulamentos

In [None]:
import scraping




# Faz o scraping de cada fundo e baixa regulamentos
for indice, link in enumerate(total_links):
    try:
        print(f'Processando {indice + 1}/{len(total_links)}. Faltam {len(total_links) - indice - 1} outros.')
        scraping.scraping_e_download_regulamento(link, metadados, erros, diretorio)
    except:
        erros.append(link)
        print(f"Erro ao fazer scraping do link {link}. Tentar novamente na próxima célula.")
        continue

print(f"Lista de erros: {erros}.")


    

Processando 1/171. Faltam 170 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/559806. Tentar novamente na próxima célula.
Processando 2/171. Faltam 169 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/563201. Tentar novamente na próxima célula.
Processando 3/171. Faltam 168 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/741442. Tentar novamente na próxima célula.
Processando 4/171. Faltam 167 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/557374. Tentar novamente na próxima célula.
Processando 5/171. Faltam 166 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/648663. Tentar novamente na próxima célula.
Processando 6/171. Faltam 165 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/520901. Tentar novamente na próxima célula.
Processando 7/171. Faltam 164 outros.
Erro ao fazer scraping do link https://data.anbima.com.br/fundos/527777. Tentar 

### Processa erros. Faz apenas scraping, sem descarregar regulamentos.
- observação: descarregar regulamentos manualmente, mediante pesquisa na internet

In [None]:
dados_erros = [] # Tenta de novo o scraping dos fundos que deram erro, mas não tenta descarregar os regulamentos. Isso precisa ser feito manualmente. 
for link in erros:
    dados_erros.append(scraping.apenas_scraping(link))

    

In [None]:
metadados = metadados + dados_erros

In [None]:
len(metadados) == len(total_links) # Confere se total de metadados corresponde a todos os links pesquisados

In [None]:
## Salva metadados em arquivo json. 
import json
with open('../data/json/metadados.json', 'w', encoding='utf-8') as f:
        json.dump(metadados, f, ensure_ascii=False, indent=4)

## Corrige problemas no arquivo de metadados
- O arquivo de metadados tem alguns problemas.
  1. Em alguns resultados, o botão "Baixar" ficou assinalado como se fosse um valor da tabela de dados disponibilizada pela Anbima. Ele ocupa valores deixados em branco.
  2. O campo "Última atualização do regulamento" teve o scraping truncado e figura como 'Regulamento\nData de atualização indisponível': 'Baixar'.
  3. Foi incluído o campo em branco '': ''.
  4. O valor da cota e a rentabilidade do fundo no ano foram incluídos como valores de um mesmo campo.

In [None]:
# Corrige problemas iniciais
scraping.problema_1(metadados)
scraping.problema_2(metadados)
scraping.problema_3(metadados)
scraping.problema_4(metadados)

In [None]:
import random
random.sample(metadados, 15) # Confere integridade da lista

## Converte os arquivos .pdf dos regulamentos em txt.

In [None]:
destino = '../data/txt/'
if not os.path.exists(destino):
    # Se não existir, cria o diretório
    os.makedirs(destino)
converte_txt.converter()

In [None]:
# Salvar metadados.json
with open('../data/json/metadados.json', 'w', encoding='utf-8') as f:
        json.dump(metadados, f, ensure_ascii=False, indent=4)