RASPAGEM DE DADOS E CRIAÇÃO DE BANCO DE DADOS.

Este notebook tem como objetivo criar um banco de dados a respeito dos resultados dos últimos campeonatos Nacionais de BAJA.

Os dados encontram-se disponíveis na página da SAE Brasil em formato PDF, por isso, ao decorrer do Notebook será necessário fazer a rapagem de dados.


Em primeiro lugar, precisamos instalar a biblioteca `tabula-py`, ela será responsável por ler o nosso PDF e retornar uma lista de dataframes, onde cada um dos dataframes contem uma tabela encontrada no arquivo.

para fazer a instalação da biblioteca, utilizamos a seguinte linha de código.


In [None]:
!pip3 install tabula-py

Collecting tabula-py
  Downloading tabula_py-2.3.0-py3-none-any.whl (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 91 kB/s 
Collecting distro
  Downloading distro-1.6.0-py2.py3-none-any.whl (19 kB)
Installing collected packages: distro, tabula-py
Successfully installed distro-1.6.0 tabula-py-2.3.0


Após instalar a biblioteca tabula-py, iremos importa-la junto com a biblioteca pandas.

Obs: Não é necessário instalar a biblioteca pandas, pois o google colab já 
possui a biblioteca préviamente instalada.

In [None]:
import tabula 
import pandas as pd

Importada as bibliotecas, precisamos ler o arquivo PDF, para isso criamos a variável `file_path`, a ela iremos atribuir a URL do arquivo, obtida através do website da SAE Brasil.


A função utilizada para leitura do arquivo PDF é a função `tabula.read_pdf()`


Essa função recebe como arguento o arquivo PDF (`file_path`) e nos retorna uma `list`, onde cada item dessa lista é um `DataFrame` que representa uma tabela de nosso arquivo PDF. Como nosso arquivo possui apenas uma tabela, utilizaremos apenas o primeiro item (0) da `list` como `DataFrame` principal.




In [None]:
file_path = "http://saebrasil.org.br/wp-content/uploads/2020/03/baja-nacional-2012.pdf"

tabela = tabula.read_pdf(file_path, output_format="dataframe")
df = tabela[0]


'pages' argument isn't specified.Will extract only from page 1 by default.
Got stderr: Oct 22, 2021 9:52:51 PM org.apache.pdfbox.pdmodel.font.FileSystemFontProvider loadDiskCache
Oct 22, 2021 9:52:51 PM org.apache.pdfbox.pdmodel.font.FileSystemFontProvider <init>
Oct 22, 2021 9:52:51 PM org.apache.pdfbox.pdmodel.font.FileSystemFontProvider <init>
Oct 22, 2021 9:52:51 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>
Oct 22, 2021 9:52:51 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>



Agora que temos o DataFrame com os dados da tabela, vamos criar um banco de dados não relacional. Optamos por criar um banco não relacional devido ao fato dos resultados sere diferentes a cada ano.

Primeiro criamos um `Dict` chamado `database`, nele vamos adicionar os dados extraidos do nosso `DataFrame`.

Após a criação do `Dict` que servirá de banco de dados, utilizaremos a função `DataFrame.iterrows()`, com ela será possível iterar linha por linha em nossa tabela de resultados. Ao ler as linhas, criaremos um outros `Dicts` chamado `equipe`, nele adicionaremos os dados de cada equipe individualmente, em seguida, adicionamos a coleção de equipes ao banco de dados.

In [None]:
database = {}

for row in df.iterrows():
  equipe = {
      "Resultados" : {
          "Segurança" : row[1][3],
          "Relatório" : row[1][4],
          "Apresentação" : row[1][5],
          "Aceleração" : row[1][6],
          "Velocidade" : row[1][7],
          "Tração" : row[1][8],
          "S&T" : row[1][9],
          "Enduro" : row[1][10],
          "Pontuação" : row[1][11],
          "Classificação" : row[1][12]
      }
  }
  database[row[1][1]] = equipe

Ao final, transnformaremos o dicionário `database` em um arquivo `JSON`, para isso, importaremos a biblioteca `JSON` e utilizaremos a função `json.dump()`.


In [None]:
import json

with open("BD_baja.json", "w") as outfile:
    json.dump(database, outfile)

PRONTO!!!! Agora temos um banco de dados com os resultados do campeonato nacional de BAJA do ano de 2012. Por se tratar de arquivos com tipos de dados diferentes a cada ano, será necessário fazer a adaptação na manipulação dos resultados para cada campeonato, por esse motivo foi escolhido criar um banco de dados não relacional.
