<a href="https://colab.research.google.com/github/alexxdantass/DadosAbertosUFRN/blob/master/raspagem_e_manipula%C3%A7%C3%A3o_de_dados_baja.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

RASPAGEM DE DADOS E CRIAÇÃO DE BANCO DE DADOS.

Este notebook tem como objetivo criar um banco de dados a respeito dos resultados dos últimos campeonatos Nacionais de BAJA.

Os dados encontram-se disponíveis na página da SAE Brasil em formato PDF, por isso, ao decorrer do Notebook será necessário fazer a rapagem de dados.


Em primeiro lugar, precisamos instalar a biblioteca `tabula-py`, ela será responsável por ler o nosso PDF e retornar uma lista de dataframes, onde cada um dos dataframes contem uma tabela encontrada no arquivo.

para fazer a instalação da biblioteca, utilizamos a seguinte linha de código.

```
!pip3 install tabula-py
```

Após instalar a biblioteca `tabula-py`, iremos importa-la junto com a biblioteca `pandas`.

```
import tabula 
import pandas as pd
```

Obs: Não é necessário instalar a biblioteca `pandas`, pois o google colab já possui a biblioteca préviamente instalada.






In [None]:
!pip3 install tabula-py

import tabula 
import pandas as pd

Importada as bibliotecas, precisamos ler o arquivo PDF, para isso criamos a variável `file_path`, a ela iremos atribuir a URL do arquivo, obtida através do website da SAE Brasil.

```
file_path = "http://saebrasil.org.br/wp-content/uploads/2020/03/baja-nacional-2012.pdf"
```

A função utilizada para leitura do arquivo PDF é a função `tabula.read_pdf()`

```
tabela = tabula.read_pdf(file_path, output_format="dataframe")
```

Essa função recebe como arguento o arquivo PDF (`file_path`) e nos retorna uma `list`, onde cada item dessa lista é um `DataFrame` que representa uma tabela de nosso arquivo PDF. Como nosso arquivo possui apenas uma tabela, utilizaremos apenas o primeiro item (0) da `list` como `DataFrame` principal.

```
df = tabela[0]
```



In [None]:
file_path = "http://saebrasil.org.br/wp-content/uploads/2020/03/baja-nacional-2012.pdf"

tabela = tabula.read_pdf(file_path, output_format="dataframe")
df = tabela[0]


NameError: ignored

Agora que temos o DataFrame com os dados da tabela, vamos criar um banco de dados não relacional. Optamos por criar um banco não relacional devido ao fato dos resultados sere diferentes a cada ano.

Primeiro criamos um `Dict` chamado `database`, nele vamos adicionar os dados extraidos do nosso `DataFrame`.

```
database = {}
```

Após a criação do `Dict` que servirá de banco de dados, utilizaremos a função `DataFrame.iterrows()`, com ela será possível iterar linha por linha em nossa tabela de resultados. Ao ler as linhas, criaremos um outros `Dicts` chamado `equipe`, nele adicionaremos os dados de cada equipe individualmente, em seguida, adicionamos a coleção de equipes ao banco de dados.



```
for row in df.iterrows():
  equipe = {
      "Resultados" : {
          "Segurança" : row[1][3],
          "Relatório" : row[1][4],
          "Apresentação" : row[1][5],
          "Aceleração" : row[1][6],
          "Velocidade" : row[1][7],
          "Tração" : row[1][8],
          "S&T" : row[1][9],
          "Enduro" : row[1][10],
          "Pontuação" : row[1][11],
          "Classificação" : row[1][12]
      }
  }
  database[row[1][1]] = equipe
```




In [None]:
database = {}

for row in df.iterrows():
  equipe = {
      "Resultados" : {
          "Segurança" : row[1][3],
          "Relatório" : row[1][4],
          "Apresentação" : row[1][5],
          "Aceleração" : row[1][6],
          "Velocidade" : row[1][7],
          "Tração" : row[1][8],
          "S&T" : row[1][9],
          "Enduro" : row[1][10],
          "Pontuação" : row[1][11],
          "Classificação" : row[1][12]
      }
  }
  database[row[1][1]] = equipe

{'FEI BAJA 2': {'Resultados': {'Segurança': '4,50', 'Relatório': '125,80', 'Apresentação': '134,88', 'Aceleração': '60,00', 'Velocidade': '60,00', 'Tração': '45,17', 'S&T': '70,00', 'Enduro': '126,32', 'Pontuação': '626,66', 'Classificação': 9}}, 'FEI BAJA 1': {'Resultados': {'Segurança': '4,25', 'Relatório': '125,60', 'Apresentação': '124,03', 'Aceleração': '53,81', 'Velocidade': '48,43', 'Tração': '37,09', 'S&T': '69,72', 'Enduro': '189,47', 'Pontuação': '652,39', 'Classificação': 7}}, 'POLI CISER FÊNIX': {'Resultados': {'Segurança': '15,00', 'Relatório': '123,00', 'Apresentação': '134,75', 'Aceleração': '53,94', 'Velocidade': '55,28', 'Tração': '37,43', 'S&T': '56,72', 'Enduro': '336,84', 'Pontuação': '812,96', 'Classificação': 3}}, 'POLI CISER MAGNUS': {'Resultados': {'Segurança': '15,50', 'Relatório': '123,80', 'Apresentação': '161,82', 'Aceleração': '56,45', 'Velocidade': '57,40', 'Tração': '34,27', 'S&T': '65,06', 'Enduro': '364,91', 'Pontuação': '879,22', 'Classificação': 1}}, 

Ao final, transnformaremos o dicionário `database` em um arquivo `JSON`, para isso, importaremos a biblioteca `JSON` e utilizaremos a função `json.dump()`.

```
with open("BD_baja.json", "w") as outfile:
    json.dump(database, outfile)
```

PRONTO!!!! Agora temos um banco de dados com os resultados do campeonato nacional de BAJA do ano de 2012. Por se tratar de arquivos com tipos de dados diferentes a cada ano, será necessário fazer a adaptação na manipulação dos resultados para cada campeonato, por esse motivo foi escolhido criar um banco de dados não relacional.



In [None]:
with open("BD_baja.json", "w") as outfile:
    json.dump(database, outfile)