In [5]:
# Instalação das bibliotecas 
!pip install tabula-py
!pip install PyPDF2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [6]:
# Importação das Bibliotecas
import tabula
import PyPDF2
import pandas as pd

In [7]:
# Definição do caminho
caminho_arquivo_pdf = '/content/UFF-Edital-190-2022-NotasdaProvaEscrita.pdf'

In [8]:
# Contando o número de páginas do pdf. 
pdf_reader = PyPDF2.PdfReader(open(caminho_arquivo_pdf, 'rb'))
num_paginas = len(pdf_reader.pages)
num_paginas

354

In [9]:
# Extração das tabelas do pdf: O conteúdo das tabelas presentes no PDF é extraído usando a biblioteca tabula e armazenado na variável tabelas.
tabelas = tabula.read_pdf(caminho_arquivo_pdf, pages='all')


In [10]:
# Criação de dataframes: Um loop é utilizado para percorrer as tabelas extraídas. Cada tabela não vazia é adicionada à lista dataframes

dataframes = []
for tabela in tabelas:
    # Verifica se a tabela extraída tem conteúdo
    if not tabela.empty:
        dataframes.append(tabela)

In [11]:
# Concatenação dos dataframes: Os dataframes presentes na lista dataframes são concatenados em um único dataframe, df, usando a função pd.concat
df = pd.concat(dataframes, ignore_index=True)


In [12]:
df.head(5)

Unnamed: 0,Inscrição,Nome do Candidato,CPF,Data de,Pontos,Pontos.1,Pontos.2,Data de\rNascimento,Pontos\rParte I,Pontos\rParte II,Pontos\rParte III
0,,,,Nascimento,Parte I,Parte II,Parte III,,,,
1,2508332000.0,ADA LENA ***********,074434*****,14/09/1978,faltou,faltou,faltou,,,,
2,2508336000.0,ALOISIO ************,136485*****,26/04/1992,1050,1500,62,,,,
3,2508268000.0,AMANDA *************,094479*****,03/06/1983,600,1200,24,,,,
4,2508359000.0,ANA GABRIELLE ******,161832*****,18/11/2000,900,750,40,,,,


In [18]:
# Manipulação do dataframe: São realizadas operações para filtrar e reorganizar o dataframe df, incluindo a identificação de um índice de início e fim com base em valores específicos na coluna 'Inscrição'

indices = df[df['Inscrição'] == 2018289482]
indices = df.index[df['Inscrição'] == 2018289482]
indice_inicio = indices[0] if len(indices) > 0 else len(df)

df = df.iloc[indice_inicio:].copy()

df.reset_index(drop=True, inplace=True)



In [19]:
df.head()

Unnamed: 0,Inscrição,Nome do Candidato,CPF,Data de,Pontos,Pontos.1,Pontos.2,Data de\rNascimento,Pontos\rParte I,Pontos\rParte II,Pontos\rParte III
0,2018289000.0,ABIMAEL ************,276871*****,06/04/1962,900,750,40,,,,
1,2018379000.0,ABNER **************,133179*****,08/02/1992,900,900,44,,,,
2,2018320000.0,ACACIO *************,130111*****,06/08/1999,1050,1050,50,,,,
3,2018314000.0,ACACIO *************,020229*****,14/07/1988,faltou,faltou,faltou,,,,
4,2018297000.0,ACASSIA ************,173062*****,05/10/2002,900,600,24,,,,


In [20]:
indice_fim = df[df['Inscrição'] == 2018270338].index[0] + 1
# Excluir os registros acima
df = df.iloc[:indice_fim]
df.reset_index(drop=True, inplace=True)


In [21]:
pd.set_option('display.max_columns', None)  # Exibir todas as colunas
pd.set_option('display.max_rows', None)  # Exibir todas as linhas
pd.set_option('display.width', None)  

In [22]:
valores_distintos = df['Pontos'].unique()
valores_distintos

array(['9,00', '10,50', 'faltou', '7,50', '4,50', '0,00', '1,50', '6,00',
       '12,00', '3,00', 'Parte I', '13,50', 'Eliminado', '15,00'],
      dtype=object)

In [23]:
valores_distintos = df['Pontos.2'].unique()
valores_distintos

array(['40', '44', '50', 'faltou', '24', '14', '58', '28', '46', '66',
       '36', '56', '26', '42', '38', '64', '18', '30', '32', 'Parte III',
       '48', '20', '22', '34', '54', '68', '52', '60', '62', '70',
       'Eliminado', '16', '12', '2', '10'], dtype=object)

In [24]:
df = df.loc[df['Pontos'] != 'faltou']
df = df.loc[df['Pontos'] != 'Parte I']
df = df.loc[df['Pontos'] != 'Eliminado']




In [25]:
colunas_desejadas = ['Inscrição', 'Nome do Candidato','Data de','Pontos','Pontos.1','Pontos.2']
df = df[colunas_desejadas]


In [26]:
df.head()

Unnamed: 0,Inscrição,Nome do Candidato,Data de,Pontos,Pontos.1,Pontos.2
0,2018289000.0,ABIMAEL ************,06/04/1962,900,750,40
1,2018379000.0,ABNER **************,08/02/1992,900,900,44
2,2018320000.0,ACACIO *************,06/08/1999,1050,1050,50
4,2018297000.0,ACASSIA ************,05/10/2002,900,600,24
6,2018258000.0,ACSA ***************,01/05/1994,750,600,14


In [27]:
df['Pontos'] = pd.to_numeric(df['Pontos'].str.replace(',', '.'))
df['Pontos.1'] = pd.to_numeric(df['Pontos.1'].str.replace(',', '.'))
df['Pontos.2'] = pd.to_numeric(df['Pontos.2'].str.replace(',', '.'))

In [28]:
df['NOTA_FINAL'] = df['Pontos'] + df['Pontos.1'] + df['Pontos.2']


In [29]:
df = df.sort_values(by='NOTA_FINAL', ascending=False)


In [30]:
df = df.reset_index(drop=True)

df.head(100)

Unnamed: 0,Inscrição,Nome do Candidato,Data de,Pontos,Pontos.1,Pontos.2,NOTA_FINAL
0,2018273000.0,JULIA **************,27/06/1978,13.5,15.0,70,98.5
1,2018326000.0,GUSTAVO ************,03/02/1984,12.0,15.0,70,97.0
2,2018341000.0,REJANE *************,15/09/1979,12.0,15.0,70,97.0
3,2018346000.0,VALESKA ************,19/11/1971,13.5,13.5,70,97.0
4,2018253000.0,MARCIO *************,18/06/1981,12.0,15.0,70,97.0
5,2018311000.0,OTAVIA *************,14/10/1981,13.5,15.0,68,96.5
6,2018317000.0,WEBER **************,19/12/1979,13.5,15.0,68,96.5
7,2018307000.0,CARLOS *************,30/12/1989,15.0,15.0,66,96.0
8,2018323000.0,JAIRO **************,21/05/1985,12.0,13.5,70,95.5
9,2018314000.0,STEPHANIE **********,17/12/1991,10.5,15.0,70,95.5
