## cederj_redacao.csv

### Converter arquivos PDF para CSV
### Renomear colunas
### Inserir coluna com id
### Remover linhas duplicadas com: nome, curso, inscrição, nota e situação
### Dividir a coluna curso, polo e instituição em três colunas, com cada informação respectivamente

In [363]:
import tabula
import numpy as np
import pandas as pd
import datatable as dt

In [364]:
tabula.convert_into('data/cederj_redacao.pdf', 'data/redacao.csv', output_format='csv', pages='all')

In [413]:
df_redacao = pd.read_csv('data/redacao.csv')

### Renomeando as colunas

In [414]:
df_redacao.columns

Index(['Nome', 'Unnamed: 1', 'Curso/Polo/Instituição', 'Unnamed: 3',
       'Inscrição', 'Unnamed: 5', 'Nota\rRedação', 'Aspectos\rformais',
       'Aspectos\rtextuais', 'Aspectos\rdiscursivos'],
      dtype='object')

In [415]:
df_redacao.head(3)

Unnamed: 0,Nome,Unnamed: 1,Curso/Polo/Instituição,Unnamed: 3,Inscrição,Unnamed: 5,Nota\rRedação,Aspectos\rformais,Aspectos\rtextuais,Aspectos\rdiscursivos
0,AARADELFA EDELSZTEIN E WREDE,Pedagogia - Nova Friburgo (UERJ),12749,500,200,150,150,,,
1,ABEL NASCIMENTO JUNIOR,Turismo - São Gonçalo (UFRRJ),50580,550,200,200,150,,,
2,ABNER BATISTA SILVA,Administração - Resende (UFRRJ),34822,550,150,150,250,,,


In [416]:
df_redacao = df_redacao.rename(columns={'Nome':'NOME', 'Unnamed: 1':'CPI', 'Curso/Polo/Instituição':'INSCRICAO', 'Unnamed: 3':'NOTA_REDACAO', 'Inscrição':'ASPECTOS_FORMAIS', 'Unnamed: 5':'ASPECTOS_TEXTUAIS', 'Nota\rRedação':'ASPECTOS_DISCURSIVOS'})

In [417]:
df_redacao.head(3)

Unnamed: 0,NOME,CPI,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,Aspectos\rformais,Aspectos\rtextuais,Aspectos\rdiscursivos
0,AARADELFA EDELSZTEIN E WREDE,Pedagogia - Nova Friburgo (UERJ),12749,500,200,150,150,,,
1,ABEL NASCIMENTO JUNIOR,Turismo - São Gonçalo (UFRRJ),50580,550,200,200,150,,,
2,ABNER BATISTA SILVA,Administração - Resende (UFRRJ),34822,550,150,150,250,,,


In [418]:
df_redacao = df_redacao.rename(columns={'Aspectos\rformais':'CURSO', 'Aspectos\rtextuais':'POLO', 'Aspectos\rdiscursivos':'INSTITUICAO'})

In [419]:
df_redacao.head(3)

Unnamed: 0,NOME,CPI,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,Pedagogia - Nova Friburgo (UERJ),12749,500,200,150,150,,,
1,ABEL NASCIMENTO JUNIOR,Turismo - São Gonçalo (UFRRJ),50580,550,200,200,150,,,
2,ABNER BATISTA SILVA,Administração - Resende (UFRRJ),34822,550,150,150,250,,,


### Separando as colunas CURSO/POLO/INSTITUIÇÃO

In [420]:
df_redacao['CURSO'] = df_redacao.CPI.str.split(" - ", expand=True)

In [421]:
df_redacao.head(3)

Unnamed: 0,NOME,CPI,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,Pedagogia - Nova Friburgo (UERJ),12749,500,200,150,150,Pedagogia,,
1,ABEL NASCIMENTO JUNIOR,Turismo - São Gonçalo (UFRRJ),50580,550,200,200,150,Turismo,,
2,ABNER BATISTA SILVA,Administração - Resende (UFRRJ),34822,550,150,150,250,Administração,,


In [422]:
df_redacao.loc[df_redacao['CURSO'] == 'Pedagogia'].head(3)

Unnamed: 0,NOME,CPI,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,Pedagogia - Nova Friburgo (UERJ),12749,500,200,150,150,Pedagogia,,
14,ADAHILTON AMERICO DE OLIVEIRA,Pedagogia - Saquarema (UNIRIO),55818,500,150,150,200,Pedagogia,,
24,ADELAIDE PEDRO DE SOUZA PONTES,Pedagogia - Nova Iguaçu (UERJ),8500,700,200,200,300,Pedagogia,,


In [423]:
df_redacao['CPI'] = df_redacao.CPI.str.replace(' - ', ',')

In [424]:
df_redacao['CPI'] = df_redacao.CPI.str.replace('(', ',')

In [425]:
df_redacao['CPI'] = df_redacao.CPI.str.replace(')', '')

In [426]:
df = df_redacao['CPI'].apply(lambda x: pd.Series(str(x).split(',')))

In [427]:
df.head(5)

Unnamed: 0,0,1,2
0,Pedagogia,Nova Friburgo,UERJ
1,Turismo,São Gonçalo,UFRRJ
2,Administração,Resende,UFRRJ
3,Administração Pública,Nova Iguaçu,UFF
4,Matemática,Rio Bonito,UFF


In [428]:
df_redacao['CURSO'] = df[0]

In [429]:
df_redacao['POLO'] = df[1]

In [430]:
df_redacao['INSTITUICAO'] = df[2]

In [431]:
df_redacao['POLO'] = df_redacao['POLO'].str.strip()

### Remover coluna CPI (CURSO/POLO/INSTITUIÇÃO)

In [432]:
df_redacao = df_redacao.drop(columns = ['CPI'])

In [433]:
df_redacao.head(3)

Unnamed: 0,NOME,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,12749,500,200,150,150,Pedagogia,Nova Friburgo,UERJ
1,ABEL NASCIMENTO JUNIOR,50580,550,200,200,150,Turismo,São Gonçalo,UFRRJ
2,ABNER BATISTA SILVA,34822,550,150,150,250,Administração,Resende,UFRRJ


In [434]:
df_redacao.dtypes

NOME                    object
INSCRICAO               object
NOTA_REDACAO            object
ASPECTOS_FORMAIS        object
ASPECTOS_TEXTUAIS       object
ASPECTOS_DISCURSIVOS    object
CURSO                   object
POLO                    object
INSTITUICAO             object
dtype: object

### Exportando o dataframe gerado

In [435]:
df_redacao.to_csv("data/redacao_1.csv")

### Trocando vírgulas por pontos nas colunas NOTA REDAÇÃO, ASPECTOS FORMAIS, ASPECTOS TEXTUAIS E ASPECTOS DISCURSIVOS

In [436]:
df_redacao['NOTA_REDACAO'] = df_redacao.NOTA_REDACAO.str.replace(',', '.')

In [437]:
df_redacao['ASPECTOS_FORMAIS'] = df_redacao.ASPECTOS_FORMAIS.str.replace(',', '.')

In [438]:
df_redacao['ASPECTOS_TEXTUAIS'] = df_redacao.ASPECTOS_TEXTUAIS.str.replace(',', '.')

In [439]:
df_redacao['ASPECTOS_DISCURSIVOS'] = df_redacao.ASPECTOS_DISCURSIVOS.str.replace(',', '.')

### Convertendo as colunas NOTA REDAÇÃO, ASPECTOS FORMAIS, ASPECTOS TEXTUAIS E ASPECTOS DISCURSIVOS PARA FLOAT

In [440]:
df_redacao['NOTA_REDACAO'] = pd.to_numeric(df_redacao['NOTA_REDACAO'], errors='coerce')

In [441]:
df_redacao['ASPECTOS_FORMAIS'] = pd.to_numeric(df_redacao['ASPECTOS_FORMAIS'], errors='coerce')

In [442]:
df_redacao['ASPECTOS_TEXTUAIS'] = pd.to_numeric(df_redacao['ASPECTOS_TEXTUAIS'], errors='coerce')

In [443]:
df_redacao['ASPECTOS_DISCURSIVOS'] = pd.to_numeric(df_redacao['ASPECTOS_DISCURSIVOS'], errors='coerce')

In [455]:
df_redacao.head(3)

Unnamed: 0,NOME,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,12749,50.0,20.0,15.0,15.0,Pedagogia,Nova Friburgo,UERJ
1,ABEL NASCIMENTO JUNIOR,50580,55.0,20.0,20.0,15.0,Turismo,São Gonçalo,UFRRJ
2,ABNER BATISTA SILVA,34822,55.0,15.0,15.0,25.0,Administração,Resende,UFRRJ


In [446]:
df_redacao.dtypes

NOME                     object
INSCRICAO                object
NOTA_REDACAO            float64
ASPECTOS_FORMAIS        float64
ASPECTOS_TEXTUAIS       float64
ASPECTOS_DISCURSIVOS    float64
CURSO                    object
POLO                     object
INSTITUICAO              object
dtype: object

### Exportando o dataframe gerado

In [447]:
df_redacao.to_csv("data/redacao_1.csv")

### Removendo as linhas com o valor igual a 'NOME'

In [448]:
df_redacao.loc[df_redacao['NOME'] == 'Nome'].head(3)

Unnamed: 0,NOME,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
42,Nome,Curso/Polo/Instituição,,,,,,,
85,Nome,Curso/Polo/Instituição,,,,,,,
128,Nome,Curso/Polo/Instituição,,,,,,,


In [449]:
df_redacao = df_redacao.loc[df_redacao['NOME'] != 'Nome']

In [451]:
df_redacao.head(3)

Unnamed: 0,NOME,INSCRICAO,NOTA_REDACAO,ASPECTOS_FORMAIS,ASPECTOS_TEXTUAIS,ASPECTOS_DISCURSIVOS,CURSO,POLO,INSTITUICAO
0,AARADELFA EDELSZTEIN E WREDE,12749,50.0,20.0,15.0,15.0,Pedagogia,Nova Friburgo,UERJ
1,ABEL NASCIMENTO JUNIOR,50580,55.0,20.0,20.0,15.0,Turismo,São Gonçalo,UFRRJ
2,ABNER BATISTA SILVA,34822,55.0,15.0,15.0,25.0,Administração,Resende,UFRRJ


### Exportando o dataframe gerado

In [456]:
df_redacao.to_csv("data/redacao_1.csv")