# Extraindo textos de pdfs
Hoje em dia é muito mais fácil encontrar dados na internet. Mas nem toda fonte encontrada na internet está no mesmo formato. O formato de documento portátil, **PDF**, é apenas um, entre tantos. <br>
Em muitos casos, o famoso copia e cola é suficiente para extrair o texto de um pdf. Pra que Python, afinal?<br>

Quando o material for extenso, ou os dados se encontrarem dispersos em vários pdfs, **Python** pode ajudar na extração e na exploração desses dados.

**ATENÇÃO**: O objetivo é compartilhar a utilidade e praticidade de usar  **Python** para pesquisas na área de letras. Então, o (pouco)código será executado uma parte de cada vez. Obviamente há maneiras mas práticas e rápidas de realizar as mesmas tarefas. 

### PyPDF2
Precisaremos recorrer a uma biblioteca para interagir com pdfs em Python. Desta vez escolhemos **PyPDF2**.
- Para instalar 0 PyPDF2 pelo jupyter notebook: pip install PyPDF2

In [1]:
# pip install PyPDF2

# 1. Importando a biblioteca PyPDF2

In [2]:
import PyPDF2

# 2. Abrir, ler e extrair o texto do pdf
A extração do texto do pdf ocorre em 3 etapas

>Para poder-mos interagir com o pdf com PyPDF2, é imprecindível usar o modo 'rb'(leitura/escrita).

**1. Cria uma variável *pdf* e salva a leitura do *arquivo* nessa variável**
- Usamos a função *PdfFileReader()* do PyPDF2 para **ler** o pdf. 

**2. Seleciona a página do arquivo de que desejamos extrair o texto**
- Utlizamos *getPage()* para reter a página do arquivo desejada e criamos um objeto chamado *pagina*. Mesmo nosso arquivo contendo apenas 1 página, essa etapa é necessária. A contagem começa do 0. Por isso para indicar a página 1 do arquivo, utilizamos o 0.

**3. Salva o texto extraido da página selecionada em uma variável**
- Aplicamos a função *extractText()* à página selecionada e salvamos em uma variável, novamente, para a nossa conveniencia.  


In [3]:
with open('cda_aeroporto.pdf', 'rb') as arquivo:
    # 1º ETAPA
    pdf = PyPDF2.PdfFileReader(arquivo)
    
    # 2º ETAPA
    pagina = pdf.getPage(0)
    
    # 3º ETAPA
    texto_extraido = pagina.extractText()

### Vamos visualizar o resultado
A primeira coisa que você vai notar é que não há uma formatação no texto. E que a combinação estranha *\n* se repete ao longo do texto. Não se aflija!<br> <br>

In [8]:
texto_extraido

'Aeroporto\n \n \nViajou meu amigo Pedro. Fui levá\n-\nlo ao Galeão, onde esperamos três horas o seu \nquadrimotor. \nDurante esse tempo, não faltou assunto para nos entretermos, embora não \nfalássemos da vã e numerosa matéria atual. Sempre tivemos muito assunto, e não \ndeixamos de explorá\n-\nla a fundo. Embora Pedro seja extremamente parco de palavras e, a \nbem dizer, não se d\nigne pronunciar nenhuma. Quando muito, emite sílabas: o mais é \nconversa de gestos e expressões, pelos quais se faz entender admiravelmente. É o seu \nsistema. Passou dois meses e meio em nossa casa, e foi hóspede ameno. Sorria para os \nmoradores, com ou sem m\notivo plausível. Era sua arma, não direi secreta, porque \nostensiva. A vista da pessoa humana lhe dá prazer. Seu sorriso foi logo considerado \nsorriso especial, revelador de suas intenções para com o mundo ocidental e o oriental, e \nem particular o nosso trec\nho de rua. Fornecedores, vizinhos e desconhecidos, gratificados \ncom esse sorriso (en

#### Quanto menos formatação, menos trabalho!
O *\n* é só um resquício de formatação. Onde no texto há uma quebra de linha, aparece o *\n* no lugar.<br><br>
Vamos visualizar melhor usando a função **print()** para exibir o conteúdo.

In [7]:
print(texto_extraido)
# Viu?! 

Aeroporto
 
 
Viajou meu amigo Pedro. Fui levá
-
lo ao Galeão, onde esperamos três horas o seu 
quadrimotor. 
Durante esse tempo, não faltou assunto para nos entretermos, embora não 
falássemos da vã e numerosa matéria atual. Sempre tivemos muito assunto, e não 
deixamos de explorá
-
la a fundo. Embora Pedro seja extremamente parco de palavras e, a 
bem dizer, não se d
igne pronunciar nenhuma. Quando muito, emite sílabas: o mais é 
conversa de gestos e expressões, pelos quais se faz entender admiravelmente. É o seu 
sistema. Passou dois meses e meio em nossa casa, e foi hóspede ameno. Sorria para os 
moradores, com ou sem m
otivo plausível. Era sua arma, não direi secreta, porque 
ostensiva. A vista da pessoa humana lhe dá prazer. Seu sorriso foi logo considerado 
sorriso especial, revelador de suas intenções para com o mundo ocidental e o oriental, e 
em particular o nosso trec
ho de rua. Fornecedores, vizinhos e desconhecidos, gratificados 
com esse sorriso (encantador, apesar da fal

Ainda é uma formatação estranha. Note que cada vez que há uma palavra com pronome oblíquo atono, que utliza o símbolo "-", há uma quebra de linha. <br> 
Faremos as intervenções necessárias, mas antes vamos salvar o texto em formato mais simples, o formato *txt*.

#### Vamos exibir os 100 primeiros caracteres do texto para analisar

In [10]:
texto_extraido[:100]

'Aeroporto\n \n \nViajou meu amigo Pedro. Fui levá\n-\nlo ao Galeão, onde esperamos três horas o seu \nquad'

### Função replace(  )
Vamos usar a função *replace()* para retirar essa anomalia nos pronomes obliquos atonos.
<br><br>
A função *replace()* recebe *dois parâmetros*:
- O *primeiro* se refere a um aspécto existente no texto. No nosso caso, o *\n-\n* entre o verbo e o pronome (ex: levá\n-\nlo ). 
- O *segundo* parâmetro se refere ao que nós desejamos inserir no lugar desta anomalia.

In [11]:
texto_extraido[:100].replace('\n-\n', '-')

'Aeroporto\n \n \nViajou meu amigo Pedro. Fui levá-lo ao Galeão, onde esperamos três horas o seu \nquad'

#### Resultado satisfatório, mas...
Conseguimos deixar a palavra como ela apareceria em textos para humanos ler. Mas, como queremos que um pragama, Python, leia e nos retorne outras informações, não vamos mais nos deter na quebra de linha (para o programa isso não afetará a leitura). Ao invés disso, vamos **noramalizar** o texto (remover a pontuação, e deixar tudo em letras minusculas). Isto, usando a mesma função .**replace()** e a função **lower()** no final.<Br><br>
**Atenção**: A barra ivertida ao final de cada repalce( ) é apenas para colocar o código em uma segunda linha. Caso contrario, teriamos uma linha muito longa de replaces .replace('.','').replace(',','').replace('?','')...

In [12]:
texto_extraido[:290].replace('\n-\n', '-')\
            .replace('.','')\
            .replace(',','')\
            .replace('?','')\
            .replace('(','')\
            .replace(')','')\
            .lower()

'aeroporto\n \n \nviajou meu amigo pedro fui levá-lo ao galeão onde esperamos três horas o seu \nquadrimotor \ndurante esse tempo não faltou assunto para nos entretermos embora não \nfalássemos da vã e numerosa matéria atual sempre tivemos muito assunto e não \ndeixamos de explorá-la a '

#### Vamos aplicar as modificações acima no texto inteiro e salvar em uma nova variável
As modificações acima não afetam o texto original. Então vamos salvar o texto modificado em uma variavel.

In [13]:
sem_pontuacao = texto_extraido.replace('\n-\n', '-')\
            .replace('.','')\
            .replace(',','')\
            .replace('?','')\
            .replace('(','')\
            .replace(')','')\
            .lower()

In [14]:
print(sem_pontuacao)
# resultado sem pontuação

aeroporto
 
 
viajou meu amigo pedro fui levá-lo ao galeão onde esperamos três horas o seu 
quadrimotor 
durante esse tempo não faltou assunto para nos entretermos embora não 
falássemos da vã e numerosa matéria atual sempre tivemos muito assunto e não 
deixamos de explorá-la a fundo embora pedro seja extremamente parco de palavras e a 
bem dizer não se d
igne pronunciar nenhuma quando muito emite sílabas: o mais é 
conversa de gestos e expressões pelos quais se faz entender admiravelmente é o seu 
sistema passou dois meses e meio em nossa casa e foi hóspede ameno sorria para os 
moradores com ou sem m
otivo plausível era sua arma não direi secreta porque 
ostensiva a vista da pessoa humana lhe dá prazer seu sorriso foi logo considerado 
sorriso especial revelador de suas intenções para com o mundo ocidental e o oriental e 
em particular o nosso trec
ho de rua fornecedores vizinhos e desconhecidos gratificados 
com esse sorriso encantador apesar da falta de dentes abonam a classificaçã

## Digamos que agora nós queiramos transformar o texto em segmentos de palavras
Faremos isso com uma função chamda **split()**

In [23]:
sem_pontuacao.split()

['aeroporto',
 'viajou',
 'meu',
 'amigo',
 'pedro',
 'fui',
 'levá-lo',
 'ao',
 'galeão',
 'onde',
 'esperamos',
 'três',
 'horas',
 'o',
 'seu',
 'quadrimotor',
 'durante',
 'esse',
 'tempo',
 'não',
 'faltou',
 'assunto',
 'para',
 'nos',
 'entretermos',
 'embora',
 'não',
 'falássemos',
 'da',
 'vã',
 'e',
 'numerosa',
 'matéria',
 'atual',
 'sempre',
 'tivemos',
 'muito',
 'assunto',
 'e',
 'não',
 'deixamos',
 'de',
 'explorá-la',
 'a',
 'fundo',
 'embora',
 'pedro',
 'seja',
 'extremamente',
 'parco',
 'de',
 'palavras',
 'e',
 'a',
 'bem',
 'dizer',
 'não',
 'se',
 'd',
 'igne',
 'pronunciar',
 'nenhuma',
 'quando',
 'muito',
 'emite',
 'sílabas:',
 'o',
 'mais',
 'é',
 'conversa',
 'de',
 'gestos',
 'e',
 'expressões',
 'pelos',
 'quais',
 'se',
 'faz',
 'entender',
 'admiravelmente',
 'é',
 'o',
 'seu',
 'sistema',
 'passou',
 'dois',
 'meses',
 'e',
 'meio',
 'em',
 'nossa',
 'casa',
 'e',
 'foi',
 'hóspede',
 'ameno',
 'sorria',
 'para',
 'os',
 'moradores',
 'com',
 'ou',


### Quantas palavras há no texto?

In [15]:
len(sem_pontuacao.split())

550

### Você piscou e já estamos explorando o arquivo ;)
Para terminar, vamos criar uma lista com as palavras do texto. Faremos isso salvando a função split() aplicada ao texto em uma variável.

In [16]:
palavras = sem_pontuacao.split()

### Que tal contar as palavras por ocorrência? Qual a palavra que mais se repete?
Primeiro a gente cria um repositório vazio para receber as palavras contadas. A gente vai chamar esse repositório de... repositório mesmo!
<br><br>
Depois vamos escrever um laço de repetição (loop) para que a cada palavra nova, ela seja guardada no repositório. E se palavra for repetida, a quantidade seja guardada ao lado da palavra. O formato de dicionário do Python deixa tudo organizadinho para a gente.

In [17]:
repositório = dict()

for palavra in palavras:
    
    if palavra not in repositório:
        repositório[palavra] = 1
    else:
        repositório[palavra] = repositório[palavra] + 1
    

### Exibindo o resultado

In [18]:
repositório
# Olha aí: a palavra e a quantidade de vezes que ela aparece

{'aeroporto': 2,
 'viajou': 2,
 'meu': 2,
 'amigo': 3,
 'pedro': 8,
 'fui': 1,
 'levá-lo': 1,
 'ao': 1,
 'galeão': 1,
 'onde': 1,
 'esperamos': 1,
 'três': 1,
 'horas': 2,
 'o': 11,
 'seu': 7,
 'quadrimotor': 1,
 'durante': 1,
 'esse': 2,
 'tempo': 1,
 'não': 17,
 'faltou': 1,
 'assunto': 2,
 'para': 7,
 'nos': 3,
 'entretermos': 1,
 'embora': 2,
 'falássemos': 1,
 'da': 4,
 'vã': 1,
 'e': 26,
 'numerosa': 1,
 'matéria': 1,
 'atual': 1,
 'sempre': 1,
 'tivemos': 1,
 'muito': 3,
 'deixamos': 2,
 'de': 34,
 'explorá-la': 1,
 'a': 12,
 'fundo': 1,
 'seja': 1,
 'extremamente': 1,
 'parco': 1,
 'palavras': 1,
 'bem': 1,
 'dizer': 2,
 'se': 7,
 'd': 2,
 'igne': 1,
 'pronunciar': 1,
 'nenhuma': 1,
 'quando': 1,
 'emite': 1,
 'sílabas:': 1,
 'mais': 1,
 'é': 6,
 'conversa': 1,
 'gestos': 1,
 'expressões': 1,
 'pelos': 1,
 'quais': 1,
 'faz': 2,
 'entender': 1,
 'admiravelmente': 1,
 'sistema': 1,
 'passou': 1,
 'dois': 1,
 'meses': 1,
 'meio': 1,
 'em': 5,
 'nossa': 4,
 'casa': 1,
 'foi': 2,
 

### Vamos responder à pergunta que fizemos: 
>qual a palavra que mais aparece no texto?

In [19]:
max(repositório, key=repositório.get)

'de'

> Quantas vezes a palavra 'de' aparece no texto?

In [20]:
max(repositório.values())

34

### Conclusão:
Realizamos tarefas uteis para o estudo da linguagem usando recursos básicos de **Python**. Tudo poderia ser feito de forma mais concisa usando outros recursos (bliotecas, módulos, etc.) baseados em Python. O que, de maneira alguma, dispensa o conhecimento básico: variáveis, tipos de dados, funções, e loops.