# Extração de dados

Nesse notebook faremos o processo de extração e tratamento de dados de diversas fontes de dados (textos) gratuitas.

## 1. API do twitter



**Passos para usar a API do twitter:**

1. Criar conta de desenvolvedor
2. Criar arquivo com consumer key, consumer secret, access token e access token secret, um em cada linha
3. Chamar a API usando as keys e tokens de usuário

**Para que serve cada key e token?**

* **consumer key -** chave associada ao aplicativo (Twitter, Facebook etc.)
* **consumer secret -** senha usada para autenticação com o servidor de autenticação (Twitter, Facebook etc.)
* **access token -** chave dada ao cliente após o sucesso de autenticação das chaves acima
* 

In [None]:
# Intalando dependências que serão usadas, no caso da API do twitter
!pip install tweepy



In [None]:
# Importando bibliotecas que serão usadas
import tweepy as tw
from tweepy import OAuthHandler

In [None]:
# Credenciais através de arquivo texto
with open('/content/api_twitter.txt', 'r') as tfile:
    consumer_key = tfile.readline().strip('\n')
    consumer_secret = tfile.readline().strip('\n')
    access_token = tfile.readline().strip('\n')
    access_token_secret = tfile.readline().strip('\n')

In [None]:
# Autenticando-se e chamando a API 
auth = tw.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tw.API(auth)

In [None]:
# Vamos realizar uma query através de chamada com um termo de nossa escolha
query = "UFABC"
tweets = api.search(query)

In [None]:
# Vendo os tweets de maneira bruta
# Lembrando que cada tweet é retornado como um JSON
tweets

[Status(_api=<tweepy.api.API object at 0x7fa72192ecd0>, _json={'created_at': 'Wed Oct 06 00:45:27 +0000 2021', 'id': 1445550738784931842, 'id_str': '1445550738784931842', 'text': 'ainda bem q pra quem estuda na ufabc isso é normal https://t.co/KUX4IfkYsP', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [], 'urls': [{'url': 'https://t.co/KUX4IfkYsP', 'expanded_url': 'https://twitter.com/brenoaives/status/1445050060828463111', 'display_url': 'twitter.com/brenoaives/sta…', 'indices': [51, 74]}]}, 'metadata': {'iso_language_code': 'pt', 'result_type': 'recent'}, 'source': '<a href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 254222155, 'id_str': '254222155', 'name': 'laure', 'screen_name': 'glaurexx', 'location': '', 'description': '', 'url': None, 'en

In [None]:
# Vendo os tweets resultado da query usando as chaves JSON
for tweet in tweets:
  print(f'Usuário: {tweet.user.name} - Tweet: {tweet.text}')

Usuário: laure - Tweet: ainda bem q pra quem estuda na ufabc isso é normal https://t.co/KUX4IfkYsP
Usuário: FanClub oficial da @Sabriquices - Tweet: @giovelani Fui ver essa lista aí e tô EM SHOCK em como a UFABC manda mto bem em Física, no Top 10 da UFABC tá praticamente só os carras
Usuário: gabs| - Tweet: @_Bruque KAKSKSAH cê ia pra ufabc?
Usuário: 👻Amora👻 - Tweet: MINHA NOSSA SENHORA COMO EU AMO A UFABC
Usuário: Camis | 📖: RQ e Torre do Alvorecer - Tweet: @xheartbrekker Amg os prof da ufabc tão zero aí pra cola, pode ficar tranquila KKKAKSKAKDJ eles querem mais é ter o… https://t.co/c2cxfkHplQ
Usuário: Laura - Tweet: Literalmente a ufabc https://t.co/JeBZ0GSyQg
Usuário: gabs| - Tweet: não mas sério ufabc

física quântica vai tomar no cu https://t.co/O0XUdZpIxV
Usuário: Esquerda Diário - Tweet: UFABC | Homenagem aos terceirizados na UFABC sem igualdade salarial e direitos?

https://t.co/WfeGX1khpw
Usuário: batiam da silva ツ - Tweet: agora que ta bombando no tiktok esses video de que 

In [None]:
# Também podemos ver alguns dados de uma conta
user = api.get_user('SaoPauloFC')
print(user.screen_name)

SaoPauloFC


In [None]:
# Quais são os seguidores da conta
i = 0
for follower in user.followers():
   print(follower.screen_name)

AndenyMarks
henriquedelbem1
vitor_campoi
newerson_
biellnevida
Lill_Vini_1704
yass15moraeS
Lzgod_spfc_ecb
leo_lo80667188
Singha23932515
RafaelDellaPaz
maquinhoshabib
wellingtonh222
GustavoGarcez20
futney02
MateusVarela8
Gui51893197
Gabriel48297553
gimarquesmoura
Guilher57589161


In [None]:
# Quantos seguidores a conta tem
print(user.followers_count)

4609027


In [None]:
# Quais as contas que a conta segue
for friend in user.friends():
   print(friend.screen_name)

CD_SaoPauloFC
tricolorchip
RokuBrasil
abcdaconstrucao
sportsbetiobr
PrimeVideoBR
Emirigoniok
XandAviao
GazinTeo
SPFCBasquetebol
BCLAmericas
Alex10
Edercitadin7
GuiFera01
NBB
SaoPauloFCGG
Crespo
GilmarRinaldi
juliocasares_SP
passaportefcsp


In [None]:
# Quantas contas a conta segue
print(user.friends_count)

74


Mais informações: http://docs.tweepy.org/en/latest/

## 2. Coletando dados de um PDF

In [None]:
# Intalando a biblioteca que será usada
!pip install PyPDF2
import PyPDF2

Collecting PyPDF2
  Downloading PyPDF2-1.26.0.tar.gz (77 kB)
[?25l[K     |████▎                           | 10 kB 22.0 MB/s eta 0:00:01[K     |████████▌                       | 20 kB 28.0 MB/s eta 0:00:01[K     |████████████▊                   | 30 kB 21.5 MB/s eta 0:00:01[K     |█████████████████               | 40 kB 17.2 MB/s eta 0:00:01[K     |█████████████████████▏          | 51 kB 7.4 MB/s eta 0:00:01[K     |█████████████████████████▍      | 61 kB 8.5 MB/s eta 0:00:01[K     |█████████████████████████████▋  | 71 kB 8.2 MB/s eta 0:00:01[K     |████████████████████████████████| 77 kB 3.3 MB/s 
[?25hBuilding wheels for collected packages: PyPDF2
  Building wheel for PyPDF2 (setup.py) ... [?25l[?25hdone
  Created wheel for PyPDF2: filename=PyPDF2-1.26.0-py3-none-any.whl size=61101 sha256=fd14722e06c59de4b0328753f06915f24ca69e15b082a6605260b7048ff55157
  Stored in directory: /root/.cache/pip/wheels/80/1a/24/648467ade3a77ed20f35cfd2badd32134e96dd25ca811e64b3
Successf

In [None]:
# Criando um objeto pdf
pdf = open("/content/meetingminutes.pdf","rb")

In [None]:
# Criando um objeto leitor de PDF
pdfReader = PyPDF2.PdfFileReader(pdf)

In [None]:
# Verificando quantas páginas o pdf tem
print(pdfReader.numPages)

19


In [None]:
# Criando um objeto página e verificando seu contéudo
page = pdfReader.getPage(0)
print(page.extractText())

OOFFFFIICCIIAALL  BBOOAARRDD  MMIINNUUTTEESS   Meeting of 
March 7
, 2014
        
     The Board of Elementary and Secondary Education shall provide leadership and 
create policies for education that expand opportunities for children, empower 
families and communities, and advance Louisiana in an increasingly 
competitive glob
al market.
 BOARD 
 of ELEMENTARY
 and 
 SECONDARY
 EDUCATION
  


In [None]:
# Fechando o pdf
pdf.close()

A extração feita dessa forma não é eficiente, pois PDFs são arquivos complicados, por isso temos um notebook só sobre extração de arquivos PDF.

## 3. Coletando dados de um documento word

In [None]:
# Instalando a biblioteca usada
!pip install python-docx

Collecting python-docx
  Downloading python-docx-0.8.11.tar.gz (5.6 MB)
[K     |████████████████████████████████| 5.6 MB 2.8 MB/s 
Building wheels for collected packages: python-docx
  Building wheel for python-docx (setup.py) ... [?25l[?25hdone
  Created wheel for python-docx: filename=python_docx-0.8.11-py3-none-any.whl size=184508 sha256=d603b5da4ccdb66f6ffe87309feee06df84d3ebce483507de0858b056a5dcf3f
  Stored in directory: /root/.cache/pip/wheels/f6/6f/b9/d798122a8b55b74ad30b5f52b01482169b445fbb84a11797a6
Successfully built python-docx
Installing collected packages: python-docx
Successfully installed python-docx-0.8.11


In [None]:
# Importando a biblioteca usada
import docx

In [None]:
# Criando leitos de documento docx
doc = docx.Document('/content/demo.docx')

In [None]:
# Verificando quantos parágrafos o documento tem
len(doc.paragraphs)

7

In [None]:
# Obtendo o texto do primeiro parágrafo do documento
doc.paragraphs[0].text

'Document Title'

In [None]:
# Em textos word existem marcadores para identificar partes de um texto, como o que está em negrito, por exemplo
# Esses trechos demarcados especialmente separam o texto em partes, o que cria diferentes partes
# Cada parte de um texto é chamada pela biblioteca de run, sendo que um parágrafo possui uma ou mais runs
# Runs nada mais são do que os types do texto
# Vamos ver quantas runs o parágrafo 1 tem
len(doc.paragraphs[1].runs)

5

In [None]:
# Podemos ainda ver em detalhe cada run
for run in doc.paragraphs[1].runs:
  print(run.text)

A plain paragraph with
 some 
bold
 and some 
italic


In [None]:
# A seguinte função percorre todos os parágrafos do nosso documento docx e adiciona seu conteúdo a uma variável
def get_text(filename):
   doc = docx.Document(filename)
   fullText = []
   for para in doc.paragraphs:
      fullText.append(para.text)
   return '\n'.join(fullText)
print(get_text('/content/demo.docx'))

Document Title
A plain paragraph with some bold and some italic
Heading, level 1
Intense quote
first item in unordered list
first item in ordered list




## 4. Criando um documento word

In [None]:
# Importando as dependências necessárias da biblioteca docx
from docx import Document
from docx.shared import Inches

In [None]:
# Criando objeto documento
documento = Document()

In [None]:
# Adicionado título ao documento
documento.add_heading('Título do documento')

<docx.text.paragraph.Paragraph at 0x7f5ee56489d0>

In [None]:
# Adicionando um parágrafo ao documento
p = documento.add_paragraph("Um parágrafo que contém algo em")
# Adicionando texto em negrito
p.add_run(' negrito ').bold = True
# Adicionando contéudo no parágrafo
p.add_run('e em')
# Adicionando texto em itálico
p.add_run('itálico').italic = True
# Lembrando que as unidades de texto no docx são as runs

In [None]:
# Adicionando listas

# Adicionando lista de tópicos
documento.add_paragraph('Primeiro item', style='List Bullet')

# Adicionando lista enumerada
documento.add_paragraph('Primeiro item', style='List Number')

<docx.text.paragraph.Paragraph at 0x7f5ee56b8e10>

In [None]:
# Adicionando uma imagem ao nosso documento
documento.add_picture('/content/zophie.png', width=Inches(1.25))

<docx.shape.InlineShape at 0x7f5ee56efd10>

In [None]:
# Adicionando uma tabela

# Valores da tabela
valores = (
    (3, '101', 'Presunto'),
    (7, '422', 'Ovos'),
    (4, '631', 'Presunto, presunto, ovos e presunto')
)

# Definindo estrutura da tabela
tabela = documento.add_table(rows=1, cols=3)
celulas = tabela.rows[0].cells
celulas[0].text = 'Qntd'
celulas[1].text = 'ID'
celulas[2].text = 'Prod'

# Adicionando os valores das outras linhas
for qntd, id, prod in valores:
    linha_celula = tabela.add_row().cells
    linha_celula[0].text = str(qntd)
    linha_celula[1].text = id
    linha_celula[2].text = prod

In [None]:
# Indo para a próxima página
documento.add_page_break()

<docx.text.paragraph.Paragraph at 0x7f5ee55f2090>

In [None]:
# Fechando e salvando o objeto documento como um docx
documento.save('/content/demo2.docx')

## 5. Coletando dados no formato JSON

In [None]:
# Importando bibliotecas
import requests
import json

In [None]:
# Usando a requests para requisitar um json com uma fala
r = requests.get("https://quotes.rest/qod.json")
resposta = r.json()

In [None]:
# Vamos usar biblioteca json para printar o json de maneira identada
print(json.dumps(resposta, indent = 3))

{
   "success": {
      "total": 1
   },
   "contents": {
      "quotes": [
         {
            "quote": "Vision without action is daydream. Action without vision is nightmare..",
            "length": "73",
            "author": "Japanese Proverb",
            "tags": {
               "0": "action",
               "1": "inspire",
               "3": "vision"
            },
            "category": "inspire",
            "language": "en",
            "date": "2021-10-09",
            "permalink": "https://theysaidso.com/quote/japanese-proverb-vision-without-action-is-daydream-action-without-vision-is-nigh",
            "id": "1frNkKmnuhbKYO4OyURZyQeF",
            "background": "https://theysaidso.com/img/qod/qod-inspire.jpg",
            "title": "Inspiring Quote of the day"
         }
      ]
   },
   "baseurl": "https://theysaidso.com",
   "copyright": {
      "year": 2023,
      "url": "https://theysaidso.com"
   }
}


In [None]:
# Vamos extrair somente a parte com conteúdo de interesse do json
q = resposta['contents']['quotes']
q

[{'author': 'Japanese Proverb',
  'background': 'https://theysaidso.com/img/qod/qod-inspire.jpg',
  'category': 'inspire',
  'date': '2021-10-09',
  'id': '1frNkKmnuhbKYO4OyURZyQeF',
  'language': 'en',
  'length': '73',
  'permalink': 'https://theysaidso.com/quote/japanese-proverb-vision-without-action-is-daydream-action-without-vision-is-nigh',
  'quote': 'Vision without action is daydream. Action without vision is nightmare..',
  'tags': {'0': 'action', '1': 'inspire', '3': 'vision'},
  'title': 'Inspiring Quote of the day'}]

In [None]:
# Vamos extrair somente a fala da parte com conteúdo
print(q[0]['quote'], '\n--', q[0]['author'])

Vision without action is daydream. Action without vision is nightmare.. 
-- Japanese Proverb


## 6. Coletando dados a partir de páginas HTML

In [None]:
# Vamos começar instalando e importando a biblioteca beautifulsoup
!pip install bs4
import urllib.request as urllib2 
from bs4 import BeautifulSoup



In [None]:
# Vamos salvar a resposta de call numa determinada url
resposta = urllib2.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')
# Agora, vamos salvar o html dessa página em uma variável
html = resposta.read()

In [None]:
# Vamos parsear o html
soup = BeautifulSoup(html, "html.parser")

In [None]:
# Formatando o html parseado
soup_format = soup.prettify()

In [None]:
# Dando uma olhada em alguns caracteres do html parseado e formatado
print (soup_format[:99])

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  


In [None]:
# Vendo alguns valores nos baseando em tags
print(soup.title)
print(soup.title.string)
print(soup.a.string)
print(soup.b.string)

<title>Natural language processing - Wikipedia</title>
Natural language processing - Wikipedia
None
Natural language processing


In [None]:
# Extraindo todas as instâncias de uma determinada tag
for x in soup.find_all('a'): 
  print(x.string)

In [None]:
# Agora vamos ver todo o texto de uma determinada tag
for x in soup.find_all('p'): 
  print(x.text)

## 7. Análise de texto usando RegEx

In [None]:
# Importando a libraria de regex
import re

In [None]:
# Dividindo um texto usando regex
re.split('\s+','I like this book.')

['I', 'like', 'this', 'book.']

In [None]:
# Extraindo emails seguindo um formato
texto = "For more details please mail us at: xyz@abc.com, pqr@mno.com"
ends_email = re.findall(r'[\w\.]+@[\w+]+\.com', texto)
print(ends_email)

['xyz@abc.com', 'pqr@mno.com']


In [None]:
# Substituindo um email pelo outro
texto = "For more details please mail us at xyz@abc.com"
novo_email = re.sub(r'[\w\.]+@[\w+]+\.com', r'pqr@mno.com', texto)
print(novo_email)

For more details please mail us at pqr@mno.com


### 7.1 Processamento de texto com RegEx

Vamos agora tratar um longo texto de um livro.
O texto vai ser obtido através de request.
Acesse o seguinte site para entender os próximos passos: https://www.gutenberg.org/files/2638/2638-0.txt

In [None]:
# Importando bibliotecas
import re
import requests

In [None]:
# Definindo url para request
url = 'https://www.gutenberg.org/files/2638/2638-0.txt'

In [None]:
# Função que vai obter o contéudo que desejamos do livro
# A função vai realizar o request em si
# Em seguida a função vai filtrar o request
def obter_livro(url):
  # Primeiro realizamos o request
  raw = requests.get(url).text
  # Vamos descartar os metadados do início e do fim do texto
  # Para fazer isso vamos pegar a posição que queremos começar e a posição que queremos parar
  comeco = re.search(r"\*\*\* START OF THE PROJECT GUTENBERG EBOOK .* \*\*\*",raw ).end()
  fim = re.search(r"II\.", raw).start()
  # Agora só vamos pegar o contéudo entre as posições desejadas
  texto = raw[comeco:fim]
  return texto

In [None]:
# Função que vai realizar nosso pré-processamento do texto
# Consiste em:
#   colocar todas as letras em minúsculo, 
#   retirar caracteres especiais e substituir por espaço
def preprocessamento(texto):
  return re.sub(r'[^A-Za-z0-9.]+', ' ', texto).lower()

In [None]:
# Chamando as funções criadas
livro = obter_livro(url)
livro_processado = preprocessamento(livro)
livro_processado

' the idiot by fyodor dostoyevsky translated by eva martin contents part i part ii part iii part iv part i i. towards the end of november during a thaw at nine o clock one morning a train on the warsaw and petersburg railway was approaching the latter city at full speed. the morning was so damp and misty that it was only with great difficulty that the day succeeded in breaking and it was impossible to distinguish anything more than a few yards away from the carriage windows. some of the passengers by this particular train were returning from abroad but the third class carriages were the best filled chiefly with insignificant persons of various occupations and degrees picked up at the different stations nearer town. all of them seemed weary and most of them had sleepy eyes and a shivering expression while their complexions generally appeared to have taken on the colour of the fog outside. when day dawned two passengers in one of the third class carriages found themselves opposite each o

In [None]:
# Contando quantas vezes a palavra "the" aparece no livro
len(re.findall(r'the', livro_processado))

302

In [None]:
# Substituindo "i" po "I"
livro_processado = re.sub(r'\si\s', " I ", livro_processado)
len(re.findall(r'I', livro_processado))

132

In [None]:
# Achando todas as ocorrências de palavras com hífen
re.findall(r'[a-zA-Z0-9]*-[a-zA-Z0-9]*', livro)

['third-class',
 'third-class',
 'third-class',
 'twenty-seven',
 'death-like',
 'self-satisfied',
 'twenty-six',
 'twenty-seven',
 'un-Russian',
 'black-haired',
 'black-haired',
 'fair-haired',
 'black-haired',
 'black-haired',
 'set-up',
 'red-nosed',
 'fair-haired',
 'all-knowing',
 'black-haired',
 'red-nosed',
 'black-haired',
 'blotchy-faced',
 'safety-valve',
 'red-nosed',
 'hair-dresser',
 'fifty-five',
 'opera-house',
 'drawing-room',
 'twenty-five',
 'public-houses',
 'dark-clouded',
 'passers-by']

## 8. Manipulando strings nos textos

In [None]:
string_1 = "I am exploring NLP"

In [None]:
# Caractere específico da string
print(string_1[0])

I


In [None]:
# Parte da string
print(string_1[5:14])

exploring


In [None]:
# Substituindo na string
string_2 = string_1.replace("exploring", "learning")

In [None]:
# Concatenando strings
s1 = "nlp"
s2 = "machine learning"
s3 = s1+s2
print(s3)

nlpmachine learning


In [None]:
# Encontrando a posição de início de uma primeira ocorrência
var = "I am learning NLP"
f = "learn"
var.find(f)

5

## 9. Web Scrapping

### 9.1 Página com resposta txt

Vamos realizar um web scrapping com uma outra página do site Gutenberg.

In [None]:
# Importando biblioteca
resposta = requests.get('http://www.gutenberg.org/files/1112/1112.txt')

In [None]:
# Verificando se o request está ok
resposta.status_code == requests.codes.ok

True

In [None]:
# Tamanho da resposta, em caracteres
len(resposta.text)

179410

### 9.2 Parse de html

Parse html para contar elementos e entender a estrutura da página.

In [None]:
# Vamos fazer o request
response = requests.get('https://nostarch.com')
pag = BeautifulSoup(response.text, 'html.parser')

In [None]:
# Encontrando todos os elementos com a tag p e colocando numa lista
pElems = pag.select('p')
# Contando a quantidade de elementos da lista
len(pElems)

57

In [None]:
# Verificando um item da nossa lista da tag p
str(pElems[0])

'<p class="cart-block-items collapsed uc-cart-empty">There are no products in your shopping cart.</p>'

In [None]:
# Pegando o texto do item que acabamos e ver
pElems[0].getText()

'There are no products in your shopping cart.'