<h1 align=center>Capítulo 1 - Extraindo os dados</h1>
<p align=center><img src=https://storage.semalt.com/uploads/articles/ffb78f0420d216ddd492ef413f29a1eb0.jpg width=500></p>

De acordo com estimativas da indústria, mais de 80% dos dados gerados estão em um formato não estruturado na forma de texto, imagens, áudio ou vídeo. Os dados estão sendo gerados à medida que falamos, escrevemos, tweetamos, usamos plataformas de mídia social, enviamos mensagens em plataformas de mensagens, usamos comércio eletrônico para fazer compras e fazemos várias outras atividades. A maioria desses dados existe na forma textual.
<p align=center><img src=https://qph.cf2.quoracdn.net/main-qimg-09cef034f1d77a4f54c97528cd5a5cbd-pjlq width=500></p>

Então, o que são dados não estruturados? Dados não estruturados são informações que não residem em um banco de dados relacional tradicional. Exemplos incluem documentos, blogs, feeds de mídia social, fotos e vídeos.

A maioria dos insights está bloqueada em diferentes tipos de dados não estruturados. O desbloqueio de dados não estruturados desempenha um papel vital em todas as organizações que desejam tomar decisões cada vez melhores. Este livro desbloqueia o potencial dos dados textuais.

Os dados textuais são os mais comuns e compreendem mais de 50% dos dados não estruturados. Exemplos incluem tweets/postagens em mídias sociais, conversas de bate-papo, notícias, blogs, artigos, análises de produtos ou serviços e registros de pacientes no setor de saúde. Exemplos recentes incluem bots acionados por voz, como Siri e Alexa.

Para recuperar insights significativos e acionáveis de dados textuais e desbloquear seu potencial, usamos processamento de linguagem natural juntamente com aprendizado de máquina e aprendizado profundo.

Mas o que é processamento de linguagem natural? Máquinas e algoritmos não entendem texto ou caracteres, por isso é muito importante converter dados textuais em um formato compreensível por máquina (como números ou binários) para analisá-los. O processamento de linguagem natural (NLP) permite que as máquinas entendam e interpretem a linguagem humana.

Se você quiser usar o poder do texto não estruturado, este livro é o ponto de partida certo. Este livro desenterra os conceitos e a implementação do processamento de linguagem natural e suas aplicações no mundo real. A PNL oferece oportunidades ilimitadas para resolver problemas interessantes em inteligência artificial, tornando-a a fronteira mais recente para o desenvolvimento de aplicativos inteligentes baseados em aprendizado profundo.

# Extraindo os dados

Este capítulo abrange várias fontes de dados de texto e as formas de extraí-los. Os dados textuais podem atuar como informações ou insights para as empresas. As seguintes receitas são cobertas.
* **Receita 1**. Coleta de dados de texto usando APIs
* **Receita 2**. Lendo um arquivo PDF em Python
* **Receita 3**. Lendo um documento do Word
* **Receita 4**. Lendo um objeto JSON
* **Receita 5**. Lendo uma página HTML e analisando HTML
* **Receita 6**. Expressões regulares
* **Receita 7**. Manipulação de strings
* **Receita 8**. Web scraping

## Introdução
Antes de entrar nos detalhes do livro, vamos examinar as fontes de dados geralmente disponíveis. Precisamos identificar fontes de dados em potencial que podem ajudar a resolver casos de uso de ciência de dados.

## Dados do cliente
Para qualquer declaração de problema, uma das fontes são os dados que já estão presentes. A empresa decide onde deseja armazenar seus dados. O armazenamento de dados depende do tipo de negócio, da quantidade de dados e dos custos associados às fontes. Seguem alguns exemplos:
* Bancos de dados SQL
* HDFS
* Armazenamento na núvem
* Arquivos simples

## Fontes gratuitas
Uma grande quantidade de dados está disponível gratuitamente na Internet. Você só precisa simplificar o problema e começar a explorar várias fontes de dados gratuitas.
* APIs gratuitas como Twitter
* Wikipedia
* Dados governamentais (por exemplo, http://data.gov)
* Dados do censo (por exemplo, www.census.gov/data.html)
* Dados de reivindicações de assistência médica (por exemplo, www.healthdata.gov )
* Sites da comunidade de ciência de dados (por exemplo, www.kaggle.com)
* Pesquisa de conjunto de dados do Google (por exemplo, https://datasetsearch.research.google.com)

## Web Scraping
Extrair o conteúdo/dados de sites, blogs, fóruns e sites de varejo para revisões com permissão das respectivas fontes usando pacotes de raspagem da web em Python.

Existem muitas outras fontes, como dados de notícias e dados econômicos, que podem ser aproveitados para análise.

### Receita 1-1. Coletando dados
Existem muitas APIs gratuitas através das quais você pode coletar dados e usá-los para resolver problemas. Vamos discutir a API do Twitter.

### Problema
Você deseja coletar dados de texto usando APIs do Twitter.

### Solução
O Twitter tem uma quantidade gigantesca de dados com muito valor. Os profissionais de marketing de mídia social ganham a vida com isso. Há um número enorme de tweets todos os dias, e cada tweet tem alguma história para contar. Quando todos esses dados são coletados e analisados, eles fornecem insights incríveis sobre sua empresa, produto, serviço e assim por diante.

Vamos agora ver como extrair dados e, em seguida, explorar como aproveitá-los nos próximos capítulos.

### Como funciona
#### Etapa 1-1. Faça login no portal do desenvolvedor do Twitter
Faça login no portal do desenvolvedor do Twitter em *https://developer.twitter.com*.

Crie seu próprio aplicativo no portal do desenvolvedor do Twitter e obtenha as seguintes chaves. Depois de ter essas credenciais, você pode começar a extrair dados.
* chave do consumidor: A chave associada ao aplicativo (Twitter, Facebook, etc.)
* segredo do consumidor: A senha usada para autenticar com o servidor de autenticação (Twitter, Facebook, etc.)
* token de acesso: A chave fornecida ao cliente após autenticação bem-sucedida de chaves
* segredo do token de acesso: A senha para a chave de acesso

#### Etapa 1-2. Executar consulta em Python
Depois que todas as credenciais estiverem no lugar, use o código a seguir para buscar os dados.

In [98]:
import numpy as np
import tweepy
import json
import pandas as pd
from tweepy import OAuthHandler

# credenciais
bearer_token = "AAAAAAAAAAAAAAAAAAAAAPYCjQEAAAAAi%2BWAn99Dkguke4OzP0Pm5N4KC%2Bw%3DCsJayf49BE10MwshVLqEnCP5vsVSVuxfmy943qyrKYHKDHq76S"
consumer_key = 'qZ2TnCPKzf0RhAWVerOrC7xLU'
consumer_secret = 'xa6sDbGCNXQW2lDtQRAKr5W3oqScMy8sVSH1a3CUmue3lXhgpr'
access_token = "909120106462138368-nrgFMea82XCdixg3fnFMEKcg2lonEZP"
access_token_secret = "jZ71e13RZjuwFhw85XyC740YDN2gAz0xwM4t6J3hNv8h3"


client = tweepy.Client(bearer_token)

# Search Recent Tweets

# This endpoint/method returns Tweets from the last seven days

response = client.search_recent_tweets("Eleições Brasil")
# The method returns a Response object, a named tuple with data, includes,
# errors, and meta fields
print(response.meta)

# In this case, the data field of the Response returned is a list of Tweet
# objects
tweets = response.data

# Each Tweet object has default ID and text fields
for tweet in tweets:
    print(tweet.id)
    print(tweet.text)
    print(tweet.data)
    print()

# By default, this endpoint/method returns 10 results
# You can retrieve up to 100 Tweets by specifying max_results
response = client.search_recent_tweets("Eleições Brasil", max_results=100)
response.data

{'newest_id': '1591819779999940608', 'oldest_id': '1591819418845450241', 'result_count': 10, 'next_token': 'b26v89c19zqg8o3fpzhjn97ewo92rjlmdusyzh9kr994t'}
1591819779999940608
RT @velamebra: @DonattiIsilda @EngelbergPaula @ECantanhede E aí ? Eleições é competência do TSE e quem julga é o STF e não as FAs! Porém o…
{'edit_history_tweet_ids': ['1591819779999940608'], 'id': '1591819779999940608', 'text': 'RT @velamebra: @DonattiIsilda @EngelbergPaula @ECantanhede E aí ? Eleições é competência do TSE e quem julga é o STF e não as FAs! Porém o…'}

1591819753685127171
RT @PedroMa50023005: *CNJ adia sete indicações que seriam para Bolsonaro indicar*

*está entendendo o nível de aparelhamento?*

*você conse…
{'edit_history_tweet_ids': ['1591819753685127171'], 'id': '1591819753685127171', 'text': 'RT @PedroMa50023005: *CNJ adia sete indicações que seriam para Bolsonaro indicar*\n\n*está entendendo o nível de aparelhamento?*\n\n*você conse…'}

1591819743778181120
RT @JovemPanNews: #JornaldaManhã

[<Tweet id=1591819779999940608 text='RT @velamebra: @DonattiIsilda @EngelbergPaula @ECantanhede E aí ? Eleições é competência do TSE e quem julga é o STF e não as FAs! Porém o…'>,
 <Tweet id=1591819753685127171 text='RT @PedroMa50023005: *CNJ adia sete indicações que seriam para Bolsonaro indicar*\n\n*está entendendo o nível de aparelhamento?*\n\n*você conse…'>,
 <Tweet id=1591819743778181120 text='RT @JovemPanNews: #JornaldaManhã | Protestos contra o resultado das eleições continuam a todo vapor neste fim de semana; José Maria Trindad…'>,
 <Tweet id=1591819689898184704 text='RT @JovemPanNews: #JornaldaManhã | Protestos contra o resultado das eleições continuam a todo vapor neste fim de semana; José Maria Trindad…'>,
 <Tweet id=1591819686450176000 text='RT @MariaAliceMei2: @GabyLabree Congresso não, eles nada fizeram pelo povo para evitar esse momento tão difícil, ao contrário se reuniram c…'>,
 <Tweet id=1591819623133220865 text='@1_blfc @realpfigueiredo Cúmplice de falta de transparê

Essa consulta extrai os dez principais tweets quando o produto ABC é pesquisado. A API puxa tweets em inglês, pois o idioma fornecido é 'en' e exclui retuítes.

## Receita 1-2. Coletando dados de PDFs
A maioria de seus dados é armazenada em arquivos PDF. Você precisa extrair o texto desses arquivos e armazená-lo para análise posterior.

### Problema
Você deseja ler um arquivo PDF.

### Solução
A maneira mais simples de ler um arquivo PDF é usando a biblioteca **PyPDF2**.

### Como funciona
Siga as etapas desta seção para extrair dados de arquivos PDF.

#### Etapa 2-1. Instale e importe todas as bibliotecas necessárias
Aqui estão as primeiras linhas de código.

In [99]:
from PyPDF2 import PdfFileReader

Nota Você pode baixar qualquer arquivo PDF da web e colocá-lo no local onde você está executando este notebook Jupyter ou script Python.

#### Etapa 2-2. Extrair texto de um arquivo PDF
Agora vamos extrair o texto.

In [100]:
#Creating a pdf file object
pdf = open("Cartilha sobre Agrotóxicos - Série Trilhas do Campo.pdf","rb")
#creating pdf reader object
pdf_reader = PdfFileReader(pdf)
#checking number of pages in a pdf file
print(pdf_reader.numPages)
#creating a page object
page = pdf_reader.getPage(9)
#finally extracting text from the page

print(page.extractText())
#closing the pdf file
pdf.close()

26
Veja algumas recomendações importantes:
•	Nunca compre produto só por que é mais barato. Existem 
agrotóxicos específicos para cada cultura, para cada 
momento e para cada praga.
•	Não compre produtos contrabandeados. Eles são, 
geralmente, muito piores para a saúde, a lavoura e o meio 
ambiente. Nossos médicos vão ter dificuldade para tratar a 
intoxicação que eles causarão.
•	Peça também explicações sobre a melhor maneira de 
manipular os agrotóxicos e sobre os Equipamentos de 
Proteção Individuais (EPI) que você deverá utilizar. Lembre-se 
que estes equipamentos são muito importantes para evitar a 
contaminação durante a preparação da calda e a aplicação 
dos produtos. 
•	Aproveite a visita do agrônomo para tirar todas as dúvidas 
que encontrar no rótulo e bula dos produtos. Não deixe para 
trás nenhuma dúvida. 
Agrotóxico.indd   9 19/09/2011   12:02:21


Observe que a função não funciona para PDFs digitalizados e as vezes não é muito bom!!!

## Receita 1-3. Coletando dados de arquivos do Word
Em seguida, vamos ver outra pequena receita que lê arquivos do Word em Python.

### Problema
Você deseja ler arquivos do Word.

### Solução
A maneira mais simples é usar a biblioteca docx.

### Como funciona
Siga as etapas nesta seção para extrair dados de um arquivo do Word.

#### Etapa 3-1. Instale e importe todas as bibliotecas necessárias
A seguir está o código para instalar e importar a biblioteca docx.

In [101]:
from docx import Document

#### Etapa 3-2. Extrair texto de um arquivo do Word
Agora vamos pegar o texto.

In [102]:
# Criando um objeto word
doc = open('poesia.docx','rb')

# Criando um objeto word reader
document = Document(doc)

# cria uma string vazia e chama este documento.
# Esta variável de documento armazena cada parágrafo no documento do Word.
# Em seguida, criamos um loop "for" que percorre cada parágrafo no documento do Word e anexa o parágrafo.

for para in document.paragraphs:
    print(para.text,'\n')

POESIA 

A poesia, ou texto lírico, é uma das  tradicionais, pela qual a linguagem humana é utilizada com fins estéticos ou críticos, ou seja, ela retrata algo em que tudo pode acontecer dependendo da imaginação do autor como a do leitor. Poesia, segundo o modo comum de falar, quer dizer duas coisas. A arte, que a ensina, e a obra feita com a arte; a arte é a poesia, a obra , o poeta o artífice. O  da mensagem poética também pode ser, ainda que seja a forma  a definir um  como poético. A poesia compreende aspectos metafísicos e a possibilidade desses elementos transcenderem ao mundo fático. Esse é o terreno que compete verdadeiramente ao poeta.  

Num contexto mais alargado, a poesia aparece também identificada com a própria arte, o que tem razão de ser já que qualquer arte é, também, uma forma de  (ainda que, não necessariamente, verbal). É a arte de poetizar que nos permite exprimir aquilo que está dentro de nós. Também pode ser encarado, como o modo de uma pessoa se expressar usando

## Receita 1-4. Coletando dados do JSON
JSON é um formato de arquivo padrão aberto que significa JavaScript Object Notation. É frequentemente usado quando os dados são enviados para uma página da Web de um servidor. Esta receita explica como ler um arquivo/objeto JSON.

### Problema
Você deseja ler um arquivo/objeto JSON.

### Solução
A maneira mais simples é usar solicitações e a biblioteca JSON.
### Como funciona
Siga as etapas nesta seção para extrair dados do JSON.
#### Etapa 4-1. Instale e importe todas as bibliotecas necessárias
Aqui está o código para importar as bibliotecas.

In [103]:
import requests
import json

#### Etapa 4-2. Extrair texto de um arquivo JSON
Agora vamos extrair o texto.

In [104]:
# Extraindo dados
r = requests.get('https://nominatim.openstreetmap.org/search.php?q=santa+etelvina+manaus+&format=jsonv2')
res = r.json()
print(json.dumps(res, indent=4, ensure_ascii=False)) # ensure_ascii pare evitar distorçõe em cedilhas ou acentos

[
    {
        "place_id": 298754337,
        "licence": "Data © OpenStreetMap contributors, ODbL 1.0. https://osm.org/copyright",
        "osm_type": "relation",
        "osm_id": 3819348,
        "boundingbox": [
            "-3.0014509",
            "-2.9736393",
            "-60.0309087",
            "-59.9898335"
        ],
        "lat": "-2.9931354",
        "lon": "-60.0077385",
        "display_name": "Santa Etelvina, Manaus, Região Geográfica Imediata de Manaus, Região Geográfica Intermediária de Manaus, Amazonas, Região Norte, 69000-000, Brasil",
        "place_rank": 20,
        "category": "boundary",
        "type": "administrative",
        "importance": 0.55,
        "icon": "https://nominatim.openstreetmap.org/ui/mapicons/poi_boundary_administrative.p.20.png"
    }
]


In [105]:
# Extrair o conteúdo

end = res[0]['display_name']
lat = res[0]['lat']
long = res[0]['lon']
print(f"Endereço: {end}\nLatitude: {lat}  - Longitude: {long}")


Endereço: Santa Etelvina, Manaus, Região Geográfica Imediata de Manaus, Região Geográfica Intermediária de Manaus, Amazonas, Região Norte, 69000-000, Brasil
Latitude: -2.9931354  - Longitude: -60.0077385


## Receita 1-5. Coletando dados de HTML
HTML é a abreviação de HyperText Markup Language. Ele estrutura páginas da Web e as exibe em um navegador. Existem várias tags HTML que constroem o conteúdo. Esta receita analisa a leitura de páginas HTML.
### Problema
Você deseja ler páginas HTML de análise/leitura.
### Solução
A maneira mais simples é usar a biblioteca bs4.
### Como funciona
Siga as etapas nesta seção para extrair dados da web.
#### Etapa 5-1. Instale e importe todas as bibliotecas necessárias
Primeiro, importe as bibliotecas.

In [106]:
import urllib.request as urllib2
from bs4 import BeautifulSoup

#### Etapa 5-2. Buscar o arquivo HTML
Você pode escolher qualquer site que deseja extrair. Vamos usar a Wikipedia neste exemplo.

In [107]:
response = urllib2.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')
html_doc = response.read()

#### Etapa 5-3. Analisar o arquivo HTML
Agora vamos pegar os dados.

In [108]:
#Parsing
soup = BeautifulSoup(html_doc, 'html.parser')
# Formating the parsed html file
strhtm = soup.prettify()
# Print few lines
print (strhtm[:1000])

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Natural language processing - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"e7450a84-9753-44f7-a6bc-6844ca0497a2","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Natural_language_processing","wgTitle":"Natural language processing","wgCurRevisionId":1120972063,"wgRevisionId":1120972063,"wgArticleId":21652,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["All accuracy disputes","Accuracy disputes from December 2013","CS1 maint: location","Articles w

#### Etapa 5-4. Extrair um valor de tag
Você pode extrair o valor de uma tag da primeira instância da tag usando o código a seguir.

In [109]:
print(soup.title)
print(soup.title.string)
print(soup.a.string)
print(soup.b.string)

<title>Natural language processing - Wikipedia</title>
Natural language processing - Wikipedia
None
Natural language processing


#### Etapa 5-5. Extraia todas as instâncias de uma determinada tag
Aqui temos todas as instâncias da tag que nos interessam.

In [110]:
for x in soup.find_all('a'):
    print(x.string)

None
Jump to navigation
Jump to search
Language processing in the brain
None
None
automated online assistant
customer service
[1]
linguistics
computer science
artificial intelligence
natural language
contextual
speech recognition
natural-language understanding
natural-language generation
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
edit
History of natural language processing
Alan Turing
Computing Machinery and Intelligence
Turing test
edit
John Searle
Chinese room
Georgetown experiment
automatic translation
[2]
ALPAC report
statistical machine translation
SHRDLU
blocks worlds
ELIZA
Rogerian psychotherapist
Joseph Weizenbaum
ontologies
chatterbots
PARRY
HPSG
generative grammar
[3]
Lesk algorithm
[4]
Rhetorical Structure Theory
Racter
Jabberwacky
[5]
edit
machine learning
Moore's law
Chomskyan
transformational grammar
corpus linguistics
[6]
machine translation
textual corpora
Parliament of Canada
European Union
unsupervised
semi

#### Etapa 5-6. Extraia todo o texto de uma tag específica
Por fim, obtemos o texto.

In [111]:
for x in soup.find_all('p'):
    print(x.text)

Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.  The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.

Challenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.

Natural language processing has its roots in the 1950s. Already in 1950, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence, though at the time that was not articula

## Receita 1-6. Analisando texto usando expressões regulares
Esta receita discute como as expressões regulares são úteis ao lidar com dados de texto. As expressões regulares são necessárias ao lidar com dados brutos da Web que contêm tags HTML, texto longo e texto repetido. Durante o processo de desenvolvimento do seu aplicativo, bem como na saída, você não precisa desses dados. Você pode fazer todo tipo de limpeza de dados básica e avançada usando expressões regulares.
### Problema
Você deseja analisar dados de texto usando expressões regulares.
### Solução
A melhor maneira é usar a biblioteca `re` em Python.
### Como funciona
Vamos ver algumas das maneiras pelas quais podemos usar expressões regulares para nossas tarefas. Os sinalizadores básicos são I, L, M, S, U, X.
* **re.I** ignora maiúsculas e minúsculas.
* **re.L** encontra um dependente local.
* **re.M** encontra padrões em várias linhas.
* **re.S** encontra correspondências de pontos.
* **re.U** funciona para dados Unicode.
* **re.X** grava regex em um formato mais legível.

Vamos descrever as funcionalidades das expressões regulares.
* Localizar uma única ocorrência de caracteres a e b: [ab]
* Localizar caracteres exceto a e b: [^ab]
* Localizar o intervalo de caracteres de a a z: [a-z]
* Localizar um intervalo de caracteres exceto a a z: [^a-z]
* Localizar todos os caracteres de a a z e A a Z: [a-zA-Z]
* Localizar qualquer caractere único: []
* Localizar qualquer caractere de espaço em branco: \s
* Localizar qualquer caractere que não seja de espaço em branco: \S
* Encontrar qualquer dígito: \d
* Encontrar qualquer não dígito: \D
* Encontre qualquer não-palavra: \W
* Encontre qualquer palavra: \w
* Encontre a ou b: (a|b)
* A ocorrência de a é zero ou um
    * Corresponde a zero ou não mais de uma ocorrência: a? ; ?
    * A ocorrência de a é zero ou mais vezes: a* ; * corresponde a zero ou mais que isso
    * A ocorrência de a é uma ou mais vezes: a+ ; + corresponde a ocorrências uma ou mais de uma vez
    * Corresponde a três ocorrências simultâneas de a: a{3}
    * Corresponde a três ou mais ocorrências simultâneas de a: a{3,}
    * Corresponde de três a seis ocorrências simultâneas de a: a{3, 6}
    * Início de uma string: ^
    * Fim de uma string: $
    * Limite de correspondência de palavra: \\b
    * Limite de não-palavra: \backslash B


As funções `re.match()` e `re.search()` encontram padrões, que são então processados de acordo com os requisitos do pedido. Vejamos as diferenças entre `re.match()` e `re.search()`.
* `re.match()` verifica se há correspondência apenas no início da string. Portanto, se encontrar um padrão no início da string de entrada, ele retornará o padrão correspondente; caso contrário, ele retorna um substantivo.
* `re.search()` verifica se há uma correspondência em qualquer lugar da string. Ele encontra todas as ocorrências do padrão na string ou dados de entrada fornecidos. Agora vamos ver alguns exemplos usando essas expressões regulares.

### Como funciona

#### Tokenização
Tokenização significa dividir uma frase em palavras. Uma maneira de fazer isso é usar `re.split`.

In [112]:
import re

# Rodar um split query


re.split('\s+', "Eu gosto deste livro")

['Eu', 'gosto', 'deste', 'livro']

Para uma explicação sobre regex, consulte a receita principal.

#### Extraindo IDs de e-mail
A maneira mais simples de extrair IDs de e-mail é usar re.findall.
1. Leia/crie o documento ou frases.

In [113]:
doc = 'Para maiores informações disponibilizados o email: email@brasil.com.br ou recados@brasil.com.br'

2. Execute a função re.findall

In [114]:
addresses = re.findall(r'[\w\.-]+@[\w\.-]+', doc)
for address in addresses:
    print(address)

email@brasil.com.br
recados@brasil.com.br


#### Substituindo IDs de e-mail
Vamos substituir os IDs de e-mail em frases ou documentos por outros IDs de e-mail. A maneira mais simples de fazer isso é usando re.sub.
1. Leia/crie o documento ou frases.

In [115]:
doc = 'Para maiores informações disponibilizados o email: email@brasil.com.br.'

2. Execute a função re.sub

In [116]:
new_email_address = re.sub(r'([\w\.-]+)@([\w\.-]+)',
                           r'recados@brasil.com.br', doc)

print(new_email_address)

Para maiores informações disponibilizados o email: recados@brasil.com.br


Para obter uma explicação sobre regex, consulte a Receita 1-6.
Se você observar em ambos os casos ao lidar com e-mail usando regex, implementamos um muito básico. Afirmamos que as palavras separadas por @ ajudam a capturar IDs de e-mail. No entanto, pode haver muitos casos extremos; por exemplo, o ponto (.) incorpora nomes de domínio e manipula números, o + (sinal de mais) e assim por diante, porque eles podem fazer parte de um ID de e-mail. A seguir apresentamos uma regex avançada para extrair/localizar/substituir IDs de e-mail.

~~~python
([a-zA-Z0-9+._-]+@[a-zA-Z0-9._-]+\.[a-zA-Z0-9_-]+)
~~~

Existem ainda mais complexos para lidar com todos os casos extremos (por exemplo, IDs de e-mail “.co.in”). Por favor, tente.

#### Extraindo dados de um eBook e executando regex
Vamos resolver um estudo de caso que extrai dados de um ebook usando as técnicas que você aprendeu até agora.
1. Extraia o conteúdo do livro.

In [117]:
# Import library

import re
import requests

#url you want to extract
url = 'https://www.gutenberg.org/files/2638/2638-0.txt'

#function to extract
def get_book(url):
 # Sends a http request to get the text from project Gutenberg
 raw = requests.get(url).text
 # Discards the metadata from the beginning of the book
 start = re.search(r"\*\*\* START OF THE PROJECT GUTENBERG EBOOK THE IDIOT.* \*\*\*",raw ).start()
 # Discards the metadata from the end of the book
 stop = re.search(r"X.", raw).end()
 # Keeps the relevant text
 text = raw[start:stop]
 return text


# processing
def preprocess(sentence):
 return re.sub('[^A-Za-z0-9.]+' , ' ', sentence).lower()


#calling the above function

book = get_book(url)
processed_book = preprocess(book)
print(processed_book)



2. Execute uma análise de dados exploratória nesses dados usando regex.

In [118]:
# Count number of times "the" is appeared in the book
len(re.findall(r'the', processed_book))

2767

In [119]:
#Replace "i" with "I"
processed_book = re.sub(r'\si\s', " I ", processed_book)
print(processed_book)



In [120]:
#find all occurance of text in the format "abc-xyz"
re.findall(r'[a-zA-Z0-9]*-[a-zA-Z0-9]*', book)

['third-class',
 'third-class',
 'third-class',
 'twenty-seven',
 'death-like',
 'self-satisfied',
 'twenty-six',
 'twenty-seven',
 'un-Russian',
 'black-haired',
 'black-haired',
 'fair-haired',
 'black-haired',
 'black-haired',
 'set-up',
 'red-nosed',
 'fair-haired',
 'all-knowing',
 'black-haired',
 'red-nosed',
 'black-haired',
 'blotchy-faced',
 'safety-valve',
 'red-nosed',
 'hair-dresser',
 'fifty-five',
 'opera-house',
 'drawing-room',
 'twenty-five',
 'public-houses',
 'dark-clouded',
 'passers-by',
 'five-sixths',
 'well-to',
 '-do',
 'fifty-five',
 'grown-up',
 'nest-egg',
 'twenty-five',
 'twenty-three',
 'ante-chamber',
 'waiting-room',
 'ante-chamber',
 'door-keeper',
 'easy-chair',
 'ante-chamber',
 'shabby-looking',
 'waiting-room',
 'serving-man',
 'ante-rooms',
 'forty-five',
 'death-sentence',
 'ante-room',
 'twenty-eight',
 'good-humoured',
 'ante-chamber',
 'good-bye',
 'good-bye',
 'good-natured',
 'Twenty-six',
 'empty-handed',
 'twenty-five',
 'writing-paper',


## Receita 1-7. Manipulando Strings
Esta receita discute como lidar com strings e lidar com dados textuais. Você pode fazer todos os tipos de explorações básicas de texto usando operações de string.
### Problema
Você deseja explorar a manipulação de strings.
### Solução
A maneira mais simples é usar a seguinte funcionalidade de string.
* s.find(t) é um índice da primeira instância da string t dentro de s (–1 se não for encontrado)
* s.rfind(t) é um índice da última instância da string t dentro de s (–1 se não for encontrado) encontrado)
* s.index(t) é como s.find(t) exceto que gera ValueError se não for encontrado
* s.rindex(t) é como s.rfind(t) exceto que gera ValueError se não for encontrado
* s.join (texto) combina as palavras do texto em uma string usando s como cola
* s.split(t) divide s em uma lista onde quer que um t seja encontrado (espaço em branco por padrão)
* s.splitlines() divide s em uma lista de strings, uma por linha
* s.lower() é uma versão em minúscula da string s
* s.upper() é uma versão em maiúsculas da string s
* s.title() é uma versão em maiúsculas de a string s
* s.strip() é uma cópia de s sem espaço em branco inicial ou final
* s.replace(t, u) substitui instâncias de t por u dentro de s

### Como funciona
Agora vamos ver alguns exemplos.
#### Substituindo Conteúdo
Crie uma string e substitua o conteúdo. Criar strings é fácil. Isso é feito colocando os caracteres entre aspas simples ou duplas. E para substituir, você pode usar a função de substituição.
1. Crie uma sequência.

In [121]:
String_v1 = "Eu estou aprendendo NLP"
#To extract particular character or range of characters from string
print(String_v1[:2])

Eu


In [122]:
#To extract the word “aprendendo”
print(String_v1[9:19])

aprendendo


2. Substitua "explorando" por "aprendendo" na string anterior.

In [123]:
String_v2 = String_v1.replace("aprendendo", "ensinando")
print(String_v2)

Eu estou ensinando NLP


#### Concatenando duas strings
O seguinte é um código simples.

In [124]:
s1 = "nlp"
s2 = "machine learning"
s3 = s1 + s2

print(s3)

nlpmachine learning


#### Procurando uma Substring em uma String
Use a função find para buscar o valor de índice inicial da substring em toda a string.

In [125]:
url = 'https://www.site.com.br/brasil/politica'

palavra = 'brasil'

url.find(palavra)

24

## Receita 1-8. Scraping de texto da web
Esta receita discute como extrair dados da web.
> **Atenção** Antes de extrair quaisquer sites, blogs ou sites de comércio eletrônico, certifique-se de ler os termos e condições do site sobre se ele concede permissões para extração de dados. geralmente, robots.txt contém os termos e condições (por exemplo, consulte www.alixpartners.com/robots.txt) e um mapa do site contém um mapa de URL (por exemplo, consulte www.alixpartners.com/sitemap.xml).

Web scraping também é conhecido como web harvesting e extração de dados da web. É uma técnica para extrair uma grande quantidade de dados de sites e salvá-los em um banco de dados ou localmente. Você pode usar esses dados para extrair informações relacionadas a seus clientes, usuários ou produtos em benefício da empresa. Uma compreensão básica de HTML é um pré-requisito.
### Problema
Você deseja extrair dados da web por scraping. Vamos usar o IMDB.com como um exemplo de *scraping* dos melhores filmes.
### Solução
A maneira mais simples de fazer isso é usando as bibliotecas `Beautiful Soup` ou `Scrapy` do Python. Vamos usar Beautiful Soup nesta receita.

### Como funciona
Siga as etapas desta seção para extrair dados da web.
#### Etapa 8-1. Instale todas as bibliotecas necessárias
!pip install bs4
!pip install requests

#### Etapa 8-2. Importe as bibliotecas

In [126]:
from bs4 import BeautifulSoup
import requests
import re

#### Etapa 8-3. Identifique o URL para extrair os dados

In [127]:
url = 'https://www.imdb.com/chart/top?ref_=nv_mv_250_6'

#### Etapa 8-4. Solicite a URL e baixe o conteúdo usando Beautiful Soup

In [128]:
result = requests.get(url)
c = result.content
soup = BeautifulSoup(c,"lxml")

#### Etapa 8-5. Entenda a estrutura do site para extrair as informações necessárias
Acesse o site e clique com o botão direito do mouse no conteúdo da página para inspecionar a estrutura HTML do site.
Identifique os dados e campos que você deseja extrair. Por exemplo, você deseja o nome do filme e a classificação do IMDB.
Verifique qual div ou classe no HTML contém os nomes dos filmes e analise a Beautiful Soup de acordo. Neste exemplo, você pode analisar a sopa por meio de `<table class ="chart full-width">` e `<td class="titleColumn">` para extrair o nome do filme.
Da mesma forma, você pode buscar outros dados; consulte o código na etapa 8-6.

#### Etapa 8-6. Use Beautiful Soup para extrair e analisar os dados de tags HTML

Observe que há uma grande chance de você encontrar um erro ao executar esse script devido aos seguintes motivos.
* Sua solicitação para o URL falha. Se sim, tente novamente depois de algum tempo. Isso é comum em web scraping.
* As páginas da web são dinâmicas, o que significa que as tags HTML continuam mudando. Estude as tags e faça pequenas alterações no código de acordo com o HTML, e você estará pronto para começar.