<h1 align=center>Capítulo 1 - Extraindo os dados</h1>
<p align=center><img src=https://storage.semalt.com/uploads/articles/ffb78f0420d216ddd492ef413f29a1eb0.jpg width=500></p>

De acordo com estimativas da indústria, mais de 80% dos dados gerados estão em um formato não estruturado na forma de texto, imagens, áudio ou vídeo. Os dados estão sendo gerados à medida que falamos, escrevemos, tweetamos, usamos plataformas de mídia social, enviamos mensagens em plataformas de mensagens, usamos comércio eletrônico para fazer compras e fazemos várias outras atividades. A maioria desses dados existe na forma textual.
<p align=center><img src=https://qph.cf2.quoracdn.net/main-qimg-09cef034f1d77a4f54c97528cd5a5cbd-pjlq width=500></p>

Então, o que são dados não estruturados? Dados não estruturados são informações que não residem em um banco de dados relacional tradicional. Exemplos incluem documentos, blogs, feeds de mídia social, fotos e vídeos.

A maioria dos insights está bloqueada em diferentes tipos de dados não estruturados. O desbloqueio de dados não estruturados desempenha um papel vital em todas as organizações que desejam tomar decisões cada vez melhores. Este livro desbloqueia o potencial dos dados textuais.

Os dados textuais são os mais comuns e compreendem mais de 50% dos dados não estruturados. Exemplos incluem tweets/postagens em mídias sociais, conversas de bate-papo, notícias, blogs, artigos, análises de produtos ou serviços e registros de pacientes no setor de saúde. Exemplos recentes incluem bots acionados por voz, como Siri e Alexa.

Para recuperar insights significativos e acionáveis de dados textuais e desbloquear seu potencial, usamos processamento de linguagem natural juntamente com aprendizado de máquina e aprendizado profundo.

Mas o que é processamento de linguagem natural? Máquinas e algoritmos não entendem texto ou caracteres, por isso é muito importante converter dados textuais em um formato compreensível por máquina (como números ou binários) para analisá-los. O processamento de linguagem natural (NLP) permite que as máquinas entendam e interpretem a linguagem humana.

Se você quiser usar o poder do texto não estruturado, este livro é o ponto de partida certo. Este livro desenterra os conceitos e a implementação do processamento de linguagem natural e suas aplicações no mundo real. A PNL oferece oportunidades ilimitadas para resolver problemas interessantes em inteligência artificial, tornando-a a fronteira mais recente para o desenvolvimento de aplicativos inteligentes baseados em aprendizado profundo.

# Extraindo os dados

Este capítulo abrange várias fontes de dados de texto e as formas de extraí-los. Os dados textuais podem atuar como informações ou insights para as empresas. As seguintes receitas são cobertas.
* **Receita 1**. Coleta de dados de texto usando APIs
* **Receita 2**. Lendo um arquivo PDF em Python
* **Receita 3**. Lendo um documento do Word
* **Receita 4**. Lendo um objeto JSON
* **Receita 5**. Lendo uma página HTML e analisando HTML
* **Receita 6**. Expressões regulares
* **Receita 7**. Manipulação de strings
* **Receita 8**. Web scraping

## Introdução
Antes de entrar nos detalhes do livro, vamos examinar as fontes de dados geralmente disponíveis. Precisamos identificar fontes de dados em potencial que podem ajudar a resolver casos de uso de ciência de dados.

## Dados do cliente
Para qualquer declaração de problema, uma das fontes são os dados que já estão presentes. A empresa decide onde deseja armazenar seus dados. O armazenamento de dados depende do tipo de negócio, da quantidade de dados e dos custos associados às fontes. Seguem alguns exemplos:
* Bancos de dados SQL
* HDFS
* Armazenamento na núvem
* Arquivos simples

## Fontes gratuitas
Uma grande quantidade de dados está disponível gratuitamente na Internet. Você só precisa simplificar o problema e começar a explorar várias fontes de dados gratuitas.
* APIs gratuitas como Twitter
* Wikipedia
* Dados governamentais (por exemplo, http://data.gov)
* Dados do censo (por exemplo, www.census.gov/data.html)
* Dados de reivindicações de assistência médica (por exemplo, www.healthdata.gov )
* Sites da comunidade de ciência de dados (por exemplo, www.kaggle.com)
* Pesquisa de conjunto de dados do Google (por exemplo, https://datasetsearch.research.google.com)

## Web Scraping
Extrair o conteúdo/dados de sites, blogs, fóruns e sites de varejo para revisões com permissão das respectivas fontes usando pacotes de raspagem da web em Python.

Existem muitas outras fontes, como dados de notícias e dados econômicos, que podem ser aproveitados para análise.

### Receita 1-1. Coletando dados
Existem muitas APIs gratuitas através das quais você pode coletar dados e usá-los para resolver problemas. Vamos discutir a API do Twitter.

### Problema
Você deseja coletar dados de texto usando APIs do Twitter.

### Solução
O Twitter tem uma quantidade gigantesca de dados com muito valor. Os profissionais de marketing de mídia social ganham a vida com isso. Há um número enorme de tweets todos os dias, e cada tweet tem alguma história para contar. Quando todos esses dados são coletados e analisados, eles fornecem insights incríveis sobre sua empresa, produto, serviço e assim por diante.

Vamos agora ver como extrair dados e, em seguida, explorar como aproveitá-los nos próximos capítulos.

### Como funciona
#### Etapa 1-1. Faça login no portal do desenvolvedor do Twitter
Faça login no portal do desenvolvedor do Twitter em *https://developer.twitter.com*.

Crie seu próprio aplicativo no portal do desenvolvedor do Twitter e obtenha as seguintes chaves. Depois de ter essas credenciais, você pode começar a extrair dados.
* chave do consumidor: A chave associada ao aplicativo (Twitter, Facebook, etc.)
* segredo do consumidor: A senha usada para autenticar com o servidor de autenticação (Twitter, Facebook, etc.)
* token de acesso: A chave fornecida ao cliente após autenticação bem-sucedida de chaves
* segredo do token de acesso: A senha para a chave de acesso

#### Etapa 1-2. Executar consulta em Python
Depois que todas as credenciais estiverem no lugar, use o código a seguir para buscar os dados.

In [20]:
import numpy as np
import tweepy
import json
import pandas as pd
from tweepy import OAuthHandler

# credenciais
bearer_token = "AAAAAAAAAAAAAAAAAAAAAPYCjQEAAAAAi%2BWAn99Dkguke4OzP0Pm5N4KC%2Bw%3DCsJayf49BE10MwshVLqEnCP5vsVSVuxfmy943qyrKYHKDHq76S"
consumer_key = 'qZ2TnCPKzf0RhAWVerOrC7xLU'
consumer_secret = 'xa6sDbGCNXQW2lDtQRAKr5W3oqScMy8sVSH1a3CUmue3lXhgpr'
access_token = "909120106462138368-nrgFMea82XCdixg3fnFMEKcg2lonEZP"
access_token_secret = "jZ71e13RZjuwFhw85XyC740YDN2gAz0xwM4t6J3hNv8h3"


client = tweepy.Client(bearer_token)

# Search Recent Tweets

# This endpoint/method returns Tweets from the last seven days

response = client.search_recent_tweets("Eleições Brasil")
# The method returns a Response object, a named tuple with data, includes,
# errors, and meta fields
print(response.meta)

# In this case, the data field of the Response returned is a list of Tweet
# objects
tweets = response.data

# Each Tweet object has default ID and text fields
for tweet in tweets:
    print(tweet.id)
    print(tweet.text)
    print(tweet.data)
    print()

# By default, this endpoint/method returns 10 results
# You can retrieve up to 100 Tweets by specifying max_results
response = client.search_recent_tweets("Eleições Brasil", max_results=100)
response.data

{'newest_id': '1591614294139211779', 'oldest_id': '1591613554872156160', 'result_count': 10, 'next_token': 'b26v89c19zqg8o3fpzhjn4xycwt7ua9rml7l77963qw71'}
1591614294139211779
RT @AndreJanonesAdv: https://t.co/t4XwfsJ5GW
{'edit_history_tweet_ids': ['1591614294139211779'], 'id': '1591614294139211779', 'text': 'RT @AndreJanonesAdv: https://t.co/t4XwfsJ5GW'}

1591614258248552448
E os americanos estão contando papelzinho a alguns dias kkk
e até agora não sabem como vai terminar a midterms (eleições legislativas de meio de mandato).

E tem lunático aqui no Brasil contra Urna Eletrônica.
{'edit_history_tweet_ids': ['1591614258248552448'], 'id': '1591614258248552448', 'text': 'E os americanos estão contando papelzinho a alguns dias kkk\ne até agora não sabem como vai terminar a midterms (eleições legislativas de meio de mandato).\n\nE tem lunático aqui no Brasil contra Urna Eletrônica.'}

1591614116824760320
RT @AnaZus2019: BRASIL, 12/11/2022 _ SÃO PAULO
🇧🇷🇧🇷🇧🇷
13°. dia de manifestações. 
Há 

[<Tweet id=1591614294139211779 text='RT @AndreJanonesAdv: https://t.co/t4XwfsJ5GW'>,
 <Tweet id=1591614258248552448 text='E os americanos estão contando papelzinho a alguns dias kkk\ne até agora não sabem como vai terminar a midterms (eleições legislativas de meio de mandato).\n\nE tem lunático aqui no Brasil contra Urna Eletrônica.'>,
 <Tweet id=1591614116824760320 text='RT @AnaZus2019: BRASIL, 12/11/2022 _ SÃO PAULO\n🇧🇷🇧🇷🇧🇷\n13°. dia de manifestações. \nHá 13 dias o povo não sai das ruas, em protesto à falta d…'>,
 <Tweet id=1591614071253921793 text='De uma ponta a outra do Brasil o POVO é detentor da VERDADE, SEJA ÍNDIO, BRANCO, NEGRO, EMPREGADO OU EMPRESÁRIO, NINGUÉM AGUENTA A SUPREMA CORTE, NINGUÉM ACEITA O ROUBO DAS ELEIÇÕES. https://t.co/rqZfS6QeC0'>,
 <Tweet id=1591614001385181184 text='RT @AnaZus2019: BRASIL, 12/11/2022 _ SÃO PAULO\n🇧🇷🇧🇷🇧🇷\n13°. dia de manifestações. \nHá 13 dias o povo não sai das ruas, em protesto à falta d…'>,
 <Tweet id=1591613943663177728 text='RT @iara_m

Essa consulta extrai os dez principais tweets quando o produto ABC é pesquisado. A API puxa tweets em inglês, pois o idioma fornecido é 'en' e exclui retuítes.

## Receita 1-2. Coletando dados de PDFs
A maioria de seus dados é armazenada em arquivos PDF. Você precisa extrair o texto desses arquivos e armazená-lo para análise posterior.

### Problema
Você deseja ler um arquivo PDF.

### Solução
A maneira mais simples de ler um arquivo PDF é usando a biblioteca **PyPDF2**.

### Como funciona
Siga as etapas desta seção para extrair dados de arquivos PDF.

#### Etapa 2-1. Instale e importe todas as bibliotecas necessárias
Aqui estão as primeiras linhas de código.

In [21]:
import PyPDF2
from PyPDF2 import PdfFileReader

Nota Você pode baixar qualquer arquivo PDF da web e colocá-lo no local onde você está executando este notebook Jupyter ou script Python.

#### Etapa 2-2. Extrair texto de um arquivo PDF
Agora vamos extrair o texto.

In [31]:
#Creating a pdf file object
pdf = open("RelatorioCursos.pdf","rb")
#creating pdf reader object
pdf_reader = PyPDF2.PdfFileReader(pdf)
#checking number of pages in a pdf file
print(pdf_reader.numPages)
#creating a page object
page = pdf_reader.getPage(9)
#finally extracting text from the page

print(page.extractText())
#closing the pdf file
pdf.close()

5260
1 INTR ODUÇÃ O
O ob jetiv o deste relatório é utilizar os dados de Rendimen to A cadêmico disp onív eis na
UFMG para pro duzir informação sobre o desemp enho dos discen tes de graduação, a v aliar
a diculdade das principais disciplinas de cada curso e tam b ém analisar a taxa de ev asão.
Esp era-se pro duzir um relatório mo delo que p ossa estim ular o acompanhamen to con tín uo
do curso p ela co ordenação.
Neste relatório serão analisados os dados do curso presencial de A dministração Diurno
no p erío do de 2004/1 a 2014/1 . F oram analisados os dados de to dos os alunos matricula-
dos no curso neste p erío do, com exceção somen te dos alunos matriculados em decorrência
de con tin uidade de estudos.
Os dados analisados neste relatório encon tram-se armazenados no Cen tro de Computa-
ção da UFMG (CECOM) e são utilizados para alimen tar o Sistema SIGA. O tratamen to,
análise dos dados e pro dução do relatório foi realizado p elo Setor de Estatística da Pró-
Reitoria de Graduação d

Observe que a função não funciona para PDFs digitalizados e as vezes não é muito bom!!!