# Web Scraping e pré-processamento
**Web Scraping**: o ato de baixar automaticamente os dados de uma página web e extrair informações muito específicas dela. As informações extraídas podem ser armazenadas praticamente em qualquer lugar (banco de dados, arquivo, etc.). Web scraping, também conhecido como Extração de Dados da Web, é uma maneira automatizada de extrair informações/conteúdo usando bots, conhecidos como scrapers. Aqui, as informações podem ser usadas para replicar em algum outro site ou podem ser usadas para análise de dados. ([fonte](http://datascienceacademy.com.br/blog/web-scraping-e-web-crawling-sao-legais-ou-ilegais/))

**Pré-processamento**: Tratamento dos dados (remoção de stop words, pontuação, tokeninação...)


## Demonstração

### Web-Scraping

Importando as Bibliotecas necessárias

In [1]:
import requests
from bs4 import BeautifulSoup
import json
import pickle

Criando um vetor para armazenar os dados (no caso, notícias)

In [2]:
X = []

Função para baixar as notícias
- utilizaremos a biblioteca `BeautifulSoup`

In [3]:
def print_headlines_tec(response_text):
    soup = BeautifulSoup(response_text, 'lxml')
    headlines   = soup.find_all('div', attrs={"itemprop": "articleBody"})

    for headline in headlines:
        X.append(headline.text)

Essa função, visita a URL abaixo, e baixa as notícias, como a destacada a seguir...

![texto alternativo](https://blogdozouza.files.wordpress.com/2020/08/webscrap.png)

In [4]:
# URL que iremos utilizar...
url = 'https://inshorts.com/en/read/technology' 

Aplicando...

In [5]:
response = requests.get(url)
print_headlines_tec(response.text)

Verificando os dados importados

In [6]:
X

['Facebook-parent Meta Platforms has announced that it would lay off another 10,000 employees in second round of firing, four months after laying off 11,000 employees. "[We also] expect to close around 5,000 additional open roles that we haven\'t yet hired," Meta CEO Mark Zuckerberg announced. "This will be tough and there\'s no way around that," he added.',
 'Nokia CEO Pekka Lundmark tweeted pictures of his meeting with Prime Minister Narendra Modi on Monday and said it was "a privilege to meet with" him. They discussed the next phase of digital transformation and how Nokia intends to support India\'s 6G ambitions, Lundmark said. Meanwhile, PM Modi responded to Lundmark\'s tweet and said, "[It was] a fruitful meeting."',
 "The government is reportedly planning to introduce new security rules that would force smartphone makers to let users remove pre-installed apps from phones. According to a Reuters report, the government may also mandate screening of major operating system updates. T

### Pré-Processamento

Importando as Bibliotecas necessárias

In [7]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [9]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from string import punctuation

Instanciando `Stopword` e `Stemmer`

In [10]:
stopword = stopwords.words('english')
snowball_stemmer = SnowballStemmer('english')

Criação da Função para Remoção de Pontuação

In [11]:
def strip_punctuation(s):
        return ''.join(c for c in s if c not in punctuation)

#### Realizando a Limpeza...

In [12]:
# Cria uma variável auxiliar Xa que irá receber X
Xa = []
Xa = X

# Cria uma X vazia
X = []

In [13]:
for i in range(0,len(Xa)):
        text               = strip_punctuation(Xa[i]) # remove pontuacao
        text               = ''.join(c for c in text if not c.isdigit()) # remove numeros
        word_tokens        = nltk.word_tokenize(text.lower()) # processo de tokenização
        removing_stopwords = [word for word in word_tokens if word not in stopword] # remove stopwords
        stemmed_word       = [snowball_stemmer.stem(word) for word in removing_stopwords] # aplica stemmed
        X.append(stemmed_word)

Visualizando o tratamento dos dados

In [14]:
# Variável Auxiliar (lendo o primeiro registro)
Xa[0]

'Facebook-parent Meta Platforms has announced that it would lay off another 10,000 employees in second round of firing, four months after laying off 11,000 employees. "[We also] expect to close around 5,000 additional open roles that we haven\'t yet hired," Meta CEO Mark Zuckerberg announced. "This will be tough and there\'s no way around that," he added.'

In [15]:
# Variável X tratada (lendo o primeiro registro)
X[0]

['facebookpar',
 'meta',
 'platform',
 'announc',
 'would',
 'lay',
 'anoth',
 'employe',
 'second',
 'round',
 'fire',
 'four',
 'month',
 'lay',
 'employe',
 'also',
 'expect',
 'close',
 'around',
 'addit',
 'open',
 'role',
 'havent',
 'yet',
 'hire',
 'meta',
 'ceo',
 'mark',
 'zuckerberg',
 'announc',
 'tough',
 'there',
 'way',
 'around',
 'ad']

Vendo todos os registros de X

In [16]:
X

[['facebookpar',
  'meta',
  'platform',
  'announc',
  'would',
  'lay',
  'anoth',
  'employe',
  'second',
  'round',
  'fire',
  'four',
  'month',
  'lay',
  'employe',
  'also',
  'expect',
  'close',
  'around',
  'addit',
  'open',
  'role',
  'havent',
  'yet',
  'hire',
  'meta',
  'ceo',
  'mark',
  'zuckerberg',
  'announc',
  'tough',
  'there',
  'way',
  'around',
  'ad'],
 ['nokia',
  'ceo',
  'pekka',
  'lundmark',
  'tweet',
  'pictur',
  'meet',
  'prime',
  'minist',
  'narendra',
  'modi',
  'monday',
  'said',
  'privileg',
  'meet',
  'discuss',
  'next',
  'phase',
  'digit',
  'transform',
  'nokia',
  'intend',
  'support',
  'india',
  'g',
  'ambit',
  'lundmark',
  'said',
  'meanwhil',
  'pm',
  'modi',
  'respond',
  'lundmark',
  'tweet',
  'said',
  'fruit',
  'meet'],
 ['govern',
  'report',
  'plan',
  'introduc',
  'new',
  'secur',
  'rule',
  'would',
  'forc',
  'smartphon',
  'maker',
  'let',
  'user',
  'remov',
  'preinstal',
  'app',
  'phone

## Referências
- (SOUZA, 2019) SOUZA, ANTONIO ALEX DE. LUPPAR NEWS-REC: UM RECOMENDADOR INTELIGENTE DE NOTÍCIAS. 2019. 95 f. Dissertação (Mestrado Acadêmico em Computação) – Universidade Estadual do Ceará, , 2019. Disponível em: <http://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=93501> Acesso em: 27 de fevereiro de 2020

- Computer on the beach - Florianópolis - SC ([Artigo](https://blogdozouza.files.wordpress.com/2023/03/computer-on-the-beach-2018-aicn.pdf))

- Classificação de Notícias Curtas usando ML ([Medium Blog - Alex Souza](https://medium.com/blog-do-zouza/classifica%C3%A7%C3%A3o-de-not%C3%ADcias-usando-aprendizado-de-m%C3%A1quina-aeeb9b6efe61))
