In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Web Scraping e pré-processamento
**Web Scraping**: o ato de baixar automaticamente os dados de uma página web e extrair informações muito específicas dela. As informações extraídas podem ser armazenadas praticamente em qualquer lugar (banco de dados, arquivo, etc.). Web scraping, também conhecido como Extração de Dados da Web, é uma maneira automatizada de extrair informações/conteúdo usando bots, conhecidos como scrapers. Aqui, as informações podem ser usadas para replicar em algum outro site ou podem ser usadas para análise de dados. ([fonte](http://datascienceacademy.com.br/blog/web-scraping-e-web-crawling-sao-legais-ou-ilegais/))

**Pré-processamento**: Tratamento dos dados (remoção de stop words, pontuação, tokeninação...)


## Demonstração

### Web-Scraping

Importando as Bibliotecas necessárias

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import pickle

Criando um vetor para armazenar os dados (no caso, notícias)

In [None]:
X = []

Função para baixar as notícias
- utilizaremos a biblioteca `BeautifulSoup`

In [None]:
def print_headlines_tec(response_text):
    soup = BeautifulSoup(response_text, 'lxml')
    headlines   = soup.find_all('div', attrs={"itemprop": "articleBody"})

    for headline in headlines:
        X.append(headline.text)

Essa função, visita a URL abaixo, e baixa as notícias, como a destacada a seguir...

![texto alternativo](https://blogdozouza.files.wordpress.com/2020/08/webscrap.png)

In [None]:
# URL que iremos utilizar...
url = 'https://inshorts.com/en/read/technology' 

Aplicando...

In [None]:
response = requests.get(url)
print_headlines_tec(response.text)

Verificando os dados importados

In [None]:
X

["LG's New Washing machines Range with LG Steam™ Technology pre-treats tough stains before Washing by applying intense heat. Steam Wash gives hygiene by removing 99.9%* Germs and Allergens. LG Washing Machines are also equipped with ThinQ technology that helps download upto 20 additional wash programs and helps control your washing machine through Wi-Fi from anywhere and anytime.",
 'OPPO has announced that the F17 Pro, that comes with 6 AI portrait cameras and ultra-sleek design will be launched in India on September 2. Featuring Raftaar and Hardy Sandhu, OPPO said this will be its first-ever online music launch. The smartphone is the sleekest phone of 2020, sporting 7.48mm ultra-thin design and weighs 164 grams, it added.',
 'Five students of the Indian Institute of Technology (IIT), Bombay, have designed a web portal to help candidates appearing for NEET and JEE find transport to their test centres. EduRide is a web portal that connects candidates across the country with volunteers 

### Pré-Processamento

Importando as Bibliotecas necessárias

In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from string import punctuation

Instanciando `Stopword` e `Stemmer`

In [None]:
stopword = stopwords.words('english')
snowball_stemmer = SnowballStemmer('english')

Criação da Função para Remoção de Pontuação

In [None]:
def strip_punctuation(s):
        return ''.join(c for c in s if c not in punctuation)

#### Realizando a Limpeza...

In [None]:
# Cria uma variável auxiliar Xa que irá receber X
Xa = []
Xa = X

# Cria uma X vazia
X = []

In [None]:
for i in range(0,len(Xa)):
        text               = strip_punctuation(Xa[i]) # remove pontuacao
        text               = ''.join(c for c in text if not c.isdigit()) # remove numeros
        word_tokens        = nltk.word_tokenize(text.lower()) # processo de tokenização
        removing_stopwords = [word for word in word_tokens if word not in stopword] # remove stopwords
        stemmed_word       = [snowball_stemmer.stem(word) for word in removing_stopwords] # aplica stemmed
        X.append(stemmed_word)

Visualizando o tratamento dos dados

In [None]:
# Variável Auxiliar (lendo o primeiro registro)
Xa[0]

"LG's New Washing machines Range with LG Steam™ Technology pre-treats tough stains before Washing by applying intense heat. Steam Wash gives hygiene by removing 99.9%* Germs and Allergens. LG Washing Machines are also equipped with ThinQ technology that helps download upto 20 additional wash programs and helps control your washing machine through Wi-Fi from anywhere and anytime."

In [None]:
# Variável X tratada (lendo o primeiro registro)
X[0]

['lgs',
 'new',
 'wash',
 'machin',
 'rang',
 'lg',
 'steam™',
 'technolog',
 'pretreat',
 'tough',
 'stain',
 'wash',
 'appli',
 'intens',
 'heat',
 'steam',
 'wash',
 'give',
 'hygien',
 'remov',
 'germ',
 'allergen',
 'lg',
 'wash',
 'machin',
 'also',
 'equip',
 'thinq',
 'technolog',
 'help',
 'download',
 'upto',
 'addit',
 'wash',
 'program',
 'help',
 'control',
 'wash',
 'machin',
 'wifi',
 'anywher',
 'anytim']

Vendo todos os registros de X

In [None]:
X

#### Exemplo de um Classificador de Notícias
- Luppar News-Rec ([link](https://github.com/aasouzaconsult/Cientista-de-Dados/tree/master/NLP%20-%20Classifica%C3%A7%C3%A3o%20de%20Not%C3%ADcias%20Curtas%20PTB))
  - Explicação do algoritmo ([vídeo](https://www.youtube.com/watch?v=_ehtYMU7y3I&t=1472s))

## Referências
- (SOUZA, 2019) SOUZA, ANTONIO ALEX DE. LUPPAR NEWS-REC: UM RECOMENDADOR INTELIGENTE DE NOTÍCIAS. 2019. 95 f. Dissertação (Mestrado Acadêmico em Computação) – Universidade Estadual do Ceará, , 2019. Disponível em: <http://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=93501> Acesso em: 27 de fevereiro de 2020

- Alex Souza ([Blog](https://blogdozouza.wordpress.com/))
