### urllib3:

- Permite fazer requisições e extrair os dados das páginas.

In [None]:
import urllib3

# PoolManager: Classe usada para fazer requisições http e pegar seu 
# conteúdo. Pode fazer um pool de conexões, ou seja, conexões com
# várias páginas web.
http = urllib3.PoolManager()

# Requisição para uma pagina web
pagina = http.request('GET', 'http://www.iaexpert.com.br')

# Se o código retornado for 200 a conexão funcionou
# Se o código retornado for 404 a conexão não funcionou
pagina.status

# Pegar todas informações da página (Código html)
pagina.data

### Extração de dados de HTML com Beautifullsoup

- Permite a extração mais organizada dos dados da página.

In [None]:
from bs4 import BeautifulSoup
import urllib3

# Disabilita warnings de certificado de verificação da requisição 
# urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
http = urllib3.PoolManager()
pagina = http.request('GET', 'https://pt.wikipedia.org/wiki/Linguagem_de_programa%C3%A7%C3%A3o')
pagina.status

# soup = sopa (Representa todos os dados da página)
soup = BeautifulSoup(pagina.data, 'lxml')
# Retorna o(s) titulo(s) da página em formato string
soup.title.string
# Retorna todos os links da página
links = soup.find_all('a')
# Número de links encontrados
len(links)
# Mostra todos os links
for link in links:
    # Retorna o atributo o conteúdo do atributo recebido
    print(link.get('href'))
    # Retorna conteúdo (Título do link)
    print(link.contents)

### Crawler - Busca de documentos 1

- Percorre todos os links da página e adiciona todos os links em uma lista, depois abre todos os links e adiciona os seus links na lista, e repete o processo até uma determinada profundiade.
- Baseado na página inicial, ele abre os links das páginas ligadas a ela.
- As funções definidas abaixo são responsáveis pelo pré-processamento de dados, como indicado em sua descrição e como explicado mais abaixo.

In [None]:
import urllib3
import re
import nltk
from bs4 import BeautifulSoup
from urllib.parse import urljoin


# Função que realiza o Pré-processamento dos textos
# a partir da separação das palavras relevantes do texto e do armazenamento de seus radicais
# as stopwords são desconsideradas
# é permitido o armazenamento de palavras duplicadas
def separaPalavras(texto):
    stop = nltk.corpus.stopwords.words('portuguese')
    splitter = re.compile('\\W+')
    stemmer = nltk.stem.RSLPStemmer()

    lista_palavras = []
    lista = [p for p in splitter.split(texto) if p != '']

    for p in lista:
        if p.lower() not in stop:
            if len(p) > 1:
                lista_palavras.append(stemmer.stem(p).lower())

    return lista_palavras


# Função que realiza o Pré-processamento dos textos 
# a partir de remoção de tags HTML
def getTexto(soup):
    for tags in soup(['script', 'style']):
        tags.decompose()

    return ' '.join(soup.stripped_strings)


# Importante: O urllib3 precisa da url completa, senão não funciona.

# - Busca links e trata links das páginas recebida.
# - A profundide indica o quão profundo será a busca, como ilustrado no Exemplo 1. 
# - Para uma busca muito profunda é necessário ter um computador potente e uma 
# grande banda de internet.

# Exemplo 1:
# profundidade = 1 -> Será percorrido e gerado os links apenas as lista de páginas recebidas.
# profundidade = 2 -> Será percorrido e gerado os links, tanto da lista de páginas recebidas,
# como da lista de novas páginas geradas a partir dos links gerados a partir da lista de páginas
# recebidas com parâmetro.

# Aumentar a profundidade significa repetir esse raciocíonio de maneira sucessiva.
# Se for digitado uma profundidade muito grande será gerado um looping infinito.

# Como esse é um código de teste, ele vai ser executado e não vai retorna nada.
def crawl(paginas, profundidade):
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
    for i in range(profundidade):
        # É utilizado um set para evitar links repetidos
        novas_paginas = set()
        # Percorre todas as páginas passadas como parâmetro
        for pagina in paginas:
            http = urllib3.PoolManager()
            try:
                dados_pagina = http.request('GET', pagina)
            except:
                print("Erro ao abria página: " + pagina)
                continue
            
            soup = BeautifulSoup(dados_pagina.data, 'lxml')
            links = soup.find_all('a')
            # Contar quantos links válidos existem na página
            # Links válidos: links que possuem um 'href'
            contador = 0

            for link in links:
            # print(str(link.contents) + ' - ' + str(link.get('href')))

            # Mostra todos atributos de um link
            # print(link.attrs)
            # print('\n')

            # Conta links válidos
                if 'href' in link.attrs:
                    # Junta uma url base com uma url relativa
                    # Torna os links válidos, pois adiciona a parte base do
                    # inicio que estava faltando.
                    url = urljoin(pagina, str(link.get('href')))
                    # if url != link.get('href'):
                    #     print(url)
                    #     print(link.get('href'))

                    # Retira links inválidos
                    if url.find("'") != -1:
                        continue
                    
                    # print(url)
                    # Retira links que apontam para própria página
                    url = url.split('#')[0]
                    print(url)

                    # Faz mais uma verificação de controle e
                    # Armazena todos os links de cada página rodada no for
                    if url[0:4] == 'http':
                        novas_paginas.add(url)

                    contador += 1

            # Faz paginas receber novas páginas, depois que todos links
            # de todas as páginas que foram recebidas como parâmetro foram 
            # armazenados no conjunto em novas páginas.
            paginas = novas_paginas
            print(contador)
        print(len(novas_paginas))


listapaginas = ['https://pt.wikipedia.org/wiki/Linguagem_de_programa%C3%A7%C3%A3o']
crawl(listapaginas, 1)

### Pré-processamento dos textos - Remoção de tags HTML

- Redução do conteúdo desnecessário que vem junto com o texto extraido na requsição.
- Remoção das tags de 'style' e 'script'.
- Pegar conteúdo das tags que sobraram e forma uma string gigante.

In [None]:
import urllib3
from bs4 import BeautifulSoup

http = urllib3.PoolManager()
pagina = http.request('GET', 'https://pt.wikipedia.org/wiki/Linguagem_de_programa%C3%A7%C3%A3o')

soup = BeautifulSoup(pagina.data, 'lxml')

# Remove tags de script e style
for tags in soup(['script', 'style']):
    tags.decompose()

# Junta todas as strings de conteúdo em uma só, e remove os espaços entre elas
conteudo = ' '.join(soup.stripped_strings)

# print(conteudo)

### Pré-processamento dos textos - Separação das Palavras

- Recebendo uma string grande e quebrando em palavras, descosiderando as stops words.
- Armazenar palavras únicas.

In [None]:
# Importando expressões regulares. (Aplicar filtros em strings).
import re 
# Importando biblioteca específica para processamento de linguagem natural.
# -> Importante para identificação das stops words.
# -> Stops words: Para que não tem significados sozinhas, portanto não são relevantes para identidade da página.
import nltk 

# Fazer downloads do pacote da biblioteca 
# nltk.download('stopwords')

# - Forma uma lista de stop words de acordo com o idioma.
# - Todas letras são em minúsculo, então é importante definir um padrão de letras minúsculas na verificação.
stop = nltk.corpus.stopwords.words('portuguese')

# - 1) Separação das palavras e Remoção das stops words:

# W -> buscar qualquer caracter que não é um palavra.
# + -> pode ter qualquer elemento .
splitter = re.compile('\\W+')

lista_palavras = []
# - Quebra as palavras do texto dentro de split(), de maneira que quando encontra algum texto que não é um caracter
# ele quebra a string passada como parâmetro e armazena na lista.
# - Ignora os espaços vazios.

# - Não funciona em todos os casos.
# - Para funcionar para todos os casos é necessário adicionar mais filtros para tornar a indetificação de palavras válidas
# mais eficiente.
lista = [p for p in splitter.split('Este lugar lugar é apavorante a b c++') if p != '']

for p in lista:
    # Não adiciona as stops words ou letras sozinhas.
    if p.lower() not in stop:
        if len(p) > 1:
            lista_palavras.append(p.lower())

print(lista_palavras)

### Pré-processamento dos textos - Extração do radical

- Extrair o radical de cada palavra que não é uma stopword.
- Importante para diminuir o número de palavras que serão armazenadas na base de dados, pois como palavras que possuem o mesmo racial possuem o mesmo sentido, é possível fazer essa simplificação.
- Segunda a maneira que foi implementado é possível adicionar palavras repetidas.

In [None]:
import re 
import nltk

stop = nltk.corpus.stopwords.words('portuguese')
# nltk.download('rslp')

splitter = re.compile('\\W+')
# RSLPStemmer: Classe usada para extrair o radical de cada palavra.
# - Muito util para diminuir o número de palavras únicas a serem armazenadas no banco de dados
# - Exemplo de extração de radical: "nova" e "novamente" podem ser armazenados apenas como uma palavra única, apartir de seu
# radical "nov".

stemmer = nltk.stem.RSLPStemmer()

lista_palavras = []
lista = [p for p in splitter.split('Este lugar lugar é apavorante a b c++') if p != '']

for p in lista:
    if p.lower() not in stop:
        if len(p) > 1:
            # Para uma codificação correta a alteração deve ser feita apenas na hora de armazenar a palavra na lista, para
            # não ocorrer conflito na verificação das stopswords.
            # Lembrando que: Nesse caso há a possibilidade de ser inseridos valores repetidos, então em vez de uma lista,
            # pode ser mais interessante o uso de um set().
            lista_palavras.append(stemmer.stem(p).lower())

# stemmer.stem('nova')
# stemmer.stem('novamente')

print(lista_palavras)