# **DESAFIO DA SEMANA 4​**

Desenvolver um web crawler básico que visite sistematicamente as páginas Web da Univesp, seguindo hyperlinks da página principal. Para cada página visitada, o programa deverá contabilizar a frequência de cada palavra contida na página.

# USO DE BIBLIOTECAS ESPECIFICAS

## CODIGO COMPLETO

In [None]:
# Biblioteca usadas para criar a comunicação com o site
from urllib.request import Request, urlopen

# Biblioteca usadas para extrair os links do site
from urllib.parse import urljoin
from html.parser import HTMLParser

# Bibliotecas para estruturar as informações
from collections import Counter
import pandas as pd

class Collector(HTMLParser):
    'coleta URLs de hyperklink em uma lista'
    def __init__(self, url):
        'inicializa analisador, o URL e uma lista'
        HTMLParser.__init__(self)
        self.url = url
        self.links = []

    def handle_starttag(self, tag, attrs):
        'coleta URLs de hyperlink em sua forma absoluta'
        if tag == 'a':
            for attr in attrs:
                if attr[0] == 'href':
                    # constrói URL absoluto
                    absolute = urljoin(self.url, attr[1])
                    if absolute[:4] == 'http': # coleta URLs HTTP
                        self.links.append(absolute)

    def getLinks(self):
        'retorna URLs de hyperlink em seu formato absoluto'
        return self.links


def analyze(url):
    """retorna a lista de links http, em formato absoluto,
        na página Web com URL url"""

    print('Visitando', url) # Mostra o link que vai ser usado para analise
    # cria a estrutura para comunicação com o site
    req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

    # estabelece a comunicação com o site
    content = urlopen(req).read().decode()

    # Contagem das palavras da pagina web
    palavras_count = dict(Counter(content.split(' ')))
    palavras_pd = pd.DataFrame.from_dict(palavras_count, orient='index',columns=['Palavras'])
    palavras_sort = palavras_pd.sort_values(by=['Palavras'], ascending=False).head(15)
    print('Contagem das Palavras do Site:\n', palavras_sort)

    # Analisador para obter os links da página Web
    collector = Collector(url)
    collector.feed(content)
    all_urls = collector.getLinks()       # urls é a lista de links

    return all_urls

links_visitados = set()

def crawl(url, maxlinks=20, externalLink=False):
    'crawler Web RECURSIVA que chama analyze() em cada página Web'
    # inclui url para conjunto de páginas visitadas
    global links_visitados       # embora não necessário, avisa ao programador
    links_visitados.add(url)
    if (len(links_visitados)>=maxlinks):
        return
    # analyze() retorna uma lista de URLs de hyperlink no URL da página Web
    links = analyze(url)
    # continua recursivamente a verificação de cada link em links
    for link in links:
        if (externalLink):
            follow = externalLink
        else: follow = str(link).find(uri)>=0
        if (link not in links_visitados) and follow:
            try: # bloco try porque o link pode não ser um arquivo HTML válido
                crawl(link, maxlinks, externalLink)
            except:            # se uma exceção for lançada
                pass           # ignora e prossegue.


uri='http://univesp.br/'
links = analyze(uri)
crawl(uri, maxlinks=10, externalLink=False)

Visitando http://univesp.br/
Contagem das Palavras do Site:
                      Palavras
                         1867
\n                         49
<div                       45
<a                         28
</div>\n                   28
\n\n                       22
de                         19
Univesp                    14
da                         12
<h4                        10
class="fa                  10
<img                       10
por                        10
<li                         9
class="nav-item">\n         9
Visitando http://univesp.br/
Contagem das Palavras do Site:
                      Palavras
                         1867
\n                         49
<div                       45
<a                         28
</div>\n                   28
\n\n                       22
de                         19
Univesp                    14
da                         12
<h4                        10
class="fa                  10
<img                       10
por     

## CODIGO POR PARTE

In [None]:
# Biblioteca usadas para criar a comunicação com o site
from urllib.request import Request, urlopen

# Biblioteca usadas para extrair os links do site
from urllib.parse import urljoin
from html.parser import HTMLParser

# Bibliotecas para estruturar as informações
from collections import Counter
import pandas as pd

#### Documentação de ajuda das Bibliotecas

In [None]:
print(HTMLParser.__doc__)

Find tags and other markup and call handler functions.

    Usage:
        p = HTMLParser()
        p.feed(data)
        ...
        p.close()

    Start tags are handled by calling self.handle_starttag() or
    self.handle_startendtag(); end tags by self.handle_endtag().  The
    data between tags is passed from the parser to the derived class
    by calling self.handle_data() with the data as argument (the data
    may be split up in arbitrary chunks).  If convert_charrefs is
    True the character references are converted automatically to the
    corresponding Unicode character (and self.handle_data() is no
    longer split in chunks), otherwise they are passed by calling
    self.handle_entityref() or self.handle_charref() with the string
    containing respectively the named or numeric reference as the
    argument.
    


#### Criar a Classe para analise do HTML

In [None]:
class Collector(HTMLParser):
    'coleta URLs de hyperklink em uma lista'
    def __init__(self, url):
        'inicializa analisador, o URL e uma lista'
        HTMLParser.__init__(self)
        self.url = url
        self.links = []

    def handle_starttag(self, tag, attrs):
        'coleta URLs de hyperlink em sua forma absoluta'
        if tag == 'a':
            for attr in attrs:
                if attr[0] == 'href':
                    # constrói URL absoluto
                    absolute = urljoin(self.url, attr[1])
                    if absolute[:4] == 'http': # coleta URLs HTTP
                        self.links.append(absolute)

    def getLinks(self):
        'retorna URLs de hyperlink em seu formato absoluto'
        return self.links

#### Conectar com o site web a ser analisado e pegar os datos

In [None]:
url = 'http://univesp.br/'
# cria a estrutura para comunicação com o site
req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

# estabelece a comunicação com o site
content = urlopen(req).read().decode()

#### Analise das palavras do site

In [None]:
# Contagem das palavras da pagina web
palavras_count = dict(Counter(content.split(' ')))
palavras_pd = pd.DataFrame.from_dict(palavras_count, orient='index',columns=['Palavras'])
palavras_sort = palavras_pd.sort_values(by=['Palavras'], ascending=False).head(15)
print('Contagem das 15 Palavras mais usadas do Site:\n', palavras_sort)

Contagem das 15 Palavras mais usadas do Site:
                      Palavras
                         1867
\n                         49
<div                       45
<a                         28
</div>\n                   28
\n\n                       22
de                         19
Univesp                    14
da                         12
<h4                        10
class="fa                  10
<img                       10
por                        10
<li                         9
class="nav-item">\n         9


#### Analise do HTML para extrair os links do site.

In [None]:
# Analisador para obter os links da página Web
collector = Collector(url)
collector.feed(content)
all_urls = collector.getLinks() 

for link in all_urls: print(link)

http://univesp.br/
http://univesp.br/vestibular
http://univesp.br/cursos
http://univesp.br/polos
http://univesp.br/institucional
http://univesp.br/transparencia
http://intranet.univesp.br/
https://ava.univesp.br/
https://apps.univesp.br/repositorio/plano-de-aula/
http://apps.univesp.br/repositorio/
https://apps.univesp.br/manual-do-aluno/
http://univesp.br/noticias/gestao-publica-e-tema-de-encerramento-do-programa-univesp-por-elas-2021
http://univesp.br/noticias/gestao-publica-e-tema-de-encerramento-do-programa-univesp-por-elas-2021
http://univesp.br/noticias/vestibular-univesp-2021
http://univesp.br/noticias/vestibular-univesp-2021
http://univesp.br/noticias/engenharia-de-producao-e-o-proximo-tema-do-programa-univesp-por-elas
http://univesp.br/noticias/programa-univesp-por-elas-recebe-a-secretaria-celia-leao
http://univesp.br/noticias/programa-univesp-por-elas-aborda-literatura-e-carreira-na-licenciatura
http://univesp.br/noticias/polo-de-pirassununga-arrecada-alimentos-para-familias-

#### Criar a função para comunicação com o site e analise dos links contídos e a contagem de palavras.

In [None]:
def analyze(url):
    """retorna a lista de links http, em formato absoluto,
        na página Web com URL url"""

    print('Visitando', url) # Mostra o link que vai ser usado para analise
    # cria a estrutura para comunicação com o site
    req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

    # estabelece a comunicação com o site
    content = urlopen(req).read().decode()

    # Contagem das palavras da pagina web
    palavras_count = dict(Counter(content.split(' ')))
    palavras_pd = pd.DataFrame.from_dict(palavras_count, orient='index',columns=['Palavras'])
    palavras_sort = palavras_pd.sort_values(by=['Palavras'], ascending=False).head(15)
    print('Contagem das Palavras do Site:\n', palavras_sort)

    # Analisador para obter os links da página Web
    collector = Collector(url)
    collector.feed(content)
    all_urls = collector.getLinks()       # urls é a lista de links

    return all_urls


In [None]:
uri='http://univesp.br/'
links = analyze(uri)

Visitando http://univesp.br/
Contagem das Palavras do Site:
                      Palavras
                         1867
\n                         49
<div                       45
<a                         28
</div>\n                   28
\n\n                       22
de                         19
Univesp                    14
da                         12
<h4                        10
class="fa                  10
<img                       10
por                        10
<li                         9
class="nav-item">\n         9


Criar a função recursiva para acessar aos links dos links do site root

In [None]:
links_visitados = set()

In [None]:
def crawl(url, maxlinks=20, externalLink=False):
    'crawler Web RECURSIVA que chama analyze() em cada página Web'
    # inclui url para conjunto de páginas visitadas
    global links_visitados       # embora não necessário, avisa ao programador
    links_visitados.add(url)
    if (len(links_visitados)>=maxlinks):
        return
    # analyze() retorna uma lista de URLs de hyperlink no URL da página Web
    links = analyze(url)
    # continua recursivamente a verificação de cada link em links
    for link in links:
        if (externalLink):
            follow = externalLink
        else: follow = str(link).find(uri)>=0
        if (link not in links_visitados) and follow:
            try: # bloco try porque o link pode não ser um arquivo HTML válido
                crawl(link)
            except:            # se uma exceção for lançada
                pass           # ignora e prossegue.


In [None]:
uri='http://univesp.br/'
crawl(uri, maxlinks=10, externalLink=False)

Visitando http://univesp.br/
Contagem das Palavras do Site:
                      Palavras
                         1867
\n                         49
<div                       45
<a                         28
</div>\n                   28
\n\n                       22
de                         19
Univesp                    14
da                         12
<h4                        10
class="fa                  10
<img                       10
por                        10
<li                         9
class="nav-item">\n         9
Visitando http://univesp.br/vestibular
Contagem das Palavras do Site:
                      Palavras
                         1156
\n                         43
<a                         25
de                         22
Univesp                    21
\n\n                       18
<div                       18
por                        10
title="Link:               10
class="fa                   9
class="nav-item">\n         9
<li                         