In [3]:
'''
    Capturando requests com módulo request nativo do Python
'''
from urllib.request import urlopen

url = 'https://pythonscraping.com/pages/page1.html'

codHTML = urlopen(url)

codHTML.read()

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

In [4]:
'''
    Capturando requests com módulo requests
'''

import requests

url = 'https://pythonscraping.com/pages/page1.html'

codeHTML = requests.get(url)

codeHTML.text

'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

In [5]:
'''
    Capturando requests com módulo BeautifulSoup para o site 

    www.wikipedia.org
'''

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org'

codHTML = urlopen(url)

# BeautifulSoup(HTML Code,parser). lxml é o melhor parser. 
# Documentation: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

bs = BeautifulSoup(codHTML,'lxml')

print(bs)



HTTPError: HTTP Error 403: Forbidden

In [6]:
# O BeautifulSoup, transforma o HTML em tag objects que podem ser acessados da seguinte forma:
# BeautifulSoup Object.<HTML tag>

type(bs.a) # Mostra o tipo de objeto



bs4.element.Tag

In [7]:
'''
    Acessando as tags com BeautifulSoup
'''

# Acessando a primeira ocorrência do tag object
tag = bs.a

print(tag)



<a class="link-box" data-slogan="The Free Encyclopedia" href="//en.wikipedia.org/" id="js-link-box-en" title="English — Wikipedia — The Free Encyclopedia">
<strong>English</strong>
<small><bdi dir="ltr">6 284 000+</bdi> <span>articles</span></small>
</a>


In [8]:
# Acesando o atributo da tag
tag['href']

'//en.wikipedia.org/'

In [30]:
# Dicionário com os atributos da tag
tag.attrs

{'id': 'js-link-box-en',
 'href': '//en.wikipedia.org/',
 'title': 'English — Wikipedia — The Free Encyclopedia',
 'class': ['link-box'],
 'data-slogan': 'The Free Encyclopedia'}

In [9]:
# Filtro: list
bs.find(['h1','div'])

<div class="central-textlogo" style="font-size: 1em;">
<img alt="Wikipedia" class="central-featured-logo" height="183" src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png" srcset="portal/wikipedia.org/assets/img/Wikipedia-logo-v2@1.5x.png 1.5x, portal/wikipedia.org/assets/img/Wikipedia-logo-v2@2x.png 2x" width="200"/>
<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="slogan">The Free Encyclopedia</strong>
</h1>
</div>

In [96]:
#Filtro: Expressão Regular
import re

print(bs.find(re.compile('title')))


<strong class="jsl10n localized-slogan" data-jsl10n="slogan">The Free Encyclopedia</strong>
<title>IMDb Top 250 - IMDb</title>


In [6]:
'''

    Method signature:   find(name, attrs, recursive, **kwargs)

                        def values:
                        name = None, attrs = {}, recursive = True, text = None
                        **kwargs -> tamanho variável. Argumentos Chave = Atributos da tag e seus valores

    Retorna a tag aonde se encontra a string
'''

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org'

codHTML = urlopen(url)

# BeautifulSoup(HTML Code,parser). lxml é o melhor parser. 
# Documentation: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

bs = BeautifulSoup(codHTML,'lxml')

HTTPError: HTTP Error 403: Forbidden

In [12]:
# Usando texto
h1 = bs.find('h1')
print(h1)

<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="slogan">The Free Encyclopedia</strong>
</h1>


In [50]:
print(bs.find_all('link'))

print("\n")

print(bs.find_all('link',limit = 1)) # Aqui está fazendo o mesmo papel do find()

print("\n")



[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>, <link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>, <link href="//creativecommons.org/licenses/by-sa/3.0/" rel="license"/>, <link href="//upload.wikimedia.org" rel="preconnect"/>]


[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>]




In [51]:
print('Número total de elementos-tags link encontrados = {}'.format(len(bs.find_all('link'))))

Número total de elementos-tags link encontrados = 4


In [7]:
'''
    Utilizando os elementos do HTML class e id para fazer extração.

    A maioria dos sites os contém.

    Searching by CSS class

        It’s very useful to search for a tag that has a certain CSS class, but the 
        name of the CSS attribute, “class”, is a reserved word in Python. Using class 
        as a keyword argument will give you a syntax error. As of Beautiful Soup 4.1.2,        you can search by CSS class using the keyword argument class_:
'''

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org'

codHTML = urlopen(url)

bs = BeautifulSoup(codHTML,'lxml')




HTTPError: HTTP Error 403: Forbidden

In [None]:
'''
    O objetivo será fazer um scrapping do logo da Terra. 
    Antes de executar o código, usar a ferramenta de inspeção do código (CTRL + Shift + C no Chrome), e selecionar o logo central do planeta Terra no site da Wikipedia

    Têm-se a saída abaixo na ferramenta de inspeção:

    <img class="central-featured-logo" src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png" srcset="portal/wikipedia.org/assets/img/Wikipedia-logo-v2@1.5x.png 1.5x, portal/wikipedia.org/assets/img/Wikipedia-logo-v2@2x.png 2x" width="200" height="183" alt="Wikipedia">
    
'''


In [9]:
print(bs.find(class_='central-featured-logo')) # O _ foi para diferenciar da 
                                               # palavra reservada class. Isso é so                                                # para o BeutifulSoup

<img alt="Wikipedia" class="central-featured-logo" height="183" src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png" srcset="portal/wikipedia.org/assets/img/Wikipedia-logo-v2@1.5x.png 1.5x, portal/wikipedia.org/assets/img/Wikipedia-logo-v2@2x.png 2x" width="200"/>


In [15]:
# Acessando atributos da tag. Usando keyword arguments *kwargs

'''
    O objetivo será obter o texto "Português" e seus números de artigos nessa língua que se encontra ao lado do globo.

    - Selecionar com a ferramenta de inspeção de código, o trecho "Português", 
    que se encontra ao lado do globo
    
    Trecho da ferramenta de inspeção de código:

    <div class="central-featured-lang lang1" lang="pt" dir="ltr">
        <a id="js-link-box-pt" href="//pt.wikipedia.org/" title="Português — Wikipédia — A enciclopédia livre" class="link-box" data-slogan="A enciclopédia livre">
            <strong>Português</strong>
            <small>
                    <bdi dir="ltr">1&nbsp;048&nbsp;000+</bdi> <span>artigos</span>
            </small>
        </a>
    </div>
'''

# Dessa forma, obtemos a tag(s) com esse atributo
print(bs.find(id='js-link-box-pt'))


<a class="link-box" data-slogan="A enciclopédia livre" href="//pt.wikipedia.org/" id="js-link-box-pt" title="Português — Wikipédia — A enciclopédia livre">
<strong>Português</strong>
<small><bdi dir="ltr">1 048 000+</bdi> <span>artigos</span></small>
</a>


In [5]:
# Pegar tudo que é texto, que esteja dentro da tag, que contém o argumento chave id

print(bs.find(id='js-link-box-pt').get_text()) 


Português
1 048 000+ artigos



In [29]:
'''
    Usando selectores CSS, tags dentro de tags. Navegando na árvore HTML. Para isso, usar o método select, que nos retorna uma lista

    Aqui, selecionaremos todas as tags 'strong' dentro das tags 'divs' 
'''
strongtag = bs.select('div strong')
print(strongtag) 

print('\n')

print("Strong tag Português: ",strongtag[9])

[<strong class="jsl10n localized-slogan" data-jsl10n="slogan">The Free Encyclopedia</strong>, <strong>English</strong>, <strong>Español</strong>, <strong>日本語</strong>, <strong>Deutsch</strong>, <strong>Русский</strong>, <strong>Français</strong>, <strong>Italiano</strong>, <strong>中文</strong>, <strong>Português</strong>, <strong>Polski</strong>, <strong class="jsl10n" data-jsl10n="app-links.title">
<a class="jsl10n" data-jsl10n="app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applications">
Download Wikipedia for Android or iOS
</a>
</strong>]


Strong tag Português:  <strong>Português</strong>


In [55]:
print(bs.select('div form input'))

[<input name="family" type="hidden" value="wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" name="search" size="20" type="search"/>, <input name="go" type="hidden" value="Go"/>]


In [32]:
'''
    Outra maneira de acessar o elemento class. Usando select
'''

print(bs.select('.footer-sidebar'))

print("\n")

[<div class="footer-sidebar">
<div class="footer-sidebar-content">
<div class="footer-sidebar-icon sprite svg-Wikimedia-logo_black">
</div>
<div class="footer-sidebar-text jsl10n" data-jsl10n="footer-description">
Wikipedia is hosted by the <a href="//wikimediafoundation.org/">Wikimedia Foundation</a>, a non-profit organization that also hosts a range of other projects.
</div>
</div>
</div>, <div class="footer-sidebar app-badges">
<div class="footer-sidebar-content">
<div class="footer-sidebar-text">
<div class="footer-sidebar-icon sprite svg-wikipedia_app_tile"></div>
<strong class="jsl10n" data-jsl10n="app-links.title">
<a class="jsl10n" data-jsl10n="app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applications">
Download Wikipedia for Android or iOS
</a>
</strong>
<p class="jsl10n" data-jsl10n="app-links.description">
Save your favorite articles to read offline, sync your reading lists across devices and customize your reading experience with the official 

In [14]:
 '''
    Outro exemplo. Acessando o elemento class="central-featured-lang lang9"
    usando select

 <div class="central-featured-lang lang9" lang="pt" dir="ltr">
        <a id="js-link-box-pt" href="//pt.wikipedia.org/" title="Português — Wikipédia — A enciclopédia livre" class="link-box" data-slogan="A enciclopédia livre">
            <strong>Português</strong>
            <small>
                    <bdi dir="ltr">1&nbsp;048&nbsp;000+</bdi> <span>artigos</span>
            </small>
        </a>
    </div>
'''
print(bs.select(".lang9"))


[<div class="central-featured-lang lang9" dir="ltr" lang="pt">
<a class="link-box" data-slogan="A enciclopédia livre" href="//pt.wikipedia.org/" id="js-link-box-pt" title="Português — Wikipédia — A enciclopédia livre">
<strong>Português</strong>
<small><bdi dir="ltr">1 048 000+</bdi> <span>artigos</span></small>
</a>
</div>]


In [57]:
'''
    Outra maneira de selecionar atributo id sem usar *kwargs. Usando select
'''
print(bs.select('#js-link-box-pt'))

[<a class="link-box" data-slogan="A enciclopédia livre" href="//pt.wikipedia.org/" id="js-link-box-pt" title="Português — Wikipédia — A enciclopédia livre">
<strong>Português</strong>
<small><bdi dir="ltr">1 048 000+</bdi> <span>artigos</span></small>
</a>]


In [3]:
'''
    Tratamento de exceções
    
    Lidando com erros

    HTTPError -> Erro de servidor
    URLError -> Erro de acesso a página
'''
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

try:
    html = urlopen('https://www.wikipedia90.org') # Simulando URLError

except HTTPError as e:
    print(e)

except URLError as e:
    print("O servidor não pode ser encontrado !")



O servidor não pode ser encontrado !
