# Usando BeautifulSoup

In [1]:
from bs4 import BeautifulSoup

In [2]:
doc_html = '''
<html><head><title>Pizza de Dados</title></head>
<body>
<section id="about">
         <div class="user-details">
  <p class='title'> Sobre o Pizza de Dados </p>
  <p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>

  <p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>

  <p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>

<ol>
    <li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
    <li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
    <li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
</ol>

  <p> Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! </p>
</div>

      </section>
    <div class="header-links">
        <a class="link" href="#about" data-scroll="">Sobre</a>
        <a class="link" href="#pizzaiolos" data-scroll="">Quem somos</a>
        <a class="link" target="_blank" href="https://medium.com/pizzadedados">Revista</a>
        <a class="link" target="_blank" href="https://podcast.pizzadedados.com/">Episódios</a>
        <a class="link" href="#vemcomagente" data-scroll="">Assine</a>
        <a class="link" href="#vemcomagente" data-scroll="">Apoie</a>
      </div>
'''

In [3]:
sopa = BeautifulSoup(doc_html, 'html.parser')

In [4]:
print(sopa.prettify()[0:400])

<html>
 <head>
  <title>
   Pizza de Dados
  </title>
 </head>
 <body>
  <section id="about">
   <div class="user-details">
    <p class="title">
     Sobre o Pizza de Dados
    </p>
    <p>
     O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a to


## Tags

In [11]:
sopa = BeautifulSoup('<p class="title"> Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! </p>', 'html.parser')

tag = sopa.p
type(tag)

bs4.element.Tag

In [6]:
tag.name

'p'

In [7]:
tag.name = 'podcast'

In [8]:
tag.name

'podcast'

## Atributos

In [13]:
tag['class']

['title']

In [14]:
tag.attrs

{'class': ['title']}

In [16]:
tag['id'] = 3
tag.attrs

{'class': ['title'], 'id': 3}

In [17]:
tag

<p class="title" id="3"> Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! </p>

In [18]:
sopa = BeautifulSoup(doc_html, 'html.parser')
sopa.title

<title>Pizza de Dados</title>

In [19]:
sopa.ol

<ol>
<li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
<li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
<li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
</ol>

## Parseando Dados

In [20]:
import re

In [21]:
apenas_texto = sopa.get_text()
print(apenas_texto)


Pizza de Dados



 Sobre o Pizza de Dados 
 O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.
 O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.
 Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:

Só vamos fazer isso enquanto estiver divertido para todos;
Não vamos fazer por pressão (de datas, de publicação, de frequência…);
Nem todos os pizzaiolos originais devem estar em um episódio.

 Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! 



Sobre
Quem somos
Revista
Episódios
Assine
A

In [22]:
sopa.find_all(id='link 4')

[]

In [23]:
sopa.find_all(['ol', 'p'])

[<p class="title"> Sobre o Pizza de Dados </p>,
 <p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>,
 <p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>,
 <p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>,
 <ol>
 <li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
 <li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
 <li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
 </ol>,
 <p> Esperamos que você se divirta, nos dê fee

In [24]:
l = re.compile('l')
for tag in sopa.find_all(l):
    print(tag)

<html><head><title>Pizza de Dados</title></head>
<body>
<section id="about">
<div class="user-details">
<p class="title"> Sobre o Pizza de Dados </p>
<p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>
<p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>
<p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>
<ol>
<li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
<li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
<li>Nem todos os pizzaiolos origi

In [25]:
for link in sopa.find_all("a"):
    print(link.get('href'))

#about
#pizzaiolos
https://medium.com/pizzadedados
https://podcast.pizzadedados.com/
#vemcomagente
#vemcomagente


In [27]:
sopa.find_all(string=re.compile("ciência"))

[' O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.',
 ' O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.']

## Raspando dados

In [28]:
from requests import get

In [29]:
r = get("https://pizzadedados.com")

In [31]:
sopa = BeautifulSoup(r.content.decode("utf-8"), 'html.parser')

In [32]:
print(sopa.prettify()[:100])

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http


In [33]:
for link in sopa.find_all("a"):
    print(link.get('href'))

/cdn-cgi/l/email-protection#0f7f6675756e6b6a6b6e6b607c4f68626e6663216c6062
https://twitter.com/pizzadedados
https://fb.com/pizzadedados
https://youtube.com/c/pizzadedados
https://www.instagram.com/pizzadedados
https://github.com/pizzadedados
#about
#pizzaiolos
https://medium.com/pizzadedados
https://podcast.pizzadedados.com/
#vemcomagente
#vemcomagente
/en
#about
https://guia.datascience.pizza/
https://leportella.com
https://jtemporal.com
https://gusrabbit.com
https://itunes.apple.com/us/podcast/pizza-de-dados/id1323137071
https://open.spotify.com/show/5k0Ei0MSg5BuiHshr43aSg
https://feeds.feedburner.com/PizzaDeDados
https://apoia.se/pizzadedados
https://databootcamp.com.br
https://databootcamp.com.br
https://github.com/nrandecker


In [34]:
parametros = {'href': re.compile('^http')}
for link in sopa.find_all('a', attrs=parametros):
    print(link)
    

<a aria-label="Twitter" href="https://twitter.com/pizzadedados" target="_blank"><i aria-hidden="true" class="icon fa fa-twitter"></i></a>
<a aria-label="Facebook" href="https://fb.com/pizzadedados" target="_blank"><i aria-hidden="true" class="icon fa fa-facebook-square"></i></a>
<a aria-label="YouTube" href="https://youtube.com/c/pizzadedados" target="_blank"><i aria-hidden="true" class="icon fa fa-youtube-play"></i></a>
<a aria-label="Instagram" href="https://www.instagram.com/pizzadedados" target="_blank"><i aria-hidden="true" class="icon fa fa-instagram"></i></a>
<a aria-label="Github" href="https://github.com/pizzadedados" target="_blank"><i aria-hidden="true" class="icon fa fa-github-alt"></i></a>
<a class="link" href="https://medium.com/pizzadedados" target="_blank">Revista</a>
<a class="link" href="https://podcast.pizzadedados.com/" target="_blank">Episódios</a>
<a href="https://guia.datascience.pizza/">datascience.pizza</a>
<a class="project-link" href="https://leportella.com">

In [35]:
file = open("pizza_Data.txt", 'w')

for link in sopa.find_all('a', attrs=parametros):
    sopa_link = str(link.get('href'))
    print(sopa_link)
    file.write(sopa_link)
    file.write("\n")
    
file.flush()
file.close()

https://twitter.com/pizzadedados
https://fb.com/pizzadedados
https://youtube.com/c/pizzadedados
https://www.instagram.com/pizzadedados
https://github.com/pizzadedados
https://medium.com/pizzadedados
https://podcast.pizzadedados.com/
https://guia.datascience.pizza/
https://leportella.com
https://jtemporal.com
https://gusrabbit.com
https://itunes.apple.com/us/podcast/pizza-de-dados/id1323137071
https://open.spotify.com/show/5k0Ei0MSg5BuiHshr43aSg
https://feeds.feedburner.com/PizzaDeDados
https://apoia.se/pizzadedados
https://databootcamp.com.br
https://databootcamp.com.br
https://github.com/nrandecker
