<a href="https://colab.research.google.com/github/joaocbjr/Learn_DataScience/blob/main/Cap8_Coletando_dados_na_internet_com_BeautifulSoup.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

___
## Introdução ao BeautifulSoup e a raspagem de dados
___

In [2]:
from bs4 import BeautifulSoup

### O objeto BeautifulSoup

In [3]:
doc_html = '''
<html><head><title>Pizza de Dados</title></head>
<body>
<section id="about">
         <div class="user-details">
  <p class='title'> Sobre o Pizza de Dados </p>
  <p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>

  <p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>

  <p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>

<ol>
    <li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
    <li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
    <li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
</ol>

  <p> Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! </p>
</div>

      </section>
    <div class="header-links">
        <a class="link" href="#about" data-scroll="">Sobre</a>
        <a class="link" href="#pizzaiolos" data-scroll="">Quem somos</a>
        <a class="link" target="_blank" href="https://medium.com/pizzadedados">Revista</a>
        <a class="link" target="_blank" href="https://podcast.pizzadedados.com/">Episódios</a>
        <a class="link" href="#vemcomagente" data-scroll="">Assine</a>
        <a class="link" href="#vemcomagente" data-scroll="">Apoie</a>
      </div>
'''

In [4]:
sopa = BeautifulSoup(doc_html, 'html.parser')
print(sopa)


<html><head><title>Pizza de Dados</title></head>
<body>
<section id="about">
<div class="user-details">
<p class="title"> Sobre o Pizza de Dados </p>
<p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>
<p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>
<p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>
<ol>
<li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
<li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
<li>Nem todos os pizzaiolos orig

In [5]:
print(sopa.prettify()[0:350])

<html>
 <head>
  <title>
   Pizza de Dados
  </title>
 </head>
 <body>
  <section id="about">
   <div class="user-details">
    <p class="title">
     Sobre o Pizza de Dados
    </p>
    <p>
     O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprend


### Objetos Tag

#### Trabalhando com nomes

In [6]:
sopa = BeautifulSoup('<b body="description">O primeiro e o mais querido podcast sobre ciência de dados no Brasil</b>',
                     'html.parser')

tag = sopa.b
type(tag)

bs4.element.Tag

In [7]:
print(tag)

<b body="description">O primeiro e o mais querido podcast sobre ciência de dados no Brasil</b>


In [8]:
tag.name

'b'

In [9]:
tag.name = 'podcast'
tag

<podcast body="description">O primeiro e o mais querido podcast sobre ciência de dados no Brasil</podcast>

In [10]:
tag.name

'podcast'

#### Trabalhando com atributos

In [11]:
tag['body']

'description'

In [12]:
tag.attrs

{'body': 'description'}

In [13]:
tag['id'] = 3
tag.attrs

{'body': 'description', 'id': 3}

In [14]:
tag

<podcast body="description" id="3">O primeiro e o mais querido podcast sobre ciência de dados no Brasil</podcast>

In [15]:
del tag['body']
tag

<podcast id="3">O primeiro e o mais querido podcast sobre ciência de dados no Brasil</podcast>

In [16]:
tag.attrs

{'id': 3}

#### Usando tags

In [17]:
sopa = BeautifulSoup(doc_html, 'html.parser')
sopa.head

<head><title>Pizza de Dados</title></head>

In [18]:
sopa.body

<body>
<section id="about">
<div class="user-details">
<p class="title"> Sobre o Pizza de Dados </p>
<p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>
<p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>
<p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>
<ol>
<li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
<li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
<li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
</ol>
<p> E

___
## Parseando dados
___

In [20]:
doc_html = '''
<html><head><title>Pizza de Dados</title></head>
<body>
<section id="about">
         <div class="user-details">
  <p class='title'> Sobre o Pizza de Dados </p>
  <p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>

  <p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>

  <p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>

<ol>
    <li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
    <li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
    <li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
</ol>

  <p> Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! </p>
</div>

      </section>
    <div class="header-links">
        <a class="link" href="#about" id="link 1">Sobre</a>
        <a class="link" href="#pizzaiolos" id="link 2">Quem somos</a>
        <a class="link" target="_blank" href="https://medium.com/pizzadedados" id="link 3">Revista</a>
        <a class="link" target="_blank" href="https://podcast.pizzadedados.com/" id="link 4">Episódios</a>
        <a class="link" href="#vemcomagente" id="link 5">Assine</a>
        <a class="link" href="#vemcomagente" id="link 6">Apoie</a>
      </div>
'''

In [21]:
from bs4 import BeautifulSoup

import re

In [22]:
sopa = BeautifulSoup(doc_html, 'html.parser')
type(sopa)

bs4.BeautifulSoup

### Pegando dados de uma árvore

In [23]:
apenas_texto = sopa.get_text()
print(apenas_texto)


Pizza de Dados



 Sobre o Pizza de Dados 
 O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.
 O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.
 Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:

Só vamos fazer isso enquanto estiver divertido para todos;
Não vamos fazer por pressão (de datas, de publicação, de frequência…);
Nem todos os pizzaiolos originais devem estar em um episódio.

 Esperamos que você se divirta, nos dê feedback e aprenda um pouquinho! 



Sobre
Quem somos
Revista
Episódios
Assine
A

### Buscando e reavendo dados de uma árvore

#### Reavendo tags por meio de filtros

In [24]:
sopa.find_all(id="link 4")

[<a class="link" href="https://podcast.pizzadedados.com/" id="link 4" target="_blank">Episódios</a>]

#### Reavendo tags por meio de filtros usando listas

In [25]:
sopa.find_all(['ol', 'p'])

[<p class="title"> Sobre o Pizza de Dados </p>,
 <p> O Pizza de Dados é uma iniciativa de 3 apaixonados por ciência de dados que viviam discutindo assuntos, links e conselhos de carreira. A vontade de aprender mais e compartilhar conhecimento era comum a todos e a ausência de um canal em português para tratar desses temas, levou à ideia de formar o pizza de dados.</p>,
 <p> O nome é uma espécie de “homenagem” ao repositório datascience.pizza, que se tornou em pouco tempo uma referência de material de estudos de ciência de dados em português.</p>,
 <p> Por ser algo feito de forma simples e leve por pessoas que normalmente se enfiam em muitos projetos ao mesmo tempo, o Pizza de Dados tem 3 regras básicas:</p>,
 <ol>
 <li>Só vamos fazer isso enquanto estiver divertido para todos;</li>
 <li>Não vamos fazer por pressão (de datas, de publicação, de frequência…);</li>
 <li>Nem todos os pizzaiolos originais devem estar em um episódio.</li>
 </ol>,
 <p> Esperamos que você se divirta, nos dê fee

#### Reavendo tags usando regex


In [26]:
l = re.compile('l')
for tag in sopa.find_all(l):
    print(tag.name)

html
title
ol
li
li
li
