# Beautiful Soup

```
pip install bs4
pip install lxml
```

In [1]:
from bs4 import BeautifulSoup

In [3]:
# Carregando o conteúdo HTML
html_doc = """
<html><head><title>Título</title></head>
<body><p class="titulo">Parágrafo.</p></body></html>
"""

In [20]:
# Inicializando o BeautifulSoup com lxml
soup = BeautifulSoup(html_doc, "lxml")

In [5]:
# Acessando o título da página
title = soup.title
print(title.text)

Título


In [6]:
# Acessando parágrafos e classes
p = soup.find("p", class_="titulo")
print(p.text)

Parágrafo.


- BeautifulSoup: Representa o documento inteiro
- Tag: Representa uma única tag do documento

In [7]:
soup = BeautifulSoup("<html><body></body></html>", "html.parser")
print(soup.body)

<body></body>


- NavigableString: Contém strings de texto dentro de tags
- Comment: Representa comentários no HTML/XML

In [8]:
text = soup.body.string     # Retorna o texto dentro de uma tag
comment = soup.find(string=lambda text: isinstance(text, comment))

### Buscando Tags e Atributos

In [13]:
# Encontrando todas as tags <a> (links)
links = soup.find_all("a")
for link in links:
    print(link.get("href"))

# Acessando atributos
img = soup.find("img")
# print(img["src"])   # Acessando o atributo "src"

In [14]:
# Usando seletores CSS
items = soup.select("div#main ul.items li")
for item in items:
    print(item.text)

In [21]:
# Modificando o conteúdo de uma tag
soup.title.string = "Novo Título"
print(soup.title)

# Trabalhando com XML
xml_doc = """<data><item name="item1">Item 1</item></data>"""
soup = BeautifulSoup(xml_doc, "xml")
item = soup.find("item")
print(item["name"])

<title>Novo Título</title>
item1


> Acessando Filhos e Descendentes

In [25]:
# Carregando o conteúdo HTML
html_doc = "<html><body><p>Texto</p></body></html>"
soup = BeautifulSoup(html_doc, "html.parser")

# Acessando filhos da tag <body>
body_tag = soup.body
print(body_tag.contents)

[<p>Texto</p>]


In [26]:
# Iterando sobre os filhos
for child in body_tag.children:
    print(child)

<p>Texto</p>


In [27]:
# Acessando todos os descendentes
for docs in body_tag.descendants:
    print(docs)

<p>Texto</p>
Texto


> Navegando Entre Irmãos

In [30]:
html_doc = """
<html><body>
<p>Texto 1</p>
<p>Texto 2</p>
<p>Texto 3</p>
</body></html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')

# Próximo irmão da primeira tag <p>
first_p = soup.p
next_p = first_p.find_next_sibling('p')
print(next_p.text) 

Texto 2


> Navegando entre Elementos Adjacentes

In [31]:
html_doc = """
<html><body>
<p>Texto 1</p>
<a href="#">Link</a>
<p>Texto 2</p>
</body></html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')

In [32]:
# Acessando o próximo elemento após a tag <p>
first_p = soup.p
next_element = first_p.find_next('a')
print(next_element)

<a href="#">Link</a>


In [33]:
# Acessando o elemento anterior
previous_element = next_element.find_previous('p')
print(previous_element.text)

Texto 1


# XPath com Beautiful Soup

In [3]:
from lxml import etree

In [20]:
html = """
<div id="main">
    <div class="example">First</div>
    <div class="example">Second</div>
    <div class="sample">Third</div>
    <abc class="example">Sei lá</abc>
</div>
"""

In [21]:
tree = etree.HTML(html)
elements = tree.xpath("//div[@id='main']/abc[@class='example']")
print(elements[0].text)

Sei lá
