# lxml  lib

A biblioteca **`lxml`** é uma das mais poderosas e flexíveis ferramentas em Python para processar XML e HTML. Ela combina a velocidade e eficiência das bibliotecas C **libxml2** e **libxslt** com a simplicidade e familiaridade da API do Python. Isso a torna uma excelente escolha para web scraping, parsing de XML em larga escala, transformação XSLT, e validação de esquemas.

Enquanto `BeautifulSoup` é conhecida por sua capacidade de lidar com HTML malformado (graças a parsers como `html.parser`), `lxml` é geralmente **mais rápida** e **mais aderente aos padrões XML/HTML**, oferecendo um controle mais preciso sobre a estrutura do documento.

### Como `lxml` Funciona?

`lxml` opera criando uma representação em árvore do seu documento XML ou HTML na memória. Essa árvore é baseada na especificação do **ElementTree API**, que é um padrão para manipulação de XML em Python.

Você pode criar essa árvore a partir de uma string, um arquivo, ou até mesmo um URL, e então usar métodos para navegar, buscar, modificar e serializar o documento.


In [1]:
%pip install lxml cssselect

Note: you may need to restart the kernel to use updated packages.


### Módulos Principais em `lxml`

`lxml` é dividido em alguns módulos principais:

  - **`lxml.etree`**: O módulo principal para trabalhar com XML. Fornece a API ElementTree.
  - **`lxml.html`**: Um módulo de conveniência construído sobre `lxml.etree` para tornar o trabalho com HTML mais fácil, adicionando funcionalidades específicas de HTML (como manipulação de formulários, tratamento de links, etc.). É o módulo que você mais usará para web scraping.

### Métodos e Propriedades Principais

Vamos usar exemplos práticos para demonstrar os principais métodos e propriedades.

Primeiro, preparemos um documento HTML de exemplo e um XML de exemplo para cobrir ambos os cenários:

In [2]:
import io # Para simular arquivos
from lxml import (
    html, # para HTML
    etree,  # Para XML
)
from lxml.html import HtmlElement
from lxml.etree import _Element # Importe _Element explicitamente
from data import xml_doc, html_doc  # data.py

### 1. Criação e Parsers

  - **`html.fromstring(html_string)`**: Cria uma árvore HTML a partir de uma string.
  - **`html.parse(file_object_or_path)`**: Cria uma árvore HTML a partir de um arquivo ou URL.
  - **`etree.fromstring(xml_string)`**: Cria uma árvore XML a partir de uma string.
  - **`etree.parse(file_object_or_path)`**: Cria uma árvore XML a partir de um arquivo ou URL.
  - **`html.document_fromstring()` / `etree.fromstring()`**: Função para parsing robusto de strings.


In [3]:
# Criando as árvores de análise
html_tree:HtmlElement = html.fromstring(html_doc)
# html_tree=html.parse('c:/file.html')
# html_tree=html.parse('http://xpto.com')
print(html.tostring(html_tree, pretty_print=True).decode())


<html lang="pt-br">
<head>
    <meta charset="UTF-8">
    <title>Exemplo BeautifulSoup</title>
    <link rel="stylesheet" href="styles.css">
</head>
<body>
    <header>
        <h1>Bem-vindo ao Meu Site</h1>
        <nav>
            <ul id="lista-produtos">
                <li><a href="/" class="menu-link active" id="home">Home</a></li>
                <li><a href="/sobre" class="menu-link">Sobre N&#243;s</a></li>
                <li><a href="/contato" class="menu-link">Contato</a></li>
            </ul>
        </nav>
    </header>

    <main>
        <section id="primeira-secao">
            <h2>Nossa Hist&#243;ria</h2>
            <p class="paragrafo-info">Este &#233; um par&#225;grafo sobre a hist&#243;ria da empresa.</p>
            <p>Este &#233; outro par&#225;grafo.</p>
            <img src="historia.jpg" alt="Foto hist&#243;rica" data-id="123">
        </section>

        <section class="conteudo-extra">
            <h3>Nossos Servi&#231;os</h3>
            <div class="servic

In [4]:
xml_tree: _Element = etree.fromstring(xml_doc.encode(
    'utf-8'))  # Para XML, usamos etree.fromstring
# xml_tree=etree.parse('c:/file.xml')
# xml_tree=etree.parse('http://xpto.com')
print(etree.tostring(xml_tree, pretty_print=True).decode())

<livros>
    <livro id="bk001" categoria="ficcao">
        <titulo>A Jornada Estelar</titulo>
        <autor>Alice Smith</autor>
        <ano>2020</ano>
        <preco moeda="USD">25.00</preco>
    </livro>
    <livro id="bk002" categoria="tecnologia">
        <titulo>Python Avan&#231;ado</titulo>
        <autor>Bob Johnson</autor>
        <ano>2022</ano>
        <preco moeda="BRL">120.00</preco>
    </livro>
</livros>



### 2. Navegação na Árvore (Propriedades)

Elementos em `lxml` (objetos `Element` ou `HtmlElement`) têm várias propriedades para navegação:

  - **`element.tag`**: O nome da tag (ex: `'div'`, `'p'`).
  - **`element.text`**: O texto diretamente contido *dentro* da tag, mas *antes* de qualquer tag filha.
  - **`element.tail`**: O texto que vem *imediatamente depois* da tag de fechamento do elemento, mas antes da próxima tag irmão.
  - **`element.getparent()`**: O elemento pai.
  - **`element.getchildren()`**: Uma lista de filhos diretos.
  - **`element.find(css_or_xpath)` / `element.findall(css_or_xpath)`**: Métodos para encontrar elementos dentro de um contexto.
  - **`element.iter()`**: Itera sobre o elemento e todos os seus descendentes.
  - **`element.xpath(xpath_expr)`**: O método mais poderoso para busca.
  - **`element.cssselect(css_selector)`**: Método para busca via seletores CSS (disponível em `lxml.html`).


In [5]:
print("--- Navegação na Árvore (HTML) ---")

# Acessando o corpo do HTML
body_element:HtmlElement = html_tree.body
print(f"Tag do corpo: {body_element.tag}")

# Acessando o título principal (H1)
h1_element:HtmlElement = html_tree.xpath('//h1')[0] # Usando XPath para pegar o primeiro H1
print(f"Texto do H1: '{h1_element.text}'")

# Acessando o pai do H1
header_element:HtmlElement = h1_element.getparent()
print(f"Pai do H1 (tag): {header_element.tag}")

# Iterando sobre os filhos de <ul>
ul_element:HtmlElement = html_tree.get_element_by_id('primeira-secao')
print("\nFilhos da primeira-secao:")
for child in ul_element.getchildren():
    print(f"  - <{child.tag}> - '{child.text}'")

# Acessando o texto e o tail (texto após a tag)
p_intro:HtmlElement = html_tree.xpath('//div[@class="servico"]')[0]
print(f"\nTexto do parágrafo intro: '{p_intro.text}'")
# Note: 'tail' seria relevante se houvesse texto entre </p> e a próxima tag irmão.
# Para o segundo parágrafo:
p_second:HtmlElement = html_tree.xpath('//section[@id="primeira-secao"]/p')[1]
print(f"Texto do segundo parágrafo: '{p_second.text}'")

--- Navegação na Árvore (HTML) ---
Tag do corpo: body
Texto do H1: 'Bem-vindo ao Meu Site'
Pai do H1 (tag): header

Filhos da primeira-secao:
  - <h2> - 'Nossa História'
  - <p> - 'Este é um parágrafo sobre a história da empresa.'
  - <p> - 'Este é outro parágrafo.'
  - <img> - 'None'

Texto do parágrafo intro: '
                '
Texto do segundo parágrafo: 'Este é outro parágrafo.'


### 3. Atributos de Elementos (Propriedades e Métodos)

  - **`element.attrib`**: Um dicionário contendo todos os atributos do elemento.
  - **`element.get('attribute_name')`**: Retorna o valor de um atributo. Mais seguro que o acesso direto, pois não levanta erro se o atributo não existir (retorna `None`).
  - **`element.set('attribute_name', 'value')`**: Define o valor de um atributo.
  - **`del element.attrib['attribute_name']`**: Remove um atributo.


In [6]:
print("\n--- Acesso e Modificação de Atributos (HTML) ---")

# Acessando atributos do link Home
link_home:HtmlElement = html_tree.xpath('//a[@class="scroll-top"]')[0]
print(f"\nHref do link Home: {link_home.get('href')}")
print(f"Classes do link Home: {link_home.get('class')}") # Retorna string se for 1, lista se múltiplos

# Acessando todos os atributos de uma imagem
img_element:HtmlElement = html_tree.xpath('//img')[0]
print(f"Atributos da imagem: {img_element.attrib}")
print(f"Atributo 'data-version': {img_element.get('data-version')}")

# Modificando um atributo
img_element.set('alt', 'Novo Alt da Imagem')
print(f"Novo alt da imagem: {img_element.get('alt')}")

# Adicionando um novo atributo
img_element.set('data-new-attr', 'algum valor')
print(f"Imagem com novo atributo: {img_element.attrib}")

# Removendo um atributo
del img_element.attrib['data-id']
print(f"Imagem sem 'data-version': {img_element.attrib}")


--- Acesso e Modificação de Atributos (HTML) ---

Href do link Home: #topo
Classes do link Home: scroll-top
Atributos da imagem: {'src': 'historia.jpg', 'alt': 'Foto histórica', 'data-id': '123'}
Atributo 'data-version': None
Novo alt da imagem: Novo Alt da Imagem
Imagem com novo atributo: {'src': 'historia.jpg', 'alt': 'Novo Alt da Imagem', 'data-id': '123', 'data-new-attr': 'algum valor'}
Imagem sem 'data-version': {'src': 'historia.jpg', 'alt': 'Novo Alt da Imagem', 'data-new-attr': 'algum valor'}


### 4. Busca de Elementos (Métodos Essenciais)

`lxml` brilha com suas capacidades de busca:

  - **`element.xpath(xpath_expression)`**: O método mais poderoso para buscar elementos usando expressões XPath 1.0. Retorna uma lista de elementos, strings ou atributos.
      - Ex: `//a`, `//div[@class="my-class"]`, `//img/@src`, `//p[contains(text(), 'algum texto')]`
  - **`element.cssselect(css_selector)`**: Disponível no módulo `lxml.html`. Permite usar seletores CSS (como no BeautifulSoup) para encontrar elementos.
      - Ex: `div.my-class`, `a#myId`, `p:nth-child(2)`
  - **`element.find()` / `element.findall()`: (ElementTree API)** Métodos mais simples para buscar descendentes diretos ou em qualquer nível, mas não tão poderosos quanto XPath ou CSS Selectors.


In [7]:
# Usando XPath (mais comum e poderoso em lxml)
print("\nBuscas com XPath:")
# Seleciona todos os links
all_links:HtmlElement = html_tree.xpath('//a')
print(f"Total de links: {len(all_links)}")

# Seleciona todos os itens de produto
product_items:HtmlElement = html_tree.xpath('//li[@class="item-produto"]')
print("Itens de produto:")
for item in product_items:
    print(f"  - {item.text}")

# Seleciona o texto de um atributo (src da imagem)
image_src:HtmlElement = html_tree.xpath('//img/@src')[0]
print(f"Src da imagem: {image_src}")

# Seleciona o título do segundo livro no XML
segundo_titulo_xml:_Element = xml_tree.xpath('//livro[2]/titulo/text()')[0]
print(f"Título do segundo livro (XML): '{segundo_titulo_xml}'")

# Usando CSS Selectors (apenas em lxml.html)
print("\nBuscas com CSS Selectors:")
# Seleciona o parágrafo com a classe 'servico'
intro_div:HtmlElement = html_tree.cssselect('div.servico')[0]
print(f"Texto do parágrafo intro (CSS): '{intro_div.text}'")

# Seleciona todos os elementos com a classe 'nav-link'
nav_links_css:HtmlElement = html_tree.cssselect('.nav-link')
print("Links de navegação (CSS):")
for link in nav_links_css:
    print(f"  - {link.text} (Href: {link.get('href')})")

# Seleciona o terceiro item da lista de produtos
terceiro_produto_css:HtmlElement = html_tree.cssselect('#primeira-secao *:nth-child(3)')[0]
print(f"Terceiro produto (CSS): '{terceiro_produto_css.text}'")


Buscas com XPath:
Total de links: 4
Itens de produto:
Src da imagem: historia.jpg
Título do segundo livro (XML): 'Python Avançado'

Buscas com CSS Selectors:
Texto do parágrafo intro (CSS): '
                '
Links de navegação (CSS):
Terceiro produto (CSS): 'Este é outro parágrafo.'


### 5. Modificação da Árvore

`lxml` oferece métodos para adicionar, remover e substituir elementos na árvore.

  - **`element.append(child_element)`**: Adiciona um elemento filho no final.
  - **`element.insert(position, child_element)`**: Insere um elemento filho em uma posição específica.
  - **`element.remove(child_element)`**: Remove um filho direto.
  - **`element.addnext(element)`**: Adiciona um irmão após o elemento atual.
  - **`element.addprevious(element)`**: Adiciona um irmão antes do elemento atual.
  - **`element.replace(old_child, new_child)`**: Substitui um filho.
  - **`element.getparent().remove(element)`**: Remove o próprio elemento (um pouco mais verboso que `BeautifulSoup.extract()`).


In [11]:
# Modificando o texto de um elemento
footer_p_lxml = html_tree.xpath('//footer/p')[0]
footer_p_lxml.text = "© 2025 LXML Demo - Direitos Reservados."
print(f"\nParágrafo do rodapé modificado: '{footer_p_lxml.text}'")

# Adicionando um novo item à lista de produtos
lista_produtos = html_tree.get_element_by_id('lista-produtos')
new_li = etree.Element('li', attrib={'class': 'item-produto'}) # Criando um novo elemento
new_li.text = "Smartwatch"
lista_produtos.append(new_li)
print("\nLista de produtos após adicionar 'Smartwatch':")
# Para ver o HTML atualizado, precisamos serializá-lo
print(etree.tostring(lista_produtos, pretty_print=True, encoding='unicode'))

# Removendo um elemento
item_tablet = html_tree.xpath('//li/a[text()="Contato"]')[0]
item_tablet.getparent().remove(item_tablet) # Remove o 'Contato' da lista
print("\nLista de produtos após remover 'Contato':")
print(etree.tostring(lista_produtos, pretty_print=True, encoding='unicode'))

# Substituindo um elemento
old_h1 = html_tree.xpath('//h1')[0]
new_h1 = etree.Element('h1')
new_h1.text = "Bem-vindo Novamente!"
old_h1.getparent().replace(old_h1, new_h1)
print("\nHTML do cabeçalho após substituir H1:")
print(etree.tostring(html_tree.xpath('//header')[0], pretty_print=True, encoding='unicode'))


Parágrafo do rodapé modificado: '© 2025 LXML Demo - Direitos Reservados.'

Lista de produtos após adicionar 'Smartwatch':
<ul id="lista-produtos">
                <li><a href="/" class="menu-link active" id="home">Home</a></li>
                <li><a href="/sobre" class="menu-link">Sobre Nós</a></li>
                <li><a href="/contato" class="menu-link">Contato</a></li>
            <li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li></ul>
        


Lista de produtos após remover 'Contato':
<ul id="lista-produtos">
                <li><a href="/" class="menu-link active" id="home">Home</a></li>
                <li><a href="/sobre" class="menu-link">Sobre Nós</a></li>
                <li/>
            <li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li><li class="item-produto">Smartwatch</li></ul>
        


H

### 6. Serialização (Salvando a Árvore)

  - **`etree.tostring(element, pretty_print=False, encoding='utf-8', xml_declaration=False)`**: Converte um elemento (ou a árvore inteira) de volta para uma string de bytes ou unicode.
      - `pretty_print`: Se `True`, formata a saída com indentação.
      - `encoding`: Codificação da saída. Se `unicode`, retorna string Python.
      - `xml_declaration`: Se `True`, inclui `<?xml version="1.0"?>` no início (para XML).

**Exemplos:** (Já vistos nos exemplos de modificação)


### Outros Recursos Avançados

  - **XSLT Transformations**: `lxml` tem suporte completo a XSLT para transformar documentos XML/HTML.
  - **Schema Validation**: Suporte para validação de XML contra DTDs, XML Schema e RelaxNG.
  - **Namespaces**: Gerenciamento robusto de namespaces em XML.
  - **Error Handling**: Controle detalhado sobre como erros de parsing são tratados.
  - **Iteração Eficiente**: Métodos como `iterparse` para parsing de grandes arquivos XML sem carregar tudo na memória.
