In [19]:
import requests
from xml.etree import ElementTree as ET
import kit_function
from IPython.display import clear_output
import pandas as pd

In [27]:
def read_sitemap(url):
    """
    Lê um sitemap XML a partir de uma URL e retorna uma lista de URLs encontradas.

    Args:
        url (str): A URL do sitemap que será lido.

    Returns:
        list: Uma lista de strings, cada uma representando uma URL extraída do sitemap. 
              Se houver algum erro na requisição ou no parsing do XML, retorna uma lista vazia.

    Exceções Tratadas:
        - requests.exceptions.RequestException: Captura erros de requisição HTTP, como falha de conexão ou URL inválida.
        - xml.etree.ElementTree.ParseError: Captura erros de parsing XML, como formato inválido do XML.

    Exemplo:
        sitemap_url = 'https://www.seusite.com/sitemap.xml'
        urls = read_sitemap(sitemap_url)
        for url in urls:
            print(url)
    """
    try:
        # Fazendo uma requisição HTTP para obter o conteúdo do sitemap
        response = requests.get(url)
        response.raise_for_status()  # Verifica se a requisição foi bem-sucedida

        # Parsing do XML
        root = ET.fromstring(response.content)

        # Extraindo todas as URLs do sitemap
        urls = [element.text for element in root.findall(".//{http://www.sitemaps.org/schemas/sitemap/0.9}loc")]

        return urls
    except requests.exceptions.RequestException as e:
        print(f"Erro ao acessar o sitemap: {e}")
        return []
    except ET.ParseError as e:
        print(f"Erro ao processar o XML: {e}")
        return []

In [21]:
sitemap_xml = ['https://www.tramontina.com.br/sitemap_0-product.xml',
         'https://www.tramontina.com.br/sitemap_1-product.xml',
         'https://www.tramontina.com.br/sitemap_2-product.xml']

links_produto = {'Links' : []}

In [22]:
for sitemap in sitemap_xml:
    arr_links = read_sitemap(sitemap)
    links_produto['Links'].extend(arr_links)  # Adiciona todos os links de uma vez
links_produto

{'Links': ['https://www.tramontina.com.br/tabua-para-churrasco-tramontina-retangular-cubus-em-madeira-teca-com-acabamento-envernizado-50-x-38-cm/10019050.html',
  'https://www.tramontina.com.br/tabua-pequena-tramontina-delicate-em-madeira-tauari-com-cabo-reto/10120082.html',
  'https://www.tramontina.com.br/tabua-media-tramontina-delicate-em-madeira-tauari-com-cabo-reto/10121082.html',
  'https://www.tramontina.com.br/kit-caipirinha-tramontina-03-pecas/10239211.html',
  'https://www.tramontina.com.br/conjunto-toc-toc-tramontina-delicate-com-tabua-e-martelo-em-madeira-tauari/10239536.html',
  'https://www.tramontina.com.br/tabua-para-churrasco-tramontina-mix-grill-oval-em-ferro-fundido-com-base-em-madeira-teca-com-cabo-38-5-x-19-cm/10239638.html',
  'https://www.tramontina.com.br/kit-de-tabuas-para-alimentos-tramontina-em-madeira-tauari-com-acabamento-lixado-03-pecas/10239664.html',
  'https://www.tramontina.com.br/mix-gril-retangular-em-ferro-fundido-com-base-em-madeira-teca--com-acaba

In [24]:
#Cria o DataFrame dos links
df = pd.DataFrame(links_produto)
xlsx_dir = '../Dados/links_produtos.xlsx'
df.to_excel(xlsx_dir, index=False)