# Obter URLs e salvar em Markdown

In [1]:
import requests
from bs4 import BeautifulSoup
import os

# URL base do blog
base_url = 'https://www.conectaads.com.br/conteudos/'
pagina = 1
blog_urls = set()  # Usamos um conjunto para evitar duplicatas
paginas_acessadas = 0  # Contador de páginas acessadas

# Pasta de saída para salvar os arquivos Markdown
output_path = "../Input/Blog"
os.makedirs(output_path, exist_ok=True)

def sanitize_filename(name):
    """ Remove caracteres inválidos do nome do arquivo. """
    return "".join(c if c.isalnum() or c in (" ", "-", "_") else "_" for c in name)

# Coletar todas as URLs do blog paginando até a última página
while True:
    # Construir a URL paginada
    url = f'{base_url}page/{pagina}/' if pagina > 1 else base_url
    response = requests.get(url)

    # Verificar se a solicitação foi bem-sucedida
    if response.status_code != 200:
        print(f'❌ Falha ao acessar a página {pagina}. Código de status: {response.status_code}')
        break

    # Atualiza o número de páginas acessadas
    paginas_acessadas += 1

    # Analisar o conteúdo HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Encontrar todos os links de postagens
    links = soup.find_all('a', href=True)

    # Filtrar URLs que parecem ser de conteúdos do blog
    excluidos = ['home', 'contato', 'lgpd', 'blog', 'quem-somos', '/page/', 'categoria']
    novos_links = [
        link['href'] for link in links
        if link['href'].startswith('https://www.conectaads.com.br/') and
        not any(ex in link['href'] for ex in excluidos)
    ]

    # Adicionar ao conjunto de URLs
    blog_urls.update(novos_links)

    # Encontrar o link da próxima página corretamente pelo "href"
    next_page_link = soup.find('a', href=lambda href: href and "/page/" in href)

    # Se não houver próxima página, parar o loop
    if not next_page_link:
        break

    pagina += 1  # Ir para a próxima página

# Exibir o total de URLs encontrados e páginas acessadas
print(f"\n🔗 {len(blog_urls)} URLs encontrados em {paginas_acessadas} páginas acessadas.\n")

def extract_and_save(url):
    try:
        page = requests.get(url)
        if page.status_code == 200:
            soup = BeautifulSoup(page.content, 'html.parser')
            
            # Extrair título
            title = soup.find('h1') or soup.find('h2')
            if not title:
                print(f'❌ Não foi possível encontrar o título para {url}')
                return
            title_text = title.get_text(strip=True)
            
            # Extrair conteúdo principal
            content_div = soup.find('div', class_='elementor-widget-theme-post-content') or \
                          soup.find('div', class_='elementor-text-editor') or \
                          soup.find('div', class_='entry-content')
            
            if content_div:
                # Extrair todos os parágrafos, listas e cabeçalhos
                content_elements = content_div.find_all(['p', 'h2', 'h3', 'h4', 'ul', 'ol'])
                
                content_text = []
                for element in content_elements:
                    if element.name in ['h2', 'h3', 'h4']:
                        level = int(element.name[1])
                        content_text.append(f"\n{'#' * level} {element.get_text(strip=True)}\n")
                    elif element.name == 'ol':
                        items = [f"{i+1}. {li.get_text(strip=True)}" for i, li in enumerate(element.find_all('li'))]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'ul':
                        items = [f"- {li.get_text(strip=True)}" for li in element.find_all('li')]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    else:
                        content_text.append(element.get_text(strip=True))
                
                full_content = "\n".join(content_text)
            else:
                full_content = "Conteúdo principal não encontrado"
            
            # Criar nome do arquivo
            filename = os.path.join(output_path, sanitize_filename(title_text) + '.md')
            
            # Escrever o conteúdo no arquivo
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(f'# {title_text}\n\n')
                f.write(full_content)
            
            print(f'✅ Conteúdo salvo: {filename}')
    
    except Exception as e:
        print(f'❌ Erro ao processar {url}: {e}')

# Processar cada URL do blog
for blog_url in blog_urls:
    extract_and_save(blog_url)



🔗 105 URLs encontrados em 13 páginas acessadas.

✅ Conteúdo salvo: ../Input/Blog\AdTech_ o que é_ Para que serve_ Por que usar essa tecnologia_.md
✅ Conteúdo salvo: ../Input/Blog\Quais são as métricas mais importantes para as campanhas de Product Ads_.md
✅ Conteúdo salvo: ../Input/Blog\Tempo de resposta no Mercado Livre_ por que é importante_ Como funciona_.md
✅ Conteúdo salvo: ../Input/Blog\Novas regras para Loja Oficial no Mercado Livre já estão valendo_.md
✅ Conteúdo salvo: ../Input/Blog\Saiba tudo sobre ACOS no Mercado Livre Ads _Guia Completo_.md
✅ Conteúdo salvo: ../Input/Blog\Shopee Ads_ o que é_ Como funciona_ Confira nosso Guia completo_.md
✅ Conteúdo salvo: ../Input/Blog\Como Proteger Sua Conta no Mercado Livre_.md
✅ Conteúdo salvo: ../Input/Blog\Fotos dos produtos no Mercado Livre_ entenda o poder que elas têm_.md
✅ Conteúdo salvo: ../Input/Blog\A nova era do marketing_ como a retail media está revolucionando a publicidade_.md
✅ Conteúdo salvo: ../Input/Blog\Publicidade em 

In [4]:
import requests
from bs4 import BeautifulSoup
import os

# URL base do blog
base_url = 'https://www.conectaads.com.br/conteudos/'
pagina = 1
blog_urls = set()  # Usamos um conjunto para evitar duplicatas
paginas_acessadas = 0  # Contador de páginas acessadas

# Pasta de saída para salvar os arquivos Markdown
output_path = "../Input/Blog"
os.makedirs(output_path, exist_ok=True)

def sanitize_filename(name):
    """ Remove caracteres inválidos do nome do arquivo. """
    return "".join(c if c.isalnum() or c in (" ", "-", "_") else "_" for c in name)

# Coletar todas as URLs do blog paginando até a última página
print("🔍 Iniciando coleta de URLs do blog...")
while True:
    # Construir a URL paginada
    url = f'{base_url}page/{pagina}/' if pagina > 1 else base_url
    print(f"📄 Acessando página {pagina}: {url}")
    response = requests.get(url)

    # Verificar se a solicitação foi bem-sucedida
    if response.status_code != 200:
        print(f'❌ Falha ao acessar a página {pagina}. Código de status: {response.status_code}')
        break

    # Atualiza o número de páginas acessadas
    paginas_acessadas += 1

    # Analisar o conteúdo HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Encontrar todos os links de postagens
    links = soup.find_all('a', href=True)

    # Filtrar URLs que parecem ser de conteúdos do blog
    excluidos = ['home', 'contato', 'lgpd', 'blog', 'quem-somos', '/page/', 'categoria']
    novos_links = [
        link['href'] for link in links
        if link['href'].startswith('https://www.conectaads.com.br/') and
        not any(ex in link['href'] for ex in excluidos)
    ]

    # Adicionar ao conjunto de URLs
    blog_urls.update(novos_links)
    print(f"✅ Encontrados {len(novos_links)} links na página {pagina}")

    # Encontrar o link da próxima página corretamente pelo "href"
    next_page_link = soup.find('a', href=lambda href: href and "/page/" in href)

    # Se não houver próxima página, parar o loop
    if not next_page_link:
        print("⏹️ Última página encontrada")
        break

    pagina += 1  # Ir para a próxima página

# Exibir o total de URLs encontrados e páginas acessadas
print(f"\n🔗 Total de {len(blog_urls)} URLs encontrados em {paginas_acessadas} páginas acessadas.\n")
print("⏳ Iniciando extração de conteúdos...\n")

def extract_and_save(url):
    try:
        print(f"🌐 Acessando URL: {url}")
        page = requests.get(url)
        if page.status_code == 200:
            soup = BeautifulSoup(page.content, 'html.parser')
            
            # Extrair título
            title = soup.find('h1') or soup.find('h2')
            if not title:
                print(f'❌ Não foi possível encontrar o título para {url}')
                return
            title_text = title.get_text(strip=True)
            
            # Extrair conteúdo principal
            content_div = soup.find('div', class_='elementor-widget-theme-post-content') or \
                          soup.find('div', class_='elementor-text-editor') or \
                          soup.find('div', class_='entry-content')
            
            if content_div:
                # Extrair todos os parágrafos, listas e cabeçalhos
                content_elements = content_div.find_all(['p', 'h2', 'h3', 'h4', 'ul', 'ol', 'strong'])
                
                content_text = []
                for element in content_elements:
                    if element.name in ['h2', 'h3', 'h4']:
                        level = int(element.name[1])
                        content_text.append(f"\n{'#' * level} {element.get_text(strip=True)}\n")
                    elif element.name == 'ol':
                        items = [f"{i+1}. {li.get_text(strip=True)}" for i, li in enumerate(element.find_all('li'))]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'ul':
                        items = [f"- {li.get_text(strip=True)}" for li in element.find_all('li')]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'strong':
                        # Adiciona espaços antes e depois do texto em negrito
                        content_text.append(f" **{element.get_text(strip=True)}** ")
                    else:
                        # Para parágrafos normais, processamos cada nó individualmente
                        for content in element.contents:
                            if content.name == 'strong':
                                content_text.append(f" **{content.get_text(strip=True)}** ")
                            elif content.name is None:  # Texto normal
                                content_text.append(str(content).replace('\n', ' ').strip())
                
                full_content = "".join(content_text)
                # Remove espaços múltiplos e limpa a formatação
                full_content = " ".join(full_content.split())
            else:
                full_content = "Conteúdo principal não encontrado"
                print(f"⚠️ Conteúdo não encontrado em {url}")
            
            # Criar nome do arquivo
            filename = os.path.join(output_path, sanitize_filename(title_text) + '.md')
            
            # Escrever o conteúdo no arquivo
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(f'# {title_text}\n\n')
                f.write(full_content)
                # Adicionar URL de origem no final do arquivo
                f.write(f'\n\n---\n\nFonte: [{url}]({url})')
            
            print(f'✅ Conteúdo salvo: {filename}\n')
    
    except Exception as e:
        print(f'❌ Erro ao processar {url}: {e}\n')

# Processar cada URL do blog
print(f"📝 Iniciando processamento de {len(blog_urls)} artigos...\n")
for i, blog_url in enumerate(blog_urls, 1):
    print(f"📌 Processando artigo {i}/{len(blog_urls)}")
    extract_and_save(blog_url)

print("\n✨ Processo concluído! Todos os artigos foram salvos.")

🔍 Iniciando coleta de URLs do blog...
📄 Acessando página 1: https://www.conectaads.com.br/conteudos/
✅ Encontrados 19 links na página 1
📄 Acessando página 2: https://www.conectaads.com.br/conteudos/page/2/
✅ Encontrados 18 links na página 2
📄 Acessando página 3: https://www.conectaads.com.br/conteudos/page/3/
✅ Encontrados 20 links na página 3
📄 Acessando página 4: https://www.conectaads.com.br/conteudos/page/4/
✅ Encontrados 18 links na página 4
📄 Acessando página 5: https://www.conectaads.com.br/conteudos/page/5/
✅ Encontrados 20 links na página 5
📄 Acessando página 6: https://www.conectaads.com.br/conteudos/page/6/
✅ Encontrados 20 links na página 6
📄 Acessando página 7: https://www.conectaads.com.br/conteudos/page/7/
✅ Encontrados 20 links na página 7
📄 Acessando página 8: https://www.conectaads.com.br/conteudos/page/8/
✅ Encontrados 20 links na página 8
📄 Acessando página 9: https://www.conectaads.com.br/conteudos/page/9/
✅ Encontrados 20 links na página 9
📄 Acessando página 10: h