# Obter URLs e salvar em Markdown

In [1]:
import requests
from bs4 import BeautifulSoup
import os

# URL base do blog
base_url = 'https://www.conectaads.com.br/conteudos/'
pagina = 1
blog_urls = set()  # Usamos um conjunto para evitar duplicatas
paginas_acessadas = 0  # Contador de p√°ginas acessadas

# Pasta de sa√≠da para salvar os arquivos Markdown
output_path = "../Input/Blog"
os.makedirs(output_path, exist_ok=True)

def sanitize_filename(name):
    """ Remove caracteres inv√°lidos do nome do arquivo. """
    return "".join(c if c.isalnum() or c in (" ", "-", "_") else "_" for c in name)

# Coletar todas as URLs do blog paginando at√© a √∫ltima p√°gina
while True:
    # Construir a URL paginada
    url = f'{base_url}page/{pagina}/' if pagina > 1 else base_url
    response = requests.get(url)

    # Verificar se a solicita√ß√£o foi bem-sucedida
    if response.status_code != 200:
        print(f'‚ùå Falha ao acessar a p√°gina {pagina}. C√≥digo de status: {response.status_code}')
        break

    # Atualiza o n√∫mero de p√°ginas acessadas
    paginas_acessadas += 1

    # Analisar o conte√∫do HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Encontrar todos os links de postagens
    links = soup.find_all('a', href=True)

    # Filtrar URLs que parecem ser de conte√∫dos do blog
    excluidos = ['home', 'contato', 'lgpd', 'blog', 'quem-somos', '/page/', 'categoria']
    novos_links = [
        link['href'] for link in links
        if link['href'].startswith('https://www.conectaads.com.br/') and
        not any(ex in link['href'] for ex in excluidos)
    ]

    # Adicionar ao conjunto de URLs
    blog_urls.update(novos_links)

    # Encontrar o link da pr√≥xima p√°gina corretamente pelo "href"
    next_page_link = soup.find('a', href=lambda href: href and "/page/" in href)

    # Se n√£o houver pr√≥xima p√°gina, parar o loop
    if not next_page_link:
        break

    pagina += 1  # Ir para a pr√≥xima p√°gina

# Exibir o total de URLs encontrados e p√°ginas acessadas
print(f"\nüîó {len(blog_urls)} URLs encontrados em {paginas_acessadas} p√°ginas acessadas.\n")

def extract_and_save(url):
    try:
        page = requests.get(url)
        if page.status_code == 200:
            soup = BeautifulSoup(page.content, 'html.parser')
            
            # Extrair t√≠tulo
            title = soup.find('h1') or soup.find('h2')
            if not title:
                print(f'‚ùå N√£o foi poss√≠vel encontrar o t√≠tulo para {url}')
                return
            title_text = title.get_text(strip=True)
            
            # Extrair conte√∫do principal
            content_div = soup.find('div', class_='elementor-widget-theme-post-content') or \
                          soup.find('div', class_='elementor-text-editor') or \
                          soup.find('div', class_='entry-content')
            
            if content_div:
                # Extrair todos os par√°grafos, listas e cabe√ßalhos
                content_elements = content_div.find_all(['p', 'h2', 'h3', 'h4', 'ul', 'ol'])
                
                content_text = []
                for element in content_elements:
                    if element.name in ['h2', 'h3', 'h4']:
                        level = int(element.name[1])
                        content_text.append(f"\n{'#' * level} {element.get_text(strip=True)}\n")
                    elif element.name == 'ol':
                        items = [f"{i+1}. {li.get_text(strip=True)}" for i, li in enumerate(element.find_all('li'))]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'ul':
                        items = [f"- {li.get_text(strip=True)}" for li in element.find_all('li')]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    else:
                        content_text.append(element.get_text(strip=True))
                
                full_content = "\n".join(content_text)
            else:
                full_content = "Conte√∫do principal n√£o encontrado"
            
            # Criar nome do arquivo
            filename = os.path.join(output_path, sanitize_filename(title_text) + '.md')
            
            # Escrever o conte√∫do no arquivo
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(f'# {title_text}\n\n')
                f.write(full_content)
            
            print(f'‚úÖ Conte√∫do salvo: {filename}')
    
    except Exception as e:
        print(f'‚ùå Erro ao processar {url}: {e}')

# Processar cada URL do blog
for blog_url in blog_urls:
    extract_and_save(blog_url)



üîó 105 URLs encontrados em 13 p√°ginas acessadas.

‚úÖ Conte√∫do salvo: ../Input/Blog\AdTech_ o que √©_ Para que serve_ Por que usar essa tecnologia_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Quais s√£o as m√©tricas mais importantes para as campanhas de Product Ads_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Tempo de resposta no Mercado Livre_ por que √© importante_ Como funciona_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Novas regras para Loja Oficial no Mercado Livre j√° est√£o valendo_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Saiba tudo sobre ACOS no Mercado Livre Ads _Guia Completo_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Shopee Ads_ o que √©_ Como funciona_ Confira nosso Guia completo_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Como Proteger Sua Conta no Mercado Livre_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\Fotos dos produtos no Mercado Livre_ entenda o poder que elas t√™m_.md
‚úÖ Conte√∫do salvo: ../Input/Blog\A nova era do marketing_ como a retail media est√° revolucionando a publicidade_.md
‚úÖ Con

In [4]:
import requests
from bs4 import BeautifulSoup
import os

# URL base do blog
base_url = 'https://www.conectaads.com.br/conteudos/'
pagina = 1
blog_urls = set()  # Usamos um conjunto para evitar duplicatas
paginas_acessadas = 0  # Contador de p√°ginas acessadas

# Pasta de sa√≠da para salvar os arquivos Markdown
output_path = "../Input/Blog"
os.makedirs(output_path, exist_ok=True)

def sanitize_filename(name):
    """ Remove caracteres inv√°lidos do nome do arquivo. """
    return "".join(c if c.isalnum() or c in (" ", "-", "_") else "_" for c in name)

# Coletar todas as URLs do blog paginando at√© a √∫ltima p√°gina
print("üîç Iniciando coleta de URLs do blog...")
while True:
    # Construir a URL paginada
    url = f'{base_url}page/{pagina}/' if pagina > 1 else base_url
    print(f"üìÑ Acessando p√°gina {pagina}: {url}")
    response = requests.get(url)

    # Verificar se a solicita√ß√£o foi bem-sucedida
    if response.status_code != 200:
        print(f'‚ùå Falha ao acessar a p√°gina {pagina}. C√≥digo de status: {response.status_code}')
        break

    # Atualiza o n√∫mero de p√°ginas acessadas
    paginas_acessadas += 1

    # Analisar o conte√∫do HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Encontrar todos os links de postagens
    links = soup.find_all('a', href=True)

    # Filtrar URLs que parecem ser de conte√∫dos do blog
    excluidos = ['home', 'contato', 'lgpd', 'blog', 'quem-somos', '/page/', 'categoria']
    novos_links = [
        link['href'] for link in links
        if link['href'].startswith('https://www.conectaads.com.br/') and
        not any(ex in link['href'] for ex in excluidos)
    ]

    # Adicionar ao conjunto de URLs
    blog_urls.update(novos_links)
    print(f"‚úÖ Encontrados {len(novos_links)} links na p√°gina {pagina}")

    # Encontrar o link da pr√≥xima p√°gina corretamente pelo "href"
    next_page_link = soup.find('a', href=lambda href: href and "/page/" in href)

    # Se n√£o houver pr√≥xima p√°gina, parar o loop
    if not next_page_link:
        print("‚èπÔ∏è √öltima p√°gina encontrada")
        break

    pagina += 1  # Ir para a pr√≥xima p√°gina

# Exibir o total de URLs encontrados e p√°ginas acessadas
print(f"\nüîó Total de {len(blog_urls)} URLs encontrados em {paginas_acessadas} p√°ginas acessadas.\n")
print("‚è≥ Iniciando extra√ß√£o de conte√∫dos...\n")

def extract_and_save(url):
    try:
        print(f"üåê Acessando URL: {url}")
        page = requests.get(url)
        if page.status_code == 200:
            soup = BeautifulSoup(page.content, 'html.parser')
            
            # Extrair t√≠tulo
            title = soup.find('h1') or soup.find('h2')
            if not title:
                print(f'‚ùå N√£o foi poss√≠vel encontrar o t√≠tulo para {url}')
                return
            title_text = title.get_text(strip=True)
            
            # Extrair conte√∫do principal
            content_div = soup.find('div', class_='elementor-widget-theme-post-content') or \
                          soup.find('div', class_='elementor-text-editor') or \
                          soup.find('div', class_='entry-content')
            
            if content_div:
                # Extrair todos os par√°grafos, listas e cabe√ßalhos
                content_elements = content_div.find_all(['p', 'h2', 'h3', 'h4', 'ul', 'ol', 'strong'])
                
                content_text = []
                for element in content_elements:
                    if element.name in ['h2', 'h3', 'h4']:
                        level = int(element.name[1])
                        content_text.append(f"\n{'#' * level} {element.get_text(strip=True)}\n")
                    elif element.name == 'ol':
                        items = [f"{i+1}. {li.get_text(strip=True)}" for i, li in enumerate(element.find_all('li'))]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'ul':
                        items = [f"- {li.get_text(strip=True)}" for li in element.find_all('li')]
                        content_text.append("\n" + "\n".join(items) + "\n")
                    elif element.name == 'strong':
                        # Adiciona espa√ßos antes e depois do texto em negrito
                        content_text.append(f" **{element.get_text(strip=True)}** ")
                    else:
                        # Para par√°grafos normais, processamos cada n√≥ individualmente
                        for content in element.contents:
                            if content.name == 'strong':
                                content_text.append(f" **{content.get_text(strip=True)}** ")
                            elif content.name is None:  # Texto normal
                                content_text.append(str(content).replace('\n', ' ').strip())
                
                full_content = "".join(content_text)
                # Remove espa√ßos m√∫ltiplos e limpa a formata√ß√£o
                full_content = " ".join(full_content.split())
            else:
                full_content = "Conte√∫do principal n√£o encontrado"
                print(f"‚ö†Ô∏è Conte√∫do n√£o encontrado em {url}")
            
            # Criar nome do arquivo
            filename = os.path.join(output_path, sanitize_filename(title_text) + '.md')
            
            # Escrever o conte√∫do no arquivo
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(f'# {title_text}\n\n')
                f.write(full_content)
                # Adicionar URL de origem no final do arquivo
                f.write(f'\n\n---\n\nFonte: [{url}]({url})')
            
            print(f'‚úÖ Conte√∫do salvo: {filename}\n')
    
    except Exception as e:
        print(f'‚ùå Erro ao processar {url}: {e}\n')

# Processar cada URL do blog
print(f"üìù Iniciando processamento de {len(blog_urls)} artigos...\n")
for i, blog_url in enumerate(blog_urls, 1):
    print(f"üìå Processando artigo {i}/{len(blog_urls)}")
    extract_and_save(blog_url)

print("\n‚ú® Processo conclu√≠do! Todos os artigos foram salvos.")

üîç Iniciando coleta de URLs do blog...
üìÑ Acessando p√°gina 1: https://www.conectaads.com.br/conteudos/
‚úÖ Encontrados 19 links na p√°gina 1
üìÑ Acessando p√°gina 2: https://www.conectaads.com.br/conteudos/page/2/
‚úÖ Encontrados 18 links na p√°gina 2
üìÑ Acessando p√°gina 3: https://www.conectaads.com.br/conteudos/page/3/
‚úÖ Encontrados 20 links na p√°gina 3
üìÑ Acessando p√°gina 4: https://www.conectaads.com.br/conteudos/page/4/
‚úÖ Encontrados 18 links na p√°gina 4
üìÑ Acessando p√°gina 5: https://www.conectaads.com.br/conteudos/page/5/
‚úÖ Encontrados 20 links na p√°gina 5
üìÑ Acessando p√°gina 6: https://www.conectaads.com.br/conteudos/page/6/
‚úÖ Encontrados 20 links na p√°gina 6
üìÑ Acessando p√°gina 7: https://www.conectaads.com.br/conteudos/page/7/
‚úÖ Encontrados 20 links na p√°gina 7
üìÑ Acessando p√°gina 8: https://www.conectaads.com.br/conteudos/page/8/
‚úÖ Encontrados 20 links na p√°gina 8
üìÑ Acessando p√°gina 9: https://www.conectaads.com.br/conteudos/page