In [1]:
# !pip install pandas requests beautifulsoup4 webdriver_manager selenium

In [2]:
### VALORES PESQUISADOS

LISTA_TERMOS = [
    "Carnibol baunilha"
]

CEP = 71925000

In [None]:
### PESQUISA E GERA√á√ÉO DE RESULTADOS PRELIMINARES
import time
import random
import re
import pandas as pd
import os
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# ==============================================================================
# 1. CONFIGURA√á√ïES
# ==============================================================================

# Defina a sua lista de termos aqui ou em uma c√©lula anterior
# Exemplo: LISTA_TERMOS = ["tapete higienico cachorro", "tapete sanit√°rio c√£es"] 
if 'LISTA_TERMOS' not in locals():
    LISTA_TERMOS = ["tapete higienico"] # Fallback caso n√£o tenha definido

META_POR_TERMO = 50
ARQUIVO_SAIDA = "resultado_tapetes_final.csv"

# ==============================================================================
# 2. FUN√á√ïES DE SUPORTE E CSV
# ==============================================================================
def limpar_preco(texto):
    if not texto: return 0.0
    apenas_numeros = re.sub(r'[^\d,]', '', texto)
    apenas_numeros = apenas_numeros.replace(',', '.')
    try:
        return float(apenas_numeros)
    except:
        return 0.0

def extrair_quantidade(titulo):
    titulo = titulo.lower()
    mult = re.search(r'(\d+)\s*(?:pcts|pct|pacotes|cx|caixas|x)\s*(?:de|x)?\s*(\d+)\s*(?:un|uni|u|toalhas)', titulo)
    if mult:
        return int(mult.group(1)) * int(mult.group(2))
    simples = re.search(r'(\d+)\s*(?:un|uni|und|unidades|tapetes)', titulo)
    if simples:
        return int(simples.group(1))
    return 1

def inicializar_csv():
    """Cria o arquivo CSV novo e escreve o cabe√ßalho, apagando dados antigos."""
    colunas = ['Termo', 'T√≠tulo', 'Pre√ßo Total', 'Qtd', 'Valor Unit√°rio', 'Frete Tipo', 'Valor Frete', 'Link']
    df_vazio = pd.DataFrame(columns=colunas)
    df_vazio.to_csv(ARQUIVO_SAIDA, index=False, sep=';', encoding='utf-8-sig')
    print(f"üìÅ Arquivo '{ARQUIVO_SAIDA}' inicializado (dados antigos apagados).")

def salvar_incremental(novos_dados):
    """Adiciona novos dados ao CSV existente sem apagar o que j√° est√° l√°."""
    if not novos_dados: return
    
    df_novo = pd.DataFrame(novos_dados)
    
    # O modo 'a' significa append (adicionar ao final)
    # header=False para n√£o repetir o cabe√ßalho a cada salvamento
    df_novo.to_csv(ARQUIVO_SAIDA, mode='a', index=False, sep=';', encoding='utf-8-sig', header=False)
    # print(f"   üíæ +{len(novos_dados)} itens salvos no CSV.")

# ==============================================================================
# 3. MOTOR DO NAVEGADOR
# ==============================================================================
def iniciar_driver():
    print("üîß Configurando navegador...")
    chrome_options = Options()
    chrome_options.add_argument("--start-maximized") 
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-blink-features=AutomationControlled") 
    chrome_options.add_argument("--log-level=3")
    
    try:
        driver = webdriver.Chrome(options=chrome_options)
        return driver
    except Exception as e:
        print(f"‚ùå Erro ao abrir Chrome: {e}")
        return None

def buscar_por_termo(driver, termo, links_visitados):
    count_termo = 0
    termo_url = termo.replace(' ', '-')
    offset = 0
    
    print(f"\nüîé BUSCANDO: '{termo}'")
    
    while count_termo < META_POR_TERMO:
        dados_pagina = [] # Buffer tempor√°rio para salvar apenas esta p√°gina
        
        if offset == 0:
            url = f"https://lista.mercadolivre.com.br/{termo_url}"
        else:
            url = f"https://lista.mercadolivre.com.br/{termo_url}_Desde_{offset + 1}"
            
        print(f"   ...Pagina {offset//50 + 1} (Coletados neste termo: {count_termo})")
        
        try:
            driver.get(url)
            time.sleep(random.uniform(2, 4))
            
            # Rolagem para carregar imagens e scripts
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight/3);")
            time.sleep(1)
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight/1.5);")
            
            soup = BeautifulSoup(driver.page_source, 'html.parser')
            
            produtos_html = soup.find_all('li', class_='ui-search-layout__item')
            if not produtos_html:
                produtos_html = soup.find_all('div', class_='poly-card')
            if not produtos_html:
                produtos_html = soup.find_all('div', class_='ui-search-result__wrapper')

            if not produtos_html:
                print("   ‚ö†Ô∏è Fim dos resultados ou p√°gina vazia.")
                break

            for produto in produtos_html:
                try:
                    # Link e verifica√ß√£o de duplicidade
                    link_tag = produto.find('a')
                    link = link_tag['href'] if link_tag else "N/A"
                    
                    # Se j√° visitamos este link nesta rodada, ignora
                    if link in links_visitados:
                        continue
                    
                    # T√≠tulo
                    titulo_tag = produto.find('h2', class_='poly-box')
                    if not titulo_tag: titulo_tag = produto.find('h2', class_='ui-search-item__title')
                    if not titulo_tag: titulo_tag = produto.find('a', class_='poly-component__title')
                    if not titulo_tag: continue
                    titulo = titulo_tag.text.strip()
                    
                    # Pre√ßo
                    preco = 0.0
                    price_new = produto.find('div', class_='poly-price__current')
                    if price_new:
                        elem_preco = price_new.find('span', class_='andes-money-amount__fraction')
                        if elem_preco: preco = limpar_preco(elem_preco.text)
                    
                    if preco == 0:
                        price_old = produto.find('div', class_='ui-search-price__second-line')
                        if price_old:
                            elem_preco = price_old.find('span', class_='andes-money-amount__fraction')
                            if elem_preco: preco = limpar_preco(elem_preco.text)
                    
                    if preco == 0: continue

                    # --- L√ìGICA DE FRETE MELHORADA ---
                    texto_completo = produto.text.lower()
                    tipo_frete = "Normal"
                    valor_frete = "A Calcular" # Default
                    
                    if "full" in texto_completo:
                        tipo_frete = "Full"
                    
                    if "gr√°tis" in texto_completo or "gratis" in texto_completo:
                        if tipo_frete == "Full":
                            tipo_frete = "Full + Gr√°tis"
                        else:
                            tipo_frete = "Gr√°tis"
                        valor_frete = "0.0"

                    # C√°lculos
                    qtd = extrair_quantidade(titulo)
                    unitario = preco / qtd if qtd > 0 else 0
                    
                    if qtd == 1 and unitario > 15: continue 

                    # Adiciona √† lista tempor√°ria da p√°gina
                    dados_pagina.append({
                        'Termo': termo,
                        'T√≠tulo': titulo,
                        'Pre√ßo Total': preco,
                        'Qtd': qtd,
                        'Valor Unit√°rio': round(unitario, 3),
                        'Frete Tipo': tipo_frete,
                        'Valor Frete': valor_frete,
                        'Link': link
                    })
                    
                    # Marca como visitado
                    links_visitados.add(link)
                    
                except Exception:
                    continue
            
            # --- SALVAMENTO INCREMENTAL (Fim do loop de produtos da p√°gina) ---
            if dados_pagina:
                salvar_incremental(dados_pagina)
                count_termo += len(dados_pagina)
            else:
                # Se n√£o achou nada v√°lido na p√°gina, pode ser hora de parar
                print("   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.")

            offset += 50
            
        except Exception as e:
            print(f"Erro na p√°gina: {e}")
            break
            
    return count_termo

# ==============================================================================
# 4. EXECU√á√ÉO
# ==============================================================================
def main():
    # 1. Preparar CSV
    inicializar_csv()
    
    # 2. Iniciar navegador
    driver = iniciar_driver()
    if not driver: return

    # 3. Conjunto para evitar duplicatas globais na execu√ß√£o
    links_visitados = set()
    total_coletado = 0
    
    try:
        for termo in LISTA_TERMOS:
            qtd = buscar_por_termo(driver, termo, links_visitados)
            total_coletado += qtd
            print(f"‚úÖ Fim de '{termo}'.")
            time.sleep(2)
            
    except KeyboardInterrupt:
        print("\nüõë Parada for√ßada pelo usu√°rio.")
    finally:
        driver.quit()
        print("\n" + "="*50)
        print(f"üèÅ Processo finalizado.")
        print(f"üìä Total de itens salvos: {total_coletado}")
        print(f"üìÅ Dados dispon√≠veis em: {ARQUIVO_SAIDA}")

if __name__ == "__main__":
    main()

üìÅ Arquivo 'resultado_tapetes_final.csv' inicializado (dados antigos apagados).
üîß Configurando navegador...

üîé BUSCANDO: 'Carnibol baunilha'
   ...Pagina 1 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 2 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 3 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 4 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 5 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 6 (Coletados neste termo: 0)
   ‚ö†Ô∏è Nenhum produto v√°lido nesta p√°gina.
   ...Pagina 7 (Coletados neste termo: 0)


In [None]:
### PESQUISE COM FILTROS NO DF

import pandas as pd
import ipywidgets as widgets
from IPython.display import display, clear_output, HTML

# ==============================================================================
# 1. CARREGAR DADOS (Recupera o que o rob√¥ salvou)
# ==============================================================================
NOME_ARQUIVO = "resultado_tapetes_final.csv"

try:
    # L√™ o arquivo CSV separado por ponto e v√≠rgula
    df = pd.read_csv(NOME_ARQUIVO, sep=';')
    print(f"‚úÖ Sucesso! {len(df)} an√∫ncios carregados do arquivo '{NOME_ARQUIVO}'.")
except FileNotFoundError:
    print(f"‚ùå ERRO: O arquivo '{NOME_ARQUIVO}' n√£o foi encontrado.")
    print("Certifique-se de que rodou a c√©lula do Rob√¥ de Busca primeiro.")
    df = pd.DataFrame() # Cria vazio para n√£o dar erro no resto do c√≥digo

# ==============================================================================
# 2. PAINEL DE FILTRAGEM
# ==============================================================================

# Fun√ß√£o para tornar o link clic√°vel novamente (CSVs salvam apenas texto)
def make_clickable(val):
    if val and str(val).startswith('http'):
        return f'<a target="_blank" href="{val}">Ver An√∫ncio ‚Üó</a>'
    return val

def mostrar_painel_filtragem():
    if df.empty: return

    print("\nüìä PAINEL DE AN√ÅLISE INTERATIVO")
    print("Filtre os resultados por palavras-chave no t√≠tulo:")

    # --- Widgets (Caixas de Texto) ---
    style = {'description_width': 'initial'}
    
    caixa_incluir = widgets.Text(
        placeholder='Ex: carv√£o, 30 unidades',
        description='‚úÖ T√≠tulo CONT√âM:',
        style=style,
        layout=widgets.Layout(width='450px')
    )
    
    caixa_excluir = widgets.Text(
        placeholder='Ex: defeito, kit 10',
        description='üö´ T√≠tulo N√ÉO TEM:',
        style=style,
        layout=widgets.Layout(width='450px')
    )
    
    # Bot√£o para limpar filtros
    botao_limpar = widgets.Button(description="Limpar Filtros", icon="eraser")
    
    output = widgets.Output()

    # --- Fun√ß√£o de Atualiza√ß√£o ---
    def filtrar_e_mostrar(change=None):
        termo_incluir = caixa_incluir.value.lower()
        termo_excluir = caixa_excluir.value.lower()
        
        df_filtrado = df.copy()
        
        # 1. Filtro de Inclus√£o
        if termo_incluir:
            df_filtrado = df_filtrado[df_filtrado['T√≠tulo'].str.lower().str.contains(termo_incluir, na=False)]
            
        # 2. Filtro de Exclus√£o
        if termo_excluir:
            df_filtrado = df_filtrado[~df_filtrado['T√≠tulo'].str.lower().str.contains(termo_excluir, na=False)]
        
        # Atualiza a sa√≠da
        with output:
            clear_output(wait=True)
            if len(df_filtrado) > 0:
                print(f"Encontrados: {len(df_filtrado)} an√∫ncios.")
                
                # Selecionar e ordenar colunas
                cols = ['T√≠tulo', 'Qtd', 'Pre√ßo Total', 'Valor Unit√°rio', 'Frete', 'Link']
                # Garante que as colunas existem
                cols_finais = [c for c in cols if c in df_filtrado.columns]
                
                # Exibe tabela formatada (sem cortar o texto do t√≠tulo)
                display(
                    df_filtrado[cols_finais]
                    .head(20) # Mostra os top 20 do filtro
                    .style
                    .format({'Link': make_clickable})
                    .set_properties(subset=['T√≠tulo'], **{'text-align': 'left', 'white-space': 'normal'})
                )
            else:
                print("‚ö†Ô∏è Nenhum resultado encontrado com esses filtros.")

    def limpar_filtros(b):
        caixa_incluir.value = ""
        caixa_excluir.value = ""

    # Conectar a√ß√µes
    caixa_incluir.observe(filtrar_e_mostrar, names='value')
    caixa_excluir.observe(filtrar_e_mostrar, names='value')
    botao_limpar.on_click(limpar_filtros)

    # Mostrar layout
    display(widgets.HBox([caixa_incluir, caixa_excluir, botao_limpar]))
    display(output)
    
    # Primeira execu√ß√£o
    filtrar_e_mostrar()

# Executa
mostrar_painel_filtragem()