<a href="https://colab.research.google.com/github/Gabrielkwia/Extraindo-Dados-MercadoLivre/blob/main/Projeto_Mercado_Livre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Importando libs

# Faz requisiçoes HTTP / Permite baixar paginas da Web
import requests

# Faz a extração de dados de páginas HTML
from bs4 import BeautifulSoup

# Manipula e organiza dados em tabelas
import pandas as pd

In [None]:
# Pergunta ao usuário qual produto ele deseja perquisar o preço
produto = input("Qual produto voce deseja pesquisar?")

In [None]:
# Trata o que foi recebido no input, troca espaços por -(traço) e elimina letras maiusculas
produto_tratado = produto.replace(" ","-").lower()
produto_tratado

In [4]:
# Substitui na URL pelo produto desejado pelo usuário
# F''' Permite quebrar a URL em linhas

url =f'''
https://lista.mercadolivre.com.br/
{produto_tratado}
'''

In [None]:
# Limpa a URL / tira quebras de linhas
url = url.replace("\n", "")
url

In [None]:
# Envia uma requisição do tipo GET para o endereço
# especificado e retorna a resposta do servidor
response = requests.get(url)
response

In [7]:
# Retorna o conteudo da resposta HTTP como uma string
# BeautifulSoup é usado para estruturar o HTML retornado
site = BeautifulSoup(response.text, "html.parser")

In [8]:
# Gera uma lista com todas as <divs> que tem essa classe,
# depois percorre a lista para extrair informções
dados = site.find_all("div", attrs={"poly-card__content"})

In [None]:
# Inicializando as listas para armazenar os dados
armazenando_produto = []
armazenamento_link_produto = []
armazenamento_marca = []
armazenamento_nota_produto = []
armazenamento_numero_avaliacoes = []
armazenamento_preço = []

# Iterando sobre os dados
for palavra in dados:
    # Nome do produto
     # Procura a tag <h3> no HTML que tenha <class> "poly-component__title-wrapper"
    nome_produto = palavra.find("h3", class_="poly-component__title-wrapper").text.strip()
    armazenando_produto.append(nome_produto)

    # Link do produto
    # Procura a tag <h3> no HTML que tenha <class> "poly-component__title-wrapper"
    # ["href"] extrai o href da tag <a> que contém a URL
    link_produto = palavra.find("h3", class_="poly-component__title-wrapper").find("a")["href"]
    armazenamento_link_produto.append(link_produto)

    # Marca do produto
    # Procura a tag <span> no HTML que tenha <class> "poly-component__seller"
    marca_elemento = palavra.find("span", class_="poly-component__seller")
    if marca_elemento:
        marca_produto = marca_elemento.text.strip()
    else:
        marca_produto = "Sem marca"
    armazenamento_marca.append(marca_produto)

    # Nota do produto
    # Procura a tag <span> no HTML que tenha <class> "andes-visually-hidden"
    nota_elemento = palavra.find("span", class_="andes-visually-hidden")
    if nota_elemento:

        texto_nota = nota_elemento.text.strip()
        partes = texto_nota.split()
        # Verifica se a lista tem mais de um elemento, para evitar erros
        if len(partes) > 1:
            # Extrai o segundo elemento da lista e substitui a virgula por ponto
            nota = partes[1].replace(",", ".")
        else:
            nota = 0
    else:
        nota = 0
    armazenamento_nota_produto.append(nota)

    # Número de avaliações
    # Procura a tag <span> no HTML que tenha <class> "andes-visually-hidden"
    avaliacoes_elemento = palavra.find("span", class_="andes-visually-hidden")
    if avaliacoes_elemento:
        texto_avaliacoes = avaliacoes_elemento.text.strip()
        partes = texto_avaliacoes.split()
        # Acessa o quinto elemento que está no indice 4 e extrai
        # essas informações em formato de string
        if len(partes) > 4:
            # Remove todos parenteses da string e pontos, substitui as virgulas por ponto
            numero_avaliacoes = partes[4].replace("(", "").replace(".", "").replace(")", "").replace(",", ".")
        else:
            numero_avaliacoes = 0
    else:
        numero_avaliacoes = 0
    armazenamento_numero_avaliacoes.append(numero_avaliacoes)

    # Preço do produto
    # Procura tag <span> no HTML que tenha <class> "andes-money-amount__fraction"
    preco_elemento = palavra.find("span", class_="andes-money-amount__fraction")
    if preco_elemento:
        # Trata os elementos extraidos / Remove espaços em branco
        # Remove todos os pontos da string e substitui as virgulas por ponto
        preco = preco_elemento.text.strip().replace(".", "").replace(",", ".")
        try:
            preco = float(preco)  # Converte preço para float
        except ValueError:
            preco = 0  # Converte para 0 se nao for um numero valido
    else:
        preco = 0  # Se nao for encontrado é colocado como zero
    armazenamento_preço.append(preco)

# Exibe os resultados
print("Produtos:", armazenando_produto)
print("Links:", armazenamento_link_produto)
print("Marcas:", armazenamento_marca)
print("Notas:", armazenamento_nota_produto)
print("Avaliações:", armazenamento_numero_avaliacoes)
print("Preços:", armazenamento_preço)

In [10]:
#Criando um dicionário para armazenar informações dos produtos
base_produtos = {
"produto" : armazenando_produto,
"marca": armazenamento_marca,
"n_avaliacoes": armazenamento_numero_avaliacoes,
"nota" : armazenamento_nota_produto,
"link": armazenamento_link_produto,
"preco": armazenamento_preço,
}

In [11]:
# Cria um dataframe a partir do dicionario "base_produtos"
df = pd.DataFrame(base_produtos)

In [None]:
#Instalando supabase
!pip install supabase

In [None]:
from supabase import Client, create_client
from datetime import datetime
import traceback  # Importa a biblioteca para capturar detalhes do erro

# Configurando URL e Chave de execução (Disponiveis no Supabase)
supabase_url = "https://svmivsunhlukoorykspn.supabase.co"
supabase_key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InN2bWl2c3VuaGx1a29vcnlrc3BuIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDAwOTAzNDcsImV4cCI6MjA1NTY2NjM0N30.2T5P0WQyWVOcvugRT3BPDfUNttSMTY7uyEqby0zY6xs"

# Criando o cliente para conectar com o banco
supabase: Client = create_client(supabase_url, supabase_key)

try:
   # Criando coluna data_insercao
    df["data_insercao"] = datetime.now().strftime("%Y-%m-%d")


    # Convertendo DataFrame para lista de dicionários
    dados_produtos = df.to_dict(orient="records")

    # Enviando os dados para o Supabase
    response_supabase = supabase.table("produtos").insert(dados_produtos).execute()

    # Trata o codigo e em caso de erro retorna "Erro ao inserir os dados"
    if response_supabase.data:
        print(f"{len(dados_produtos)} produtos foram inseridos com sucesso")
    else:
        print(f"Erro ao inserir os dados: {response_supabase}")

except Exception as e:
    # Gera um identificador único baseado apenas na data
    erro_id = datetime.now().strftime("%Y%m%d")
    # Em caso de erro, monstra qual erro aconteceu no codigo
    print(f"Erro ao tentar conectar com o Supabase - ID {erro_id}")
    print(f"Mensagem de erro: {e}")
    # Exibe o stack trace completo para depuração
    traceback.print_exc()