# Introdução

Segundo o site https://developers.mercadolivre.com.br/pt_br/boas-praticas-para-usar-a-plataforma, é recomendado utilizar a API do Mercado Livre em vez de fazer web crawling, portanto foi o caminho escolhido para coletar informações de produtos.

Para funcionar as chamadas, é preciso criar uma conta em developers.mercadolivre.com.br, criar um aplicativo, e conseguir um token de acesso. Esse token deve ser colocar no arquivo .env na variável "ML_ACCESS_TOKEN". Para criar sua aplicação, siga o processo descrito em https://developers.mercadolivre.com.br/pt_br/crie-uma-aplicacao-no-mercado-livre. Após isso, usar o seguinte link pra obter o token de acesso, siga o vídeo https://www.youtube.com/watch?v=T2Q_CE8vqYM&t=53s, cuja explicação está detalhada em https://developers.mercadolivre.com.br/pt_br/autenticacao-e-autorizacao.

IDs de categorias obtidas no site de documentação da API do Mercado Livre:

In [6]:
import pandas as pd
import requests
import os
from dotenv import load_dotenv

load_dotenv()

ML_APP_REDIRECT_URI = os.getenv("ML_APP_REDIRECT_URI")
ML_APP_ID = os.getenv("ML_APP_ID")
# url = f"https://auth.mercadolivre.com.br/authorization?response_type=code&client_id={ML_APP_ID}&redirect_uri={ML_APP_REDIRECT_URI}"
# resp = requests.get(url)

# Forma ideal: Obter token de acesso automaticamente (TO-DO)

In [7]:
# Forma atual: Obter token de acesso via navegador, e salvar no arquivo .env
ML_ACCESS_TOKEN = os.getenv("ML_ACCESS_TOKEN")

SITE_ID = "MLB"

headers = {
    "Authorization": f"Bearer {ML_ACCESS_TOKEN}"
}


In [8]:
import requests
from bs4 import BeautifulSoup
import time, re
import json

def get_product_info(product_id):
    url = f"https://api.mercadolibre.com/products/search?status=active&site_id=MLB&product_identifier={product_id}"
    print(url)
    res = requests.get(url, headers=headers)
    return res.json()



In [None]:
import os
import json
import time

# List all JSON files in the data folder
json_folder = "data"
json_files = [f for f in os.listdir(json_folder) if f.endswith(".json")]

for json_file in json_files:
    output_file = os.path.join(json_folder, f"products_info/info_{json_file}")

    # Skip the file if it already exists
    if os.path.exists(output_file):
        print(f"Skipping {json_file} (already processed)")
        continue

    json_file_path = os.path.join(json_folder, 'products_ids', json_file)
    with open(json_file_path, "r", encoding="utf-8") as file:
        product_ids = json.load(file)

    prods_info = []
    # Fetch product info for each product ID
    for product_id in product_ids:
        print(f"Fetching product info for ID: {product_id} from {json_file}")
        time.sleep(0.01)  # To avoid hitting the API too fast
        prods_info.append(get_product_info(product_id))

    # Save the product info to a JSON file with a matching name
    output_file = os.path.join(json_folder, f"products_info/info_{json_file}")
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(prods_info, f, ensure_ascii=False, indent=4)

Skipping products_100_energia elétrica.json (already processed)
Skipping products_10_escritório.json (already processed)
Skipping products_11_escola.json (already processed)
Skipping products_12_celular.json (already processed)
Skipping products_13_informática.json (already processed)
Skipping products_14_roupas.json (already processed)
Skipping products_15_calçados.json (already processed)
Skipping products_16_acessórios.json (already processed)
Skipping products_17_bebê.json (already processed)
Skipping products_18_brinquedos.json (already processed)
Skipping products_19_esporte.json (already processed)
Skipping products_1_limpeza.json (already processed)
Skipping products_20_academia.json (already processed)
Skipping products_21_iluminação.json (already processed)
Skipping products_22_elétrica.json (already processed)
Skipping products_23_jardim.json (already processed)
Skipping products_24_construção.json (already processed)
Skipping products_25_decoração.json (already processed)
S

In [10]:
prods_info

[{'keywords': 'MLB42460420',
  'domain_id': 'MLB-BATH_TOWELS',
  'paging': {'total': 1, 'limit': 10, 'offset': 0},
  'results': [{'id': 'MLB42460420',
    'date_created': '2024-10-30T15:37:37Z',
    'catalog_product_id': 'MLB42460420',
    'pdp_types': [],
    'status': 'active',
    'domain_id': 'MLB-BATH_TOWELS',
    'settings': {'listing_strategy': 'catalog_required', 'exclusive': False},
    'name': 'Kit 5 Toalha Banhão Luxo 100% Algodão 80x150cm Alta Absorção Cor Sortido',
    'main_features': [],
    'attributes': [{'id': 'BRAND',
      'name': 'Marca',
      'value_id': '34314971',
      'value_name': 'Toalhas BRK'},
     {'id': 'LINE',
      'name': 'Linha',
      'value_id': '17607185',
      'value_name': 'Linha Luxo'},
     {'id': 'MODEL',
      'name': 'Modelo',
      'value_id': '13726840',
      'value_name': 'Linha Luxo'},
     {'id': 'COLOR',
      'name': 'Cor',
      'value_id': '13369125',
      'value_name': 'Sortido'},
     {'id': 'SALE_FORMAT',
      'name': 'Form