In [3]:
import time
import requests
import pyshorteners
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd

In [5]:
def load_data(path_excel, path_csv, sheet_name_value=2):
    data_excel = pd.read_excel(path_excel, 
                                sheet_name= sheet_name_value, 
                                skiprows=range(1, 6))
    data_excel['STATUS'] = data_excel['STATUS'].str.strip()
    data_excel = data_excel.drop_duplicates(subset='ITEM_ID', keep='first')
    data_excel =data_excel.drop(columns=['VARIATIONS' ,'VARIATION_ID'])
    
    data_csv = pd.read_csv(path_csv)

    return data_excel, data_csv
    

In [7]:
def fill_sku_(df_with_sku, df_without_sku):
    """Preenche os SKUs em df_without_sku com base em df_with_sku (usando ITEM_ID como chave)."""
    merged_data = df_without_sku.merge(df_with_sku[['ITEM_ID', 'SKU']], on='ITEM_ID', how='left', suffixes=('', '_from_df1'))
    merged_data['SKU'] = merged_data['SKU_from_df1']
    merged_data.drop(columns=['SKU_from_df1'], inplace=True)
    return merged_data

In [9]:
def update_product_skus(data):
    
    current_year_month = datetime.now().strftime("%y%m")  # Ano e mês atual no formato "yyMM"
    
    # Preparando para rastrear informações adicionais sobre novos SKUs
    new_skus_list = []
    new_skus_details = []  # Lista para armazenar detalhes para novos SKUs incluindo ITEM_ID e TITLE

    # Certifique-se de que CATEGORY_ID tenha 3 dígitos
    data['CATEGORY_ID'] = data['CATEGORY_ID'].str.zfill(3)

    # Dicionário para rastrear o contador por categoria e mês
    category_counters = {}

    for category_id in data['CATEGORY_ID'].unique():
        category_mask = data['CATEGORY_ID'] == category_id

        # Filtra os SKUs existentes dessa categoria e mês
        existing_skus = data.loc[category_mask & data['SKU'].notna(), 'SKU']

        # Verifica o ano/mês atual para a categoria
        year_month = current_year_month

        # Extraímos os contadores do SKU, considerando a categoria e mês
        counters = existing_skus.str.extract(f"^{category_id}-{year_month}-(\\d{{4}})$")[0]
        valid_counters = pd.to_numeric(counters, errors='coerce').dropna().astype(int)
        
        # Define o próximo contador, baseado no maior contador existente, ou inicia em 1
        if not valid_counters.empty:
            next_counter = valid_counters.max() + 1
        else:
            next_counter = 1

        # Filtra os índices dos produtos sem SKU
        null_skus_indices = data.index[category_mask & data['SKU'].isna()]
        for idx in null_skus_indices:
            # Gera um SKU único com base na categoria, ano/mês e o contador
            new_sku = f"{category_id}-{year_month}-{next_counter:04d}"
            data.at[idx, 'SKU'] = new_sku
            new_skus_list.append(new_sku)
            new_skus_details.append({
                'TITLE': data.at[idx, 'TITLE'],
                'SKU': new_sku,
                'ITEM_ID': data.at[idx, 'ITEM_ID'],
            })

            # Incrementa o contador após gerar o SKU para o próximo
            next_counter += 1

    # Converte a lista de dicionários em DataFrame
    new_skus_data = pd.DataFrame(new_skus_details)  # Agora inclui ITEM_ID e TITLE

    return data, new_skus_data


In [11]:
def get_links(data):
    data['ITEM_LINK'] = data['ITEM_ID'].apply(
        lambda x: f"https://www.mercadolivre.com.br/anuncios/lista?filters=OMNI_ACTIVE|OMNI_INACTIVE|CHANNEL_NO_PROXIMITY_AND_NO_MP_MERCHANTS&page=1&search={x[3:]}" if pd.notnull(x) else "")

    data['URL'] = data.apply(
        lambda row: f"https://www.collectorsguardian.com.br/{row['ITEM_ID'][:3]}-{row['ITEM_ID'][3:]}-{row['TITLE'].replace(' ', '-').lower()}-_JM#item_id={row['ITEM_ID']}", 
        axis=1)

    return data

In [13]:
def extract_first_src(url):
    try:
        response = requests.get(url)
        response.raise_for_status()

        soup = BeautifulSoup(response.text, 'html.parser')
    
        img_tag = soup.find('img', class_='ui-pdp-image ui-pdp-gallery__figure__image')
        if img_tag and 'src' in img_tag.attrs:
            return img_tag['src']
        return None  # Caso a tag ou atributo não seja encontrado
    except Exception as e:
        print(f"Erro ao processar {url}: {e}")
        return None

        
# data['img_src'] = data['URL'].apply(extract_first_src)

