In [21]:
from collections import defaultdict
from itertools import chain

import pandas as pd
import re

ARQUIVO_MODELO_RAW = "produtos-drop-gb-mto-list-03052025163523.xls"

PADRAO_ANO = r"\sAno:\s*(\d+)\s*até:\s*(\d+)$"


def extrair_ano_inicial_ano_final(modelo_raw):
    match = re.search(PADRAO_ANO, modelo_raw)
    if match:
        return match.groups()
    return None, None


def is_valid(a):
    try:
        a.strip()
        return True
    except AttributeError:
        return False


def ler_descricoes_raw():
    df = pd.read_excel(ARQUIVO_MODELO_RAW, usecols=["Aplicacao"])
    aplicacoes = chain.from_iterable(a.split("\n") for a in df.Aplicacao if is_valid(a))
    return set(a.strip() for a in aplicacoes if a.strip())


def to_dict(df):
    return {r["value_name"].strip(): int(r["value_id"]) for _, r in df.iterrows()}


def nome_contem_string(nome_raw, string_):
    return bool(re.search(f"\\W*{string_}\\W+", nome_raw, re.I))


marcas = to_dict(pd.read_excel('marcas.xlsx'))
modelos = to_dict(pd.read_excel('modelos.xlsx'))
#Mercedes-Benz
marcas["CITROEN"] = marcas["Citroën"]
marcas["Mercedes Benz"] = marcas["Mercedes-Benz"]
descricoes_raw = ler_descricoes_raw()

In [8]:
len(descricoes_raw)

118161

In [28]:
with open("descricoes_raw.txt", "w", encoding="utf8") as f:
    for descricao in sorted(descricoes_raw):
        f.write(f"{descricao}\n")

In [10]:
marcas

{'AMC': 2253232,
 'ARO': 2220868,
 'Acura': 60244,
 'Agrale': 380854,
 'Aleko': 2817419,
 'Alfa Romeo': 67695,
 'Am Gen': 2130482,
 'Anchi': 2103722,
 'Asaki': 3184339,
 'Asia': 378440,
 'Aston Martin': 69160,
 'Audi': 40661,
 'BAIC': 2088960,
 'BAW': 411107,
 'BJC': 3184340,
 'BLAC': 3184341,
 'BMW': 66352,
 'BRM': 1119486,
 'BYD': 2103733,
 'Beiney': 3184338,
 'Bentley': 68451,
 'Bestune': 11058681,
 'Bognor': 3184343,
 'Brilliance': 2103723,
 'Buggy': 1119487,
 'Bugre': 1119488,
 'Buick': 67288,
 'CBT Jipe': 2130483,
 'Cadillac': 24050,
 'Caterham': 3640508,
 'Chana': 389166,
 'Changan': 389167,
 'Changfeng': 8782166,
 'Changhe': 2103721,
 'Chery': 389168,
 'Chevrolet': 58955,
 'Chrysler': 66395,
 'Citroën': 389169,
 'Cross Lander': 1119489,
 'D.S.': 28040447,
 'DFAC': 8782169,
 'DFM': 71467,
 'DFM/DFSK': 5826391,
 'DFSK': 2103629,
 'Dacia': 2220869,
 'Daewoo': 4208,
 'Daihatsu': 10075,
 'Dodge': 66708,
 'Dongfeng': 1253268,
 'Effa': 378442,
 'Engesa': 389170,
 'Envemo': 1119490,
 '

In [11]:
modelos

{'1': 34546,
 '10': 9267,
 '100': 8943,
 '1000': 8272,
 '1007': 922967,
 '1020': 59332,
 '1022': 12564,
 '1025': 11530,
 '105': 11194,
 '106': 41716,
 '1061': 2498194,
 '107': 22472,
 '108': 43829,
 '11': 45327,
 '110': 10320,
 '1102': 2468938,
 '111': 13009,
 '112': 18220,
 '115': 19297,
 '121': 110493,
 '124': 568935,
 '125': 10042,
 '126': 50452,
 '127': 104205,
 '1275 Mini': 3487198,
 '128': 10304,
 '12C Coupe': 503636,
 '12C Spider': 84830,
 '1310': 12975,
 '132': 2318078,
 '137': 59967,
 '137 Sport': 2318116,
 '1410': 9963,
 '145': 13905,
 '146': 1252944,
 '147': 58843,
 '147 Spazio': 2130516,
 '1500': 8037,
 '155': 77695,
 '156': 68769,
 '156 Sportwagon': 1252945,
 '159': 67714,
 '1600': 10697,
 '164': 11976,
 '166': 74513,
 '170': 47235,
 '180-D': 389383,
 '19': 54922,
 '190': 130,
 '1970': 51098,
 '2': 59481,
 '200': 9064,
 '200 SX': 1252954,
 '2002': 516492,
 '2008': 65895,
 '200S': 5958862,
 '205': 9894,
 '205 Minitruck': 3487199,
 '206': 53433,
 '206 CC': 389384,
 '206 SW':

In [41]:


# extrair_ano_inicial_ano_final('VOLKSWAGEN SANTANA GLI AP 2000 2.0 L 8V SOHC L4 Ano: 1994 até: 1996')

('1994', '1996')

In [12]:
from tqdm.notebook import tqdm


# associacoes = []
#
# for modelo_raw in tqdm(modelos_raw):
#     data = {'Descrição': modelo_raw, "Marca": None, "Marca Id": None, "Modelo": None, "Modelo Id": None, "Ano inicial": None, "Ano final": None}
#     for nome_marca, marca_id in marcas.items():
#         if nome_contem_string(modelo_raw, nome_marca):
#             data["Marca"] = nome_marca
#             data["Marca Id"] = marca_id
#             break
#     marca = data["Marca"]
#     for nome_modelo, modelo_id in modelos.items():
#         if nome_contem_string(modelo_raw, f"{marca} {nome_modelo}"):
#             data["Modelo"] = nome_modelo
#             data["Modelo Id"] = modelo_id
#             break
#     data["Ano inicial"], data["Ano final"] = extrair_ano_inicial_ano_final(modelo_raw)
#     associacoes.append(data)

def associe(modelo_raw):
    data = {'Descrição': modelo_raw, "Marca": None, "Marca Id": None, "Modelo": None, "Modelo Id": None,
            "Ano inicial": None, "Ano final": None}
    for nome_marca, marca_id in marcas.items():
        if nome_contem_string(modelo_raw, nome_marca):
            data["Marca"] = nome_marca
            data["Marca Id"] = marca_id
            break
    marca = data["Marca"]
    for nome_modelo, modelo_id in modelos.items():
        if nome_contem_string(modelo_raw, f"{marca} {nome_modelo}"):
            data["Modelo"] = nome_modelo
            data["Modelo Id"] = modelo_id
            break
    data["Ano inicial"], data["Ano final"] = extrair_ano_inicial_ano_final(modelo_raw)
    return data

# pd.DataFrame(associacoes).to_excel('associacoes.xlsx')


In [33]:
candidatos_marca = defaultdict(set)
associacoes = []

descricoes_raw_set = set(descricoes_raw)

for marca in tqdm(marcas):
    for descricao_raw in descricoes_raw_set:
        if descricao_raw.startswith(marca.upper()):
            candidatos_marca[marca].add(descricao_raw)
    descricoes_raw_set = descricoes_raw_set - candidatos_marca[marca]

descricoes_sem_associacao = descricoes_raw_set

  0%|          | 0/198 [00:00<?, ?it/s]

In [34]:
with open("descricoes_sem_associacao.txt", "w", encoding="utf-8") as f:
    for line in descricoes_sem_associacao:
        f.write(f"\n{descricao_raw}")

len(descricoes_sem_associacao)

14476

In [39]:

marca_modelo = {}


def determinar_modelo(data, marca, descricao, modelos_associados):
    for nome_modelo, modelo_id in modelos.items():
        if nome_modelo in modelos_associados and marca_modelo[nome_modelo] != marca:
            continue
        if nome_contem_string(descricao, f"{marca} {nome_modelo}"):
            marca_modelo[nome_modelo] = marca
            data["Modelo"] = nome_modelo
            data["Modelo Id"] = modelo_id
            break

    return data


def associcao_melhorado(candidatos_marca_dict):
    associacoes = []
    for marca, candidatos in tqdm(candidatos_marca_dict.items(), total=len(candidatos_marca_dict)):
        for candidado in candidatos:
            if nome_contem_string(candidado, marca):
                data = {'Descrição': candidado, "Marca": marca, "Marca Id": marcas[marca], "Modelo": None,
                        "Modelo Id": None,
                        "Ano inicial": None, "Ano final": None}
                data = determinar_modelo(data, marca, candidado, marca_modelo)
                data["Ano inicial"], data["Ano final"] = extrair_ano_inicial_ano_final(candidado)
                associacoes.append(data)

    return associacoes


associacoes = associcao_melhorado(candidatos_marca)
pd.DataFrame(associacoes).to_excel('associacoes.xlsx')



  0%|          | 0/198 [00:00<?, ?it/s]

In [None]:
# from multiprocessing import Pool
#
# with Pool() as pool:
#     associacoes = [a for a in tqdm(pool.map(associe, descricoes_raw), total=descricoes_raw)]
#
# pd.DataFrame(associacoes).to_excel('associacoes.xlsx')