In [56]:
from django_for_jupyter import init_django
init_django()

In [57]:
import pandas as pd
import numpy as np
import unidecode
from django.db.models import F, Sum
from precios.models import SiteURLResults, Articulos, Unifica, Marcas, Vendedores, MarcasSistema
from members.models import DetalleLista
from precios.pi_get import fixMarca
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
import multiprocessing
from multiprocessing import Pool

from functools import partial

In [58]:
def find_duplicates(row):
    articulo = row['nombre']
    medida_cant = row['medida_cant']
    unidades = row['unidades']
    marca = row['marca']
    grados = row['grados']
    
    df_matches = df_articulos.loc[
        (df_articulos['marca'] == marca) & 
        (df_articulos['medida_cant'] == medida_cant) & 
        (df_articulos['unidades'] == unidades) & 
#         (~df_articulos['ean_13'].isnull()) & 
        (df_articulos['nombre'] != articulo)
    ]
    
    max_ratio = 0
    max_match = None
    
    for _, match in df_matches.iterrows():
        ratio = fuzz.token_set_ratio(articulo.lower(), match['nombre'].lower())
        if ratio > max_ratio:
            max_ratio = ratio
            max_match = match
    
    if max_ratio >= 90:
        return {
            'marca': marca,
            'medida_cant': medida_cant,
            'unidades': unidades,
            'articulo_con_grados': articulo,
            'ean_13_con_grados': row['ean_13'],
            'articulo_sin_grados': max_match['nombre'],
            'ean_13_sin_grados': max_match['ean_13'],
        }
    
    return None

In [59]:
# Crear una función para comparar los nombres de dos artículos
def compare_names(name1, name2):
    return fuzz.ratio(name1, name2)

In [60]:
# Crear una función para comparar las medidas y unidades de dos artículos
def compare_measure(medida_cant1, medida_cant2, unidades1, unidades2):
    return fuzz.ratio(medida_cant1 + unidades1, medida_cant2 + unidades2)

In [61]:
def createRule(si_marca, 
                si_nombre, 
                si_grados, 
                si_medida_cant,
                si_unidades,
                entonces_marca,
                entonces_nombre,
                entonces_grados,
                entonces_medida_cant,
                entonces_unidades
              ):
    
    
    Unifica.objects.update_or_create(
            si_marca=si_marca,
            si_nombre=si_nombre, 
            si_grados=si_grados, 
            si_medida_cant=si_medida_cant,
            si_unidades=si_unidades,
            entonces_marca=entonces_marca,
            entonces_nombre=entonces_nombre,
            entonces_grados=entonces_grados,
            entonces_medida_cant=entonces_medida_cant,
            entonces_unidades=entonces_unidades,
            contador=0,
            automatico=True
       )

In [62]:
# # Crear una función para buscar los artículos sin grados que sean similares a los que tienen grados
# def search_similar_articles(df_grados_row, df_sin_grados, name_ratio_threshold=90, measure_ratio_threshold=95, pool_size=4):
#     # Crear un dataframe vacío para almacenar los resultados
#     results = pd.DataFrame(columns=["nombre_grados", "nombre_sin_grados", "medida_cant_grados", "medida_cant_sin_grados", "unidades_grados", "unidades_sin_grados"])
    
#     # Definir las columnas del dataframe de grados
#     nombre_grados = df_grados_row["nombre"]
#     medida_cant_grados = df_grados_row["medida_cant"]
#     unidades_grados = df_grados_row["unidades"]
    
#     # Comparar el nombre del artículo con los artículos sin grados utilizando multiprocesamiento
#     with multiprocessing.Pool(pool_size) as pool:
#         name_ratios = pool.map(partial(compare_names, name1=nombre_grados), df_sin_grados["nombre"])
    
#     # Buscar los artículos sin grados que tienen un nombre similar al artículo con grados
#     similar_names = df_sin_grados.loc[name_ratios >= name_ratio_threshold]
    
#     # Comparar la medida y unidades de los artículos con grados con los artículos sin grados similares
#     for _, similar_row in similar_names.iterrows():
#         medida_cant_sin_grados = similar_row["medida_cant"]
#         unidades_sin_grados = similar_row["unidades"]
#         measure_ratio = compare_measure(medida_cant_grados, medida_cant_sin_grados, unidades_grados, unidades_sin_grados)
#         if measure_ratio >= measure_ratio_threshold:
#             results = results.append({"nombre_grados": nombre_grados,
#                                       "nombre_sin_grados": similar_row["nombre"],
#                                       "medida_cant_grados": medida_cant_grados,
#                                       "medida_cant_sin_grados": medida_cant_sin_grados,
#                                       "unidades_grados": unidades_grados,
#                                       "unidades_sin_grados": unidades_sin_grados}, ignore_index=True)
#     return results

In [63]:
querySiteArticulos = Articulos.objects.all()
df_articulos = pd.DataFrame(list(querySiteArticulos.values('nombre','marca','medida_cant', 'unidades', 'grados', 'ean_13')))



In [64]:
# reemplazamos los valores vacíos en el DataFrame con None
df_articulos = df_articulos.replace(r'^\s*$', value=None, regex=True)

In [65]:
# filtramos los artículos que tienen valores no nulos en la columna "grados"
df_filtrado = df_articulos[df_articulos['grados'].notnull()]

# obtenemos las marcas únicas en el DataFrame filtrado
marcas_con_grados = df_filtrado['marca'].drop_duplicates().tolist()



In [66]:
# crear una lista de nombres de artículo únicos
def buscar_articulos_2(df):
    nombres_articulos_unicos = df['nombre'].unique()

    # crear una lista de posibles nombres de artículo que suenan igual pero se escriben de manera diferente
    posibles_nombres = []

    # buscar nombres de artículo que suenan igual
    nombres_comparados = [] # lista para almacenar los nombres ya comparados
    for i, nombre in enumerate(nombres_articulos_unicos):
        if nombre not in nombres_comparados: # verificar si el nombre ya ha sido comparado
            # buscar los nombres de artículo que tienen una puntuación de coincidencia de al menos el 90%
            nombres_coincidentes = process.extract(nombre, nombres_articulos_unicos[i+1:], scorer=fuzz.token_sort_ratio, limit=None)
            nombres_coincidentes = [n for n in nombres_coincidentes if n[1] >= 90]
            if nombres_coincidentes:
                # agregar el nombre de artículo y su lista de nombres de artículo coincidentes a la lista de posibles nombres
                posibles_nombres.append((nombre, [n[0] for n in nombres_coincidentes])) 
                # agregar el nombre actual a la lista de nombres comparados
                nombres_comparados.append(nombre)
                # agregar los nombres coincidentes a la lista de nombres comparados
                nombres_comparados += [n[0] for n in nombres_coincidentes]

    # mostrar la lista de posibles nombres
    return posibles_nombres

In [67]:
def buscar_articulos_con_y_sin_grados(df):
    articulos_sin_grados = []
    articulos_con_grados = []
    for i, row in df.iterrows():
        # si el artículo tiene valores en la columna "grados", buscamos otro registro con el mismo nombre, medida_cant y unidades pero sin valor en la columna "grados"
        if pd.notnull(row['grados']):
            filtro_sin_grados = (df['nombre'] == row['nombre']) & (df['medida_cant'] == row['medida_cant']) & (df['unidades'] == row['unidades']) & (df['grados'].isnull())
            art_sin_grados = df.loc[filtro_sin_grados]
            # si se encuentra otro registro idéntico sin grados, lo agregamos a la lista
            if not art_sin_grados.empty:
#                 print(art_sin_grados.iloc[0]['nombre'])
                articulos_sin_grados.append({
                    'si_marca': art_sin_grados.iloc[0]['marca'], 
                    'si_nombre': art_sin_grados.iloc[0]['nombre'], 
                    'si_grados': art_sin_grados.iloc[0]['grados'], 
                    'si_medida_cant': art_sin_grados.iloc[0]['medida_cant'], 
                    'si_unidades': art_sin_grados.iloc[0]['unidades'], 
                    'entonces_marca': row['marca'],
                    'entonces_nombre': row['nombre'],
                    'entonces_grados': row['grados'],
                    'entonces_medida_cant': row['medida_cant'], 
                    'entonces_unidades': row['unidades'], 
                })

    return articulos_sin_grados



In [70]:
cuenta = 0
for marca in marcas_con_grados:
    cuenta = cuenta + 1
    df_nueva_marca = df_articulos[(df_articulos['marca'] == marca) ]
    print(f'marca={marca}')
#     lista = buscar_articulos_2(df_nueva_marca)
#     for item in lista:
#         print(item)
    
# #     with Pool(processes=4) as pool:
# #         results = pool.map(find_duplicates, df_nueva_marca.to_dict('records'))
    
# #     df_duplicates = pd.DataFrame([r for r in results if r is not None])
# #     df_duplicates
    
# #     if cuenta > 200:
# #         break
        

#     df_nueva_marca_sin_grados = buscar_articulos_sin_grados(df_nueva_marca)
    df_combinado = buscar_articulos_con_y_sin_grados(df_nueva_marca)
    for articulo in df_combinado:
        si_marca       = Marcas.objects.filter(id=articulo['si_marca']).get()
        entonces_marca = Marcas.objects.filter(id=articulo['entonces_marca']).get()
        createRule(
            si_marca, 
            articulo['si_nombre'], 
            articulo['si_grados'], 
            articulo['si_medida_cant'], 
            articulo['si_unidades'], 
            entonces_marca, 
            articulo['entonces_nombre'], 
            articulo['entonces_grados'], 
            articulo['entonces_medida_cant'], 
            articulo['entonces_unidades'] 
          )


marca=1146919
marca=1115541
marca=1126056
marca=1126057
marca=1146924
marca=1146931
marca=1146936
marca=1115499
marca=1146940
marca=1146954
marca=1115505
marca=1146984
marca=1146990
marca=1147002
marca=1115022
marca=1115490
marca=1147016
marca=1147018
marca=1147024
marca=1147030
marca=1147032
marca=1147042
marca=1147045
marca=1115035
marca=1147071
marca=1146470
marca=1115515
marca=1115381
marca=1115029
marca=1147114
marca=1115847
marca=1147309
marca=1115899
marca=1147123
marca=1116279
marca=1146483
marca=1116291
marca=1116299
marca=1147146
marca=1115511
marca=1147158
marca=1147176
marca=1147186
marca=1147210
marca=1147215
marca=1147219
marca=1147220
marca=1147243
marca=1147245
marca=1147254
marca=1147257
marca=1147261
marca=1147263
marca=1147270
marca=1115520
marca=1146502
marca=1147298
marca=1147301
marca=1115444
marca=1147311
marca=1147313
marca=1147328
marca=1115466
marca=1147330
marca=1147334
marca=1115507
marca=1147336
marca=1147344
marca=1115513
marca=1147368
marca=1115843
marca=