In [1]:
import pandas as pd
import numpy as np

Funcion para convertir strings a arrays

In [2]:
# Función para convertir strings a arrays
def string_to_array(s):
    if pd.isnull(s) or s == '':
        return np.nan   # Si la cadena es nula o vacía, devolver NaN
    try:
        rows = s.strip('[]').split(']\n [')
        matrix = [[float(num) for num in row.split()] for row in rows]  # Convertir a float cada número en la matriz
        return np.array(matrix)
    except Exception as e:
        print(f"Error al convertir: {e}")
        return np.nan

Funcion para encontrar duplicados en el conjunto de datos

In [3]:
def encontrar_duplicados_con_diferencias(df, columnas_entrada, columna_salida):
    grupos = df.groupby(columnas_entrada)   # Agrupar por columnas de entrada con valores idénticos
    duplicados_encontrados = []

    # Iterar sobre los grupos y encontrar diferencias en las salidas
    for _, grupo in grupos:
        if len(grupo) > 1:
            salida_base = grupo.iloc[0][columna_salida]
            diferencias = [
                fila[columna_salida] for _, fila in grupo.iterrows() 
                if not np.array_equal(fila[columna_salida], salida_base)
            ]
            if diferencias:
                duplicados_encontrados.append((grupo, diferencias))
    
    return duplicados_encontrados

Funcion para mostrar los datos duplicados encontrados

In [4]:
def mostrar_duplicados(duplicados, columnas_entrada, columna_salida):
    if not duplicados:
        print("No se encontraron filas con entradas idénticas y salidas diferentes.")
        return

    for grupo, diferencias in duplicados:
        print("\nEntradas:")
        for col, val in zip(columnas_entrada, grupo.iloc[0][columnas_entrada]):
            print(f"{col}: {val}")
        print("\nSalidas correspondientes:")
        for idx, fila in grupo.iterrows():
            print(f"Fila {idx}: {fila[columna_salida]}")
        print("-" * 50)


Funcion para eliminar duplicados, manteniendo solo una ocurrencia

Si se encuentran diferencias en las salidas, se mantiene la primera ocurrencia y se eliminan las demás.

In [6]:
def eliminar_duplicados(df, columnas_entrada, columna_salida):
    duplicados = encontrar_duplicados_con_diferencias(df, columnas_entrada, columna_salida)
    if not duplicados:
        return df.drop_duplicates(subset=columnas_entrada, keep='first')

    indices_a_eliminar = []
    for grupo, _ in duplicados:
        indices_a_eliminar.extend(grupo.index[1:])
    
    df_sin_duplicados = df.drop(indices_a_eliminar)
    return df_sin_duplicados

# Cargar el DataFrame desde el archivo pickle
df = pd.read_excel('../datos/final.xlsx')

# Definir columnas de entrada y salida
columnas_entrada = ['vel alambre', 'flujo gas', 'peri voltaje', 'voltaje',
                    'corriente', 'ubicacion']
columna_salida = 'matriz'

# Mostrar duplicados antes de la limpieza
duplicados = encontrar_duplicados_con_diferencias(df, columnas_entrada, columna_salida)
mostrar_duplicados(duplicados, columnas_entrada, columna_salida)

# Eliminar duplicados del DataFrame
df_limpio = eliminar_duplicados(df, columnas_entrada, columna_salida)

# Guardar el DataFrame limpio
df_limpio.to_pickle('../datos/df_final_limpio.pkl')
print("Número de filas después de eliminar duplicados:", len(df_limpio))


No se encontraron filas con entradas idénticas y salidas diferentes.
Número de filas después de eliminar duplicados: 54


In [10]:
# Cargar el DataFrame desde el archivo pickle
df = pd.read_excel('../datos/final.xlsx')

# Convertir la columna 'matriz' a arrays
df['matriz'] = df['matriz'].apply(string_to_array)

# Definir columnas de entrada y salida
columnas_entrada = ['vel alambre', 'flujo gas', 'peri voltaje', 'voltaje',
                    'corriente', 'ubicacion']
columna_salida = 'matriz'

# Mostrar duplicados antes de la limpieza
duplicados = encontrar_duplicados_con_diferencias(df, columnas_entrada, columna_salida)
mostrar_duplicados(duplicados, columnas_entrada, columna_salida)

# Eliminar duplicados del DataFrame
df_limpio = eliminar_duplicados(df, columnas_entrada, columna_salida)

# Guardar el DataFrame limpio
df_limpio.to_pickle('../datos/df_final_limpio.pkl')
print("Número de filas después de eliminar duplicados:", len(df_limpio))

No se encontraron filas con entradas idénticas y salidas diferentes.
Número de filas después de eliminar duplicados: 54
