In [76]:
import pandas as pd
import numpy as np

# Función para procesar el caso de "varios productos en una fila"
def procesar_varios_productos(df):
    # Iteramos por todas las columnas del DataFrame
    for column in df.columns:
        # Convertimos a listas si hay '\n'
        df[column] = df[column].apply(
            lambda x: x.split('\n') if isinstance(x, str) else ([x] if pd.notna(x) else [np.nan])
        )

    # Crear una lista vacía para almacenar las filas explotadas
    df_exploded_list = []

    # Explosión fila por fila
    for _, row in df.iterrows():
        row_lists = [row[col] if isinstance(row[col], list) else [row[col]] for col in df.columns]
        max_len = max(len(lst) for lst in row_lists)
        row_lists = [lst + [None] * (max_len - len(lst)) for lst in row_lists]
        exploded_row = pd.DataFrame(row_lists).T
        exploded_row.columns = df.columns
        df_exploded_list.append(exploded_row)

    # Concatenar todas las filas explotadas
    return pd.concat(df_exploded_list, ignore_index=True)

# Función para procesar el caso de "un producto por fila"
def procesar_un_producto(df):
    # Limpiar saltos de línea en todas las columnas
    for col in df.columns:
        df[col] = df[col].apply(
            lambda x: x.replace('\r\n', ' ').replace('\n', ' ') if isinstance(x, str) else x
        )
    return df

# Función principal para decidir el módulo a usar
def procesar_csv(file_path):
    # Leer el archivo CSV
    df = pd.read_csv(file_path)

    # Comprobar si la primera columna contiene '\n'
    contiene_saltos = df.iloc[:, 0].apply(lambda x: '\n' in x if isinstance(x, str) else False).any()

    if contiene_saltos:
        print("Usando el módulo: VARIOS PRODUCTOS EN UNA FILA")
        return procesar_varios_productos(df)
    else:
        print("Usando el módulo: UN PRODUCTO POR FILA")
        return procesar_un_producto(df)

# Ejemplo de uso
ruta_csv = "prueba2.csv"
df_resultado = procesar_csv(ruta_csv)

# Mostrar el resultado
df_resultado


Usando el módulo: VARIOS PRODUCTOS EN UNA FILA


Unnamed: 0.1,Unnamed: 0,DESCRIPCIÓN,PRESENTACION,CODIGO DE BARRAS,PRECIO CON IVA,PRECIO SIN IVA,PUBLICO\nSUGERIDO
0,20015888,HUMIRA AC x 2 (20mg),"2 JERINGAS PRELL. X 0,2 ml",8054083017068,"$ 740,145.59","$ 611,690.58","$ 1,073,211.02"
1,20005289,HUMIRA AC x 2 (40mg),"2 LAPICERAS PRELL. X 0,4 ml",8054083014050,"$ 1,480,292.66","$ 1,223,382.36","$ 2,146,424.35"
2,20021980,HUMIRA AC x 1 (80 mg),"1 LAPICERA PRELL. X 0,8 ml",8054083017648,"$ 1,553,789.84","$ 1,284,123.82","$ 2,252,995.41"
3,20062091,RINVOQ 15MG,15 MG x 30 COMP REC DE LIB. PROLONGADA,8054083018706,"$ 1,799,606.71","$ 1,487,278.28","$ 2,609,429.58"
4,20069005,RINVOQ 30MG,30 MG x 30 COMP REC DE LIB. PROLONGADA,8054083021386,"$ 3,184,521.02","$ 2,631,835.62","$ 4,617,555.55"
5,20078725,RINVOQ 45MG,45 MG x 28 COMP REC DE LIB. PROLONGADA,8054083023922,"$ 4,494,517.30","$ 3,714,477.10","$ 6,517,049.97"
6,20069017,SKYRIZI,1 LAPICERA PRELLENADA por 1 ML (150 mg),8054083021935,"$ 4,344,159.74","$ 3,590,214.67","$ 6,299,031.64"
7,20079636,SKYRIZI,360mg /2.4ml Cart. prellenado x 1 600mg /10ml ...,8054083023311,"$ 4,561,367.72","$ 3,769,725.40","$ 6,613,983.22"
8,20079635,SKYRIZI,,8054083023328,"$ 4,561,367.72","$ 3,769,725.40","$ 6,613,983.22"
9,20058578,KALETRA SOLUCIÓN,160 ML,8054083006406,"$ 148,177.93","$ 122,461.09","$ 214,857.98"


In [77]:
import os 
import re
#Obtener directorio
directorio_actual = os.getcwd()
print(directorio_actual)

carpeta = "c:/Users/OPERADOR/Desktop/PROYECTO DIGITALIZACION/digitalizacion_distriapp/backend/src/notebook"


# Filtrar archivos que coincidan con el formato "doc procesado (n).csv"
patron = re.compile(r"doc procesado \((\d+)\)\.csv")
archivos_csv = [archivo for archivo in os.listdir(carpeta) if patron.match(archivo)]
archivos_csv

c:\Users\OPERADOR\Desktop\PROYECTO DIGITALIZACION\digitalizacion_distriapp\backend\src\notebook


['doc procesado (1).csv',
 'doc procesado (10).csv',
 'doc procesado (11).csv',
 'doc procesado (12).csv',
 'doc procesado (13).csv',
 'doc procesado (2).csv',
 'doc procesado (3).csv',
 'doc procesado (4).csv',
 'doc procesado (5).csv',
 'doc procesado (6).csv',
 'doc procesado (7).csv',
 'doc procesado (8).csv',
 'doc procesado (9).csv']

In [78]:
# Lista para almacenar los DataFrames
dataframes = []

# Leer y extraer solo las columnas "descripcion" y "presentacion"
for archivo in archivos_csv:
    ruta_archivo = os.path.join(carpeta, archivo)
    df = pd.read_csv(ruta_archivo, encoding='latin-1', on_bad_lines="skip")
    
    # Verificar si las columnas "descripcion" y "presentacion" existen
    if 'descripcion' in df.columns:
        columnas_a_extraer = ['descripcion']
        if 'presentacion' in df.columns:
            columnas_a_extraer.append('presentacion')
        
        # Extraer las columnas seleccionadas y agregarlas a la lista
        df_extraido = df[columnas_a_extraer]
        dataframes.append(df_extraido)

# Unir todos los DataFrames
df_combinado_proveedor = pd.concat(dataframes, ignore_index=True)

# Mostrar las primeras filas del DataFrame combinado
df_combinado_proveedor

Unnamed: 0,descripcion,presentacion
0,HUMIRA AC x 2 (20mg),"2 JERINGAS PRELL. X 0,2 ml"
1,HUMIRA AC x 2 (40mg),"2 LAPICERAS PRELL. X 0,4 ml"
2,HUMIRA AC x 1 (80 mg),"1 LAPICERA PRELL. X 0,8 ml"
3,RINVOQ 15mg,15 MG x 30 COMP REC DE LIB. PROLONGADA
4,RINVOQ 30mg,30 MG x 30 COMP REC DE LIB. PROLONGADA
...,...,...
1088,"0,8Comp SUBL x 30vto 05-26","Ibuprofeno rospaw 400 Vl0,75"
1089,"0,7Comp. Rec. X 60vto 05-26","Ibuprofeno rospaw 400 Vl0,75"
1090,"0,7Comp. Rec. X 60vto 05-26","Ketial 100,75"
1091,"0,74 mg x 1000 compvto 05-26","Ketial 100,75"


In [79]:
# Análisis de valores nulos y vacíos
# Verificar los valores nulos en las columnas
print("\nResumen de valores nulos por columna:")
print(df_combinado_proveedor.isnull().sum())

# Verificar las filas que tienen valores nulos en alguna columna
print("\nFilas con valores nulos:")
print(df_combinado_proveedor[df_combinado_proveedor.isnull().any(axis=1)])

# Eliminar filas con valores nulos en las columnas relevantes (si es necesario)
df_combinado_proveedor_limpio = df_combinado_proveedor.dropna(subset=['descripcion', 'presentacion'], how='any')

# Verificar los valores vacíos (espacios en blanco)
print("\nVerificar valores vacíos en las columnas 'descripcion' y 'presentacion':")
df_combinado_proveedor_limpio['descripcion_vacia'] = df_combinado_proveedor_limpio['descripcion'].str.strip() == ""
df_combinado_proveedor_limpio['presentacion_vacia'] = df_combinado_proveedor_limpio['presentacion'].str.strip() == ""

# Filtrar filas con valores vacíos
print("\nFilas con 'descripcion' vacía:")
print(df_combinado_proveedor_limpio[df_combinado_proveedor_limpio['descripcion_vacia']])

print("\nFilas con 'presentacion' vacía:")
print(df_combinado_proveedor_limpio[df_combinado_proveedor_limpio['presentacion_vacia']])

# Eliminar filas con valores vacíos (si es necesario)
df_combinado_proveedor_limpio_vacio = df_combinado_proveedor_limpio[
    (df_combinado_proveedor_limpio['descripcion_vacia'] == False) & 
    (df_combinado_proveedor_limpio['presentacion_vacia'] == False) ]

# Mostrar el DataFrame limpio
print("\nDataFrame limpio:")
print(df_combinado_proveedor_limpio_vacio.head())  



Resumen de valores nulos por columna:
descripcion      60
presentacion    576
dtype: int64

Filas con valores nulos:
                            descripcion presentacion
93            LEXOTANIL 3 MG COMP. X 20          NaN
94            LEXOTANIL 3 MG COMP. X 30          NaN
95            LEXOTANIL 3 MG COMP. X 50          NaN
96            LEXOTANIL 6 MG COMP. X 30          NaN
97            LEXOTANIL 6 MG COMP. X 50          NaN
...                                 ...          ...
1010  7791763002259FE  DIV.GENERAL52893          NaN
1011  7791763001412FE  DIV.GENERAL43101          NaN
1012  7791763337740FE  DIV.GENERAL23837          NaN
1013       7791763001504FE  DIV.GENERAL          NaN
1014       7791763001511FE  DIV.GENERAL          NaN

[581 rows x 2 columns]

Verificar valores vacíos en las columnas 'descripcion' y 'presentacion':

Filas con 'descripcion' vacía:
Empty DataFrame
Columns: [descripcion, presentacion, descripcion_vacia, presentacion_vacia]
Index: []

Filas con 'pr

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_combinado_proveedor_limpio['descripcion_vacia'] = df_combinado_proveedor_limpio['descripcion'].str.strip() == ""
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_combinado_proveedor_limpio['presentacion_vacia'] = df_combinado_proveedor_limpio['presentacion'].str.strip() == ""


In [80]:
"""
df_combinado_proveedor: Este es el DataFrame que contiene los datos sin ningún procesamiento adicional. Es el resultado de unir todos los archivos CSV y extraer las columnas descripcion y presentacion. Si necesitas trabajar con todos los datos, incluso si contienen valores nulos o vacíos, este es el DataFrame original.

df_combinado_proveedor_limpio: Este DataFrame es el resultado de eliminar las filas que contienen valores nulos en las columnas descripcion o presentacion. Si prefieres trabajar solo con los datos que tienen alguna descripción y/o presentación, pero sin eliminar los vacíos, puedes usar este DataFrame.

df_combinado_proveedor_limpio_vacio: Este es el DataFrame final después de eliminar las filas con valores nulos y las filas donde las columnas descripcion o presentacion son vacías. Si deseas trabajar solo con datos completos (sin valores nulos ni vacíos), este es el DataFrame que debes usar.

Resumen:
Para trabajar con todos los datos, incluyendo los nulos y vacíos: Usa df_combinado_proveedor.
Para trabajar con datos sin nulos: Usa df_combinado_proveedor_limpio.
Para trabajar con datos sin nulos ni vacíos: Usa df_combinado_proveedor_limpio_vacio.
"""


df_combinado_proveedor_limpio

Unnamed: 0,descripcion,presentacion,descripcion_vacia,presentacion_vacia
0,HUMIRA AC x 2 (20mg),"2 JERINGAS PRELL. X 0,2 ml",False,False
1,HUMIRA AC x 2 (40mg),"2 LAPICERAS PRELL. X 0,4 ml",False,False
2,HUMIRA AC x 1 (80 mg),"1 LAPICERA PRELL. X 0,8 ml",False,False
3,RINVOQ 15mg,15 MG x 30 COMP REC DE LIB. PROLONGADA,False,False
4,RINVOQ 30mg,30 MG x 30 COMP REC DE LIB. PROLONGADA,False,False
...,...,...,...,...
1088,"0,8Comp SUBL x 30vto 05-26","Ibuprofeno rospaw 400 Vl0,75",False,False
1089,"0,7Comp. Rec. X 60vto 05-26","Ibuprofeno rospaw 400 Vl0,75",False,False
1090,"0,7Comp. Rec. X 60vto 05-26","Ketial 100,75",False,False
1091,"0,74 mg x 1000 compvto 05-26","Ketial 100,75",False,False
