# Instrucciones:
1. Filtrar y preparar un archivo en excel, el cual solo tenga la validación en OK
2. Poner la ruta del indice archivo en Excel.
3. Poner la ruta las carpetas con los archivos en pdf.

In [67]:
import pandas as pd
import os

## Cargar el archivo de indices


In [68]:
# Cargar el archivo de Excel
archivo_entrada = 'H:\OCTUBRE\Indice Octubre OK.xlsx'

## Archivos para extraer la nomenclatura

In [69]:
# Ruta de las carpetas que deseas explorar
ruta_carpeta = 'H:\OCTUBRE\quincena2319'
ruta_carpeta_2 = 'H:\OCTUBRE\quincena2320'

## Tratamiento y conteno de datos para obtener los dataframes  

In [70]:
# Leer el archivo de Excel y crear un DataFrame
df = pd.read_excel(archivo_entrada)

# Obtener la lista de nombres de archivos en la carpeta
nombres_archivos = os.listdir(ruta_carpeta)
# Obtener la lista de nombres de archivos en la segunda carpeta
nombres_archivos_2 = os.listdir(ruta_carpeta_2)

# Ruta de la segunda carpeta que deseas explorar
# ruta_carpeta_2 = '/ruta/a/la/segunda/carpeta'

# Seleccionar solo las columnas que deseas para trabajar
columnas_seleccionadas = ['QUINCENA', 'ANOMINA', 'REPORTE', 'NARCHIVO', 'ARCHIVO', 'DEPENDEN', 'SUB_DEP', 'VALIDACIÓN']
df = df[columnas_seleccionadas]

# Eliminar las columnas que no necesitas
columnas_a_eliminar = ['ANOMINA', 'NARCHIVO', 'ARCHIVO', 'VALIDACIÓN']
df = df.drop(columns=columnas_a_eliminar)

# Crear un DataFrame con los nombres de los archivos
df_archivos = pd.DataFrame({'Nombre de Archivo': nombres_archivos})

# Crear un DataFrame con los nombres de los archivos de la segunda carpeta
df_archivos_2 = pd.DataFrame({'Nombre de Archivo': nombres_archivos_2})

# Verificar si el valor en la columna "SUB_DEP" es un número y reemplazarlo por un valor nulo si no lo es
df['SUB_DEP'] = df['SUB_DEP'].apply(lambda x: str(x) if (isinstance(x, (int, float)) and not pd.isna(x)) else " ")

# Definir una función para generar la nomenclatura
def generar_nomenclatura(row):
    reporte = str(row['REPORTE'])  # Convertir el valor a cadena por si acaso
    dependen = str(row['DEPENDEN'])  # Convertir el valor a cadena por si acaso
    sub_dep = str(row['SUB_DEP']).split('.')[0]  # Convertir el valor a cadena y eliminar contenido desde el punto decimal
    primeros_tres = reporte[:3]
    primeros_tres = reporte[:3]
    ultimos_cuatro = reporte[-4:]
    cuarto_digito = reporte[3]
    guion_bajo = f"_{sub_dep}" if sub_dep.isdigit() else ''
    return f"{primeros_tres}_{ultimos_cuatro}_{cuarto_digito}_{dependen}{guion_bajo}"

# Aplicar la función para generar la columna de nomenclatura
df['Nomenclatura'] = df.apply(generar_nomenclatura, axis=1)

# Mostrar la información requerida junto con la nueva columna de nomenclatura
#print(df[['REPORTE', 'DEPENDEN', 'SUB_DEP', 'Nomenclatura']])
print(df.head()[['Nomenclatura']])

# Crear una nueva columna en el DataFrame con los nombres de las nomenclaturas
# df['Nomenclatura'] = df.apply(lambda row: f"{row['REPORTE'][:3]}_{row['REPORTE'][-4:]}_{row['REPORTE'][3]}_{row['DEPENDEN']}_{row['SUB_DEP']}" if isinstance(row['SUB_DEP'], int) else f"{row['REPORTE'][:3]}_{row['REPORTE'][-4:]}_{row['REPORTE'][3]}_{row['DEPENDEN']}" if pd.notnull(row['SUB_DEP']) else f"{row['REPORTE'][:3]}_{row['REPORTE'][-4:]}_{row['REPORTE'][3]}_{row['DEPENDEN']}_", axis=1)

# df['Nomenclatura'] = df.apply(lambda row: f"{row['REPORTE'][:3]}_{row['REPORTE'][-4:]}_{row['REPORTE'][3]}_{row['DEPENDEN']}_{'' if pd.isna(row['SUB_DEP']) or not str(row['SUB_DEP']).isdigit() else '_' + str(row['SUB_DEP'])}", axis=1)

# Quitar la extensión de los nombres de archivo en el DataFrame
df_archivos['Nombre de Archivo'] = df_archivos['Nombre de Archivo'].apply(lambda x: os.path.splitext(x)[0])

# Quitar la extensión de los nombres de archivo de la segunda carpeta
df_archivos_2['Nombre de Archivo'] = df_archivos_2['Nombre de Archivo'].apply(lambda x: os.path.splitext(x)[0])

# Concatenar los DataFrames de ambas carpetas
df_final = pd.concat([df_archivos, df_archivos_2], ignore_index=True)

# Renombrar la columna
df_final = df_final.rename(columns={'Nombre de Archivo': 'Nomenclatura'})

# Mostrar los primeros registros del nuevo DataFrame
print(df_final.head())
#print(df_final.tail(50))

# Mostrar los primeros registros del nuevo DataFrame
# print(df_archivos.head())

# Obtener el número de archivos en cada DataFrame
num_archivos_df_1 = df_archivos.shape[0]
num_archivos_df_2 = df_archivos_2.shape[0]
num_archivos_df_final = df_final.shape[0]
df_total = df.shape[0]

# Mostrar el número de archivos en cada DataFrame
print("Número de archivos en el primer DataFrame:", num_archivos_df_1)
print("Número de archivos en el segundo DataFrame:", num_archivos_df_2)
print("Número de archivos en el DataFrame final:", num_archivos_df_final)
print("Número de archivos DF total:", df_total)


     Nomenclatura
0  NJA_2319_0_101
1  NJA_2319_0_102
2  NJA_2319_0_103
3  NJA_2319_0_104
4  NJA_2319_0_105
       Nomenclatura
0  NOJ_2319_1_801_2
1           desktop
2    NJA_2319_0_101
3    NJA_2319_0_102
4    NJA_2319_0_103
Número de archivos en el primer DataFrame: 783
Número de archivos en el segundo DataFrame: 1065
Número de archivos en el DataFrame final: 1848
Número de archivos DF total: 1600


## Comparación de la columna nomenclatura

In [73]:

# Generar conjuntos de nomenclaturas para cada DataFrame
nomenclaturas_df = set(df['Nomenclatura'])
nomenclaturas_df_final = set(df_final['Nomenclatura'])

# Encontrar nomenclaturas que faltan en df_final
faltan_en_df_final = nomenclaturas_df - nomenclaturas_df_final

# Encontrar nomenclaturas que faltan en df
faltan_en_df = nomenclaturas_df_final - nomenclaturas_df

# Mostrar el número de archivos que faltan en cada DataFrame
print("Número de archivos que faltan en el DataFrame final:", len(faltan_en_df_final))
print("Número de archivos que faltan en el DataFrame original:", len(faltan_en_df))

# Mostrar la lista de nomenclaturas que no hacen match
print("Nomenclaturas que faltan en el DataFrame final:")
for nomenclatura in faltan_en_df_final:
    print(nomenclatura)

print("\nNomenclaturas que faltan en el DataFrame original:")
for nomenclatura in faltan_en_df:
    print(nomenclatura)


Número de archivos que faltan en el DataFrame final: 11
Número de archivos que faltan en el DataFrame original: 258
Nomenclaturas que faltan en el DataFrame final:
NOA_2320_A_607
NOA_2320_G_231
NOF_2319_0_225
NOA_2320_F_602
NOF_2320_1_603
NOD_2319_1_233_2
NOA_2320_F_604
NOA_2320_1_102
NOA_2319_3_242
NOD_2320_B_303
NOA_2320_B_605

Nomenclaturas que faltan en el DataFrame original:
NOA_2319_GE_302
NOJ_2320_1_801_1
NOA_2320_D_662
NOA_2320_1_661
NOA_2319_7_653
NOA_2320_7_661
NOA_2320_H_661
NOA_2319_6_656_1
NOA_2319_4_662
NOA_2320_5_611
NOA_2320_1_603_5
NOA_2319_GE_252
NOA_2320_8_653
NOA_2320_5_603_4
NOA_2319_0_603_4
NOA_2319_A_607
NOD_2319_2_661
NOA_2320_8_610
NOA_2320_7_657
NOD_2319_0_610
NOA_2320_C_656_1
NOA_2319_GE_241
NOA_2319_3_656
NOA_2319_3_603_4
NOA_2319_6_650_3
NOA_2319_0_611
NOA_2320_GE_605
NOA_2319_GE_106
NOA_2320_GE_506
NOA_2319_6_610
NOA_2320_1_656
NOA_2320_A_650
NOA_2320_GE_602
NOA_2319_0_661
NOA_2319_9_657
NOA_2320_C_661
NOA_2319_9_656_1
NOA_2319_6_603_4
NOA_2320_H_657
NOA_2

## Comparacion final para identificar los que faltan.

In [72]:
# Convertir las columnas de nomenclatura en conjuntos
nomenclaturas_df = set(df['Nomenclatura'])
nomenclaturas_df_final = set(df_final['Nomenclatura'])

# Encontrar nomenclaturas que faltan en df_final
faltan_en_df_final = nomenclaturas_df - nomenclaturas_df_final

# Mostrar el número de archivos que faltan en el DataFrame final
print("Número de archivos que faltan en el DataFrame final:", len(faltan_en_df_final))

# Mostrar nomenclaturas que faltan en el DataFrame final
print("Nomenclaturas que faltan en el DataFrame final:")
for nomenclatura in faltan_en_df_final:
    print(nomenclatura)


Número de archivos que faltan en el DataFrame final: 11
Nomenclaturas que faltan en el DataFrame final:
NOA_2320_A_607
NOA_2320_G_231
NOF_2319_0_225
NOA_2320_F_602
NOF_2320_1_603
NOD_2319_1_233_2
NOA_2320_F_604
NOA_2320_1_102
NOA_2319_3_242
NOD_2320_B_303
NOA_2320_B_605
