In [None]:
import os
import re
import pandas as pd
import unicodedata

# Rutas locales
pdf_folder = "Tesis"
excel_path = "00Tesis.xlsx"

# Leer los nombres de los ficheros PDF
pdf_files = [f for f in os.listdir(pdf_folder) if f.lower().endswith(".pdf")]

# Función para normalizar texto: quitar acentos y convertir a minúsculas
def normalize_text(text):
    text = text.lower()
    text = unicodedata.normalize('NFKD', text)
    text = ''.join(c for c in text if not unicodedata.combining(c))
    return text

# Función para limpiar el nombre del fichero
def clean_pdf_name(filename):
    name = filename.replace(".pdf", "")
    name = re.sub(r"\d{4}$", "", name)  # Eliminar el año al final
    name = re.sub(r"(?<!^)(?=[A-Z])", " ", name)  # Agregar espacios antes de mayúsculas
    return normalize_text(name.strip())

# Leer el archivo Excel
df = pd.read_excel(excel_path)

# Asegurarse de que hay al menos cinco columnas
while df.shape[1] < 5:
    df[f'ExtraCol{df.shape[1] + 1}'] = ""

# Listas para seguimiento
pdf_encontrados = []
pdf_no_encontrados = []

# Buscar coincidencias y escribir el nombre del fichero en la quinta columna
for pdf in pdf_files:
    cleaned_name = clean_pdf_name(pdf)
    encontrado = False
    for idx, author in df.iloc[:, 1].items():
        normalized_author = normalize_text(str(author))
        if cleaned_name in normalized_author:
            df.iat[idx, 4] = pdf.replace(".pdf", "")
            pdf_encontrados.append(pdf)
            encontrado = True
            break
    if not encontrado:
        pdf_no_encontrados.append(pdf)

# Guardar el archivo actualizado
output_path = "00Tesisfaltantes.xlsx"
df.to_excel(output_path, index=False)

# Mostrar resultados
print(f"Archivo actualizado guardado en: {output_path}\n")
print("PDFs encontrados y asociados correctamente:")
for f in pdf_encontrados:
    print(f" - {f}")

print("\nPDFs sin coincidencia en el Excel:")
for f in pdf_no_encontrados:
    print(f" - {f}")


Archivo actualizado guardado en: C:\Users\rafa_\Documents\TFM\00Tesisfaltantes.xlsx

PDFs encontrados y asociados correctamente:
 - AbadVillamor2017.pdf
 - AbaunzaCarranza2019.pdf
 - Abdallah2022.pdf
 - AbdelAziz2023.pdf
 - Abderrahman2023.pdf
 - AbrilCaballero2016.pdf
 - AbuSiam2023.pdf
 - AcebilloBaque2019.pdf
 - AcostaMarquez2015.pdf
 - AcostaPenco2020.pdf
 - Afailal2016.pdf
 - Agbata2021.pdf
 - AguayoOrtiz2018.pdf
 - AguilarAlmao2015.pdf
 - AguilarFelix2015.pdf
 - AhamjikAhidar2015.pdf
 - Ahmad2022.pdf
 - AlamoGomez2016.pdf
 - AlarconGalindo2021.pdf
 - Albert2018.pdf
 - AlbertiGenovart2017.pdf
 - AlcarazQuevedo2015.pdf
 - AlcazarEscribano2020.pdf
 - AldamaOrdonez2017.pdf
 - Alesso2017.pdf
 - AlexanderLopez2016.pdf
 - Alfaro2022.pdf
 - Alieva2018.pdf
 - AlonsoCalderon2016.pdf
 - AlonsoMartinez2018.pdf
 - AlonsoPardo2020.pdf
 - AlonsoRey2017.pdf
 - AltunkaynakVodina2022.pdf
 - AlvarezCollar2016.pdf
 - AlvarezDominguez2021.pdf
 - AlvarezMartinez2022.pdf
 - AlvarezPintor2020.pdf
 - Alv