[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pugapatricia/gestion-documentaria-para-pymes/blob/main//buscador/busqueda_inteligente_openai.ipynb)

# ===============================================================
#🧠 ASISTENTE INTELIGENTE DE DOCUMENTOS EN ONEDRIVE + OPENAI
# ===============================================================

# Descripción:
Este script conecta tu cuenta de OneDrive, analiza los documentos
almacenados en una carpeta específica y los relaciona con una tabla
de etiquetas para responder preguntas en lenguaje natural, por ejemplo:
  - "¿Qué documentos están relacionados con la contabilidad?"
  - "Muéstrame los archivos que traten sobre políticas internas o contratos."
  - "¿Qué informes financieros mencionan resultados del último trimestre?"

# Resultado:
El sistema actúa como un “asistente documental” capaz de comprender
preguntas complejas y sugerir los archivos más relacionados, combinando
etiquetas, contenido textual y lenguaje natural.

# Requisitos previos:
- Acceso a una cuenta Microsoft (OneDrive) con los permisos correctos.
- Archivo CSV con la tabla de etiquetas (`etiquetas_onedrive.csv`).
- API key válida de OpenAI.

Autor: Patricia Puga y Marco Mendieta
Proyecto: Búsqueda inteligente de documentos OneDrive + OpenAI


[![Ver en GitHub](https://img.shields.io/badge/GitHub-Repo-black?logo=github)](https://github.com/pugapatricia/gestion-documentaria-para-pymes/tree/main/etiquetado)

#1. Dependencias

In [1]:
!pip install -q PyPDF2 python-docx openpyxl python-pptx xlrd transformers office365-rest-python-client msal requests

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/232.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━[0m [32m225.3/232.6 kB[0m [31m12.8 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/253.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m253.0/253.0 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m472.8/472.8 kB[0m [31m13.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m117.0/117.0 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━

#2. Importaciones y configuración

In [2]:
import os
import io
import re
import json
from pathlib import Path
from PyPDF2 import PdfReader
import docx
import openpyxl
from pptx import Presentation
import xlrd
from transformers import pipeline
from office365.sharepoint.client_context import ClientContext
from office365.runtime.auth.user_credential import UserCredential
import os
import requests
import msal
import csv
import getpass
from openai import OpenAI
from transformers import pipeline
import time
import openai
import requests
import pandas as pd

# 3. Autenticaciones




API KEY

In [3]:
api_key = getpass.getpass("Introduce tu OpenAI API Key: ")
client = OpenAI(api_key=api_key)
token = getpass.getpass("Introduce tu GitHub token: ")

Introduce tu OpenAI API Key: ··········
Introduce tu GitHub token: ··········


Conección con OneDrive

In [4]:
CLIENT_ID = "e3f2393e-7348-47d1-9c64-8d8efe6a5e95"  # tu nuevo Client ID
AUTHORITY = "https://login.microsoftonline.com/consumers"
SCOPE = ["User.Read", "Files.ReadWrite"]
ext_permitidas = {"pdf", "docx", "xlsx", "xls", "pptx", "txt", "csv"}
url = "https://graph.microsoft.com/v1.0/me/drive/root:/Etiquetados:/children"

In [5]:
app = msal.PublicClientApplication(CLIENT_ID, authority=AUTHORITY)

flow = app.initiate_device_flow(scopes=SCOPE)
if "user_code" not in flow:
    raise Exception("No se pudo iniciar el device flow. Revisa tu configuración en Azure.")

print(flow["message"])  # 👉 Copia el código en https://microsoft.com/devicelogin
result = app.acquire_token_by_device_flow(flow)

if "access_token" not in result:
    raise Exception(f"Error autenticación: {result.get('error_description')}")

access_token = result["access_token"]
headers = {"Authorization": f"Bearer {access_token}"}

# Llamada a la API con tu token de acceso
resp = requests.get(url, headers=headers)
if resp.status_code != 200:
    raise Exception(f"Error al obtener archivos: {resp.text}")
data = resp.json()

To sign in, use a web browser to open the page https://www.microsoft.com/link and enter the code E8AYGPG9 to authenticate.


#4. Leer archivos de OneDrive

In [6]:
def leer_pdf(contenido, limite_palabras=None):
    texto = ""
    reader = PdfReader(io.BytesIO(contenido))
    for page in reader.pages:
        page_text = page.extract_text()
        if page_text:
            texto += page_text + "\n"
    # Aplicar límite de palabras al final
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_docx(contenido, limite_palabras=None):
    texto = ""
    doc = docx.Document(io.BytesIO(contenido))
    # Párrafos
    for p in doc.paragraphs:
        if p.text.strip():
            texto += p.text + "\n"
    # Tablas
    for table in doc.tables:
        for row in table.rows:
            row_text = " ".join([cell.text for cell in row.cells if cell.text.strip()])
            if row_text:
                texto += row_text + "\n"
    # Aplicar límite al final
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_excel(contenido, limite_palabras=None):
    texto = ""
    wb = openpyxl.load_workbook(io.BytesIO(contenido), data_only=True, read_only=True)
    for sheet in wb.worksheets:
        for row in sheet.iter_rows(values_only=True):
            row_text = " ".join([str(cell) for cell in row if cell])
            if row_text:
                texto += row_text + "\n"
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_xls(contenido, limite_palabras=None):
    texto = ""
    temp_file = "temp.xls"
    with open(temp_file, "wb") as f:
        f.write(contenido)
    wb = xlrd.open_workbook(temp_file)
    for sheet in wb.sheets():
        for row_idx in range(sheet.nrows):
            row = sheet.row_values(row_idx)
            row_text = " ".join([str(cell) for cell in row if cell])
            if row_text:
                texto += row_text + "\n"
    os.remove(temp_file)
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_pptx(contenido, limite_palabras=None):
    texto = ""
    temp_file = "temp.pptx"
    with open(temp_file, "wb") as f:
        f.write(contenido)
    prs = Presentation(temp_file)
    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, "text") and shape.text.strip():
                texto += shape.text + "\n"
    os.remove(temp_file)
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_txt_csv(contenido, limite_palabras=None):
    texto = contenido.decode("utf-8", errors="ignore")
    if limite_palabras:
        texto = " ".join(texto.split()[:limite_palabras])
    return texto

def leer_archivo(nombre, contenido, limite_palabras=None):
    ext = nombre.split(".")[-1].lower()
    if ext == "pdf":
        return leer_pdf(contenido, limite_palabras)
    elif ext == "docx":
        return leer_docx(contenido, limite_palabras)
    elif ext == "xlsx":
        return leer_excel(contenido, limite_palabras)
    elif ext == "xls":
        return leer_xls(contenido, limite_palabras)
    elif ext == "pptx":
        return leer_pptx(contenido, limite_palabras)
    elif ext in {"txt", "csv"}:
        return leer_txt_csv(contenido, limite_palabras)
    else:
        return ""

In [7]:
# Extensiones que te interesan
ext_permitidas = {"pdf", "docx", "xlsx", "xls", "pptx", "txt", "csv"}

# Filtrar solo archivos válidos dentro del JSON obtenido
archivos_permitidos = [
    {
        "nombre": item["name"],
        "url_descarga": item["@microsoft.graph.downloadUrl"],
        "tamano_kb": round(item["size"] / 1024, 2)
    }
    for item in data.get("value", [])
    if item["name"].split(".")[-1].lower() in ext_permitidas
]

# Mostrar los archivos encontrados
if not archivos_permitidos:
    print("⚠️ No se encontraron archivos con las extensiones permitidas.")
else:
    print("📂 Archivos encontrados en OneDrive:")
    for f in archivos_permitidos:
        print(f" - {f['nombre']} ({f['tamano_kb']} KB)")

# (Opcional) crear un DataFrame con la lista de archivos
df_archivos = pd.DataFrame(archivos_permitidos)
print("\n✅ Total de archivos válidos encontrados:", len(df_archivos))
df_archivos.head()


📂 Archivos encontrados en OneDrive:
 - 11_07_2019_modelo_orientativo_de_contrato_de_arrendamiento_de_vivienda.pdf (689.21 KB)
 - 2016-admitidos_Segundo ciclo- Cursos monográficos.xls (134.5 KB)
 - 2023_05-Modelo_Documento_reserva_inmueble_en_alquiler_v.reducida.docx (35.8 KB)
 - 660d1bfb7c43622a597a4000_Non-disclosure agreement nda template contract.pdf (20.88 KB)
 - Acuerdo_no_Divulgacion_Unilateral_UE.pdf (168.59 KB)
 - Acuerdo-de-Confidencialidad-OEPM.pdf (334.54 KB)
 - AnaLiliana_SuarezHerrera_WelmarFernandoRinconTorres_2018_Anexo1.pptx (1173.64 KB)
 - Analisis de interpretacion de estados financieros.pptx (519.51 KB)
 - Análisis Financiero del Proyecto.xls (609.0 KB)
 - ANALISIS FINANCIERO.xls (97.5 KB)
 - biblioteca2-csv.xls (328.5 KB)
 - contrato_alquiler_opcion_compra.pdf (242.73 KB)
 - ContratoAlquiler_reducido.pdf (135.38 KB)
 - contrato-de-confidencialidad-freelancer-plantilla-gratis-word.docx (22.63 KB)
 - Formulario_EX00_I28202503542693.pdf (425.18 KB)
 - Formulario_EX00_I

Unnamed: 0,nombre,url_descarga,tamano_kb
0,11_07_2019_modelo_orientativo_de_contrato_de_a...,https://my.microsoftpersonalcontent.com/person...,689.21
1,2016-admitidos_Segundo ciclo- Cursos monográfi...,https://my.microsoftpersonalcontent.com/person...,134.5
2,2023_05-Modelo_Documento_reserva_inmueble_en_a...,https://my.microsoftpersonalcontent.com/person...,35.8
3,660d1bfb7c43622a597a4000_Non-disclosure agreem...,https://my.microsoftpersonalcontent.com/person...,20.88
4,Acuerdo_no_Divulgacion_Unilateral_UE.pdf,https://my.microsoftpersonalcontent.com/person...,168.59


#5. Cargar la tabla de documentos y etiquetas

In [8]:
df_etiquetas = pd.read_csv("https://raw.githubusercontent.com/pugapatricia/gestion-documentaria-para-pymes/refs/heads/main/etiquetado/etiquetas_onedrive.csv", encoding="utf-8-sig")
df_etiquetas.head()

Unnamed: 0,Archivo,Etiquetas
0,11_07_2019_modelo_orientativo_de_contrato_de_a...,"registro, propiedad, arrendador, indicadores, ..."
1,2016-admitidos_Segundo ciclo- Cursos monográfi...,"historia, confidencialidad, arte, medioambient..."
2,2023_05-Modelo_Documento_reserva_inmueble_en_a...,"seguro, seguridad, obligaciones, solicitud, ju..."
3,660d1bfb7c43622a597a4000_Non-disclosure agreem...,"solicitud, propiedadintelectual, balance, incu..."
4,Acuerdo_no_Divulgacion_Unilateral_UE.pdf,"cesión, medioambiente, arrendatario, registro,..."


In [9]:
df_etiquetas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Archivo    25 non-null     object
 1   Etiquetas  25 non-null     object
dtypes: object(2)
memory usage: 532.0+ bytes


#6. Leer documentos

In [15]:
import requests

# Crear diccionario para almacenar texto extraído
textos_archivos = {}

# Puedes limitar la cantidad de archivos a leer (por tiempo)
archivos_a_procesar = df_archivos.head(25).to_dict("records")  # por ejemplo, los 5 primeros

for item in archivos_a_procesar:
    nombre = item["nombre"]
    url = item["url_descarga"]

    print(f"📖 Leyendo contenido de: {nombre} ...")
    try:
        # Descargar contenido binario
        file_bytes = requests.get(url).content

        # Leer según tipo de archivo (usando tus funciones)
        texto = leer_archivo(nombre, file_bytes, limite_palabras=1000)

        # Guardar texto limpio
        textos_archivos[nombre] = texto

        print(f"✅ {nombre}: {len(texto.split())} palabras extraídas")

    except Exception as e:
        print(f"⚠️ Error al leer {nombre}: {e}")

print("\n🗂️ Total de archivos leídos:", len(textos_archivos))


📖 Leyendo contenido de: 11_07_2019_modelo_orientativo_de_contrato_de_arrendamiento_de_vivienda.pdf ...
✅ 11_07_2019_modelo_orientativo_de_contrato_de_arrendamiento_de_vivienda.pdf: 1000 palabras extraídas
📖 Leyendo contenido de: 2016-admitidos_Segundo ciclo- Cursos monográficos.xls ...
✅ 2016-admitidos_Segundo ciclo- Cursos monográficos.xls: 1000 palabras extraídas
📖 Leyendo contenido de: 2023_05-Modelo_Documento_reserva_inmueble_en_alquiler_v.reducida.docx ...
✅ 2023_05-Modelo_Documento_reserva_inmueble_en_alquiler_v.reducida.docx: 1000 palabras extraídas
📖 Leyendo contenido de: 660d1bfb7c43622a597a4000_Non-disclosure agreement nda template contract.pdf ...
✅ 660d1bfb7c43622a597a4000_Non-disclosure agreement nda template contract.pdf: 609 palabras extraídas
📖 Leyendo contenido de: Acuerdo_no_Divulgacion_Unilateral_UE.pdf ...
✅ Acuerdo_no_Divulgacion_Unilateral_UE.pdf: 1000 palabras extraídas
📖 Leyendo contenido de: Acuerdo-de-Confidencialidad-OEPM.pdf ...
✅ Acuerdo-de-Confidencialidad

#7. Función para encontrar documentos relacionados

In [25]:
from difflib import get_close_matches
import pandas as pd

def buscar_documentos_tabla(consulta, textos_archivos, df_etiquetas, top_n=5):
    """
    Busca documentos relevantes y devuelve un DataFrame con resultados.
    """
    consulta = consulta.lower().strip()
    resultados = []

    # Buscar coincidencias en las etiquetas
    for _, row in df_etiquetas.iterrows():
        archivo = row["Archivo"]
        etiquetas = str(row["Etiquetas"]).lower()

        if consulta in etiquetas or any(word in etiquetas for word in consulta.split()):
            resultados.append(archivo)

    # Si no hay coincidencias en etiquetas, buscar en el texto del archivo
    if not resultados:
        for archivo, texto in textos_archivos.items():
            texto_lower = texto.lower()
            if consulta in texto_lower:
                resultados.append(archivo)

    # Crear DataFrame para mostrar resultados
    if resultados:
        df_resultados = pd.DataFrame({"Archivos propuestos": resultados})
        return df_resultados
    else:
        print(f"⚠️ No se encontraron resultados para la búsqueda: '{consulta}'")
        return None

#8. Ejecutar la búsqueda

In [26]:
print("🔍 Buscador de documentos activo. Escribe 'salir' o 'exit' para terminar.\n")

while True:
    consulta = input("👉 ¿Qué deseas buscar?: ").strip()
    if consulta.lower() in {"salir", "exit"}:
        print("👋 Saliendo del buscador. ¡Hasta luego!")
        break

    df_resultados = buscar_documentos_tabla(consulta, textos_archivos, df_etiquetas)

    if df_resultados is not None and not df_resultados.empty:
        print(f"\n📄 Resultados para '{consulta}':")
        display(df_resultados)  # Esto mostrará la tabla limpia en Jupyter/Colab
    print("-" * 80)

🔍 Buscador de documentos activo. Escribe 'salir' o 'exit' para terminar.

👉 ¿Qué deseas buscar?: contrato

📄 Resultados para 'contrato':


Unnamed: 0,Archivos propuestos
0,AnaLiliana_SuarezHerrera_WelmarFernandoRinconT...


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: finanzas

📄 Resultados para 'finanzas':


Unnamed: 0,Archivos propuestos
0,AnaLiliana_SuarezHerrera_WelmarFernandoRinconT...


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: pollo
⚠️ No se encontraron resultados para la búsqueda: 'pollo'
--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: hola
⚠️ No se encontraron resultados para la búsqueda: 'hola'
--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: documento de administracion

📄 Resultados para 'documento de administracion':


Unnamed: 0,Archivos propuestos
0,2016-admitidos_Segundo ciclo- Cursos monográfi...
1,660d1bfb7c43622a597a4000_Non-disclosure agreem...
2,Acuerdo_no_Divulgacion_Unilateral_UE.pdf
3,Analisis de interpretacion de estados financie...
4,ANALISIS FINANCIERO.xls
5,biblioteca2-csv.xls
6,contrato_alquiler_opcion_compra.pdf
7,ContratoAlquiler_reducido.pdf
8,JOtracosa de prueba.pdf
9,Justificante de Presentación REG.pdf


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: documento de contratos

📄 Resultados para 'documento de contratos':


Unnamed: 0,Archivos propuestos
0,2016-admitidos_Segundo ciclo- Cursos monográfi...
1,660d1bfb7c43622a597a4000_Non-disclosure agreem...
2,Acuerdo_no_Divulgacion_Unilateral_UE.pdf
3,Analisis de interpretacion de estados financie...
4,ANALISIS FINANCIERO.xls
5,biblioteca2-csv.xls
6,contrato_alquiler_opcion_compra.pdf
7,ContratoAlquiler_reducido.pdf
8,JOtracosa de prueba.pdf
9,Justificante de Presentación REG.pdf


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: documento academico
⚠️ No se encontraron resultados para la búsqueda: 'documento academico'
--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: académico

📄 Resultados para 'académico':


Unnamed: 0,Archivos propuestos
0,JOtracosa de prueba.pdf
1,Justificante de Presentación REG.pdf


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: visa de estudios

📄 Resultados para 'visa de estudios':


Unnamed: 0,Archivos propuestos
0,2016-admitidos_Segundo ciclo- Cursos monográfi...
1,660d1bfb7c43622a597a4000_Non-disclosure agreem...
2,Acuerdo_no_Divulgacion_Unilateral_UE.pdf
3,Analisis de interpretacion de estados financie...
4,Análisis Financiero del Proyecto.xls
5,ANALISIS FINANCIERO.xls
6,biblioteca2-csv.xls
7,contrato_alquiler_opcion_compra.pdf
8,ContratoAlquiler_reducido.pdf
9,contrato-de-confidencialidad-freelancer-planti...


--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: pollo
⚠️ No se encontraron resultados para la búsqueda: 'pollo'
--------------------------------------------------------------------------------
👉 ¿Qué deseas buscar?: exit
👋 Saliendo del buscador. ¡Hasta luego!
