# Trabajo Final - Herramientas de IA
## Detección automática de incumplimiento de Normas de Control Interno usando IA semántica

### Paso 1: Instalación de librerías necesarias

In [None]:
!pip install -q sentence-transformers psycopg2-binary sqlalchemy pandas matplotlib huggingface_hub[hf_xet]

### Paso 2: Importar librerías

In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import re
from sentence_transformers import SentenceTransformer, util
from sqlalchemy import create_engine


### Paso 3: Cargar CSV de descripciones

In [None]:

df_descripciones = pd.read_csv("nci_descripciones.csv")

# Limpieza básica
def limpiar_texto(texto):
    if pd.isna(texto):
        return ""
    texto = texto.lower()
    texto = re.sub(r"[^\w\s]", "", texto)
    return texto

df_descripciones["descripcion"] = df_descripciones["descripcion"].apply(limpiar_texto)
df_descripciones.head()


### Paso 4: Conectar a PostgreSQL de Render y cargar los títulos

In [None]:

# Conexión remota a Render.com
conexion = create_engine(
    "postgresql+psycopg2://nci_control_interno_user:9nb8ZlCkfvJaFy0zkdYSTNoUCT8QZn5c@dpg-d0ohe1uuk2gs738mfn8g-a.oregon-postgres.render.com/nci_control_interno"
)

df_titulos = pd.read_sql("SELECT * FROM nci_titulos", conexion)
df_titulos.head()


### Paso 5: Unir títulos con descripciones y preparar datos

In [None]:

df = pd.merge(df_titulos, df_descripciones, on="codigo_nci", how="inner")
df = df.dropna(subset=["descripcion"]).reset_index(drop=True)
df.head()


### Paso 6: Ingresar observación desde pantalla y calcular similitud

In [None]:

from IPython.display import display
import ipywidgets as widgets

campo_observacion = widgets.Textarea(
    placeholder='Escriba la observación aquí...',
    description='Observación:',
    layout=widgets.Layout(width='100%', height='100px')
)
boton = widgets.Button(description="Analizar")

def analizar_click(b):
    obs = campo_observacion.value
    print(f"Observación ingresada: {obs}")

    # Preprocesar
    obs = limpiar_texto(obs)

    modelo = SentenceTransformer("sentence-transformers/paraphrase-xlm-r-multilingual-v1")
    emb_obs = modelo.encode(obs, convert_to_tensor=True)
    emb_normas = modelo.encode(df["descripcion"].tolist(), convert_to_tensor=True)

    similitudes = util.cos_sim(emb_obs, emb_normas)[0]
    top_indices = similitudes.argsort(descending=True)[:5]

    global top_idx_list
    global global_similitudes
    top_idx_list = [i.item() for i in top_indices]
    global_similitudes = similitudes

    for i in top_idx_list:
        print(f"🔍 {df.loc[i, 'codigo_nci']} - {df.loc[i, 'titulo']}")
        print(f"Similitud: {similitudes[i].item():.2f}")
        print(f"{df.loc[i, 'descripcion'][:200]}...
")

boton.on_click(analizar_click)
display(campo_observacion, boton)


### Paso 7: Visualización de similitud

In [None]:

plt.figure(figsize=(10, 4))
plt.barh(df.loc[top_idx_list, 'codigo_nci'], global_similitudes[top_idx_list].cpu().numpy())
plt.xlabel("Similitud")
plt.title("Normas más relacionadas")
plt.gca().invert_yaxis()
plt.show()
