<h1 style="text-align:center;">
   Práctica 1.1: Modelos de representación
</h1>

<p style="text-align:center;">
  <img src="../../../images/RIreadme.png" alt="Recuperación de Información" width="500"/>
</p>

---

<div style="background-color:#d9f2d9; color:black; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<b>¿Qué es un modelo de  en Recuperación de Información?</b><br><br>

Un modelo RI se define formalmente como una <b>4-tupla</b>:

$$
\mathcal{M} = \langle D, Q, F, R(q, d) \rangle
$$

Donde:

<ul>
<li><b>D</b>: el conjunto de documentos.</li>
<li><b>Q</b>: el conjunto de consultas posibles.</li>
<li><b>F</b>: el marco de representación (por ejemplo, vectores de términos).</li>
<li><b>R(q, d)</b>: la función de evaluación o ranking que mide la relevancia de un documento <i>d</i> respecto a una consulta <i>q</i>.</li>
</ul>

El <b>modelo de representación</b> define el esquema concreto para representar dentro del modelo RI los documentos (d) y las consultas (q)(TF,TF-IDF) siendo la concreción que el marco de representación(booleano,vectorial,...).
</div>

---

<div style="background-color:#e6f2ff; color:black; padding:15px; border-radius:8px; border:1px solid #3399ff;">

En esta práctica nos centraremos en <b>D</b> (el conjunto de documentos) y, sobre todo, en cómo se aplica el <b>componente conjuntivo de un documento</b> $(c(d_i))$.

---

El <b>componente conjuntivo</b> de un documento $d_j$, denotado como $c(d_j)$,  
es un vector de tamaño $T$ (el número de términos del vocabulario).  

A cada término $t_i \in V$ se le asigna un peso $w_{ij}$, que representa  
la relación entre el término $t_i$ y el documento $d_j$.

$$
c(d_i) = (w_{1i}, w_{2i}, \dots, w_{Ti}) \quad \in \mathbb{R}^T
$$

<div style="text-align:center; margin-top:10px;">

<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">📄 d<sub>0</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">📄 d<sub>1</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">📄 d<sub>n</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">📄 d<sub>n-1</sub></span>


<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>0</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>1</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>n</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>n-1</sub>)</span>

</div>

<p style="text-align:center; font-size:15px; font-weight:bold; color:#003366; margin-top:15px;">
Para el sistema de Recuperación de Información, los documentos no se manejan como texto,  
sino como sus <b>componentes conjuntivos</b>, es decir, vectores que, dependiendo del <b>F</b> (marco de representación),  
se utilizarán para compararse con las consultas (<i>queries</i>).
</p>

</div>

---

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h2 style="margin-top:0; color:#990000;">Documentos</h2>

En esta práctica nuestra colección de documentos estará almacenada en la carpeta <b>docs/</b>.  

En la siguiente sección:
- Traeremos todos los documentos desde disco a memoria.  
- Construiremos una lista llamada <b>d</b> que contendrá los documentos en orden.  

De este modo, ya tendremos los elementos básicos para comenzar a construir nuestra matriz de incidencia término–documento.

<div style="margin-top:15px; text-align:center; border:2px solid #990000; padding:10px; border-radius:6px; background-color:#fff0f0; color:#990000; font-weight:bold;">
Advertencia: En esta práctica no se procesan los datos previamente, lo cual es recomendable para rendimiento y calidad del RI.  
Aún faltan pasos importantes como <i>tokenización</i>, <i>stemming</i> o <i>lematización</i>.  
Estos procesos se verán más adelante en la asignatura.
</div>

</div>





In [None]:
from pathlib import Path

docs_dir = Path("./docs")

#Declaramos d
d = []
#Los traemos a memoria, con una lambda los ordenaremos(x.stem nos devuelve el nombre sin extensión)
for file in sorted(docs_dir.glob("doc_*.txt"), key=lambda x: int(x.stem.split("_")[1])):
    d.append(file.read_text(encoding="utf-8"))

print(f"Documentos: {len(d)}")

if d:
    print(f"\ndoc_0.txt:\n")
    print(d[0][:150])




<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h2 style="margin-top:0; color:#990000;">Vocabulario</h2>

En esta parte de la práctica cargaremos el <b>vocabulario</b>, que ha sido definido previamente definido por expertos de los documentos.  

Recordemos que un vocabulario puede construirse de dos maneras:  
- De forma <b>automática</b>, extrayendo de forma algorítmica términos de la colección de documentos.  
- De forma <b>manual</b>, expertos seleccionan los términos.  

En nuestro caso trabajaremos, se seleccionaron de forma manual y están en la carpeta <b>voc/</b>.
</div>



In [None]:
voc_file = Path("voc/vocabulary.txt")
v=[]
#Cargamos el vocabulario en memoria
with open(voc_file, "r", encoding="utf-8") as f:
    v = list([line.strip() for line in f if line.strip()])
print("Vocabulario:\n")
print(v)

<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 1</h2>

Programa un código que genere <b>matriz de incidencia término–documento</b>, para unos documentos y vocabularios dados.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definición matemática</h3>

- Conjunto de documentos: <b>D = {d₁, d₂, …, d<sub>N</sub>}</b>  
- Vocabulario: <b>V = {t₁, t₂, …, t<sub>T</sub>}</b>  

La <b>matriz de incidencia</b> <b>X ∈ {0,1}<sup>T×N</sup></b> se define de esta manera: 

$$
x_{ij} =
\begin{cases}
1 & \text{si } t_i \in d_j \\\\
0 & \text{en caso contrario}
\end{cases}
$$

Cada documento $(d_j)$ puede representarse mediante su  
<b>componente conjuntivo término–documento</b> $(c(d_j))$, que es un vector binario de tamaño \(T\): 


$$
c(d_j) = (x_{1j}, x_{2j}, \dots, x_{Tj}) \quad \text{donde } 
x_{ij} =
\begin{cases}
1 & \text{si el término } t_i \text{ está presente en } d_j \\\\
0 & \text{si el término } t_i \text{ no aparece en } d_j
\end{cases}
$$


De este modo, la matriz se construye como la concatenación de todos los vectores columna:  

$$
\mathbf{X} =
\big[ \; c(d_0) \;\; c(d_1) \;\; \dots \;\; c(d_{N-1}) \; \big]
$$

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo</h3>

<p style="text-align:center;">
Vocabulario: V = { "gato", "perro", "pez" }<br>
Documentos: d₁: “gato y perro” &nbsp;·&nbsp; d₂: “pez nada” &nbsp;·&nbsp; d₃: “gato duerme”
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">Término</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₁</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₂</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₃</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">gato</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">perro</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">pez</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
  </tbody>
</table>


</div>

<hr style="border:1px solid #999;">


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> la matriz de incidencia término–documento a partir de los documentos y el vocabulario.  
Después construiremos una tabla que muestre los términos en filas y los documentos como columnas (d₀, d₁, …).

</div>


In [None]:
import pandas as pd
import numpy as np

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (Más eficiente)

#Substituye los 0's por 1's cuando un documento tenga presente ese término
x = [[int(term in doc) for doc in d] for term in v]

print("Matriz de incidencia (X):")
for fila in x:
    print(fila)


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualización de la matriz de incidencia</h3>

El siguiente fragmento de código genera una <b>tabla clara y estructurada</b> que muestra la 
<b>matriz de incidencia término–documento</b>.  

- Las <b>filas</b> corresponden a los términos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d₀, d₁, …).  
- Cada celda indica con un <b>1</b> si el término aparece en ese documento, y con <b>0</b> en caso contrario.  

De este modo, podremos inspeccionar visualmente cómo se distribuyen los términos en la colección de documentos.

</div>


In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz de incidencia término–documento:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¿Qué ventajas tiene que los valores del <b>componente conjuntivo</b> $(c(d_j))$ sean únicamente binarios  
   en la matriz de incidencia término–documento?  
   <i>Pista: piensa en la simplicidad de almacenamiento, la rapidez de cálculo y la claridad del modelo.</i>

2. Con esta representación binaria, ¿seríamos capaces de <b>ordenar los resultados</b> de una consulta en función de su relevancia?  
   <i>Pista: ¿esta matriz diferencia entre un término que aparece una sola vez y otro que aparece muchas veces en el mismo documento?(Hay una excepción)</i>

</div>


<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 2</h2>

Programa la matriz <b>TF</b>, que permitirá representar la frecuencia $w_{ij}$  
de aparición de los términos del <b>V</b> en <b>D</b>.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definición matemática</h3>

Para cada documento $d_j$, su <b>componente conjuntivo término–documento</b> es un vector de tamaño $T$ (el número de términos del vocabulario), donde cada posición indica la <b>frecuencia absoluta</b> con la que aparece el término $t_i$ en ese documento:

$$
c(d_j) = (w_{1j}, w_{2j}, \dots, w_{Tj}) \quad \text{donde } w_{ij} \text{ es la frecuencia absoluta de } t_i \text{ en } d_j
$$

- <b>Frecuencia absoluta</b> $w_{ij}$: Es el número de veces que el término $t_i$ aparece en el documento $d_j$. Si el término no aparece, su frecuencia es $0$.

Así, la <b>matriz TF</b> $X \in \mathbb{N}^{T \times N}$ se construye colocando como columnas los vectores $c(d_j)$ de todos los documentos:

$$
x_{ij} =
\begin{cases}
w_{ij} & \text{si } t_i \in d_j \\
0 & \text{en caso contrario}
\end{cases}
$$

Donde:
- $w_{ij}$ es el número de veces que el término $t_i$ aparece en el documento $d_j$ (frecuencia absoluta).
- Si el término no aparece, $x_{ij} = 0$.

De este modo, la matriz TF, también se puede construir como la concatenación de todos los <b>componente conjuntivo término–documento</b>

$$
\mathbf{X} =
\big[ \; c(d_0) \;\; c(d_1) \;\; \dots \;\; c(d_{N-1}) \; \big]
$$
</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "red"}<br>
Documentos: d₁: “La inteligencia artificial es dotarte de cierta inteligencia a las computadoras” &nbsp;·&nbsp; d₂: “Red neuronal” &nbsp;·&nbsp; d₃: “Una red de ordenadores donde cada uno tiene una red neuronal”
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">Término</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₁</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₂</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₃</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">red</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
    </tr>
  </tbody>
</table>


</div>

<hr style="border:1px solid #999;">


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> la matriz <b>TF</b> partir de los documentos y el vocabulario.  
Después construiremos una tabla que muestre los términos en filas y los documentos como columnas (d₀, d₁, …).

</div>


In [None]:
import math

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (Más eficiente)

#Contamos las veces que aparece cada término en cada documento
x = [[doc.count(term) for doc in d] for term in v]

# Si necesitamos con logaritmo
# x = [[(1 + math.log2(doc.count(term))) if term in doc else 0 for doc in d] for term in v]

print("Matriz TF (X):")
for fila in x:
    print(fila)
tf=np.array(x)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualización de TF</h3>

El siguiente fragmento de código genera una <b>tabla clara y estructurada</b> que muestra la 
<b>matriz TF</b>.  

- Las <b>filas</b> corresponden a los términos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d₀, d₁, …).  
- Cada celda indica el valor <b>$w_{ij}$</b> que será su frecuencia de aparición.  


</div>

In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz TF:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¿Por qué se dice que <b>TF</b> mide la relevancia local de un término dentro de un documento?  
   <i>Pista: ¿Donde contamos las frecuencias de aparición de los términos?.</i>

2. ¿Qué problemas puede presentar usar <b>únicamente TF</b> como modelo de representación?  
   <i>Pista: ¿Que pasa en documentos grandes,pequeños?¿Tenemos en cuenta el resto de documentos?</i>
3. Implementa la <b>variante logarítmica</b>,¿Qué diferencias presenta sobre la frecuencia absoluta?Pista:
<i>Pista: IDF,escala</i>
</div>

<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 3</h2>

Programa el vector <b>IDF</b>.

</div>

<hr style="border:1px solid #999;">
<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Exhaustividad y especificidad en Recuperación de Información</h3>

- <b>Exhaustividad:</b> Es la proporción de documentos relevantes recuperados respecto al total de documentos relevantes existentes en la colección.  
  $$\text{Exhaustividad} = \frac{\text{Documentos relevantes recuperados}}{\text{Total de documentos relevantes}}$$

- <b>Especificidad:</b> Es la proporción de documentos no relevantes que han sido correctamente excluidos del resultado.  
  $$\text{Especificidad} = \frac{\text{Documentos no relevantes no recuperados}}{\text{Total de documentos no relevantes}}$$


- <b>¿Cuándo priorizar cada métrica?</b>  
  - Se prioriza la <b>exhaustividad</b> cuando es más importante no perder ningún documento relevante.
  - La <b>especificidad</b> es útil cuando queremos minimizar la aparición de falsos positivos.

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo visual: Exhaustividad vs. Especificidad</h3>

<p style="text-align:center; max-width:800px; margin:0 auto 15px auto;">
Cuando el sistema RI tenga como salida documentos estos pueden clasificarse en <span style="color:#1f78b4; font-weight:bold;">relevantes</span> y 
<span style="color:#a6cee3; font-weight:bold;">no relevantes</span>.
</p>

<div style="display:flex; justify-content:center; align-items:center; gap:40px; margin-top:20px;">

  <div style="text-align:center;">
    <img src="../../../images/exhaustividad.png" alt="Alta exhaustividad" width="300"/>
    <p style="margin-top:8px; font-size:14px;">
      Se recupera casi todo lo <span style="color:#1f78b4; font-weight:bold;">relevante</span> 
      (<span style="color:#33a02c; font-weight:bold;">verde</span>), 
      pero también una parte grande de 
      <span style="color:#a6cee3; font-weight:bold;">no relevantes</span> 
      (<span style="color:#e31a1c; font-weight:bold;">rojo</span>).
    </p>
  </div>

  <div style="text-align:center;">
    <img src="../../../images/especificidad.png" alt="Alta especificidad" width="300"/>
    <p style="margin-top:8px; font-size:14px;">
      Se evita recuperar muchos 
      <span style="color:#a6cee3; font-weight:bold;">no relevantes</span>
      (<span style="color:#e31a1c; font-weight:bold;">rojo</span>),  
      pero a cambio se pierden algunos documentos 
      <span style="color:#1f78b4; font-weight:bold;">relevantes</span>
      (<span style="color:#33a02c; font-weight:bold;">verde</span>)
      .
    </p>
  </div>

</div>

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d;">Necesidad del IDF (Inverse Document Frequency)</h3>

<p>
El <b>IDF</b> es un factor de corrección que nos permite medir la <b>relevancia global</b> de un término dentro de una colección de documentos.
</p>

<p>
¿Por qué es necesario?
</p>

<ul>
  <li> Si un término aparece en <b>casi todos los documentos</b> (por ejemplo, “el”, “de”, “computadora”), 
  no ayuda a diferenciar entre documentos. El IDF reduce su peso.</li>

  <li> Por el contrario, un término que aparece en <b>pocos documentos</b> es mucho más <b>discriminativo</b> 
  y recibe un peso mayor en el ranking.</li>

  <li> Evita que documentos <b>muy largos</b> dominen el conteo de frecuencias.  
  Aunque repitan mucho un término común, su contribución se normaliza.</li>

</ul>

<p>
En resumen: <b>el IDF penaliza las palabras demasiado frecuentes</b> y resalta aquellas que aportan 
información más distintiva para la Recuperación de Información.
</p>

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definición matemática del vector IDF</h3>

Sea <b>N</b> el número total de documentos en la colección y <b>n<sub>i</sub></b> el número de documentos que contienen el término <i>t<sub>i</sub></i>.  

El <b>factor de frecuencia inversa de documento</b> para el término <i>t<sub>i</sub></i> se define como:

$$
IDF_i = \log_2 \left( \frac{N}{n_i} \right)
$$

De este modo, el <b>vector IDF</b> para todo el vocabulario es:

$$
\mathbf{IDF} = (IDF_1, IDF_2, \dots, IDF_T)
$$

Este vector asigna un peso a cada término del vocabulario en función de su relevancia global en la colección.

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo (IDF)</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "neuronal" }<br>
Documentos: <br>
d₁: "la inteligencia artificial avanza" · d₂: "sistemas de inteligencia artificial" ·  
d₃: "red neuronal convolucional" · d₄: "datos y aprendizaje"
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">Término</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">n<sub>i</sub> (documentos)</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">IDF</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">neuronal</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
    </tr>
  </tbody>
</table>

<p style="text-align:center; margin-top:10px;">
<b>"neuronal"</b> es más relevante globalmente (IDF=2) porque aparece en menos documentos,<br>
mientras que <b>"inteligencia"</b> es más común (IDF=1).
</p>

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> el vector <b>IDF</b> partir de los documentos y el vocabulario.  
El tamaño del vector vendrá dado por T(número de términos)

</div>

In [None]:
#Inicializamos el vector al tamaño del vocabulario
x = np.zeros((len(v)), dtype=float)

nDoc = len(d)
#Programa el vector IDF
x = [math.log2(nDoc/(sum([1 for doc in d if term in doc]))) for term in v]


print("Vector IDF (X):")
print(x)
idf=np.array(x)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualización del vector IDF</h3>

El siguiente fragmento de código genera una <b>tabla clara y estructurada</b> que muestra el 
<b>vector IDF</b>.  

- Cada <b>fila</b> corresponde a un término del vocabulario.  
- La columna asociada indica el valor <b>IDF<sub>i</sub></b>, que mide la relevancia global de ese término en la colección.  

</div>


In [None]:
# Crear DataFrame para visualizar como tabla
df_idf = pd.DataFrame({"Término": v, "IDF": x})



print("Vector IDF:\n")
display(df_idf)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¿Qué indica que un término tenga un valor de <b>IDF</b> alto? ¿Y si el valor es bajo?  
   <i>Pista: ¿En cuantos documentos aparece ese término?.</i>

   <p style="color:black;">
   Un valor alto de IDF indica que el término aparece en pocos documentos,
   lo que lo hace más relevante para distinguir entre documentos.
   Un valor bajo indica lo contrario y no es un buen discriminador.
   </p>

2. ¿Qué entendemos por <b>relevancia global</b> en un término?  
   <i>Pista: Importancia en la colección.</i>

3. Si añadimos términos nuevos al vocabulario, ¿qué ocurre con la <b>exhaustividad</b>?  
   <i>Pista: ¿Aumentan las coincidencias?.</i>

4. ¿Qué significa que el valor de <b>IDF</b> tienda a 0 o que alcance valores como $\log_2(N)$?  
   <i>Pista: reflexiona sobre qué pasa cuando el término aparece en todos los documentos o solo en uno.</i>


</div>


<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 4</h2>

Programa la <b>matriz TF-IDF</b> a partir de los documentos y el vocabulario.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definición matemática de TF-IDF</h3>

La ponderación <b>TF-IDF</b> combina dos factores:  
- <b>TF</b> (Term Frequency): mide la importancia de un término dentro de un documento (<i>relevancia local</i>).  
- <b>IDF</b> (Inverse Document Frequency): mide la importancia global del término en toda la colección.  

La fórmula se define como:

$$
w_{ij} = TF_{ij} \cdot IDF_i
$$



La matriz de pesos se define como
$$
\mathbf{W} \;=\; [\,w_{ij}\,] \in \mathbb{R}^{T\times N},
$$

Otra forma de calcularlo es mediante una multiplicación matricial entre la matriz TF y el vector IDF:
$$
\mathbf{W} \;=\; \mathbf{TF} \odot \mathbf{IDF}
$$
</div>


<hr style="border:1px solid #999;">

<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo (TF-IDF)</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "neuronal" }<br>
Documentos: d₁: "inteligencia artificial" · d₂: "inteligencia y datos" · d₃: "red neuronal"
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">Término</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₁</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₂</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d₃</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">IDF</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">log₂(3/2) ≈ 0.58</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">neuronal</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">log₂(3/1) ≈ 1.58</td>
    </tr>
  </tbody>
</table>

Podemos usar cualquier version de <b>TF</b>, pero es más recomendable la logarítmica al estar en la misma escala.
</div>

<hr style="border:1px solid #999;">

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>
Ahora asignaremos a <b>X</b> la matriz <b>TF-IDF</b> partir de los documentos y el vocabulario.  
Después construiremos una tabla que muestre los términos en filas y los documentos como columnas (d₀, d₁, …).
</div>

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (Más eficiente)

x = tf * idf[:, np.newaxis]


print("Matriz TF-IDF (X):")
for fila in x:
    print(fila)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualización de la matriz TF-IDF</h3>

El siguiente fragmento de código genera una <b>tabla</b> que muestra la 
<b>matriz TF-IDF</b>.  

- Las <b>filas</b> corresponden a los términos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d₀, d₁, …).  
- Cada celda indica el valor <b>$w_{ij}$</b>.  


</div>

In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz TF-IDF:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¿Qué ventaja crees que tiene TF-IDF sobre otros modelos de representación? 
   <i>Pista:Visualiza su fórmula.</i>

   <p style="color:black;">
   TF-IDF combina la importancia local (TF) y global (IDF) de los términos, 
   permitiendo una representación más equilibrada y efectiva para la recuperación de información.
   </p>

</div>