<h1 style="text-align:center;">
   Pr√°ctica 1.1: Modelos de representaci√≥n
</h1>

<p style="text-align:center;">
  <img src="../../../images/RIreadme.png" alt="Recuperaci√≥n de Informaci√≥n" width="500"/>
</p>

---

<div style="background-color:#d9f2d9; color:black; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<b>¬øQu√© es un modelo de  en Recuperaci√≥n de Informaci√≥n?</b><br><br>

Un modelo RI se define formalmente como una <b>4-tupla</b>:

$$
\mathcal{M} = \langle D, Q, F, R(q, d) \rangle
$$

Donde:

<ul>
<li><b>D</b>: el conjunto de documentos.</li>
<li><b>Q</b>: el conjunto de consultas posibles.</li>
<li><b>F</b>: el marco de representaci√≥n (por ejemplo, vectores de t√©rminos).</li>
<li><b>R(q, d)</b>: la funci√≥n de evaluaci√≥n o ranking que mide la relevancia de un documento <i>d</i> respecto a una consulta <i>q</i>.</li>
</ul>

El <b>modelo de representaci√≥n</b> define el esquema concreto para representar dentro del modelo RI los documentos (d) y las consultas (q)(TF,TF-IDF) siendo la concreci√≥n que el marco de representaci√≥n(booleano,vectorial,...).
</div>

---

<div style="background-color:#e6f2ff; color:black; padding:15px; border-radius:8px; border:1px solid #3399ff;">

En esta pr√°ctica nos centraremos en <b>D</b> (el conjunto de documentos) y, sobre todo, en c√≥mo se aplica el <b>componente conjuntivo de un documento</b> $(c(d_i))$.

---

El <b>componente conjuntivo</b> de un documento $d_j$, denotado como $c(d_j)$,  
es un vector de tama√±o $T$ (el n√∫mero de t√©rminos del vocabulario).  

A cada t√©rmino $t_i \in V$ se le asigna un peso $w_{ij}$, que representa  
la relaci√≥n entre el t√©rmino $t_i$ y el documento $d_j$.

$$
c(d_i) = (w_{1i}, w_{2i}, \dots, w_{Ti}) \quad \in \mathbb{R}^T
$$

<div style="text-align:center; margin-top:10px;">

<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">üìÑ d<sub>0</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">üìÑ d<sub>1</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">üìÑ d<sub>n</sub></span>
<span style="display:inline-block; border:1px solid black; padding:10px; margin:5px;">üìÑ d<sub>n-1</sub></span>


<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>0</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>1</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>n</sub>)</span>
<span style="display:inline-block; border:1px dashed #555; padding:8px 12px; margin:5px;">c(d<sub>n-1</sub>)</span>

</div>

<p style="text-align:center; font-size:15px; font-weight:bold; color:#003366; margin-top:15px;">
Para el sistema de Recuperaci√≥n de Informaci√≥n, los documentos no se manejan como texto,  
sino como sus <b>componentes conjuntivos</b>, es decir, vectores que, dependiendo del <b>F</b> (marco de representaci√≥n),  
se utilizar√°n para compararse con las consultas (<i>queries</i>).
</p>

</div>

---

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h2 style="margin-top:0; color:#990000;">Documentos</h2>

En esta pr√°ctica nuestra colecci√≥n de documentos estar√° almacenada en la carpeta <b>docs/</b>.  

En la siguiente secci√≥n:
- Traeremos todos los documentos desde disco a memoria.  
- Construiremos una lista llamada <b>d</b> que contendr√° los documentos en orden.  

De este modo, ya tendremos los elementos b√°sicos para comenzar a construir nuestra matriz de incidencia t√©rmino‚Äìdocumento.

<div style="margin-top:15px; text-align:center; border:2px solid #990000; padding:10px; border-radius:6px; background-color:#fff0f0; color:#990000; font-weight:bold;">
Advertencia: En esta pr√°ctica no se procesan los datos previamente, lo cual es recomendable para rendimiento y calidad del RI.  
A√∫n faltan pasos importantes como <i>tokenizaci√≥n</i>, <i>stemming</i> o <i>lematizaci√≥n</i>.  
Estos procesos se ver√°n m√°s adelante en la asignatura.
</div>

</div>





In [None]:
from pathlib import Path

docs_dir = Path("./docs")

#Declaramos d
d = []
#Los traemos a memoria, con una lambda los ordenaremos(x.stem nos devuelve el nombre sin extensi√≥n)
for file in sorted(docs_dir.glob("doc_*.txt"), key=lambda x: int(x.stem.split("_")[1])):
    d.append(file.read_text(encoding="utf-8"))

print(f"Documentos: {len(d)}")

if d:
    print(f"\ndoc_0.txt:\n")
    print(d[0][:150])




<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h2 style="margin-top:0; color:#990000;">Vocabulario</h2>

En esta parte de la pr√°ctica cargaremos el <b>vocabulario</b>, que ha sido definido previamente definido por expertos de los documentos.  

Recordemos que un vocabulario puede construirse de dos maneras:  
- De forma <b>autom√°tica</b>, extrayendo de forma algor√≠tmica t√©rminos de la colecci√≥n de documentos.  
- De forma <b>manual</b>, expertos seleccionan los t√©rminos.  

En nuestro caso trabajaremos, se seleccionaron de forma manual y est√°n en la carpeta <b>voc/</b>.
</div>



In [None]:
voc_file = Path("voc/vocabulary.txt")
v=[]
#Cargamos el vocabulario en memoria
with open(voc_file, "r", encoding="utf-8") as f:
    v = list([line.strip() for line in f if line.strip()])
print("Vocabulario:\n")
print(v)

<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 1</h2>

Programa un c√≥digo que genere <b>matriz de incidencia t√©rmino‚Äìdocumento</b>, para unos documentos y vocabularios dados.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definici√≥n matem√°tica</h3>

- Conjunto de documentos: <b>D = {d‚ÇÅ, d‚ÇÇ, ‚Ä¶, d<sub>N</sub>}</b>  
- Vocabulario: <b>V = {t‚ÇÅ, t‚ÇÇ, ‚Ä¶, t<sub>T</sub>}</b>  

La <b>matriz de incidencia</b> <b>X ‚àà {0,1}<sup>T√óN</sup></b> se define de esta manera: 

$$
x_{ij} =
\begin{cases}
1 & \text{si } t_i \in d_j \\\\
0 & \text{en caso contrario}
\end{cases}
$$

Cada documento $(d_j)$ puede representarse mediante su  
<b>componente conjuntivo t√©rmino‚Äìdocumento</b> $(c(d_j))$, que es un vector binario de tama√±o \(T\): 


$$
c(d_j) = (x_{1j}, x_{2j}, \dots, x_{Tj}) \quad \text{donde } 
x_{ij} =
\begin{cases}
1 & \text{si el t√©rmino } t_i \text{ est√° presente en } d_j \\\\
0 & \text{si el t√©rmino } t_i \text{ no aparece en } d_j
\end{cases}
$$


De este modo, la matriz se construye como la concatenaci√≥n de todos los vectores columna:  

$$
\mathbf{X} =
\big[ \; c(d_0) \;\; c(d_1) \;\; \dots \;\; c(d_{N-1}) \; \big]
$$

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo</h3>

<p style="text-align:center;">
Vocabulario: V = { "gato", "perro", "pez" }<br>
Documentos: d‚ÇÅ: ‚Äúgato y perro‚Äù &nbsp;¬∑&nbsp; d‚ÇÇ: ‚Äúpez nada‚Äù &nbsp;¬∑&nbsp; d‚ÇÉ: ‚Äúgato duerme‚Äù
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">T√©rmino</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÅ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÇ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÉ</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">gato</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">perro</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">pez</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
  </tbody>
</table>


</div>

<hr style="border:1px solid #999;">


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> la matriz de incidencia t√©rmino‚Äìdocumento a partir de los documentos y el vocabulario.  
Despu√©s construiremos una tabla que muestre los t√©rminos en filas y los documentos como columnas (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).

</div>


In [None]:
import pandas as pd
import numpy as np

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (M√°s eficiente)

#Substituye los 0's por 1's cuando un documento tenga presente ese t√©rmino
x = [[int(term in doc) for doc in d] for term in v]

print("Matriz de incidencia (X):")
for fila in x:
    print(fila)


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualizaci√≥n de la matriz de incidencia</h3>

El siguiente fragmento de c√≥digo genera una <b>tabla clara y estructurada</b> que muestra la 
<b>matriz de incidencia t√©rmino‚Äìdocumento</b>.  

- Las <b>filas</b> corresponden a los t√©rminos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).  
- Cada celda indica con un <b>1</b> si el t√©rmino aparece en ese documento, y con <b>0</b> en caso contrario.  

De este modo, podremos inspeccionar visualmente c√≥mo se distribuyen los t√©rminos en la colecci√≥n de documentos.

</div>


In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz de incidencia t√©rmino‚Äìdocumento:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¬øQu√© ventajas tiene que los valores del <b>componente conjuntivo</b> $(c(d_j))$ sean √∫nicamente binarios  
   en la matriz de incidencia t√©rmino‚Äìdocumento?  
   <i>Pista: piensa en la simplicidad de almacenamiento, la rapidez de c√°lculo y la claridad del modelo.</i>

2. Con esta representaci√≥n binaria, ¬øser√≠amos capaces de <b>ordenar los resultados</b> de una consulta en funci√≥n de su relevancia?  
   <i>Pista: ¬øesta matriz diferencia entre un t√©rmino que aparece una sola vez y otro que aparece muchas veces en el mismo documento?(Hay una excepci√≥n)</i>

</div>


<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 2</h2>

Programa la matriz <b>TF</b>, que permitir√° representar la frecuencia $w_{ij}$  
de aparici√≥n de los t√©rminos del <b>V</b> en <b>D</b>.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definici√≥n matem√°tica</h3>

Para cada documento $d_j$, su <b>componente conjuntivo t√©rmino‚Äìdocumento</b> es un vector de tama√±o $T$ (el n√∫mero de t√©rminos del vocabulario), donde cada posici√≥n indica la <b>frecuencia absoluta</b> con la que aparece el t√©rmino $t_i$ en ese documento:

$$
c(d_j) = (w_{1j}, w_{2j}, \dots, w_{Tj}) \quad \text{donde } w_{ij} \text{ es la frecuencia absoluta de } t_i \text{ en } d_j
$$

- <b>Frecuencia absoluta</b> $w_{ij}$: Es el n√∫mero de veces que el t√©rmino $t_i$ aparece en el documento $d_j$. Si el t√©rmino no aparece, su frecuencia es $0$.

As√≠, la <b>matriz TF</b> $X \in \mathbb{N}^{T \times N}$ se construye colocando como columnas los vectores $c(d_j)$ de todos los documentos:

$$
x_{ij} =
\begin{cases}
w_{ij} & \text{si } t_i \in d_j \\
0 & \text{en caso contrario}
\end{cases}
$$

Donde:
- $w_{ij}$ es el n√∫mero de veces que el t√©rmino $t_i$ aparece en el documento $d_j$ (frecuencia absoluta).
- Si el t√©rmino no aparece, $x_{ij} = 0$.

De este modo, la matriz TF, tambi√©n se puede construir como la concatenaci√≥n de todos los <b>componente conjuntivo t√©rmino‚Äìdocumento</b>

$$
\mathbf{X} =
\big[ \; c(d_0) \;\; c(d_1) \;\; \dots \;\; c(d_{N-1}) \; \big]
$$
</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "red"}<br>
Documentos: d‚ÇÅ: ‚ÄúLa inteligencia artificial es dotarte de cierta inteligencia a las computadoras‚Äù &nbsp;¬∑&nbsp; d‚ÇÇ: ‚ÄúRed neuronal‚Äù &nbsp;¬∑&nbsp; d‚ÇÉ: ‚ÄúUna red de ordenadores donde cada uno tiene una red neuronal‚Äù
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">T√©rmino</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÅ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÇ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÉ</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">red</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
    </tr>
  </tbody>
</table>


</div>

<hr style="border:1px solid #999;">


<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> la matriz <b>TF</b> partir de los documentos y el vocabulario.  
Despu√©s construiremos una tabla que muestre los t√©rminos en filas y los documentos como columnas (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).

</div>


In [None]:
import math

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (M√°s eficiente)

#Contamos las veces que aparece cada t√©rmino en cada documento
x = [[doc.count(term) for doc in d] for term in v]

# Si necesitamos con logaritmo
# x = [[(1 + math.log2(doc.count(term))) if term in doc else 0 for doc in d] for term in v]

print("Matriz TF (X):")
for fila in x:
    print(fila)
tf=np.array(x)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualizaci√≥n de TF</h3>

El siguiente fragmento de c√≥digo genera una <b>tabla clara y estructurada</b> que muestra la 
<b>matriz TF</b>.  

- Las <b>filas</b> corresponden a los t√©rminos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).  
- Cada celda indica el valor <b>$w_{ij}$</b> que ser√° su frecuencia de aparici√≥n.  


</div>

In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz TF:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¬øPor qu√© se dice que <b>TF</b> mide la relevancia local de un t√©rmino dentro de un documento?  
   <i>Pista: ¬øDonde contamos las frecuencias de aparici√≥n de los t√©rminos?.</i>

2. ¬øQu√© problemas puede presentar usar <b>√∫nicamente TF</b> como modelo de representaci√≥n?  
   <i>Pista: ¬øQue pasa en documentos grandes,peque√±os?¬øTenemos en cuenta el resto de documentos?</i>
3. Implementa la <b>variante logar√≠tmica</b>,¬øQu√© diferencias presenta sobre la frecuencia absoluta?Pista:
<i>Pista: IDF,escala</i>
</div>

<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 3</h2>

Programa el vector <b>IDF</b>.

</div>

<hr style="border:1px solid #999;">
<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Exhaustividad y especificidad en Recuperaci√≥n de Informaci√≥n</h3>

- <b>Exhaustividad:</b> Es la proporci√≥n de documentos relevantes recuperados respecto al total de documentos relevantes existentes en la colecci√≥n.  
  $$\text{Exhaustividad} = \frac{\text{Documentos relevantes recuperados}}{\text{Total de documentos relevantes}}$$

- <b>Especificidad:</b> Es la proporci√≥n de documentos no relevantes que han sido correctamente excluidos del resultado.  
  $$\text{Especificidad} = \frac{\text{Documentos no relevantes no recuperados}}{\text{Total de documentos no relevantes}}$$


- <b>¬øCu√°ndo priorizar cada m√©trica?</b>  
  - Se prioriza la <b>exhaustividad</b> cuando es m√°s importante no perder ning√∫n documento relevante.
  - La <b>especificidad</b> es √∫til cuando queremos minimizar la aparici√≥n de falsos positivos.

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo visual: Exhaustividad vs. Especificidad</h3>

<p style="text-align:center; max-width:800px; margin:0 auto 15px auto;">
Cuando el sistema RI tenga como salida documentos estos pueden clasificarse en <span style="color:#1f78b4; font-weight:bold;">relevantes</span> y 
<span style="color:#a6cee3; font-weight:bold;">no relevantes</span>.
</p>

<div style="display:flex; justify-content:center; align-items:center; gap:40px; margin-top:20px;">

  <div style="text-align:center;">
    <img src="../../../images/exhaustividad.png" alt="Alta exhaustividad" width="300"/>
    <p style="margin-top:8px; font-size:14px;">
      Se recupera casi todo lo <span style="color:#1f78b4; font-weight:bold;">relevante</span> 
      (<span style="color:#33a02c; font-weight:bold;">verde</span>), 
      pero tambi√©n una parte grande de 
      <span style="color:#a6cee3; font-weight:bold;">no relevantes</span> 
      (<span style="color:#e31a1c; font-weight:bold;">rojo</span>).
    </p>
  </div>

  <div style="text-align:center;">
    <img src="../../../images/especificidad.png" alt="Alta especificidad" width="300"/>
    <p style="margin-top:8px; font-size:14px;">
      Se evita recuperar muchos 
      <span style="color:#a6cee3; font-weight:bold;">no relevantes</span>
      (<span style="color:#e31a1c; font-weight:bold;">rojo</span>),  
      pero a cambio se pierden algunos documentos 
      <span style="color:#1f78b4; font-weight:bold;">relevantes</span>
      (<span style="color:#33a02c; font-weight:bold;">verde</span>)
      .
    </p>
  </div>

</div>

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d;">Necesidad del IDF (Inverse Document Frequency)</h3>

<p>
El <b>IDF</b> es un factor de correcci√≥n que nos permite medir la <b>relevancia global</b> de un t√©rmino dentro de una colecci√≥n de documentos.
</p>

<p>
¬øPor qu√© es necesario?
</p>

<ul>
  <li> Si un t√©rmino aparece en <b>casi todos los documentos</b> (por ejemplo, ‚Äúel‚Äù, ‚Äúde‚Äù, ‚Äúcomputadora‚Äù), 
  no ayuda a diferenciar entre documentos. El IDF reduce su peso.</li>

  <li> Por el contrario, un t√©rmino que aparece en <b>pocos documentos</b> es mucho m√°s <b>discriminativo</b> 
  y recibe un peso mayor en el ranking.</li>

  <li> Evita que documentos <b>muy largos</b> dominen el conteo de frecuencias.  
  Aunque repitan mucho un t√©rmino com√∫n, su contribuci√≥n se normaliza.</li>

</ul>

<p>
En resumen: <b>el IDF penaliza las palabras demasiado frecuentes</b> y resalta aquellas que aportan 
informaci√≥n m√°s distintiva para la Recuperaci√≥n de Informaci√≥n.
</p>

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definici√≥n matem√°tica del vector IDF</h3>

Sea <b>N</b> el n√∫mero total de documentos en la colecci√≥n y <b>n<sub>i</sub></b> el n√∫mero de documentos que contienen el t√©rmino <i>t<sub>i</sub></i>.  

El <b>factor de frecuencia inversa de documento</b> para el t√©rmino <i>t<sub>i</sub></i> se define como:

$$
IDF_i = \log_2 \left( \frac{N}{n_i} \right)
$$

De este modo, el <b>vector IDF</b> para todo el vocabulario es:

$$
\mathbf{IDF} = (IDF_1, IDF_2, \dots, IDF_T)
$$

Este vector asigna un peso a cada t√©rmino del vocabulario en funci√≥n de su relevancia global en la colecci√≥n.

</div>
<hr style="border:1px solid #999;">
<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo (IDF)</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "neuronal" }<br>
Documentos: <br>
d‚ÇÅ: "la inteligencia artificial avanza" ¬∑ d‚ÇÇ: "sistemas de inteligencia artificial" ¬∑  
d‚ÇÉ: "red neuronal convolucional" ¬∑ d‚ÇÑ: "datos y aprendizaje"
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">T√©rmino</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">n<sub>i</sub> (documentos)</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">IDF</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">neuronal</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">2</td>
    </tr>
  </tbody>
</table>

<p style="text-align:center; margin-top:10px;">
<b>"neuronal"</b> es m√°s relevante globalmente (IDF=2) porque aparece en menos documentos,<br>
mientras que <b>"inteligencia"</b> es m√°s com√∫n (IDF=1).
</p>

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>

Ahora asignaremos a <b>X</b> el vector <b>IDF</b> partir de los documentos y el vocabulario.  
El tama√±o del vector vendr√° dado por T(n√∫mero de t√©rminos)

</div>

In [None]:
#Inicializamos el vector al tama√±o del vocabulario
x = np.zeros((len(v)), dtype=float)

nDoc = len(d)
#Programa el vector IDF
x = [math.log2(nDoc/(sum([1 for doc in d if term in doc]))) for term in v]


print("Vector IDF (X):")
print(x)
idf=np.array(x)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualizaci√≥n del vector IDF</h3>

El siguiente fragmento de c√≥digo genera una <b>tabla clara y estructurada</b> que muestra el 
<b>vector IDF</b>.  

- Cada <b>fila</b> corresponde a un t√©rmino del vocabulario.  
- La columna asociada indica el valor <b>IDF<sub>i</sub></b>, que mide la relevancia global de ese t√©rmino en la colecci√≥n.  

</div>


In [None]:
# Crear DataFrame para visualizar como tabla
df_idf = pd.DataFrame({"T√©rmino": v, "IDF": x})



print("Vector IDF:\n")
display(df_idf)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¬øQu√© indica que un t√©rmino tenga un valor de <b>IDF</b> alto? ¬øY si el valor es bajo?  
   <i>Pista: ¬øEn cuantos documentos aparece ese t√©rmino?.</i>

   <p style="color:black;">
   Un valor alto de IDF indica que el t√©rmino aparece en pocos documentos,
   lo que lo hace m√°s relevante para distinguir entre documentos.
   Un valor bajo indica lo contrario y no es un buen discriminador.
   </p>

2. ¬øQu√© entendemos por <b>relevancia global</b> en un t√©rmino?  
   <i>Pista: Importancia en la colecci√≥n.</i>

3. Si a√±adimos t√©rminos nuevos al vocabulario, ¬øqu√© ocurre con la <b>exhaustividad</b>?  
   <i>Pista: ¬øAumentan las coincidencias?.</i>

4. ¬øQu√© significa que el valor de <b>IDF</b> tienda a 0 o que alcance valores como $\log_2(N)$?  
   <i>Pista: reflexiona sobre qu√© pasa cuando el t√©rmino aparece en todos los documentos o solo en uno.</i>


</div>


<div style="background-color:#333333; color:white; padding:15px; border-radius:8px; border:1px solid #000;">

<h2 style="margin-top:0; color:white;">Ejercicio 4</h2>

Programa la <b>matriz TF-IDF</b> a partir de los documentos y el vocabulario.

</div>

<hr style="border:1px solid #999;">

<div style="background-color:#d9f2d9; color:#003300; padding:15px; border-radius:8px; border:1px solid #5cb85c;">

<h3 style="margin-top:0; color:#003300;">Definici√≥n matem√°tica de TF-IDF</h3>

La ponderaci√≥n <b>TF-IDF</b> combina dos factores:  
- <b>TF</b> (Term Frequency): mide la importancia de un t√©rmino dentro de un documento (<i>relevancia local</i>).  
- <b>IDF</b> (Inverse Document Frequency): mide la importancia global del t√©rmino en toda la colecci√≥n.  

La f√≥rmula se define como:

$$
w_{ij} = TF_{ij} \cdot IDF_i
$$



La matriz de pesos se define como
$$
\mathbf{W} \;=\; [\,w_{ij}\,] \in \mathbb{R}^{T\times N},
$$

Otra forma de calcularlo es mediante una multiplicaci√≥n matricial entre la matriz TF y el vector IDF:
$$
\mathbf{W} \;=\; \mathbf{TF} \odot \mathbf{IDF}
$$
</div>


<hr style="border:1px solid #999;">

<div style="background-color:#e6f0ff; color:#00264d; padding:15px; border-radius:8px; border:1px solid #3366cc;">

<h3 style="margin-top:0; color:#00264d; text-align:center;">Ejemplo ilustrativo (TF-IDF)</h3>

<p style="text-align:center;">
Vocabulario: V = { "inteligencia", "neuronal" }<br>
Documentos: d‚ÇÅ: "inteligencia artificial" ¬∑ d‚ÇÇ: "inteligencia y datos" ¬∑ d‚ÇÉ: "red neuronal"
</p>

<table style="margin:0 auto; border-collapse:collapse; text-align:center;">
  <thead>
    <tr>
      <th style="border:1px solid #3366cc; padding:6px 10px;">T√©rmino</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÅ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÇ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">d‚ÇÉ</th>
      <th style="border:1px solid #3366cc; padding:6px 10px;">IDF</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">inteligencia</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">log‚ÇÇ(3/2) ‚âà 0.58</td>
    </tr>
    <tr>
      <td style="border:1px solid #3366cc; padding:6px 10px;">neuronal</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">0</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">1</td>
      <td style="border:1px solid #3366cc; padding:6px 10px;">log‚ÇÇ(3/1) ‚âà 1.58</td>
    </tr>
  </tbody>
</table>

Podemos usar cualquier version de <b>TF</b>, pero es m√°s recomendable la logar√≠tmica al estar en la misma escala.
</div>

<hr style="border:1px solid #999;">

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Programa</h3>
Ahora asignaremos a <b>X</b> la matriz <b>TF-IDF</b> partir de los documentos y el vocabulario.  
Despu√©s construiremos una tabla que muestre los t√©rminos en filas y los documentos como columnas (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).
</div>

In [None]:
#Inicializamos todo a 0 en la matriz TxN
# x = [[0 for _ in range(len(d))] for _ in range(len(v))]
x = np.zeros((len(v), len(d)), dtype=int) # (M√°s eficiente)

x = tf * idf[:, np.newaxis]


print("Matriz TF-IDF (X):")
for fila in x:
    print(fila)

<div style="background-color:#ffe6e6; color:#990000; padding:15px; border-radius:8px; border:1px solid #cc0000;">

<h3 style="margin-top:0; color:#990000;">Visualizaci√≥n de la matriz TF-IDF</h3>

El siguiente fragmento de c√≥digo genera una <b>tabla</b> que muestra la 
<b>matriz TF-IDF</b>.  

- Las <b>filas</b> corresponden a los t√©rminos del vocabulario.  
- Las <b>columnas</b> corresponden a los documentos cargados (d‚ÇÄ, d‚ÇÅ, ‚Ä¶).  
- Cada celda indica el valor <b>$w_{ij}$</b>.  


</div>

In [None]:
df = pd.DataFrame(x, index=(v), columns=[f"d{j}" for j in range(len(d))])

print("\nMatriz TF-IDF:\n")
display(df)

<div style="background-color:#fff3cd; color:#665200; padding:15px; border-radius:8px; border:1px solid #ffecb5;">

<h3 style="margin-top:0; color:#665200;">Preguntas:</h3>

1. ¬øQu√© ventaja crees que tiene TF-IDF sobre otros modelos de representaci√≥n? 
   <i>Pista:Visualiza su f√≥rmula.</i>

   <p style="color:black;">
   TF-IDF combina la importancia local (TF) y global (IDF) de los t√©rminos, 
   permitiendo una representaci√≥n m√°s equilibrada y efectiva para la recuperaci√≥n de informaci√≥n.
   </p>

</div>