<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Caso-taller:  Recomendando el Blog de  Hernán Casciari


[Hernán Casciari](https://hernancasciari.com/#bio), es un escritor argentino, que escribe blog posts con cuentos e historias  relacionadas con el futbol, su vida, infancia, y relaciones familiares con toques de ficción. Este [blog](https://hernancasciari.com/blog/) es  tan interesantes que en 2005 fue premiado como “El mejor blog del mundo” por Deutsche Welle de Alemania.

El objetivo de este caso-taller es construir un sistema de recomendación basado en los contenidos de los posts utilizando similitud de las palabras usadas o temas de los cuentos.

## Instrucciones generales

1. Para desarrollar el *cuaderno* primero debe descargarlo.

2. Para responder cada inciso deberá utilizar el espacio debidamente especificado.

3. La actividad será calificada sólo si sube el *cuaderno* de jupyter notebook con extensión `.ipynb` en la actividad designada como "Revisión por el compañero."

4. El archivo entregado debe poder ser ejecutado localmente por los pares. Sea cuidadoso con la especificación de la ubicación de los archivos de soporte, guarde la carpeta de datos  en la misma ruta de acceso del cuaderno, por ejemplo: `data`.

## Desarrollo


### 1. Carga de datos

En la carpeta `data` se encuentran el archivo `blog_casciari.csv` con el título, la fecha de publicación, y el contenido de los cuentos publicados en el blog  de sr. Casciari. Cargue estos datos en su *cuaderno* y reporte brevemente el contenido de la base.
   

In [None]:
# Utilice este espacio para escribir el código.
import pandas as pd

blog=pd.read_csv('/blog_casciari.csv')
blog


Unnamed: 0,titulo,fecha,cuento
0,El rincón blanco,1/11/08,De pronto yo estaba en el hogar donde pasé la ...
1,Mínimos avances en la cama,1/24/08,"Menos la cama, todo ha mejorado en este mundo...."
2,Don Marcos,2/19/08,"Dos veces, y no una, mi abuelo materno me ayud..."
3,Los dos rulfos,3/26/08,"A su regreso de México, mi amigo Comequechu no..."
4,La noticia no es el perro,4/15/08,"De repente, un video de You Tube recibe un mil..."
...,...,...,...
515,Instrucciones para la masturbación del hijo,8/18/07,Si lees estas líneas es porque hoy cumples tre...
516,El colmo de un campesino,9/24/07,"Hace algunos días Natalia Méndez, una editora ..."
517,La decadencia del Hombre Corbata,10/16/07,El actual Hombre Corbata es el último eslabón ...
518,El sentido del olfato en los trenes,10/26/07,Mi nombre no importa; no voy a presentarme. Lo...




Se usa la libreria de pandas de pandas para abrir el archivo "blog_casciari", posteriormente se guarda como blog

### 2. Homogenización de textos

Para cumplir con el objetivo de generar recomendaciones en esta sección se preparan los posts para poder ser utilizados en su sistema de recomendación. Para ello, "limpie" y "tokenize" cada uno de los cuentos, describiendo detalladamente los pasos que realizo y si transformó o eliminó ciertas palabras. Para asistirlo en la tarea he creado listas de *stopwords* que están disponibles en la carpeta `data`. En el procedimiento se ilustra la limpieza con el cuento 'La venganza del metegol'.

In [None]:
pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.8/235.8 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.4.0


In [None]:
# Utilice este espacio para escribir el código.
import re
import unidecode

# Quitar acentos y bajar a minúsculas
blog["cuento"] = blog["cuento"].apply(unidecode.unidecode).str.lower()
blog["cuento"] = blog["cuento"].apply(lambda x: re.sub(r'[^A-Za-z0-9 ]+', ' ', str(x)))

def limpiar_texto(texto):
    # 1. Pasar a string por seguridad
    texto = str(texto)
    # 2. Quitar acentos
    texto = unidecode.unidecode(texto)
    # 3. Bajar todo a minúsculas
    texto = texto.lower()
    # 4. Eliminar caracteres que no sean letras, números o espacio
    texto = re.sub(r'[^A-Za-z0-9 ]+', ' ', texto)
    # 5. Eliminar números
    texto = re.sub(r'\d+', '', texto)
    # 6. Reemplazar múltiples espacios por uno solo
    texto = re.sub(r'\s+', ' ', texto)
    # 7. Quitar espacios al inicio y final
    texto = texto.strip()
    return texto

# Aplicar a la columna "cuento"
blog["cuento"] = blog["cuento"].apply(limpiar_texto)

blog["cuento"]

Unnamed: 0,cuento
0,de pronto yo estaba en el hogar donde pase la ...
1,menos la cama todo ha mejorado en este mundo a...
2,dos veces y no una mi abuelo materno me ayudo ...
3,a su regreso de mexico mi amigo comequechu nos...
4,de repente un video de you tube recibe un mill...
...,...
515,si lees estas lineas es porque hoy cumples tre...
516,hace algunos dias natalia mendez una editora d...
517,el actual hombre corbata es el ultimo eslabon ...
518,mi nombre no importa no voy a presentarme lo q...


In [None]:
pip install "spacy<3.6"


Collecting spacy<3.6
  Downloading spacy-3.5.4-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (25 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy<3.6)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy<3.6)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy<3.6)
  Downloading murmurhash-1.0.13.tar.gz (13 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting cymem<2.1.0,>=2.0.2 (from spacy<3.6)
  Downloading cymem-2.0.11.tar.gz (10 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ...

      Successfully uninstalled typing_extensions-4.7.1
Successfully installed blis-0.7.11 catalogue-2.0.10 confection-0.1.5 cymem-2.0.11 langcodes-3.3.0 murmurhash-1.0.13 pathy-0.10.3 preshed-3.0.10 pydantic-1.10.23 smart-open-6.4.0 spacy-3.5.4 spacy-legacy-3.0.12 spacy-loggers-1.0.5 srsly-2.4.8 thinc-8.1.12 typer-0.9.4 typing-extensions-4.4.0 wasabi-1.1.3
Note: you may need to restart the kernel to use updated packages.


In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m83.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
# Cargamos la librería a utilizar
import spacy

# Cargar el modelo para el idioma deseado (español)
nlp = spacy.load("es_core_news_sm")

In [None]:
blog["cuento"] = blog["cuento"].apply(nlp)
blog

Unnamed: 0,titulo,fecha,cuento
0,El rincón blanco,1/11/08,"(de, pronto, yo, estaba, en, el, hogar, donde,..."
1,Mínimos avances en la cama,1/24/08,"(menos, la, cama, todo, ha, mejorado, en, este..."
2,Don Marcos,2/19/08,"(dos, veces, y, no, una, mi, abuelo, materno, ..."
3,Los dos rulfos,3/26/08,"(a, su, regreso, de, mexico, mi, amigo, comequ..."
4,La noticia no es el perro,4/15/08,"(de, repente, un, video, de, you, tube, recibe..."
...,...,...,...
515,Instrucciones para la masturbación del hijo,8/18/07,"(si, lees, estas, lineas, es, porque, hoy, cum..."
516,El colmo de un campesino,9/24/07,"(hace, algunos, dias, natalia, mendez, una, ed..."
517,La decadencia del Hombre Corbata,10/16/07,"(el, actual, hombre, corbata, es, el, ultimo, ..."
518,El sentido del olfato en los trenes,10/26/07,"(mi, nombre, no, importa, no, voy, a, presenta..."


In [None]:
# Cargamos las stopwords extra
stopwords=pd.read_csv('/stopwords_taller.csv', sep=',',header=None)
stopwords.columns = ['stopwords']
stopwords=set(stopwords['stopwords'].to_list())

# Agregamos a nuestro modelo de SpaCy
nlp.Defaults.stop_words |= stopwords
#ahora con los extra
extra_stopwords = pd.read_csv('/extra_stopwords.csv', sep=',',header=None)
extra_stopwords.columns = ['stopwords']
extra_stopwords=set(extra_stopwords['stopwords'].to_list())

nlp.Defaults.stop_words |= extra_stopwords

In [None]:
def remove_stopwords(text):
    doc = nlp(text)
    tokens = [token.text for token in doc if not token.is_stop]
    return " ".join(tokens)
# Aplicar la función a la columna "cuento"
blog["cuento"] = blog["cuento"].apply(remove_stopwords)
# Revisar el resultado
print(blog["cuento"].head())

0    hogar pase infancia supo nariz ojos acostumbra...
1    cama mejorado mundo cocinabamos sopa fuego len...
2    abuelo materno ayudo escritor intencion conver...
3    regreso mexico amigo comequechu conto historia...
4    video you tube recibe millon visitas autora go...
Name: cuento, dtype: object


In [None]:
resultado = blog.loc[blog["titulo"] == "La venganza del metegol", "cuento"]

# Si solo quieres el texto como string
cuento = resultado.iloc[0]

print(cuento)

mes invitaron presentar libro aires libro futbol charla director editorial invito jugar partido metegol invento espanol creadores llaman erroneamente futbolin anos jugaba metegol suerte toco companero filosofo prestigioso pudimos ganar contrincantes autor libro director editorial conocia juventud jugamos partidos enteros destrozamos facilidad pasmosa anos practicaba falso deporte munecas reflejos descubri perdido manas sentir edad destreza mantengamos indemne pelotuda convierte noticia charla fotografos imagenes partido metegol subieron twitter estadio libreria gandhi aires locales izquierda alejandro duchini gonzalo garces vistantes derecha tomas abraham hernan casciari resultado match match paliza volvi casa recibi mail chiri amigo infancia decia visto fotos sorprendia companero filosofo admirabamos juventud vos jugando metegol tomas abraham pasar sueno decia momento partido imagine diecisiete anos mirando ventana libreria gandhi escena futuro sonrei recuerdo momentaneo desconcentro 

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

# Flujo de Limpieza y Procesamiento del Texto en la Columna `cuento`
---

## **1. Limpieza inicial**
```python
blog["cuento"] = blog["cuento"].apply(unidecode.unidecode).str.lower()
blog["cuento"] = blog["cuento"].apply(lambda x: re.sub(r'[^A-Za-z0-9 ]+', ' ', str(x)))


# 2. **Función `limpiar_texto`**

```python
def limpiar_texto(texto):
    texto = str(texto)                                # 1. Convertir a string
    texto = unidecode.unidecode(texto)                # 2. Quitar acentos
    texto = texto.lower()                             # 3. Minúsculas
    texto = re.sub(r'[^A-Za-z0-9 ]+', ' ', texto)     # 4. Eliminar símbolos
    texto = re.sub(r'\d+', '', texto)                 # 5. Eliminar números
    texto = re.sub(r'\s+', ' ', texto)                # 6. Unificar espacios
    texto = texto.strip()                             # 7. Quitar espacios extremos
    return texto
```
## 3. Aplicacion Limpieza
```python
blog["cuento"] = blog["cuento"].apply(limpiar_texto)
```
Cada entrada de la columna queda como un texto plano, limpio y normalizado.
## 4. Procesamiento con spaCy
```python
import spacy
nlp = spacy.load("es_core_news_sm")
blog["cuento"] = blog["cuento"].apply(nlp)
```
El texto limpio se convierte en un objeto Doc de spaCy.

Esto no elimina palabras; añade información lingüística.

Permite acceder a:

token.text → palabra original

token.lemma_ → lema de la palabra

token.pos_ → categoría gramatical

## Resultado final con "La venganza del metegol"
mes invitaron presentar libro aires libro futbol charla director editorial invito jugar partido metegol invento espanol creadores llaman erroneamente futbolin anos jugaba metegol suerte toco companero filosofo prestigioso pudimos ganar contrincantes autor libro director editorial conocia juventud jugamos partidos enteros destrozamos facilidad pasmosa anos practicaba falso deporte munecas reflejos descubri perdido manas sentir edad destreza mantengamos indemne pelotuda convierte noticia charla fotografos imagenes partido metegol subieron twitter estadio libreria gandhi aires locales izquierda alejandro duchini gonzalo garces vistantes derecha tomas abraham hernan casciari resultado match match paliza volvi casa recibi mail chiri amigo infancia decia visto fotos sorprendia companero filosofo admirabamos juventud vos jugando metegol tomas abraham pasar sueno decia momento partido imagine diecisiete anos mirando ventana libreria gandhi escena futuro sonrei recuerdo momentaneo desconcentro juego justo momento gol unico recibi noche defendia zaga gol molinete gonzalo garces director editorial galerna injusticia festejo cara antideportivo tratara mundo vino cabeza conte sobremesas amigos ocurrio noche conoci gonzalo adolescentes seria ano noventa gustaba pasar veranos mercedes pueblo padres iban vacaciones dejaban casa amigo chiri llegaba viernes madrugada pasaba casa despierto veia luz habitacion tocaba timbre emborrachabamos veia luz entraba ventana cuarto oscuras despertaba maneras horribles tiraba agua cara pegaba patada panza metia gato cobijas subia mantas empezaba bombearme amante desenfrenado objetivo despertarme creativa semana paso conoci gonzalo garces promesa escritor diecisiete anos invite pasar semana mercedes gonzalo cachorro persona fina banado clase acomodada sereno convertido ano dieciseis critico literario joven historia diario porteno nacion prodigio garces conocimos casualidad ano integramos antologia jovenes promesas literarias publicado libro veinte autores adolescentes lei cuento unico gusto llame telefono invite casa charlar mercedes semana lleve carnaval pueblo carnavales luminosos tristes provincia aires pasamos accidente nocturno gonzalo garces quedo dormir casa ofreci habitacion dormir borrachera cama padres recordar rutina chiri madrugadas noche gonzalo chico mozo fragil acosto apago luz ciudad desconocida llanura pampeana quedo dormido noche borracho joven entraria oscuras ventana subiria sodomizarlo escuche grito habitacion padres quedaba lejos entere manana encontre gonzalo cocina desayunaba pelos alborotados ayer entro tipo ventana quiso fornicar adentro sabanas saque cabeza asustado tipo mira vos sos gordo deja fornicar levanta cama pide disculpas escapa ventana iba ciclomotor marca zanella aparecio mire taza cafe tenia gonzalo mano temblaba pusiera llorar tranquilice carnaval dije epocas vale gonzalo susto garces enorme crei olvidado epoca preocupe susto amigo chiri duro anos traumatico creer violando chiste amigo gordo vida violando chiste promesa literaria menor edad horrible imagen facil subconsciente pobre chiri paso anos gonzalo garces empezo crecer mundo hispanoamericano letras convirtio escritor critico implacable director editorial prestigiosa trauma chiri crecio par consagracion garces anos gonzalo gano premio seix barral chiri sintio verguenza violado oscuridad alguien conseguido galardon vargas llosa gol grito gonzalo garces cara metegol mirada maradoniana vengativa jamas visto mirando camara decirme acuerda roto alma gustaron carnavales pueblo hernan casciari noviembre


### 3. Generando Recomendaciones

En esta sección nos interesa generar recomendaciones de cuentos en el blog a un usuario que leyó 'La venganza del metegol'. Para ello vamos a utilizar distintas estrategias.

#### 3.1. Recomendaciones basadas en contenidos

##### 3.1.1. Se generan 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando en la distancia de coseno donde el texto este vectorizado por `CountVectorizer`. Explicando el procedimiento que realizó y como se ordenó las recomendaciones.

In [None]:
# Utilice este espacio para escribir el código.
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

count = CountVectorizer(stop_words=list(nlp.Defaults.stop_words))
count_matrix = count.fit_transform(blog['cuento'])
count_matrix

<520x30316 sparse matrix of type '<class 'numpy.int64'>'
	with 133641 stored elements in Compressed Sparse Row format>

In [None]:
#Calculamos la matriz de similitud de coseno
cosine_sim1 = cosine_similarity(count_matrix, count_matrix)

cosine_sim1

array([[1.        , 0.06456184, 0.16560887, ..., 0.03442367, 0.08814161,
        0.13812079],
       [0.06456184, 1.        , 0.11833616, ..., 0.11979064, 0.06054335,
        0.09181501],
       [0.16560887, 0.11833616, 1.        , ..., 0.09955959, 0.09795811,
        0.1692775 ],
       ...,
       [0.03442367, 0.11979064, 0.09955959, ..., 1.        , 0.05595777,
        0.04461111],
       [0.08814161, 0.06054335, 0.09795811, ..., 0.05595777, 1.        ,
        0.12771589],
       [0.13812079, 0.09181501, 0.1692775 , ..., 0.04461111, 0.12771589,
        1.        ]])

In [None]:
def recomendador(titulo, cosine_sim, df):
    # Obtener el índice del cuento que coincide con el título
    idx = df[df['titulo'] == titulo].index[0]

    # Obtener las puntuaciones de similitud de coseno de todos los cuentos con ese cuento
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Ordenar los cuentos en orden descendente de puntuación de similitud
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Obtener las puntuaciones de los 5 cuentos más similares (excluyendo el propio cuento)
    sim_scores = sim_scores[1:6]

    # Obtener los índices de los cuentos
    cuento_indices = [i[0] for i in sim_scores]

    # Devolver los 5 cuentos más similares
    return df['titulo'].iloc[cuento_indices]

In [None]:
recom=recomendador('La venganza del metegol', cosine_sim=cosine_sim1, df=blog)
recom

Unnamed: 0,titulo
416,Hace seis años también era domingo
17,Cuento con bruja y tramontina
159,Pajaritos en jaula gigante
121,Gaussian blur
138,Nueve libros que me hicieron olvidar el Mundial


### Procedimiento y Explicación del Código

1. **Importación de Librerías Necesarias:**
    Primero, se importan las librerías necesarias:
    - `CountVectorizer` de `sklearn.feature_extraction.text`: Para transformar el texto en una matriz de características (frecuencia de palabras).
    - `cosine_similarity` de `sklearn.metrics.pairwise`: Para calcular la similitud de coseno entre los vectores de características de los cuentos.

2. **Transformación del Texto en Características Numéricas:**
    Se utiliza el `CountVectorizer` para convertir la columna `cuento` del DataFrame `blog` en una **matriz de características**.
    Esta matriz contiene las frecuencias de las palabras en cada cuento. Se usan **palabras de parada** (stop words) que eliminan las palabras comunes sin valor semántico (como "y", "de", etc.) gracias al objeto `nlp.Defaults.stop_words` de spaCy.

    ```python
    count = CountVectorizer(stop_words=list(nlp.Defaults.stop_words))
    count_matrix = count.fit_transform(blog['cuento'])
    ```

    **Resultado:**
    La variable `count_matrix` es una representación numérica de los cuentos donde cada fila es un cuento y cada columna es una palabra distinta del corpus.

3. **Cálculo de la Similitud de Coseno:**
    La similitud de coseno se calcula entre todas las filas de la matriz de características para obtener una **matriz de similitud de coseno** que refleja qué tan similares son los cuentos entre sí.
    
    ```python
    cosine_sim1 = cosine_similarity(count_matrix, count_matrix)
    ```

    **Resultado:**
    La matriz `cosine_sim1` contiene valores entre 0 y 1, donde 1 indica que los cuentos son idénticos y 0 indica que no comparten similitud.

4. **Creación de la Función de Recomendación:**
    La función `recomendador` toma tres argumentos:
    - El título del cuento para el cual queremos hacer recomendaciones.
    - La matriz de similitud de coseno `cosine_sim`.
    - El DataFrame `df` que contiene la información de los cuentos.

    Dentro de la función, se realiza lo siguiente:
    - **Obtener el índice del cuento** en el DataFrame que coincide con el título proporcionado.
    - **Obtener las puntuaciones de similitud** de ese cuento con todos los demás cuentos.
    - **Ordenar las puntuaciones** de similitud en orden descendente (de mayor a menor).
    - **Seleccionar los 5 cuentos más similares** (excluyendo el propio cuento).
    
    ```python
    def recomendador(titulo, cosine_sim, df):
        idx = df[df['titulo'] == titulo].index[0]
        sim_scores = list(enumerate(cosine_sim[idx]))
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
        sim_scores = sim_scores[1:6]
        cuento_indices = [i[0] for i in sim_scores]
        return df['titulo'].iloc[cuento_indices]
    ```

    **Resultado:**
    La función devuelve los títulos de los 5 cuentos más similares al cuento dado como entrada.

5. **Generación de Recomendaciones:**
    Finalmente, se prueba la función `recomendador` pasando el título de un cuento (en este caso, "La venganza del metegol") para obtener los 5 cuentos más similares.

    ```python
    recom = recomendador('La venganza del metegol', cosine_sim=cosine_sim1, df=blog)
    ```

    **Resultado:**
    La variable `recom` contiene los títulos de los 5 cuentos más similares al cuento "La venganza del metegol".

### Análisis del Procedimiento

1. **Transformación del Texto en Características:**
    El uso de `CountVectorizer` es apropiado para esta tarea, ya que convierte el texto en una representación numérica basada en la frecuencia de las palabras.
    Sin embargo, este método no captura relaciones semánticas profundas entre las palabras, como sinónimos o contextos de uso.

2. **Similitud de Coseno:**
    La **similitud de coseno** es una técnica efectiva para medir cuán similares son dos documentos.
    Este enfoque mide la orientación de los vectores de palabras en un espacio multidimensional, y una alta similitud de coseno indica que los cuentos comparten muchas palabras clave, aunque no necesariamente en el mismo orden o con el mismo estilo.

3. **Recomendación:**
    La función `recomendador` genera las recomendaciones de manera eficiente, ordenando las puntuaciones de similitud en orden descendente y seleccionando los 5 cuentos más similares, excluyendo el cuento original.

### Conclusiones

- El sistema de recomendación basado en **similitud de coseno** y **frecuencia de palabras** funciona bien para tareas sencillas de recomendación textual.
- **Limitaciones:**
    - No se tienen en cuenta las relaciones semánticas profundas entre las palabras. Por ejemplo, si un cuento utiliza sinónimos o tiene un vocabulario diferente pero trata el mismo tema, es posible que no se lo recomiende.
    - Este enfoque depende de la representación **bag-of-words** (bolsa de palabras), que no captura el orden ni el contexto de las palabras en el texto.
    
- Para mejorar la precisión de las recomendaciones:
    - Se podrían utilizar enfoques más avanzados como **modelos de lenguaje preentrenados** (ej., **BERT**, **Word2Vec**) que pueden captar sinónimos, contexto y relaciones semánticas más profundas.


##### 3.1.2. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para  el cuento 'La venganza del metegol' usando nuevamente la distancia de coseno, pero ahora vectorice el texto usando `TF-IDFVectorizer`. Se explica el procedimiento realizado y como ordenó las recomendaciones. Compare con los resultados del punto anterior y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.
from sklearn.feature_extraction.text import TfidfVectorizer
Tfid = TfidfVectorizer(stop_words=list(nlp.Defaults.stop_words))
Tfid_matrix = Tfid.fit_transform(blog['cuento'])
Tfid_matrix

<520x30316 sparse matrix of type '<class 'numpy.float64'>'
	with 133641 stored elements in Compressed Sparse Row format>

In [None]:
cosine_sim2 = cosine_similarity(Tfid_matrix, Tfid_matrix)

cosine_sim2

array([[1.        , 0.03527576, 0.09158152, ..., 0.02124566, 0.04259402,
        0.07537693],
       [0.03527576, 1.        , 0.06478204, ..., 0.04986722, 0.02617693,
        0.0457853 ],
       [0.09158152, 0.06478204, 1.        , ..., 0.04196004, 0.04578713,
        0.08232518],
       ...,
       [0.02124566, 0.04986722, 0.04196004, ..., 1.        , 0.02271933,
        0.02195488],
       [0.04259402, 0.02617693, 0.04578713, ..., 0.02271933, 1.        ,
        0.0653686 ],
       [0.07537693, 0.0457853 , 0.08232518, ..., 0.02195488, 0.0653686 ,
        1.        ]])

In [None]:
recom=recomendador('La venganza del metegol', cosine_sim=cosine_sim2, df=blog)
recom

Unnamed: 0,titulo
17,Cuento con bruja y tramontina
138,Nueve libros que me hicieron olvidar el Mundial
519,La madre de todas las desgracias
12,Abrir y cerrar un círculo
121,Gaussian blur


### Procedimiento y Explicación del Código

1. **Importación de Librerías Necesarias:**
    En esta sección, importamos las librerías necesarias:
    - `TfidfVectorizer` de `sklearn.feature_extraction.text`: Para transformar el texto en una representación numérica basada en el **TF-IDF** (Term Frequency-Inverse Document Frequency).
    - `cosine_similarity` de `sklearn.metrics.pairwise`: Para calcular la similitud de coseno entre los vectores de características generados a partir del TF-IDF.

2. **Transformación del Texto en Características con TF-IDF:**
    Se utiliza `TfidfVectorizer` para convertir el texto de los cuentos en una **matriz de características basada en TF-IDF**.
    El **TF-IDF** es una técnica que asigna a cada palabra en un documento una ponderación que depende de dos factores:
    - **Frecuencia del término (TF):** Qué tan frecuente es una palabra en un documento.
    - **Frecuencia inversa de documento (IDF):** Qué tan importante es una palabra en todo el conjunto de documentos.
    
    Este enfoque da mayor peso a las palabras que son relevantes en un documento, pero menos peso a las palabras comunes que aparecen en muchos documentos (como "y", "de", etc.).
    
    ```python
    Tfid = TfidfVectorizer(stop_words=list(nlp.Defaults.stop_words))
    Tfid_matrix = Tfid.fit_transform(blog['cuento'])
    ```

    **Resultado:**
    La variable `Tfid_matrix` es la representación numérica de los cuentos, donde cada fila es un cuento y cada columna es una palabra con su peso TF-IDF.

3. **Cálculo de la Similitud de Coseno:**
    Una vez generada la matriz de características, calculamos la **similitud de coseno** entre todas las filas de la matriz de TF-IDF. Esto nos da una medida de cuán similares son los cuentos entre sí.
    
    ```python
    cosine_sim2 = cosine_similarity(Tfid_matrix, Tfid_matrix)
    ```

    **Resultado:**
    La matriz `cosine_sim2` contiene valores entre 0 y 1, donde 1 indica que los cuentos son muy similares y 0 indica que no tienen similitud alguna.

4. **Creación de la Función de Recomendación:**
    La función `recomendador` se mantiene igual que antes. Recibe el título de un cuento, la matriz de similitud de coseno calculada con TF-IDF y el DataFrame de los cuentos. La función hace lo siguiente:
    - **Obtiene el índice del cuento** que corresponde al título proporcionado.
    - **Obtiene las puntuaciones de similitud** de ese cuento con todos los demás cuentos.
    - **Ordena las puntuaciones** de similitud en orden descendente.
    - **Selecciona los 5 cuentos más similares**, excluyendo el cuento original.

    ```python
    def recomendador(titulo, cosine_sim, df):
        idx = df[df['titulo'] == titulo].index[0]
        sim_scores = list(enumerate(cosine_sim[idx]))
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
        sim_scores = sim_scores[1:6]
        cuento_indices = [i[0] for i in sim_scores]
        return df['titulo'].iloc[cuento_indices]
    ```

5. **Generación de Recomendaciones:**
    Finalmente, se prueba la función `recomendador` pasando el título de un cuento, "La venganza del metegol", para obtener los 5 cuentos más similares utilizando la matriz de similitud de coseno calculada con TF-IDF.

    ```python
    recom = recomendador('La venganza del metegol', cosine_sim=cosine_sim2, df=blog)
    ```

    **Resultado:**
    La variable `recom` contiene los títulos de los 5 cuentos más similares al cuento "La venganza del metegol", utilizando la matriz de similitud calculada con TF-IDF.

### Análisis del Procedimiento

1. **Transformación del Texto en Características con TF-IDF:**
    - El uso de **TF-IDF** mejora el modelo al dar mayor peso a las palabras relevantes dentro de cada cuento y disminuir el peso de las palabras comunes que aparecen en todos los cuentos (por ejemplo, artículos, preposiciones, etc.).
    - A diferencia de **CountVectorizer**, **TF-IDF** toma en cuenta la frecuencia de las palabras en relación con su ocurrencia en el conjunto total de cuentos, lo que hace que las palabras más raras (y potencialmente más significativas) tengan mayor peso.

2. **Similitud de Coseno:**
    - Al igual que con la matriz de características basada en conteo de palabras, calculamos la **similitud de coseno** para medir qué tan similares son los cuentos entre sí en función de las características generadas por **TF-IDF**.
    - La similitud de coseno sigue siendo una medida útil porque indica cuán alineados están los vectores de características de dos cuentos en un espacio multidimensional.

3. **Recomendación:**
    - La función `recomendador` continúa funcionando de la misma manera, ordenando las puntuaciones de similitud de coseno y devolviendo los 5 cuentos más similares, excluyendo el cuento original.

### Conclusiones

1. **Ventajas de TF-IDF:**
    - **TF-IDF** es generalmente más efectivo que el conteo simple de palabras, ya que reduce la importancia de las palabras demasiado comunes que no aportan mucha información.
    - Esto puede ayudar a mejorar la calidad de las recomendaciones, ya que las palabras más específicas y relevantes para un cuento tendrán mayor peso en el cálculo de la similitud.

2. **Limitaciones:**
    - Aunque **TF-IDF** es un avance sobre el **CountVectorizer**, aún es una técnica basada en **frecuencia de palabras** y no tiene en cuenta el contexto semántico profundo de las palabras (como sinónimos o relaciones semánticas complejas).
    - Si los cuentos usan vocabularios muy distintos pero tratan temas similares, el sistema podría no ser capaz de capturar completamente esa relación.

En resumen, el enfoque basado en **TF-IDF** proporciona una mejora significativa sobre el modelo anterior basado en conteo de palabras, pero aún tiene limitaciones para tareas más avanzadas de recomendación de texto.


##### 3.1.3. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando el texto vectorizado por `TF-IDFVectorizer` y la correlación como medida de similitud. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados de los puntos anteriores y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.
import numpy as np

# 1. Encontrar el índice del cuento 'La venganza del metegol' usando la columna 'titulo'
idx_target = blog[blog['titulo'] == "La venganza del metegol"].index[0]

# 2. Extraer el vector de ese cuento
target_vector = Tfid_matrix[idx_target].toarray().flatten()

# 3. Calcular correlación con todos los demás
correlations = []
for i in range(Tfid_matrix.shape[0]):
    if i != idx_target:  # evitar compararlo consigo mismo
        corr = np.corrcoef(target_vector, Tfid_matrix[i].toarray().flatten())[0, 1]
        correlations.append((i, corr))

# 4. Ordenar por mayor correlación
recs = sorted(correlations, key=lambda x: x[1], reverse=True)

# 5. Top 5 recomendaciones
top5 = recs[:5]

for rank, (idx, corr) in enumerate(top5, start=1):
    print(f"{rank}. {blog.iloc[idx]['titulo']} (correlación = {corr:.4f})")

1. Cuento con bruja y tramontina (correlación = 0.0770)
2. Nueve libros que me hicieron olvidar el Mundial (correlación = 0.0759)
3. Abrir y cerrar un círculo (correlación = 0.0669)
4. La madre de todas las desgracias (correlación = 0.0668)
5. Pajaritos en jaula gigante (correlación = 0.0641)


### Procedimiento y Explicación del Código

Este código utiliza **correlación de Pearson** en lugar de similitud de coseno o TF-IDF para recomendar cuentos similares. La correlación de Pearson mide la relación lineal entre dos vectores, lo que puede indicar cuán similares son los patrones de palabras en los cuentos.

1. **Encontrar el índice del cuento objetivo:**
    - Se busca el índice del cuento "La venganza del metegol" en la columna `titulo` del DataFrame `blog`. Este índice se utilizará para extraer el vector de características correspondiente al cuento objetivo.
    
    ```python
    idx_target = blog[blog['titulo'] == "La venganza del metegol"].index[0]
    ```

    **Resultado:**
    - La variable `idx_target` contiene el índice del cuento "La venganza del metegol" en el DataFrame `blog`.

2. **Extraer el vector de características del cuento objetivo:**
    - Se extrae el vector de características correspondiente al cuento "La venganza del metegol" desde la matriz `Tfid_matrix`, que contiene la representación de TF-IDF de todos los cuentos.
    - El vector se convierte a un arreglo de una sola dimensión utilizando `.toarray().flatten()`.
    
    ```python
    target_vector = Tfid_matrix[idx_target].toarray().flatten()
    ```

    **Resultado:**
    - La variable `target_vector` contiene el vector de características (TF-IDF) del cuento objetivo.

3. **Calcular la correlación de Pearson con todos los demás cuentos:**
    - A continuación, se calcula la **correlación de Pearson** entre el vector de características del cuento objetivo y los vectores de características de todos los demás cuentos.
    - Se utiliza `np.corrcoef`, que calcula la correlación entre dos vectores. Para cada cuento, se calcula la correlación con el cuento objetivo, y se almacena el resultado en la lista `correlations`.
    
    ```python
    correlations = []
    for i in range(Tfid_matrix.shape[0]):
        if i != idx_target:  # evitar compararlo consigo mismo
            corr = np.corrcoef(target_vector, Tfid_matrix[i].toarray().flatten())[0, 1]
            correlations.append((i, corr))
    ```

    **Resultado:**
    - La lista `correlations` contiene tuplas con el índice del cuento y su correlación con el cuento objetivo.

4. **Ordenar los cuentos por mayor correlación:**
    - Se ordenan los cuentos según la correlación de Pearson, de mayor a menor, utilizando la función `sorted()`. Esto asegura que los cuentos más similares al cuento objetivo se encuentren al principio de la lista.
    
    ```python
    recs = sorted(correlations, key=lambda x: x[1], reverse=True)
    ```

    **Resultado:**
    - La lista `recs` contiene las tuplas ordenadas de mayor a menor correlación.

5. **Obtener las 5 mejores recomendaciones:**
    - Finalmente, se extraen los 5 primeros cuentos de la lista ordenada y se muestran junto con su correlación. Cada cuento recomendado se muestra en un formato de clasificación.
    
    ```python
    top5 = recs[:5]
    for rank, (idx, corr) in enumerate(top5, start=1):
        print(f"{rank}. {blog.iloc[idx]['titulo']} (correlación = {corr:.4f})")
    ```

    **Resultado:**
    - Se imprime el ranking de los 5 cuentos más similares al cuento "La venganza del metegol", junto con sus valores de correlación.

### Análisis del Procedimiento

1. **Uso de la Correlación de Pearson:**
    - La **correlación de Pearson** mide la relación lineal entre dos conjuntos de datos. En este caso, se utiliza para medir la relación entre los vectores TF-IDF de los cuentos.
    - Si la correlación es cercana a 1, significa que los dos cuentos tienen un patrón de distribución de palabras similar. Si la correlación es cercana a -1, los patrones son opuestos.

2. **Ventajas de la Correlación de Pearson:**
    - La correlación de Pearson no depende de la frecuencia absoluta de las palabras, sino de su **distribución relativa**. Esto significa que se enfoca en la relación entre las palabras dentro de los cuentos, lo cual puede ser útil para identificar cuentos con patrones temáticos similares, aunque utilicen un vocabulario diferente.
    - Es una técnica **simple y efectiva** para identificar similitudes entre los textos, aunque no toma en cuenta relaciones semánticas complejas (por ejemplo, sinónimos).

3. **Comparación con el Método de Similitud de Coseno:**
    - La **similitud de coseno** mide la similitud entre los vectores de características sin tener en cuenta la magnitud de los vectores. En cambio, la **correlación de Pearson** también puede capturar relaciones lineales entre las palabras, lo cual puede ser útil si los cuentos tienen una distribución similar de términos.
    - Ambos enfoques miden similitudes, pero la correlación de Pearson se enfoca más en la relación entre las características, mientras que la similitud de coseno mide directamente la proximidad angular entre los vectores.

### Conclusiones

1. **Correlación de Pearson para Recomendaciones:**
    - Utilizar la **correlación de Pearson** es una alternativa válida para medir la similitud entre los cuentos basados en su vector de características TF-IDF. Este método permite encontrar cuentos que tengan una distribución similar de términos y patrones temáticos.
    - La correlación de Pearson puede ser especialmente útil cuando se trata de documentos que no son exactamente iguales pero comparten un estilo o tema similar, ya que no solo depende de la presencia de palabras específicas sino de cómo se distribuyen.

2. **Limitaciones:**
    - La **correlación de Pearson** no captura el **contexto semántico profundo** de las palabras. Por ejemplo, si un cuento utiliza sinónimos o un vocabulario diferente, la correlación podría no ser alta, a pesar de que los cuentos traten el mismo tema.
    - Este enfoque depende de la representación **TF-IDF**, por lo que no toma en cuenta el orden de las palabras ni la estructura de las frases.

3. **Mejoras Posibles:**
    - Para mejorar las recomendaciones, se podrían utilizar técnicas más avanzadas como **modelos de lenguaje** preentrenados (por ejemplo, **BERT** o **Word2Vec**) que pueden capturar relaciones semánticas complejas y la importancia contextual de las palabras.


##### 3.2. Recomendaciones basadas en temas

Usando modelado de temas con LDA, se encuentra los temas subyacentes en el blog. Se expliqca como se eligió el numero óptimo de temas. Utilizando el tema asignado al cuento 'La venganza del metegol' y la probabilidad de pertenecer a este tema genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para este cuento. Se compara con los resultados encontrados anteriormente y explique sus similitudes y/o diferencias.


In [None]:
pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.6/26.6 MB[0m [31m70.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.0 MB)
[2K   [90m━━━━━━━━━━━

In [None]:
# Utilice este espacio para escribir el código.
# Cargamos la función
from gensim.corpora import Dictionary

# Convert the 'cuento' column to a list of lists of tokens
tokenized_corpus = [doc.split() for doc in blog['cuento']]

# Creamos la representación de diccionario del documento
dictionary = Dictionary(tokenized_corpus)
dictionary

<gensim.corpora.dictionary.Dictionary at 0x7fe6fd11b0e0>

In [None]:
dictionary.filter_extremes(no_below=20, no_above=0.5)
corpus = [dictionary.doc2bow(doc) for doc in tokenized_corpus]
print('Numero de palabras únicas: %d' % len(dictionary))

Numero de palabras únicas: 1316


In [None]:
def compute_coherence_values(dictionary, corpus, texts, limit, start=2, step=1):
    coherence_values = []
    model_list = []
    for num_topics in range(start, limit, step):
        model = LdaModel(corpus=corpus,
                         id2word=dictionary,
                         num_topics=num_topics,
                         random_state=42,
                         passes=10,
                         iterations=400,
                         alpha='auto',
                         eta='auto')
        coherencemodel = CoherenceModel(model=model, texts=texts,
                                        dictionary=dictionary, coherence='c_v')
        coherence_values.append(coherencemodel.get_coherence())
        model_list.append(model)
    return model_list, coherence_values

In [None]:
models, coherences = compute_coherence_values(dictionary, corpus, tokenized_corpus, limit=15, start=2, step=1)

# Elegir el número óptimo de temas
import numpy as np
best_num = np.argmax(coherences) + 2  # +2 porque empezamos en 2
best_model = models[np.argmax(coherences)]
print("Mejor número de temas:", best_num)

Mejor número de temas: 6


In [None]:
# Tema dominante y probabilidad
doc_topics = []
for bow in corpus:
    topics = best_model.get_document_topics(bow, minimum_probability=0.0)
    dominant = max(topics, key=lambda x: x[1])  # (topic_id, prob)
    doc_topics.append(dominant)

blog['topic_id'] = [t[0] for t in doc_topics]
blog['topic_prob'] = [t[1] for t in doc_topics]


In [None]:
# índice del cuento objetivo
target_topic = blog.loc[idx_target, 'topic_id']

# Recomendaciones según probabilidad en ese mismo tema
def get_target_topic_probability(row, model, corpus, target_topic_id):
    topics = dict(model.get_document_topics(corpus[row.name]))
    return topics.get(target_topic_id, 0)

blog['score'] = blog.apply(
    lambda row: get_target_topic_probability(row, best_model, corpus, target_topic),
    axis=1
)


# Ordenar (excluir el propio cuento)
recs = blog.drop(idx_target).sort_values('score', ascending=False).head(5)

print("Top 5 recomendaciones para 'La venganza del metegol':")
for i, row in enumerate(recs.itertuples(), 1):
    print(f"{i}. {row.titulo} (score={row.score:.4f})")

Top 5 recomendaciones para 'La venganza del metegol':
1. Gaussian blur (score=0.9996)
2. La revancha (score=0.9995)
3. Cuento con bruja y tramontina (score=0.9994)
4. El segundo cajón (score=0.9994)
5. La estrategia del banderín (score=0.9994)


### 4 Recomendaciones generales

De acuerdo con los resultados encontrados, en su opinión ¿qué procedimiento generó las mejores recomendaciones para la entrada elegida? ¿Cómo implementaría una evaluación objetiva de estas recomendaciones? Justifique su respuesta.

El modelo LDA probablemente generó las mejores recomendaciones en términos de calidad semántica, ya que se basa en identificar temas latentes y no solo en la coincidencia de palabras. Este modelo es más adecuado para captar el contexto temático y las ideas subyacentes, lo cual es fundamental para recomendaciones de contenido como los cuentos.

Para una evaluación objetiva, las métricas de precisión y recuperación junto con la evaluación de coherencia temática ofrecerían una visión clara de la efectividad del sistema. Esto garantizaría que las recomendaciones no solo sean similares en términos de palabras, sino que también compartan el mismo contexto temático.

La retroalimentación de usuarios es un paso crucial para ajustar y validar cualquier sistema de recomendación, ya que proporciona una evaluación directa y personalizada de la calidad de las recomendaciones según la experiencia del usuario final.

En resumen, la mejor evaluación de las recomendaciones se lograría mediante una combinación de métricas automáticas (precisión, recuperación) y evaluaciones cualitativas (coherencia temática, retroalimentación de usuarios), para tener una evaluación integral de la efectividad del sistema de recomendación.