<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Caso-taller:  Recomendando el Blog de  Hernán Casciari 


[Hernán Casciari](https://hernancasciari.com/#bio), es un escritor argentino, que escribe blog posts con cuentos e historias  relacionadas con el futbol, su vida, infancia, y relaciones familiares con toques de ficción. Este [blog](https://hernancasciari.com/blog/) es  tan interesantes que en 2005 fue premiado como “El mejor blog del mundo” por Deutsche Welle de Alemania. 

El objetivo de este caso-taller es construir un sistema de recomendación basado en los contenidos de los posts utilizando similitud de las palabras usadas o temas de los cuentos.

## Instrucciones generales

1. Para desarrollar el *cuaderno* primero debe descargarlo.

2. Para responder cada inciso deberá utilizar el espacio debidamente especificado.

3. La actividad será calificada sólo si sube el *cuaderno* de jupyter notebook con extensión `.ipynb` en la actividad designada como "Revisión por el compañero."

4. El archivo entregado debe poder ser ejecutado localmente por los pares. Sea cuidadoso con la especificación de la ubicación de los archivos de soporte, guarde la carpeta de datos  en la misma ruta de acceso del cuaderno, por ejemplo: `data`.

## Desarrollo


### 1. Carga de datos 

En la carpeta `data` se encuentran el archivo `blog_casciari.csv` con el título, la fecha de publicación, y el contenido de los cuentos publicados en el blog  de sr. Casciari. Cargue estos datos en su *cuaderno* y reporte brevemente el contenido de la base.
   

In [56]:
# Utilice este espacio para escribir el código.
import pandas as pd
import numpy as np

# Cargamos los datos 
cuentos = pd.read_csv('data/blog_casciari.csv', sep=',')
cuentos.head()

Unnamed: 0,titulo,fecha,cuento
0,El rincón blanco,1/11/08,De pronto yo estaba en el hogar donde pasé la ...
1,Mínimos avances en la cama,1/24/08,"Menos la cama, todo ha mejorado en este mundo...."
2,Don Marcos,2/19/08,"Dos veces, y no una, mi abuelo materno me ayud..."
3,Los dos rulfos,3/26/08,"A su regreso de México, mi amigo Comequechu no..."
4,La noticia no es el perro,4/15/08,"De repente, un video de You Tube recibe un mil..."


In [57]:
cuentos.shape

(520, 3)

In [58]:
cuentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 520 entries, 0 to 519
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   titulo  520 non-null    object
 1   fecha   520 non-null    object
 2   cuento  520 non-null    object
dtypes: object(3)
memory usage: 12.3+ KB


In [59]:
cuentos['fecha_to_datetime'] = pd.to_datetime(cuentos['fecha'], format='%m/%d/%y')
cuentos['fecha_to_datetime'].describe()

count                              520
mean     2007-01-05 16:17:32.307692544
min                2003-09-20 00:00:00
25%                2004-04-01 18:00:00
50%                2006-09-10 00:00:00
75%                2008-12-31 06:00:00
max                2015-11-17 00:00:00
Name: fecha_to_datetime, dtype: object

In [60]:
cuentos['word_count'] = cuentos['cuento'].str.split().str.len()
cuentos['word_count'].describe()

count     520.000000
mean      882.319231
std       622.795353
min        95.000000
25%       508.750000
50%       702.000000
75%      1124.500000
max      5603.000000
Name: word_count, dtype: float64

In [116]:
cuentos['titulo'].nunique()

520

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

### 2. Homogenización de textos

Para cumplir con el objetivo de generar recomendaciones en esta sección debe preparar los posts para poder ser utilizados en su sistema de recomendación. Para ello, "limpie" y "tokenize" cada uno de los cuentos, describiendo detalladamente los pasos que realizo y si transformó o eliminó ciertas palabras. Para asistirlo en la tarea he creado listas de *stopwords* que están disponibles en la carpeta `data`. En su procedimiento ilustre la limpieza con el cuento 'La venganza del metegol'. (En su limpieza recuerde que el objetivo es generar recomendaciones a partir de la similitud de las palabras o temas de los cuentos)

In [61]:
# Utilice este espacio para escribir el código.
# Cargamos las librerías a utilizar
import re
import unidecode


In [62]:
#!pip install spacy

In [63]:
#!python -m spacy download es_core_news_sm

In [149]:
import spacy

# Cargar el modelo para el idioma deseado (por ejemplo, español)
# nlp = spacy.load("es_core_news_sm")
nlp = spacy.load("es_core_news_lg") # High-Quality Spanish Model

In [150]:
set1 = nlp.Defaults.stop_words # para comparar sets
len(set1)

765

In [66]:
set1

{'a',
 'acuerdo',
 'adelante',
 'ademas',
 'además',
 'afirmó',
 'agregó',
 'ahi',
 'ahora',
 'ahí',
 'al',
 'alejandro',
 'alex',
 'alfonso',
 'algo',
 'alguien',
 'alguna',
 'algunas',
 'alguno',
 'algunos',
 'algún',
 'alli',
 'allí',
 'alrededor',
 'ambos',
 'andres',
 'andrés',
 'ante',
 'anterior',
 'antes',
 'apenas',
 'aproximadamente',
 'aquel',
 'aquella',
 'aquellas',
 'aquello',
 'aquellos',
 'aqui',
 'aquél',
 'aquélla',
 'aquéllas',
 'aquéllos',
 'aquí',
 'arriba',
 'aseguró',
 'asi',
 'así',
 'atras',
 'aun',
 'aunque',
 'añadió',
 'año',
 'años',
 'aún',
 'bajo',
 'basdala',
 'bastante',
 'bernardo',
 'bien',
 'breve',
 'buen',
 'buena',
 'buenas',
 'bueno',
 'buenos',
 'cada',
 'canoso',
 'caprio',
 'carla',
 'casa',
 'casciari',
 'casi',
 'celoni',
 'chichita',
 'chiri',
 'cierta',
 'ciertas',
 'cierto',
 'ciertos',
 'cinco',
 'claro',
 'colo',
 'comentó',
 'comequechu',
 'como',
 'con',
 'conmigo',
 'conocer',
 'conseguimos',
 'conseguir',
 'considera',
 'consideró',

In [151]:
stopwords = pd.read_csv('data/stopwords_taller.csv', sep=',',header=None)
stopwords.columns = ['stopwords']
len(stopwords)

169

In [152]:
extra_stopwords = pd.read_csv('data/extra_stopwords.csv', sep=',',header=None)
extra_stopwords.columns = ['stopwords']
len(extra_stopwords)

313

In [153]:
# Merge the DataFrames
extra_stopwords = pd.concat([stopwords, extra_stopwords])
extra_stopwords = extra_stopwords.sort_values(by='stopwords').reset_index(drop=True)
len(extra_stopwords)

482

In [154]:
extra_stopwords=set(stopwords['stopwords'].to_list())
set2 = extra_stopwords # para comparar sets
set2

{'ahora',
 'alejandro',
 'alex',
 'alfonso',
 'alguien',
 'allí',
 'andres',
 'andrés',
 'asi',
 'así',
 'año',
 'años',
 'basdala',
 'bernardo',
 'bien',
 'cada',
 'canoso',
 'caprio',
 'carla',
 'casa',
 'casciari',
 'casi',
 'celoni',
 'chichita',
 'chiri',
 'cinco',
 'colo',
 'comequechu',
 'cosa',
 'cosas',
 'costa',
 'costoya',
 'cuatro',
 'cómo',
 'decir',
 'después',
 'dice',
 'diez',
 'digo',
 'dije',
 'dijo',
 'dos',
 'día',
 'días',
 'entonces',
 'fenwick',
 'fernando',
 'gelós',
 'gente',
 'gordo',
 'haber',
 'hace',
 'hacer',
 'hacía',
 'hans',
 'hará',
 'hernan',
 'hernán',
 'horacio',
 'horas',
 'hornby',
 'hoy',
 'iveta',
 'jesús',
 'jorge',
 'juan',
 'karen',
 'libro',
 'lucas',
 'luego',
 'luis',
 'madre',
 'mañana',
 'medio',
 'mejor',
 'menos',
 'mientras',
 'mil',
 'mirta',
 'mismo',
 'momento',
 'moncho',
 'mundo',
 'mónica',
 'nadie',
 'narcís',
 'noche',
 'nueva',
 'nuevo',
 'nunca',
 'número',
 'ojos',
 'pablo',
 'pack',
 'padre',
 'paola',
 'pase',
 'pepe',
 '

In [155]:
symmetric_difference = set1.symmetric_difference(set2) # elementos que estan en uno u otro pero no en ambos
len(symmetric_difference)

596

In [156]:
symmetric_difference

{'a',
 'acuerdo',
 'adelante',
 'ademas',
 'además',
 'afirmó',
 'agregó',
 'ahi',
 'ahí',
 'al',
 'algo',
 'alguna',
 'algunas',
 'alguno',
 'algunos',
 'algún',
 'alli',
 'alrededor',
 'ambos',
 'ante',
 'anterior',
 'antes',
 'apenas',
 'aproximadamente',
 'aquel',
 'aquella',
 'aquellas',
 'aquello',
 'aquellos',
 'aqui',
 'aquél',
 'aquélla',
 'aquéllas',
 'aquéllos',
 'aquí',
 'arriba',
 'aseguró',
 'atras',
 'aun',
 'aunque',
 'añadió',
 'aún',
 'bajo',
 'bastante',
 'breve',
 'buen',
 'buena',
 'buenas',
 'bueno',
 'buenos',
 'cierta',
 'ciertas',
 'cierto',
 'ciertos',
 'claro',
 'comentó',
 'como',
 'con',
 'conmigo',
 'conocer',
 'conseguimos',
 'conseguir',
 'considera',
 'consideró',
 'consigo',
 'consigue',
 'consiguen',
 'consigues',
 'contigo',
 'contra',
 'creo',
 'cual',
 'cuales',
 'cualquier',
 'cuando',
 'cuanta',
 'cuantas',
 'cuanto',
 'cuantos',
 'cuenta',
 'cuál',
 'cuáles',
 'cuándo',
 'cuánta',
 'cuántas',
 'cuánto',
 'cuántos',
 'da',
 'dado',
 'dan',
 'dar'

In [157]:
difference = set1.difference(set2)
print(difference)

{'sera', 'estés', 'quiza', 'otra', 'consigo', 'proximo', 'tendremos', 'ese', 'hemos', 'como', 'estuvo', 'través', 'últimas', 'quienes', 'saber', 'habréis', 'contra', 'fui', 'solas', 'adelante', 'buenas', 'cuanta', 'debajo', 'mucha', 'ahí', 'despacio', 'además', 'por', 'ninguno', 'qeu', 'cuánta', 'tenidas', 'pasado', 'dias', 'demás', 'apenas', 'había', 'sentido', 'diferente', 'seas', 'conseguimos', 'suya', 'poca', 'ni', 'sí', 'tuvieseis', 'seréis', 'final', 'habían', 'lo', 'bastante', 'lleva', 'habías', 'hizo', 'seremos', 'sigue', 'hubiste', 'hubiese', 'da', 'consigue', 'ello', 'el', 'siente', 'donde', 'última', 'poner', 'sin', 'mios', 'del', 'tendrían', 'hasta', 'claro', 'tenga', 'bajo', 'hablan', 'incluso', 'tendrán', 'hubieseis', 'tenías', 'suyo', 'cuántas', 'todo', 'habida', 'estuvieses', 'podría', 'son', 'fuésemos', 'sintiendo', 'cuándo', 'despues', 'estarán', 'me', 'le', 'nuevos', 'estados', 'hubiera', 'tendríamos', 'dieron', 'esa', 'tuvo', 'quiénes', 'hubieras', 'podemos', 'menud

In [158]:
len(difference)

596

In [159]:
# Agregamos a nuestro modelo de SpaCy
nlp.Defaults.stop_words |= extra_stopwords # OJO los stopwords en data son subconjuntos de default.stopwords
len(nlp.Defaults.stop_words)

765

In [160]:
nlp.Defaults.stop_words

{'a',
 'acuerdo',
 'adelante',
 'ademas',
 'además',
 'afirmó',
 'agregó',
 'ahi',
 'ahora',
 'ahí',
 'al',
 'alejandro',
 'alex',
 'alfonso',
 'algo',
 'alguien',
 'alguna',
 'algunas',
 'alguno',
 'algunos',
 'algún',
 'alli',
 'allí',
 'alrededor',
 'ambos',
 'andres',
 'andrés',
 'ante',
 'anterior',
 'antes',
 'apenas',
 'aproximadamente',
 'aquel',
 'aquella',
 'aquellas',
 'aquello',
 'aquellos',
 'aqui',
 'aquél',
 'aquélla',
 'aquéllas',
 'aquéllos',
 'aquí',
 'arriba',
 'aseguró',
 'asi',
 'así',
 'atras',
 'aun',
 'aunque',
 'añadió',
 'año',
 'años',
 'aún',
 'bajo',
 'basdala',
 'bastante',
 'bernardo',
 'bien',
 'breve',
 'buen',
 'buena',
 'buenas',
 'bueno',
 'buenos',
 'cada',
 'canoso',
 'caprio',
 'carla',
 'casa',
 'casciari',
 'casi',
 'celoni',
 'chichita',
 'chiri',
 'cierta',
 'ciertas',
 'cierto',
 'ciertos',
 'cinco',
 'claro',
 'colo',
 'comentó',
 'comequechu',
 'como',
 'con',
 'conmigo',
 'conocer',
 'conseguimos',
 'conseguir',
 'considera',
 'consideró',

In [161]:
nlp.vocab['comequechu'].is_stop

True

In [181]:
from nltk.stem.snowball import SpanishStemmer

stemmer = SpanishStemmer()

In [184]:
def text_cleaning(txt): # eliminar caracteres especiales 
    # Eliminar caracteres especiales
    out = unidecode.unidecode(txt) # tildes y virgulilla - nlp default.stopwords "las" incluye e.g. año no la limpiaria
    out = re.sub("[^\\w\\s]|\n", ' ', out) # simbolos de puntuacion y retornos con esapcios
    out = re.sub("\d+", "", out) # numeros por espacios vacios
    out = re.sub('\s+', ' ', out) # remueve espacios extra
    out = out.lower() # Poner en minúsculas
    #NLP object
    out = nlp(out)
    # Eliminar Stopwords
    out = [token.text for token in out if not token.is_stop]
    out = " ".join(out)
    # Obtener los lemas de cada palabra
    lemmas =[token.lemma_ for token in nlp(out)]
    
    # Apply stemming OJO
    lemmas = [stemmer.stem(lemma) for lemma in lemmas]
    
    # Apply custom corrections OJO
    #lemmas = [custom_lemmas.get(lemma, lemma) for lemma in lemmas]
    
    
    # Convertir la lista de lemmas nuevamente a texto
    out = " ".join(lemmas)
    # Remover palabras muy cortas
    out = [token.text for token in nlp(out) if len(token) > 2]
    
    return out

In [163]:
venganza_metegol_idx = cuentos[cuentos['titulo'] == 'La venganza del metegol'].index
venganza_metegol = cuentos.loc[venganza_metegol_idx,'cuento']
wrd_cnt_vm = cuentos.loc[venganza_metegol_idx,'word_count']
print('Número de palabras en el cuento "La venganza del metegol":', wrd_cnt_vm);
venganza_metegol

Número de palabras en el cuento "La venganza del metegol": 160    1137
Name: word_count, dtype: int64


160    El mes pasado me invitaron a presentar un libro en Buenos Aires. Y como era un libro sobre fútbol, al final de la charla el director de la editorial nos invitó a jugar un partido de metegol (ese invento español al que sus creadores llaman, erróneamente, futbolín). Hacía años que no jugaba al metegol, pero por suerte me tocó de compañero un filósofo muy prestigioso y pudimos ganar. Nuestros contrincantes eran el autor del libro y el director de la editorial. De los tres, a este último lo conocía desde la juventud.\nJugamos dos partidos enteros y los destrozamos con una facilidad pasmosa: hacía años que no practicaba este falso deporte de muñecas y reflejos, pero descubrí que no había perdido las mañas. Eso me hizo sentir bien: a mi edad cualquier destreza que mantengamos indemne, por más pelotuda que sea, se convierte en una gran noticia.\nDespués de la charla algunos fotógrafos hicieron imágenes del partido de metegol y las subieron a Twitter.\n— Estadio: Librería Gandhi, Buenos

In [185]:
clean = list(map(text_cleaning, cuentos['cuento']))

# Unimos las tokens
clean_sentences = [" ".join(i) for i in clean]

In [186]:
len(clean_sentences[160])

2681

In [187]:
# Vemos la linea 160 limpia
print(clean_sentences[160])

mes invit present air futbol charl director editorial invit jug part metegol invent espanol creador llam erron futbolin anos jug metegol suert toc companer filosof prestigi pod gan contrinc autor director editorial conoci juventud jug part enter destroz facil pasmos ano practic fals deport munec reflej descubri perd man sent edad destrez manten indemn pelotud convert notici charl fotograf imag part metegol sub twitt estadi libreri gandhi air local izquierd duchini gonzal garz vistant derech tom abraham result match match paliz volv recibi mail amig infanci deci vist fot sorprendi companer filosof admirab juventud jug metegol tom abraham pas suen deci part imagin diecisiet ano mir ventan libreri gandhi escen futur sonrei recuerd momentane desconcentr jueg just gol unic recibi defendi zag gol molinet gonzal garc director editorial galern injustici festej car antideport trat ven cabez cont sobremes amig ocurri conoci gonzal adolescent seri ano novent gust pas veran merced puebl padr vacac

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

### 3. Generando Recomendaciones

En esta sección nos interesa generar recomendaciones de cuentos en el blog a un usuario que leyó 'La venganza del metegol'. Para ello vamos a utilizar distintas estrategias.

#### 3.1. Recomendaciones basadas en contenidos

##### 3.1.1. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando en la distancia de coseno donde el texto este vectorizado por `CountVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones.

In [110]:
# Utilice este espacio para escribir el código.
# Import CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [167]:
type(clean_sentences)

list

In [168]:
len(clean_sentences)

520

In [188]:
#Definimos un objeto CountVectorizer y creamos los vectores
count = CountVectorizer()
count_matrix = count.fit_transform(clean_sentences)
count_matrix

<520x15239 sparse matrix of type '<class 'numpy.int64'>'
	with 117704 stored elements in Compressed Sparse Row format>

In [196]:
# Convertir la matriz dispersa a un DataFramem con el el vocabulario (palabras) que el CountVectorizer está utilizando
df_count_matrix = pd.DataFrame(count_matrix.toarray(), columns=count.get_feature_names_out())

# Ver las primeras filas del  DataFrame resultante con la matriz count y las palabras del vocabulario
df_count_matrix.head()

Unnamed: 0,aam,abaca,abaj,abalanz,aban,abanan,abandon,abaraj,abarat,abarc,...,zozobr,zsab,zulu,zumb,zumbadis,zurd,zurdaz,zurdit,zurr,zurrart
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### CREAR LEMATIZADOR PROPIO

In [202]:
clean_words = df_count_matrix.columns.tolist()

In [203]:
clean_words

['aam',
 'abaca',
 'abaj',
 'abalanz',
 'aban',
 'abanan',
 'abandon',
 'abaraj',
 'abarat',
 'abarc',
 'abarrot',
 'abastec',
 'abat',
 'abba',
 'abc',
 'abdom',
 'abdominal',
 'abduc',
 'abduccion',
 'abductor',
 'abeb',
 'abecedari',
 'aberr',
 'abiert',
 'abism',
 'abismal',
 'abland',
 'ablar',
 'able',
 'aboc',
 'abocar',
 'abofet',
 'abog',
 'abogaci',
 'abol',
 'aboleng',
 'aboll',
 'abolladur',
 'abomb',
 'abon',
 'abord',
 'abordar',
 'abort',
 'aboton',
 'abra',
 'abraham',
 'abram',
 'abraz',
 'abrazab',
 'abrazadit',
 'abrazam',
 'abrazar',
 'abrazat',
 'abre',
 'abrevi',
 'abreviatur',
 'abri',
 'abriam',
 'abrieram',
 'abrig',
 'abrigar',
 'abrigat',
 'abril',
 'abrim',
 'abrir',
 'abriri',
 'abris',
 'abrist',
 'abroch',
 'abrum',
 'abrupt',
 'absces',
 'absolut',
 'absorb',
 'absorbent',
 'absorcion',
 'absort',
 'abstemi',
 'abstinent',
 'abstraccion',
 'abstract',
 'absurd',
 'abu',
 'abuel',
 'abuelit',
 'abul',
 'abuli',
 'abult',
 'abultar',
 'abund',
 'aburgues',

In [211]:
def find_similar_words_by_prefix(words, n, first_letter=None, tamaño_grupo = 3):
    # Filter words that start with the specified first letter, if given
    if first_letter:
        words = [word for word in words if word.startswith(first_letter)]
    
    # Dictionary to hold words by their prefixes
    prefix_dict = {}
    
    # Populate the dictionary with words grouped by their prefix
    for word in words:
        if len(word) >= n:
            prefix = word[:n]
            if prefix in prefix_dict:
                prefix_dict[prefix].append(word)
            else:
                prefix_dict[prefix] = [word]
    
    # Filter out prefixes with only one word
    similar_words = {prefix: group for prefix, group in prefix_dict.items() if len(group) > tamaño_grupo}
    
    return similar_words

In [242]:
similar_words = find_similar_words_by_prefix(clean_words, 5, None, 4)
similar_words

{'abraz': ['abraz', 'abrazab', 'abrazadit', 'abrazam', 'abrazar', 'abrazat'],
 'aburr': ['aburr', 'aburri', 'aburridisim', 'aburrir', 'aburriri', 'aburris'],
 'acord': ['acord', 'acordais', 'acordar', 'acordat', 'acordeon'],
 'acost': ['acost',
  'acostar',
  'acostat',
  'acostumbr',
  'acostumbrar',
  'acostumbrart'],
 'adver': ['advers',
  'adversari',
  'advert',
  'advertent',
  'adverti',
  'advertir',
  'advertirt'],
 'agarr': ['agarr',
  'agarradit',
  'agarral',
  'agarrandot',
  'agarrar',
  'agarrat',
  'agarro',
  'agarron',
  'agarrot'],
 'agrad': ['agrad', 'agradar', 'agradec', 'agradecer', 'agradeci'],
 'alcan': ['alcanc',
  'alcanci',
  'alcantarill',
  'alcanz',
  'alcanzam',
  'alcanzar'],
 'andar': ['andar', 'andareir', 'andari', 'andariam', 'andarivel'],
 'andre': ['andre', 'andrecit', 'andresit', 'andretti', 'andreu'],
 'angel': ['angel', 'angelical', 'angelin', 'angelit', 'angeloz'],
 'antic': ['anticasp',
  'anticip',
  'anticipar',
  'anticoagul',
  'anticongel'

In [239]:
def save_similar_words_to_csv(similar_words, filename):
    # Create lists to hold the data
    data = []
    
    # Iterate over the dictionary and prepare rows for the DataFrame
    for prefix, words in similar_words.items():
        row = [prefix] + words
        data.append(row)
    
    # Create a DataFrame from the list of rows
    # Use 'Prefix' as the first column header and 'Word1', 'Word2', etc. for the remaining columns
    max_words = max(len(words) for words in similar_words.values())
    columns = ['Prefix'] + [f'Word{i+1}' for i in range(max_words)]
    
    df = pd.DataFrame(data, columns=columns)
    
    # Save the DataFrame to a CSV file
    df.to_csv(filename, index=False)

In [243]:
#save_similar_words_to_csv(similar_words, 'similar_words.csv')

In [235]:
# Funcion para crear diccionario interactiva - INEFICIENTE

def create_lemmas_dictionary(similar_words):
    # Define a dictionary to store the lemmatized results
    lemmas_dict = {}

    # Iterate over the similar_words dictionary
    for prefix, words in similar_words.items():
        print(f"\nPrefix: {prefix}")
        print(f"Words: {words}")

        # Prompt user to select or input a lemma or skip
        print("Choose a lemma from the words, enter a new one, or skip:")
        print("0. Skip this prefix")
        for i, word in enumerate(words):
            print(f"{i + 1}. {word}")

        # Add an option for a custom lemma
        print(f"{len(words) + 1}. Enter a new lemma")

        choice = int(input("Select an option: "))

        if choice == 0:
            print("Skipping this prefix.")
            continue
        elif 1 <= choice <= len(words):
            lemma = words[choice - 1]
        elif choice == len(words) + 1:
            lemma = input("Enter the new lemma: ")
        else:
            print("Invalid choice. Skipping this prefix.")
            continue

        # Add all words with the selected prefix to the dictionary with the chosen lemma
        pattern = rf"\b{re.escape(prefix)}\b"
        lemmas_dict[pattern] = lemma

    return lemmas_dict


In [236]:
#lemmas_dict = create_lemmas_dictionary(similar_words)


Prefix: abraz
Words: ['abraz', 'abrazab', 'abrazadit', 'abrazam', 'abrazar', 'abrazat']
Choose a lemma from the words, enter a new one, or skip:
0. Skip this prefix
1. abraz
2. abrazab
3. abrazadit
4. abrazam
5. abrazar
6. abrazat
7. Enter a new lemma
Select an option: 5

Prefix: aburr
Words: ['aburr', 'aburri', 'aburridisim', 'aburrir', 'aburriri', 'aburris']
Choose a lemma from the words, enter a new one, or skip:
0. Skip this prefix
1. aburr
2. aburri
3. aburridisim
4. aburrir
5. aburriri
6. aburris
7. Enter a new lemma
Select an option: 4

Prefix: acord
Words: ['acord', 'acordais', 'acordar', 'acordat', 'acordeon']
Choose a lemma from the words, enter a new one, or skip:
0. Skip this prefix
1. acord
2. acordais
3. acordar
4. acordat
5. acordeon
6. Enter a new lemma
Select an option: 0
Skipping this prefix.

Prefix: acost
Words: ['acost', 'acostar', 'acostat', 'acostumbr', 'acostumbrar', 'acostumbrart']
Choose a lemma from the words, enter a new one, or skip:
0. Skip this prefix
1.

ValueError: invalid literal for int() with base 10: 'ascender'

In [245]:
lemas_raw = pd.read_csv('data/lemmas_raw.csv', sep=',')
lemas_raw.head()

Unnamed: 0,Prefix,Word1,Word2,Word3,Word4,Word5,Word6,Word7,Word8,Word9,Word10,Word11,Word12,Word13,Word14,Word15
0,abrazar,abraz,abrazab,abrazadit,abrazam,abrazar,abrazat,,,,,,,,,
1,aburrir,aburr,aburri,aburridisim,aburrir,aburriri,aburris,,,,,,,,,
2,acordar,acord,acordais,acordar,acordat,,,,,,,,,,,
3,acostar,acost,acostar,acostat,,,,,,,,,,,,
4,acostumbrar,acostumbr,acostumbrar,acostumbrart,,,,,,,,,,,,


In [246]:
def create_lemmas_dict_from_df(df):
    lemmas = {}
    
    for index, row in df.iterrows():
        prefix = row['Prefix']
        # Skip the prefix if it's NaN
        if pd.isna(prefix):
            continue
        
        for word in row[1:]:  # Iterate over Word1, Word2, ..., Word15 columns
            # Skip NaN values in words
            if pd.isna(word):
                continue
            
            # Create regex pattern for the word and map it to the lemma (prefix)
            pattern = rf"\b{re.escape(word)}\b"
            lemmas[pattern] = prefix
    
    return lemmas

In [247]:
lemmas_dict = create_lemmas_dict_from_df(lemas_raw)

In [248]:
lemmas_dict

{'\\babraz\\b': 'abrazar',
 '\\babrazab\\b': 'abrazar',
 '\\babrazadit\\b': 'abrazar',
 '\\babrazam\\b': 'abrazar',
 '\\babrazar\\b': 'abrazar',
 '\\babrazat\\b': 'abrazar',
 '\\baburr\\b': 'aburrir',
 '\\baburri\\b': 'aburrir',
 '\\baburridisim\\b': 'aburrir',
 '\\baburrir\\b': 'aburrir',
 '\\baburriri\\b': 'aburrir',
 '\\baburris\\b': 'aburrir',
 '\\bacord\\b': 'acordar',
 '\\bacordais\\b': 'acordar',
 '\\bacordar\\b': 'acordar',
 '\\bacordat\\b': 'acordar',
 '\\bacost\\b': 'acostar',
 '\\bacostar\\b': 'acostar',
 '\\bacostat\\b': 'acostar',
 '\\bacostumbr\\b': 'acostumbrar',
 '\\bacostumbrar\\b': 'acostumbrar',
 '\\bacostumbrart\\b': 'acostumbrar',
 '\\badvers\\b': 'adver',
 '\\badversari\\b': 'adver',
 '\\badvert\\b': 'advertir',
 '\\badvertent\\b': 'advertir',
 '\\badverti\\b': 'advertir',
 '\\badvertir\\b': 'advertir',
 '\\badvertirt\\b': 'advertir',
 '\\bagarr\\b': 'agarrar',
 '\\bagarradit\\b': 'agarrar',
 '\\bagarral\\b': 'agarrar',
 '\\bagarrandot\\b': 'agarrar',
 '\\bagarrar

In [249]:
# Lematizador propio
def Lematizador_propio(text, lemmas = lemmas_dict):
    
    # Buscar y reemplazar las palabras usando expresiones regulares
    for pattern, lemma in lemmas.items():
        text = re.sub(pattern, lemma, text, flags=re.IGNORECASE)

    return text

In [250]:
# Limpiamos nuestro texto con el lematizador propio
clean_sentences2 = list(map(Lematizador_propio, clean_sentences))

In [251]:
len(clean_sentences2)

520

In [252]:
#Definimos un objeto CountVectorizer y creamos los vectores
count2 = CountVectorizer()
count_matrix2 = count.fit_transform(clean_sentences2)
count_matrix2

<520x14262 sparse matrix of type '<class 'numpy.int64'>'
	with 116485 stored elements in Compressed Sparse Row format>

In [253]:
# Convertir la matriz dispersa a un DataFramem con el el vocabulario (palabras) que el CountVectorizer está utilizando
df_count_matrix2 = pd.DataFrame(count_matrix2.toarray(), columns=count.get_feature_names_out())

# Ver las primeras filas del  DataFrame resultante con la matriz count y las palabras del vocabulario
df_count_matrix2.head()

Unnamed: 0,aam,abaca,abaj,abalanz,aban,abanan,abandon,abaraj,abarat,abarc,...,zozobr,zsab,zulu,zumb,zumbadis,zurd,zurdaz,zurdit,zurr,zurrart
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [254]:
from sklearn.metrics.pairwise import cosine_similarity

#Calculamos la matriz de similitud de coseno
cosine_sim_count2 = cosine_similarity(count_matrix2, count_matrix2)
cosine_sim_count2

array([[1.        , 0.14835193, 0.35130442, ..., 0.09656032, 0.14763398,
        0.23227079],
       [0.14835193, 1.        , 0.2247991 , ..., 0.18444295, 0.13701135,
        0.19165818],
       [0.35130442, 0.2247991 , 1.        , ..., 0.14429817, 0.16733869,
        0.27553044],
       ...,
       [0.09656032, 0.18444295, 0.14429817, ..., 1.        , 0.12053979,
        0.10184628],
       [0.14763398, 0.13701135, 0.16733869, ..., 0.12053979, 1.        ,
        0.21305657],
       [0.23227079, 0.19165818, 0.27553044, ..., 0.10184628, 0.21305657,
        1.        ]])

In [255]:
cosine_sim_count2.shape

(520, 520)

In [256]:
def recomendador(title, cosine_sim, df=cuentos):
    
    #Paso 2: serie que contiene como índice el título del cuento y el valor es el correspondiente índice 
    #del cuento original
    # df = df.reset_index()
    #indices = pd.Series(df.index, index=df['titulo']).drop_duplicates()
    indices = pd.Series(df.index, index=df['titulo'])
    #Paso 3: Obtenemos el índice del cuento a partir de la asignación inversa de índices del paso anterior
    idx = indices[title] 
    print(idx)

    #Paso 4: Obtenemos la similitud de coseno para esa película en particular con todas las películas. 
    #Convertimos esto en una lista de tuplas donde el primer elemento es la posición y el segundo es 
    #la similitud.
    sim_scores = list(enumerate(cosine_sim[idx]))

    #Paso 5: Obtenemos esta lista de tuplas sobre la base de la similitud.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    #Paso 6: Obtenemos los 5 elementos top de esta lista ignorando el primer elemento ya que será la puntuación consigo misma.
    sim_scores = sim_scores[1:6]

    cuento_indices = [i[0] for i in sim_scores]

    #Paso 7
    return cuentos['titulo'].iloc[cuento_indices]

In [257]:
recomendador('La venganza del metegol', cosine_sim_count2)

160


17                    Cuento con bruja y tramontina
389    Una línea de puntos en un libro de catecismo
5                         El milagro de los pueblos
121                                   Gaussian blur
146                               Electrodomésticos
Name: titulo, dtype: object

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.2. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para  el cuento 'La venganza del metegol' usando nuevamente la distancia de coseno, pero ahora vectorice el texto usando `TF-IDFVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados del punto anterior y explique sus similitudes y/o diferencias.

In [258]:
# Utilice este espacio para escribir el código.
from sklearn.feature_extraction.text import TfidfVectorizer

#Definimos el objeto TF-IDF Vectorizer Object
tfidf = TfidfVectorizer()

In [260]:
#Construimos la matriz TF-IDF
tfidf_matrix2 = tfidf.fit_transform(clean_sentences2)

#Dimensiones de la matriz
tfidf_matrix2.shape

(520, 14262)

In [261]:
# Convertir la matriz dispersa a un DataFramem con el el vocabulario (palabras) que el TfidfVectorizer está utilizando
df_tfidf2 = pd.DataFrame(tfidf_matrix2.toarray(), columns=tfidf.get_feature_names_out())

# Ver las primeras filas del  DataFrame resultante con la matriz TF-IDF y las palabras del vocabulario
df_tfidf2.head()

Unnamed: 0,aam,abaca,abaj,abalanz,aban,abanan,abandon,abaraj,abarat,abarc,...,zozobr,zsab,zulu,zumb,zumbadis,zurd,zurdaz,zurdit,zurr,zurrart
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.025352,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.018056,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [263]:
# Cargamos las funciones a utilizar
from sklearn.metrics.pairwise import linear_kernel

# Calculamos el producto punto
cosine_sim_tfidf2 = linear_kernel(tfidf_matrix2, tfidf_matrix2)

In [264]:
recomendador('La venganza del metegol', cosine_sim_tfidf2)

160


17                       Cuento con bruja y tramontina
121                                      Gaussian blur
138    Nueve libros que me hicieron olvidar el Mundial
5                            El milagro de los pueblos
12                           Abrir y cerrar un círculo
Name: titulo, dtype: object

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.3. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando el texto vectorizado por `TF-IDFVectorizer` y la correlación como medida de similitud. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados de los puntos anteriores y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.2. Recomendaciones basadas en temas

Usando modelado de temas con LDA, encuentre los temas subyacentes en el blog. Explique como eligió el numero óptimo de temas. Utilizando el tema asignado al cuento 'La venganza del metegol' y la probabilidad de pertenecer a este tema genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para este cuento. Explique el procedimiento que realizó. Compare con los resultados encontrados anteriormente y explique sus similitudes y/o diferencias. (Esto puede tomar mucho tiempo y requerir mucha capacidad computacional, puede aprovechar los recursos de [Google Colab](https://colab.research.google.com/))


In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

### 4 Recomendaciones generales

De acuerdo con los resultados encontrados, en su opinión ¿qué procedimiento generó las mejores recomendaciones para la entrada elegida? ¿Cómo implementaría una evaluación objetiva de estas recomendaciones? Justifique su respuesta.

(Utilice este espacio para describir su procedimiento)