<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Caso-taller:  Recomendando el Blog de  Hernán Casciari 


[Hernán Casciari](https://hernancasciari.com/#bio), es un escritor argentino, que escribe blog posts con cuentos e historias  relacionadas con el futbol, su vida, infancia, y relaciones familiares con toques de ficción. Este [blog](https://hernancasciari.com/blog/) es  tan interesantes que en 2005 fue premiado como “El mejor blog del mundo” por Deutsche Welle de Alemania. 

El objetivo de este caso-taller es construir un sistema de recomendación basado en los contenidos de los posts utilizando similitud de las palabras usadas o temas de los cuentos.

## Instrucciones generales

1. Para desarrollar el *cuaderno* primero debe descargarlo.

2. Para responder cada inciso deberá utilizar el espacio debidamente especificado.

3. La actividad será calificada sólo si sube el *cuaderno* de jupyter notebook con extensión `.ipynb` en la actividad designada como "Revisión por el compañero."

4. El archivo entregado debe poder ser ejecutado localmente por los pares. Sea cuidadoso con la especificación de la ubicación de los archivos de soporte, guarde la carpeta de datos  en la misma ruta de acceso del cuaderno, por ejemplo: `data`.

## Desarrollo


### 1. Carga de datos 

En la carpeta `data` se encuentran el archivo `blog_casciari.csv` con el título, la fecha de publicación, y el contenido de los cuentos publicados en el blog  de sr. Casciari. Cargue estos datos en su *cuaderno* y reporte brevemente el contenido de la base.
   

In [77]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk


In [78]:
# Utilice este espacio para escribir el código.
blog_casciari=pd.read_csv('data/blog_casciari.csv', sep=',')
print('Shape de la base: ',blog_casciari.shape)
blog_casciari.head()

Shape de la base:  (520, 3)


Unnamed: 0,titulo,fecha,cuento
0,El rincón blanco,1/11/08,De pronto yo estaba en el hogar donde pasé la ...
1,Mínimos avances en la cama,1/24/08,"Menos la cama, todo ha mejorado en este mundo...."
2,Don Marcos,2/19/08,"Dos veces, y no una, mi abuelo materno me ayud..."
3,Los dos rulfos,3/26/08,"A su regreso de México, mi amigo Comequechu no..."
4,La noticia no es el perro,4/15/08,"De repente, un video de You Tube recibe un mil..."


In [79]:
blog_casciari['cuento'][0]

'De pronto yo estaba en el hogar donde pasé la infancia; lo supo primero mi nariz. Los ojos se acostumbran tarde a la penumbra, pero mi olfato reconoció enseguida el olor inconfundible de la casa de la calle Treintaicinco. Siempre sabemos cuál es la fragancia del sitio donde crecimos; nadie acertaría a explicar de qué está compuesta, pero cada uno de nosotros es capaz de reconocer ese aroma entre miles. Y yo estaba ahora en mi casa de Mercedes. Exactamente en el sitio al que llamábamos el rincón blanco.\nEl rincón blanco siempre fue el epicentro de la casa. El lugar por el que había que pasar para ir a cualquier parte. No era un rincón, sino una prominencia amplia que abultaba el pasillo justo por la mitad. Y tampoco estaba pintada de blanco, pero le decíamos así. Nunca supimos por qué.\nEn todos los hogares hay recovecos y habitaciones que los mayores bautizan sin conciencia, y que luego nombran para siempre de una forma estrafalaria. Los hijos nacen y después crecen con la certidumbr

La base contiene 520 cuentos, dando el titulo, la fecha de publicacion y el cuento corto de Hernán Casciari. 


### 2. Homogenización de textos

Para cumplir con el objetivo de generar recomendaciones en esta sección debe preparar los posts para poder ser utilizados en su sistema de recomendación. Para ello, "limpie" y "tokenize" cada uno de los cuentos, describiendo detalladamente los pasos que realizo y si transformó o eliminó ciertas palabras. Para asistirlo en la tarea he creado listas de *stopwords* que están disponibles en la carpeta `data`. En su procedimiento ilustre la limpieza con el cuento 'La venganza del metegol'. (En su limpieza recuerde que el objetivo es generar recomendaciones a partir de la similitud de las palabras o temas de los cuentos)

In [80]:
# Utilice este espacio para escribir el código.
import re
import unidecode
import spacy


nlp = spacy.load("es_core_news_sm")




Agregar stopwords

In [81]:
#Stopwrods csv
stopwords = pd.read_csv('data/stopwords_taller.csv', header=None).values.flatten().tolist()
print('Shape de los stopwords: ',len(stopwords))

#Extra stopwords csv
extra_stopwords = pd.read_csv('data/extra_stopwords.csv', sep=',',header=None).values.flatten().tolist()
print('Shape de los extra_stopwords: ',len(extra_stopwords))

#Stopwords unicas en csv
stopwords_unicas = list(set(extra_stopwords) | set(stopwords))
print(stopwords_unicas)

#Agregar las stopwords al modelo
nlp.Defaults.stop_words |= set(stopwords_unicas)

Shape de los stopwords:  169
Shape de los extra_stopwords:  313
['todo', 'estas', 'tú', 'es', 'ellas', 'tenía', 'vida', 'sido', 'českomoravský', 'estar', 'una', 'seré', 'ser', 'estabas', 'mi', 'alguien', 'tendríais', 'está', 'éstas', 'diez', 'tengas', 'bien', 'basdala', 'tenías', 'fuisteis', 'andrés', 'has', 'estuviéramos', 'tiempo', 'qué', 'sakhan', 'otras', 'hubieses', 'medio', 'un', 'año', 'serás', 'habríamos', 'eras', 'tendrían', 'gordo', 'estaremos', 'estuvieron', 'tuvieron', 'hasta', 'pues', 'celoni', 'šeredova', 'gelós', 'estarás', 'hayáis', 'ellos', 'seáis', 'haya', 'nuestras', 'tetas', 'sin', 'suyos', 'vosostros', 'otro', 'mío', 'habido', 'estarán', 've', 'estaban', 'son', 'tuve', 'hace', 'iveta', 'estás', 'nunca', 'quiero', 'nada', 'fuera', 'toda', 'hernán', 'ésas', 'puede', 'seamos', 'tenéis', 'cuando', 'ése', 'mañana', 'hube', 'fueran', 'sería', 'casi', 'noche', 'me', 'cinco', 'para', 'seis', 'ver', 'quizá', 'canoso', 'tener', 'hemos', 'mundo', 'lucas', 'narcís', 'que', 'es

In [82]:
from nltk.stem.snowball import SpanishStemmer

stemmer = SpanishStemmer()

def text_cleaning(txt, apply_lemma=True, apply_stemming=True): # eliminar caracteres especiales 
    # Eliminar caracteres especiales
    out = unidecode.unidecode(txt) # tildes y virgulilla - nlp default.stopwords "las" incluye e.g. año no la limpiaria
    out = re.sub('[^A-Za-z0-9 ]+', ' ',out)
    out = re.sub("[^\\w\\s]|\n", ' ', out) # simbolos de puntuacion y retornos con esapcios
    out = re.sub("\d+", "", out) # numeros por espacios vacios
    out = re.sub('\s+', ' ', out) # remueve espacios extra
    out = out.lower() # Poner en minúsculas
    #NLP object
    out = nlp(out)
    # Eliminar Stopwords
    out = [token.text for token in out if not token.is_stop]
    out = " ".join(out)
    
    # Obtener los lemas de cada palabra
    if apply_lemma== True:
    
        lemmas =[token.lemma_ for token in nlp(out)]
   
    # Apply stemming
    if apply_stemming== True:
    
        lemmas = [stemmer.stem(lemma) for lemma in lemmas]
    
   
    # Convertir la lista de lemmas nuevamente a texto
    out = " ".join(lemmas)
    # Remover palabras muy cortas
    out = [token.text for token in nlp(out) if len(token) > 2]
    
    return out

In [83]:
blog_casciari['cuento_limpio']=blog_casciari['cuento'].apply(text_cleaning)
blog_casciari.head()

Unnamed: 0,titulo,fecha,cuento,cuento_limpio
0,El rincón blanco,1/11/08,De pronto yo estaba en el hogar donde pasé la ...,"[hog, infanci, sab, nariz, acostumbr, penumbr,..."
1,Mínimos avances en la cama,1/24/08,"Menos la cama, todo ha mejorado en este mundo....","[cam, mejor, cocinab, sop, fueg, len, met, taz..."
2,Don Marcos,2/19/08,"Dos veces, y no una, mi abuelo materno me ayud...","[abuel, matern, ayud, escritor, intencion, con..."
3,Los dos rulfos,3/26/08,"A su regreso de México, mi amigo Comequechu no...","[regres, mexic, amig, cont, histori, pas, muj,..."
4,La noticia no es el perro,4/15/08,"De repente, un video de You Tube recibe un mil...","[vide, you, tub, recib, millon, visit, autor, ..."


In [85]:
venganza_metegol_idx = blog_casciari[blog_casciari['titulo'] == 'La venganza del metegol'].index
venganza_metegol = blog_casciari.loc[venganza_metegol_idx,'cuento']
venganza_metegol_limpio = blog_casciari.loc[venganza_metegol_idx,'cuento_limpio']
print('Venganza del metegol original: ',venganza_metegol)

print('Venganza del metegol limpiado: ',venganza_metegol_limpio)


Venganza del metegol original:  160    El mes pasado me invitaron a presentar un libr...
Name: cuento, dtype: object
Venganza del metegol limpiado:  160    [mes, invit, present, air, futbol, charl, dire...
Name: cuento_limpio, dtype: object


In [110]:
clean_sentences=list(blog_casciari['cuento_limpio'])

clean_sentences[160][:20]

['mes',
 'invit',
 'present',
 'air',
 'futbol',
 'charl',
 'director',
 'editorial',
 'invit',
 'jug',
 'part',
 'metegol',
 'invent',
 'espanol',
 'creador',
 'llam',
 'erron',
 'futbolin',
 'ano',
 'jug']

Se hizo una función llamada text_cleaning para procesar y limpiar textos en español. Primero, se importó SpanishStemmer de la librería nltk.stem.snowball y se creó una instancia llamada stemmer para el stemming.

La función text_cleaning acepta un texto txt y dos parámetros opcionales: apply_lemma y apply_stemming, que se establecen en True por defecto en caso de no querer usar Stemming o Lemmatizacion.

Para limpiar el texto, se usó unidecode para normalizar caracteres acentuados y especiales. Luego, se aplicaron expresiones regulares para eliminar caracteres no alfanuméricos, puntuación, y números, sustituyéndolos por espacios vacíos. También se eliminaron los espacios adicionales y se convirtió el texto a minúsculas.

El texto limpio se pasó a un objeto de procesamiento NLP (nlp) para eliminar las palabras vacías (stopwords). Si apply_lemma es True, se obtuvieron los lemas de las palabras. Si apply_stemming es True, se aplicó el stemming a estos lemas.

Después, los lemas (o las palabras después del stemming) se unieron nuevamente en una cadena de texto. Finalmente, se eliminaron las palabras que tienen 2 caracteres o menos.

La función devuelve una lista de palabras que han pasado por estos pasos de limpieza y procesamiento.

Finalmente 

### 3. Generando Recomendaciones

En esta sección nos interesa generar recomendaciones de cuentos en el blog a un usuario que leyó 'La venganza del metegol'. Para ello vamos a utilizar distintas estrategias.

#### 3.1. Recomendaciones basadas en contenidos

##### 3.1.1. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando en la distancia de coseno donde el texto este vectorizado por `CountVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones.

In [93]:
# Utilice este espacio para escribir el código.
from sklearn.feature_extraction.text import CountVectorizer

type(clean_sentences)

list

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.2. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para  el cuento 'La venganza del metegol' usando nuevamente la distancia de coseno, pero ahora vectorice el texto usando `TF-IDFVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados del punto anterior y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.3. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando el texto vectorizado por `TF-IDFVectorizer` y la correlación como medida de similitud. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados de los puntos anteriores y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.2. Recomendaciones basadas en temas

Usando modelado de temas con LDA, encuentre los temas subyacentes en el blog. Explique como eligió el numero óptimo de temas. Utilizando el tema asignado al cuento 'La venganza del metegol' y la probabilidad de pertenecer a este tema genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para este cuento. Explique el procedimiento que realizó. Compare con los resultados encontrados anteriormente y explique sus similitudes y/o diferencias. (Esto puede tomar mucho tiempo y requerir mucha capacidad computacional, puede aprovechar los recursos de [Google Colab](https://colab.research.google.com/))


In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

### 4 Recomendaciones generales

De acuerdo con los resultados encontrados, en su opinión ¿qué procedimiento generó las mejores recomendaciones para la entrada elegida? ¿Cómo implementaría una evaluación objetiva de estas recomendaciones? Justifique su respuesta.

(Utilice este espacio para describir su procedimiento)