<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Caso-taller:  Recomendando el Blog de  Hernán Casciari 


[Hernán Casciari](https://hernancasciari.com/#bio), es un escritor argentino, que escribe blog posts con cuentos e historias  relacionadas con el futbol, su vida, infancia, y relaciones familiares con toques de ficción. Este [blog](https://hernancasciari.com/blog/) es  tan interesantes que en 2005 fue premiado como “El mejor blog del mundo” por Deutsche Welle de Alemania. 

El objetivo de este caso-taller es construir un sistema de recomendación basado en los contenidos de los posts utilizando similitud de las palabras usadas o temas de los cuentos.

## Instrucciones generales

1. Para desarrollar el *cuaderno*, primero debe descargarlo.

2. Para responder cada inciso deberá utilizar el espacio debidamente especificado.

3. La actividad será calificada sólo si sube el *cuaderno* de jupyter notebook con extensión `.ipynb` en la actividad designada como "entrega calificada por el personal".

4. El archivo entregado debe poder ser ejecutado localmente por el tutor. Sea cuidadoso con la especificación de la ubicación de los archivos de soporte, guarde la carpeta de datos en el mismo `path` de su cuaderno, por ejemplo: `data`.

## Desarrollo


### 1. Carga de datos 

En la carpeta `data` se encuentran el archivo `blog_casciari.csv` con el título, la fecha de publicación, y el contenido de los cuentos publicados en el blog  de sr. Casciari. Cargue estos datos en su *cuaderno* y reporte brevemente el contenido de la base.
   

In [22]:
# Utilice este espacio para escribir el código.
import pandas as pd
import numpy as np

# Convertir el csv a un dataframe usando pandas
casciari = pd.read_csv("data/blog_casciari.csv", sep = ",")

# Ilustrar la esturctura del dataframe
print(casciari.head())
# Exploramos la estructura del dataframe
print("La estructura del dataframe es de dimensión", casciari.shape)

# Vemos el cuento ejemplo - 160 La venganza del metegol
#example=casciari['cuento'][160]
print(casciari['titulo'][160])
print(casciari['cuento'][160])


                       titulo    fecha  \
0            El rincón blanco  1/11/08   
1  Mínimos avances en la cama  1/24/08   
2                  Don Marcos  2/19/08   
3              Los dos rulfos  3/26/08   
4   La noticia no es el perro  4/15/08   

                                              cuento  
0  De pronto yo estaba en el hogar donde pasé la ...  
1  Menos la cama, todo ha mejorado en este mundo....  
2  Dos veces, y no una, mi abuelo materno me ayud...  
3  A su regreso de México, mi amigo Comequechu no...  
4  De repente, un video de You Tube recibe un mil...  
La estructura del dataframe es de dimensión (520, 3)
La venganza del metegol
El mes pasado me invitaron a presentar un libro en Buenos Aires. Y como era un libro sobre fútbol, al final de la charla el director de la editorial nos invitó a jugar un partido de metegol (ese invento español al que sus creadores llaman, erróneamente, futbolín). Hacía años que no jugaba al metegol, pero por suerte me tocó de compañero u

In [14]:
casciari.head(5)

Unnamed: 0,titulo,fecha,cuento
0,El rincón blanco,1/11/08,De pronto yo estaba en el hogar donde pasé la ...
1,Mínimos avances en la cama,1/24/08,"Menos la cama, todo ha mejorado en este mundo...."
2,Don Marcos,2/19/08,"Dos veces, y no una, mi abuelo materno me ayud..."
3,Los dos rulfos,3/26/08,"A su regreso de México, mi amigo Comequechu no..."
4,La noticia no es el perro,4/15/08,"De repente, un video de You Tube recibe un mil..."


#### Procedimiento:

1. Importamos las librerias a utilizar, en este caso son pandas y numpy
2. Convertimos el archivo csv a un dataframe utilizando pandas
3. Exploramos la estructura del dataframe
4. Usamos la función shape para visualizar las dimensiones del dataframe

#### Análisis y conclusiones: 

Podemos ver que el Blog de Hernán Casciri contiene 520 entradas y el archivo nos provee la información de título y fecha y cuento. 

### 2. Homogenización de textos

Para cumplir con el objetivo de generar recomendaciones en esta sección debe preparar los posts para poder ser utilizados en su sistema de recomendación. Para ello, "limpie" y "tokenize" cada uno de los cuentos, describiendo detalladamente los pasos que realizo y si transformó o eliminó ciertas palabras. Para asistirlo en la tarea he creado listas de *stopwords* que están disponibles en la carpeta `data`. En su procedimiento ilustre la limpieza con el cuento 'La venganza del metegol'. (En su limpieza recuerde que el objetivo es generar recomendaciones a partir de la similitud de las palabras o temas de los cuentos)

In [23]:
## Para realizar el proceso de limpieza nos basamos en los pasos desarrollados en el taller Introducción al Procesamiento de Lenguaje Natural
import re
import unidecode

## Primero Eliminamos los caracteres no deseados

# Aplicar unidecode para eliminar las tildes
casciari['cuento'] = casciari['cuento'].apply(lambda x: unidecode.unidecode(x))

# Eliminar caracteres no deseados, números y espacios en blanco adicionales
casciari['cuento'] = casciari['cuento'].apply(lambda x: re.sub('[^A-Za-z0-9 ]+', ' ', x))

# Eliminar espacios extras
casciari['cuento'] = casciari['cuento'].apply(lambda x: re.sub('\s+', ' ', x))

# Quitar números
casciari['cuento'] = casciari['cuento'].apply(lambda x: re.sub("\d+", "", x))

# Quitar espacios en blanco al principio y al final del texto
casciari['cuento'] = casciari['cuento'].str.strip()

## Observamos los resultados en el cuento de ejemplo 160 La venganza del metegol
print(casciari['titulo'][160])
print(casciari['cuento'][160])


La venganza del metegol
El mes pasado me invitaron a presentar un libro en Buenos Aires Y como era un libro sobre futbol al final de la charla el director de la editorial nos invito a jugar un partido de metegol ese invento espanol al que sus creadores llaman erroneamente futbolin Hacia anos que no jugaba al metegol pero por suerte me toco de companero un filosofo muy prestigioso y pudimos ganar Nuestros contrincantes eran el autor del libro y el director de la editorial De los tres a este ultimo lo conocia desde la juventud Jugamos dos partidos enteros y los destrozamos con una facilidad pasmosa hacia anos que no practicaba este falso deporte de munecas y reflejos pero descubri que no habia perdido las manas Eso me hizo sentir bien a mi edad cualquier destreza que mantengamos indemne por mas pelotuda que sea se convierte en una gran noticia Despues de la charla algunos fotografos hicieron imagenes del partido de metegol y las subieron a Twitter Estadio Libreria Gandhi Buenos Aires Loc

Como se puede observar en el resultado se observa el texto sin tíldes, números y otros carácteres indeseables. Para continuar limpiando el texto se procede a manejar el tema de Tokenización y Stopwords

In [24]:
## Se procede a cargar los stopwords que se encontraban en data para el desarrollo del taller

# Convertir el csv a un dataframe usando pandas
stopwords_taller = pd.read_csv("data/stopwords_taller.csv", sep=",", header=None, names=["palabra"])

# Vemos la estructura del database
print(stopwords_taller.head())
# Exploramos la estructura del dataframe
print("La estructura del dataframe es de dimensión", stopwords_taller.shape)

     palabra
0      ahora
1  alejandro
2       alex
3    alfonso
4    alguien
La estructura del dataframe es de dimensión (169, 1)


In [25]:
stopwords_taller.head(5)

Unnamed: 0,palabra
0,ahora
1,alejandro
2,alex
3,alfonso
4,alguien


In [26]:
## Se procede a tokenizar y retirar los stopwords

## Se implementa nlp tokenización spacy

nlp = spacy.load("es_core_news_sm")


## Se crea una función para quitar las stopwords (Una para las de Spacy y otras para las del taller), las tildes y los caracteres extraños

def remove_stopwords(text):
    doc=nlp(text)
    doc_sin_stopwords = [token.text for token in doc if not token.is_stop]
    return ' '.join(doc_sin_stopwords)


def remove_custom_stopwords(text):
    doc = nlp(text)
    custom_stopwords = list(stopwords_taller['palabra'])
    custom_stopwords = [word.lower() for word in custom_stopwords]
    tokens = [token.text for token in doc if token.text.lower() not in custom_stopwords and not token.is_stop]
    return ' '.join(tokens)


## Se procede a corre la función en el dataframe

casciari['cuento'] = casciari['cuento'].apply(remove_stopwords)
casciari['cuento'] = casciari['cuento'].apply(remove_custom_stopwords)

## Observamos los resultados en el cuento de ejemplo 160 La venganza del metegol
print(casciari['titulo'][160])
print(casciari['cuento'][160])


La venganza del metegol
mes invitaron presentar Aires futbol charla director editorial invito jugar partido metegol invento espanol creadores llaman erroneamente futbolin anos jugaba metegol suerte toco companero filosofo prestigioso pudimos ganar contrincantes autor director editorial conocia juventud Jugamos partidos enteros destrozamos facilidad pasmosa anos practicaba falso deporte munecas reflejos descubri perdido manas sentir edad destreza mantengamos indemne pelotuda convierte noticia charla fotografos imagenes partido metegol subieron Twitter Estadio Libreria Gandhi Aires Locales izquierda Duchini Gonzalo Garces Vistantes derecha Tomas Abraham Resultado match     match     Paliza volvi recibi mail amigo infancia decia visto fotos sorprendia companero filosofo admirabamos juventud jugando metegol Tomas Abraham pasar sueno decia partido imagine diecisiete anos mirando ventana libreria Gandhi escena futuro sonrei recuerdo momentaneo desconcentro juego justo gol unico recibi defend

In [13]:
### Limpieza y tokenización siguiendo el ejemplo del LAB Intro al PLN

# PENDIENTES:
# 1) FALTA USAR LA LISTA DE STOPWORDS PROVISTA PARA EL TALLER
# 2) FALTA EN CADA PASO MOSTRAR LA TRNASFORMACIÓN DEL BLOG "LA VENGANZA DEL METEGOL"


# Cargamos las librerías a utilizar
import re
import unidecode
import spacy
from wordcloud import WordCloud
import matplotlib.pyplot as plt


#Escogemos el cuento la venganza del metegol como ejemplo
example=casciari['cuento'][160]
example


# Cargar el modelo para el idioma deseado (por ejemplo, español)
nlp = spacy.load("es_core_news_sm")

doc = nlp(casciari)


## Retiramos caracteres no deseados

# Quitamos tildes
documento = unidecode.unidecode(casciari)
print(documento[5,:,:]) 

# Retiramos caracteres no deseados
documento = re.sub('[^A-Za-z0-9 ]+', ' ', documento)

# Eliminamos espacios extras
documento = re.sub('\s+', ' ', documento)

# Minúsculas
documento = documento.lower()

## Tokenización
doc = nlp(documento)


# Filtrar las stopwords
doc_sin_stopwords = [token.text for token in doc if not token.is_stop]

# Convertir la lista de palabras sin stopwords nuevamente a texto
doc_sin_stopwords = ' '.join(doc_sin_stopwords)

# Obtener los lemas de cada palabra
lemmas =[token.lemma_ for token in nlp(doc_sin_stopwords)]


# Convertir la lista de lemmas nuevamente a texto
doc_lemmas = " ".join(lemmas)

# Creamos el objeto WordCloud con el documento de lemas
wordcloud = WordCloud(width = 1600, height = 800, 
    background_color = "white").generate(doc_lemmas)


# Mostramos la nube de palabras usando Matplotlib
plt.figure(figsize = (20, 10))
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis("off") # elimina los ejes y marcas para tener una visualización más limpia.
plt.show()



ValueError: [E1041] Expected a string, Doc, or bytes as input, but got: <class 'pandas.core.frame.DataFrame'>

#### Procedimiento:

1.

#### Análisis y conclusiones: 

1. 

### 3. Generando Recomendaciones

En esta sección nos interesa generar recomendaciones de cuentos en el blog a un usuario que leyó 'La venganza del metegol'. Para ello vamos a utilizar distintas estrategias.

#### 3.1. Recomendaciones basadas en contenidos

##### 3.1.1. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando en la distancia de coseno donde el texto este vectorizado por `CountVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.2. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para  el cuento 'La venganza del metegol' usando nuevamente la distancia de coseno, pero ahora vectorice el texto usando `TF-IDFVectorizer`. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados del punto anterior y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.1.3. Genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para el cuento 'La venganza del metegol' usando el texto vectorizado por `TF-IDFVectorizer` y la correlación como medida de similitud. Explique el procedimiento que realizó y como ordenó las recomendaciones. Compare con los resultados de los puntos anteriores y explique sus similitudes y/o diferencias.

In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

##### 3.2. Recomendaciones basadas en temas

Usando modelado de temas con LDA, encuentre los temas subyacentes en el blog. Explique como eligió el numero óptimo de temas. Utilizando el tema asignado al cuento 'La venganza del metegol' y la probabilidad de pertenecer a este tema genere 5 recomendaciones de más recomendada (1) a menos recomendada (5) para este cuento. Explique el procedimiento que realizó. Compare con los resultados encontrados anteriormente y explique sus similitudes y/o diferencias. (Esto puede tomar mucho tiempo y requerir mucha capacidad computacional, puede aprovechar los recursos de [Google Colab](https://colab.research.google.com/))


In [None]:
# Utilice este espacio para escribir el código.

(Utilice este espacio para describir el procedimiento, análisis, y conclusiones)

### 4 Recomendaciones generales

De acuerdo con los resultados encontrados, en su opinión ¿qué procedimiento generó las mejores recomendaciones para la entrada elegida? ¿Cómo implementaría una evaluación objetiva de estas recomendaciones? Justifique su respuesta.

(Utilice este espacio para describir su procedimiento)