# TP1 - Redis - Francisco Javier Piqueras Martínez

En este trabajo práctico se va a diseñar e implementar una base de datos clave-valor utilizando Redis para la gestión de un servicio de microblogging similar a Twitter. El objetivo es familiarizarse con la utilización de bases de datos clave-valor como Redis y comprobar que sus estructuras permiten construir modelos de datos efectivos para implementar muchos tipos de aplicaciones.

> Nota: Las ejecuciones de las funciones para ver los resultados se han comentado.

Sistema Operativo: MAC OS

## Conexión a nuestra Base de Datos Redis

En primer lugar, se realiza la conexión a la Base de Datos Redis, y se guarda ésta en una variable global llamada `redis_db`. Se hará uso de esta **variable global** durante la realización de la práctica para toda interacción que se necesite con la base de datos Redis.

In [None]:
import redis

In [None]:
redis_db = redis.Redis(host='127.0.0.1', port=6379, password='')

Se hace un flush para que esta se limpie cada vez que se reinicie el kernel.

In [None]:
redis_db.flushdb()

## Implementación

Las funciones a implementar para construir la base de datos clave-valor en Redis que imita el funcionamiento de Twitter son las siguientes:

Tanto para estas funciones como para las que se definirán en el apartado de “Pruebas”, se puede añadir como parámetro adicional de la función la propia base de datos creada con la función mostrada en el apartado 2, o utilizar una única variable global dentro de las funciones para las llamadas a la misma. Se pide documentar claramente cuál de las dos opciones se utiliza.

> En este caso se ha optado hacer uso de una **variable global**



### 1. Diseño de la base de datos

Antes de implementar las funciones, a continuación se muestra un pequeño esquema de como quedaría la estructura de la base de datos Redis:

| Clave | Valor | Comentarios |
| :--- | :-- | :-- |
| `user_id` | id actual en base de datos de los usuarios | Sirve para mantener el conteo de los ids de los usuarios |
| `post_id` | id actual en base de datos de los post | Sirve para mantener el conteo de los ids de los posts |
| `users` | HashMap (username:id, id:username) | Sirve para obtener el username dado el id y viceversa |
| `user:{user_id}:followers` | Ordered Set (value: id_user_follower, score:timestamp) | Lista de usuarios que siguen al usuario cuyo id es `user_id`. Gracias a ser un Ordered set ordenado por timestamp, podemos hacer extracciones ordenadas en el tiempo |
| `user:{user_id}:following` | Ordered Set (value: id_user_followed, score:timestamp) | Lista de usuarios que sigue el usuario cuyo id es `user_id`. Gracias a ser un Ordered set ordenado por timestamp, podemos hacer extracciones ordenadas en el tiempo |
| `user:{user_id}:posts`| Set (value: id_post) | Guarda el id de los posts cuyo autor es el propio usuario o cualquiera de los usuarios a los que él sigue) |
| `post:{post_id}` | HashMap(claves: `timestamp`, `userid`, `message`) | Contiene toda la información relativa a un post |
| `post_{post_id}_timeline` | Valor simple, timestamp | Nos sirve para tener guardado el timestamp de cada post para así poder ordenarlo al extraerlos |


Funciones adicionales para su uso:
- **get_user_id_or_name**: Esta función recibe el id o el username de un usuario, y devuelve el complementario. Es decir, si recibe el id de vuelve el username y si recibe el username devuelve el id.

Lo que hace es descodificarlo a utf-8 para evitar así el uso de esta función de forma recurrente en el código.

In [None]:
def get_user_id_or_name(user_name_or_id):
    _ret = redis_db.hget('users', user_name_or_id)
    if _ret is not None:
        _ret = _ret.decode('utf-8')
    return _ret

Funciones requeridas por el ejercicio

- **nuevo_usuario**: Esta función recibirá el nombre del nuevo usuario y generará una nueva entrada en la base de datos utilizando un identificador incremental (proporcionado por Redis) para cada usuario. Este identificador incremental se puede utilizar para diferenciar cada una de las claves que contengan usuarios, de tal manera que dichas claves sean similares a la siguiente: “user:id”, donde “id” es el identificador del usuario. Para cada usuario deberemos almacenar su nombre. De la misma forma se recomienda almacenar todos los usuarios y sus identificadores dentro de una misma estructura de datos única cuya clave puede ser “users”.

Adicionalmente, se ha hecho la comprobación de que dicho usuario no existiera previamente en la base de datos, en tal caso, no se añade ya que el `username` debe ser único.

In [None]:
def nuevo_usuario(username):
    if get_user_id_or_name(username) is None:
        userid = redis_db.incr('user_id')
        redis_db.hmset('users', {
            username: userid,
            userid: username
        })
        return True
    else:
        return False

- **nuevo_follower**: Una de las funcionalidades básicas de Twitter es la posibilidad de seguir a usuarios ya existentes. Para implementar esta funcionalidad crearemos la función “nuevo_follower”, que recibirá el nombre de un usuario y el nombre del usuario que se convertirá en “follower” (seguidor) del primero, así como un “timestamp”. Se recomienda utilizar nombres de clave similares a las utilizadas para los usuarios, de la forma “followers:id”, donde “id” será el identificador del usuario. Esta estructura de datos contendrá, para cada usuario, un conjunto de tuplas. En cada tupla se almacenará el identificador de un “follower” y el “timestamp” que representa el momento que le empezó a seguir.

Adicionalmente, se ha hecho la comprobación de que ambos usuarios existen en la base de datos, en caso contrario, no se crea el follower y devuelve `False`.

La estructura de la clave va a ser la siguiente:
``user:[user_id]:followers``
El valor va a consistir en un *ordered set* cuya variable *score* va a ser el `timestamp`. De esta forma, todos los followers van a permanecer ordenados en el tiempo para el usuario en cuestión. 

In [None]:
def nuevo_follower(followed_username, follower_username, timestamp):
    
    followed_id = get_user_id_or_name(followed_username)
    follower_id = get_user_id_or_name(follower_username)
    
    if followed_id is None or follower_id is None:
        return False
    
    redis_db.zadd('user:' + followed_id + ':followers', {follower_id: timestamp})
    
    return True

- **nuevo_following**: Mediante esta función contraria a la función anterior, almacenaremos los usuarios seguidos por un usuario concreto. Recibe también un usuario original, el usuario a seguir y un “timestamp”. La estructura de datos utilizada será similar, y su clave puede tener la forma “following:[id]”, donde “id” es el identificador del usuario original. Se almacenarán igualmente para cada usuario, los identificadores de los usuarios a los que sigue y el momento en el que se les empezó a seguir.

Adicionalmente, se ha hecho la comprobación de que ambos usuarios existe en la base de datos, en caso contrario, no se crea el followed y devolvemos `False`.

La estructura de la clave va a ser la siguiente:
``user:[user_id]:following``
El valor va a consistir en un *ordered set* cuya variable *score* va a ser el `timestamp`. De esta forma, todos los seguidos van a permanecer ordenados en el tiempo para el usuario en cuestión. 

In [None]:
def nuevo_following(follower_username, followed_username, timestamp):
    
    followed_id = get_user_id_or_name(followed_username)
    follower_id = get_user_id_or_name(follower_username)
    
    if followed_id is None or follower_id is None:
        return False
    
    redis_db.zadd('user:' + follower_id + ':following', {followed_id: timestamp})
    
    return True

- **seguir**: La función “seguir” recibirá un usuario original, un usuario a seguir, y un “timestamp” y hará uso de las dos funciones auxiliares anteriores para actualizar la información relativa al “follower” y a los “followings” del usuario original. Las funciones anteriores (nuevo_follower y nuevo_following) sólo podrán ser llamadas desde esta función, nunca de forma directa.

Adicinalmente, devuelve `False` si alguna de las funciones invocadas devuelve `False` debido a que alguno de los usuarios no existe en la base de datos Redis.

In [None]:
def seguir(follower, followed, timestamp):
    return nuevo_follower(followed, follower, timestamp) and nuevo_following(follower, followed, timestamp)

- **nuevo_post**: Esta función nos permitirá incluir nuevos mensajes en nuestra base de datos. Recibirá como parámetros el usuario que crea el mensaje, el cuerpo del mensaje y un “timestamp” representando el momento de creación del mensaje. Para cada mensaje se creará una clave cuyo nombre siga la estructura ya utilizada: “post:idPost”, donde “idPost” será un contador incremental distinto al utilizado para los usuarios. Esta estructura contendrá, para cada post, el identificador del usuario que lo ha creado, el momento de su creación y el cuerpo del mensaje. Además, para una mejor gestión de los posts, se creará otra estructura “posts:[id]”, donde “id” será un identificador de usuario. En esta estructura almacenaremos la lista de “idPost” de todos los posts pertenecientes a este usuario. Es importante que esta lista no sólo almacene los posts creados por el usuario, sino también los creados por sus “followings” (usuarios a los que sigue), para una mejor gestión posterior del acceso a los posts.

Como en las anteriores funciones se ha hecho, si el usuario en cuestión no existe, esta función no realiza su funcionalidad y devuelve un `False`.

Para guardar toda la información relativa a un post, se ha utilizado la siguiente estructura de clave: `post:[post_id]` cuyo valor es un *hash map*, cuyas claves para guardar la información relativa al post son las siguientes: `timestamp`, `userid` y `message`.

Para guardar la relación entre el usuario y los posts que debe visualizar en su timeline, se ha utilizado la siguiente estructura de clave: `user:[user_id]:posts` cuyo valor es un conjunto no ordenado de identificadores de post tanto del usuario autor del post como de cualquiera de sus *followers*

Adicionalmente, para poder ordenar los post cuando estos sean extraídos de la base de datos, se guarda la información relativa al `timeline` siguiendo el siguiente patrón como clave: `post_[post_id]_timeline`cuyo valor es el valor del `timeline` de dicho post.

In [None]:
def nuevo_post(username, message, timestamp):
    postid = str(redis_db.incr('post_id'))
    
    userid = get_user_id_or_name(username)
    
    if userid is None:
        return False
    
    redis_db.hmset('post:' + postid, {
        'timestamp': timestamp,
        'userid': userid,
        'message': message
    })
    
    redis_db.set('post_' + postid + '_timeline', timestamp)
    
    redis_db.sadd('user:' + userid + ':posts', postid)
    
    follower_ids = redis_db.zrange('user:' + userid + ':followers', 0, -1)
    
    for follower_id in follower_ids:
        follower_id = str(follower_id.decode('utf-8'))
        redis_db.sadd('user:' + follower_id + ':posts', postid)
    
    

### 2. Conjunto de datos

En primer lugar, se realizan los imports necesarios: `pandas`, `numpy`, `os`y `datetime`

In [None]:
import pandas as pd
import numpy as np
import os
from datetime import datetime as dt

Antes de la carga de datos, se desarrollan las funciones de parseo de timestamp a date y de date a timestamp

In [None]:
date_format = '%d %b %Y %H:%M:%S'

def from_date_to_timestamp(date):
    return int(dt.strptime(date, date_format).timestamp())

def from_timestamp_to_date(timestamp):
    return dt.fromtimestamp(timestamp).strftime(date_format)

Ahora, se va a proceder a cargar los datos de los ficheros twitter_sample.csv y relations.csv. Se guardan en dos variables globales, `tweets`y `relations`.

In [None]:
tweets = pd.read_csv(
    filepath_or_buffer=os.path.join('twitter_sample.csv'), 
    header=0, 
    sep=',', 
    quotechar='"', 
    encoding='utf-8'
)

relations = pd.read_csv(
    filepath_or_buffer=os.path.join('relations.csv'), 
    header=0, 
    sep=',', 
    encoding='utf-8'
)

En primera instancia, se va a proceder a crear todos los usuarios, puesto que se asume que todos ya existían. Obsérvese que uno de los tweets no tiene usuario (`NaN`), se elimina.

In [None]:
tweets['User'].unique()

In [None]:
tweets[tweets['User'].isna()]

In [None]:
tweets.drop(index=14, inplace=True)

Se define la función `create_users_from_tweets` que crea los usuarios a partir los tweets existentes y se ejecuta:

In [None]:
def create_users_from_tweets(tweets):
    users = tweets['User'].unique()
    for user in users:
        nuevo_usuario(user)

In [None]:
create_users_from_tweets(tweets)

Se define la función `create_relations` que crea las relaciones a partir de la variable `relations` y se ejecuta:

In [None]:
def create_relations(relations):
    for i, relation in relations.iterrows():
        seguir(relation['User'], relation['Follows'], from_date_to_timestamp(relation['Following_Time']))

In [None]:
create_relations(relations)

Se define la función `create_posts` que crea los posts a partir de la variable `tweets` y se ejecuta:

In [None]:
def create_posts(tweets):
    for i, tweet in tweets.iterrows():
        nuevo_post(tweet['User'], tweet['Tweet_Content'], from_date_to_timestamp(tweet['Post_Time']))

In [None]:
create_posts(tweets)

### 3. Pruebas

- **obtener_followers**: Esta función recibirá un nombre de usuario y devolverá o imprimirá una lista con todos los nombres de los usuarios que le siguen, y en qué momento comenzaron a seguirle (en formato fecha, no “timestamp”), ordenados en el tiempo.

> Al recuperar esta información de un *ordered set* ordenador por `timestamp`, estos ya vienen ordenados en el tiempo.

In [None]:
def obtener_followers(username):
    # id del usuario del que queremos obtener los followers
    iduser = get_user_id_or_name(username)
    
    # ids de los followers de ese usuario
    follower_ids = redis_db.zscan('user:' + iduser + ':followers')[1]
    
    # Imprimimos el numero de followers totales para añadir más información
    print('El usuario ' + username + ' tiene ' + str(len(follower_ids)) + ' followers:\n')
    
    # Por cada follower, se imprime la información solicitada
    for follower in follower_ids:
        print(get_user_id_or_name(follower[0].decode('utf-8')), 'empezó a seguirle el', from_timestamp_to_date(follower[1]))
    

In [None]:
# obtener_followers('drshahrul80')

- **obtener_followings**: Esta función recibirá un nombre de usuario y devolverá o imprimirá una lista con todos los nombres de los usuarios a los que sigue, y en qué momento comenzó a seguirlos (en formato fecha, no “timestamp”), ordenados en el tiempo.

> Al recuperar esta información de un *ordered set* ordenador por `timestamp`, estos ya vienen ordenados en el tiempo.

In [None]:
def obtener_following(username):
    # id del usuario del que se quieren obtener los usuarios a os que sigue
    iduser = get_user_id_or_name(username)
    
    # id de los usuarios a los que sigue el usuario en cuestion
    following_ids = redis_db.zscan('user:' + iduser + ':following')[1]
    
    # Imprimimos el numero de followers totales para añadir más información
    print('El usuario ' + username + ' sigue a ' + str(len(following_ids)) + ' usuarios:\n')
    
    # Por cada followed, se imprime la información solicitada
    for following in following_ids:
        print('A', get_user_id_or_name(following[0].decode('utf-8')), 'empezó a seguirle el', from_timestamp_to_date(following[1]))
    

In [None]:
 # obtener_following('alkhalilkouma')

- **obtener_timeline**: Esta función recibirá un nombre de usuario y un parámetro booleano denominado “tweets_propios”. Devolverá o imprimirá por pantalla todos los tweets correspondientes a dicho usuario (propios o publicados por los usuarios a los que sigue), ordenados por fecha de publicación del tweet. Deberá utilizarse obligatoriamente la función “SORT” proporcionada por Redis dentro de esta función, para generar la ordenación de los tweets. Además, sólo se mostrarán aquellos tweets de los usuarios seguidos por el usuario original que sean posteriores al momento en el que el usuario original comenzó a seguirles. El parámetro booleano “tweets_propios” permitirá indicar si queremos mostrar tanto los tweets propios como los de los usuarios seguidos (tweets_propios = True), o sólo los de los seguidos (tweets_propios = False). La salida exacta será el nombre del usuario que escribió el tweet, el cuerpo del tweet y el momento de publicación (en formato fecha, no “timestamp”)

> Por defecto, el parámetro booleano se ha definido a `True`

In [None]:
def obtener_timeline(username, tweets_propios=True):
    # id del usuario del que se quieren recuperar los tweets de su timeline
    iduser = get_user_id_or_name(username)
    
    # Se recuperan todos los tweets relacionados con el usuario en cuestión 
    # ordenados de forma descendiente en el tiempo.
    # Se ordenan de forma descendiente porque ahora se van a recorrer e imprimir todos, 
    # de esta forma el más reciente quedará arriba del todo.
    posts = redis_db.sort('user:' + iduser + ':posts', by='post_*_timeline', desc=True)
    
    # Se recorren todos los post
    for post in posts:
        id_post, id_user_post, name_user_post, timestamp_post, message_post = extract_info_from_post(post)
        
        
        if(id_user_post != iduser or tweets_propios):
            print('- [' + timestamp_post + ']' + 
                  ' El usuario ' + name_user_post + 
                  ' twitteó: ' + message_post)
            
# Esta funcion extrae la información en formato de impresión de un post
def extract_info_from_post(post):
    # Se obtiene el id del post en cuestión
    id_post = post.decode('utf-8')
    # Se obtiene el id del usuario autor del post y su username
    id_user_post = redis_db.hget('post:' + str(id_post), 'userid').decode('utf-8')
    name_user_post = str(get_user_id_or_name(id_user_post))
    # Se obtiene el timestamp del post
    timestamp_post = str(from_timestamp_to_date(int(redis_db.hget('post:' + str(id_post), 'timestamp').decode('utf-8'))))
    # Se obtiene el mensaje del post
    message_post = redis_db.hget('post:' + str(id_post), 'message').decode('utf-8')
    return id_post, id_user_post, name_user_post, timestamp_post, message_post
    

In [None]:
# obtener_timeline('drshahrul80', False)

 ### 4. Conclusión de la práctica
 
Sinceramente, esta práctica me ha gustado mucho, tanto por como esta organizada, por el contenido y por que es un tema que verdaderamente me apasiona.

Como mejora, podría proponer que para la próxima, se haga uso de un dataset más grande, aunque el hecho de que sea pequeño, en ocasiones, facilita la comprensión de la práctica y de los datos.

También me habría gustado haber practicado el PUB/SUB y ver como se integraría con este sistema, o con un ejemplo como el que hicimos de Twitter en el tema de Streaming de la asignatura de Infraestructuras del primer cuatrimestre como una extensión de la práctica o un apartado opcional.