# TP1 - Redis - Francisco Javier Piqueras Martínez

En este trabajo práctico se va a diseñar e implementar una base de datos clave-valor utilizando Redis para la gestión de un servicio de microblogging similar a Twitter. El objetivo es familiarizarse con la utilización de bases de datos clave-valor como Redis y comprobar que sus estructuras permiten construir modelos de datos efectivos para implementar muchos tipos de aplicaciones.

## Conexión a nuestra Base de Datos Redis

En primer lugar, realizamos la conexión a la Base de Datos Redis, y guardamos ésta en una variable global llamada `redis_db`. Se hará uso de esta **variable global** durante la realización de la práctica para toda interacción que necesitemos con nuestra base de datos Redis.

In [1]:
import redis

In [2]:
redis_db = redis.Redis(host='127.0.0.1', port=6379, password='')

Hacemos un flush para que esta se limpie cada vez que reiniciamos el kernel.

In [3]:
redis_db.flushdb()

True

## Implementación

Las funciones a implementar para construir nuestra base de datos clave-valor en Redis que imite el funcionamiento de Twitter son las siguientes:

Tanto para estas funciones como para las que se definirán en el apartado de “Pruebas”, se puede añadir como parámetro adicional de la función la propia base de datos creada con la función mostrada en el apartado 2, o utilizar una única variable global dentro de las funciones para las llamadas a la misma. Se pide documentar claramente cuál de las dos opciones se utiliza.

> En este caso se ha optado hacer uso de una **variable global**



### 1. Diseño de la base de datos

Funciones adicionales para su uso:
- **get_user_id_or_name**: Esta función recibe el id o el username de un usuario, y devuelve el complementario. Es decir, si recibe el id de vuelve el username y si recibe el username devuelve el id.

Lo que hace es decodificarlo a utf-8 para evitar así el uso de esta función de forma recurrente en el código.

In [5]:
def get_user_id_or_name(user_name_or_id):
    _ret = redis_db.hget('users', user_name_or_id)
    if ret is not None:
        _ret = _ret.decode('utf-8')
    return _ret

Funciones requeridas por el ejercicio

- **nuevo_usuario**: Esta función recibirá el nombre del nuevo usuario y generará una nueva entrada en la base de datos utilizando un identificador incremental (proporcionado por Redis) para cada usuario. Este identificador incremental se puede utilizar para diferenciar cada una de las claves que contengan usuarios, de tal manera que dichas claves sean similares a la siguiente: “user:id”, donde “id” es el identificador del usuario. Para cada usuario deberemos almacenar su nombre. De la misma forma se recomienda almacenar todos los usuarios y sus identificadores dentro de una misma estructura de datos única cuya clave puede ser “users”.

Adicionalmente, se ha hecho la comprobación de que dicho usuario no existiera previamente en la base de datos, en tal caso, no lo añadimos ya que el `username` debe ser único.

In [8]:
def nuevo_usuario(username):
    if get_user_id_or_name(username) is None:
        userid = redis_db.incr('user_id')
        redis_db.hmset('users', {
            username: userid,
            userid: username
        })
        return True
    else:
        return False

- **nuevo_follower**: Una de las funcionalidades básicas de Twitter es la posibilidad de seguir a usuarios ya existentes. Para implementar esta funcionalidad crearemos la función “nuevo_follower”, que recibirá el nombre de un usuario y el nombre del usuario que se convertirá en “follower” (seguidor) del primero, así como un “timestamp”. Se recomienda utilizar nombres de clave similares a las utilizadas para los usuarios, de la forma “followers:id”, donde “id” será el identificador del usuario. Esta estructura de datos contendrá, para cada usuario, un conjunto de tuplas. En cada tupla se almacenará el identificador de un “follower” y el “timestamp” que representa el momento que le empezó a seguir.

Adicionalmente, se ha hecho la comprobación de que ambos usuarios existe en la base de datos, en caso contrario, no creamos el follower y devolvemos `False`.

La estructura de la clave va a ser la siguiente:
``user:[user_id]:followers``
El valor va a consistir en un *ordered set* cuya variable *score* va a ser el `timestamp`. De esta forma, todos los followers van a permanecer ordenados en el tiempo para el usuario en cuestión. 

In [10]:
def nuevo_follower(followed_username, follower_username, timestamp):
    
    followed_id = get_user_id_or_name(followed_username)
    follower_id = get_user_id_or_name(follower_username)
    
    if followed_id is None or follower_id is None:
        return False
    
    redis_db.zadd('user:' + followed_id + ':followers', {follower_id: timestamp})
    
    return True

- **nuevo_following**: Mediante esta función contraria a la función anterior, almacenaremos los usuarios seguidos por un usuario concreto. Recibe también un usuario original, el usuario a seguir y un “timestamp”. La estructura de datos utilizada será similar, y su clave puede tener la forma “following:[id]”, donde “id” es el identificador del usuario original. Se almacenarán igualmente para cada usuario, los identificadores de los usuarios a los que sigue y el momento en el que se les empezó a seguir.

Adicionalmente, se ha hecho la comprobación de que ambos usuarios existe en la base de datos, en caso contrario, no creamos el followed y devolvemos `False`.

La estructura de la clave va a ser la siguiente:
``user:[user_id]:following``
El valor va a consistir en un *ordered set* cuya variable *score* va a ser el `timestamp`. De esta forma, todos los seguidos van a permanecer ordenados en el tiempo para el usuario en cuestión. 

In [11]:
def nuevo_following(follower_username, followed_username, timestamp):
    
    followed_id = get_user_id_or_name(followed_username)
    follower_id = get_user_id_or_name(follower_username)
    
    if followed_id is None or follower_id is None:
        return False
    
    followed_id = followed_id.decode('utf-8')
    follower_id = follower_id.decode('utf-8')
    
    redis_db.zadd('user:' + follower_id + ':following', {followed_id: timestamp})
    
    return True

- **seguir**: La función “seguir” recibirá un usuario original, un usuario a seguir, y un “timestamp” y hará uso de las dos funciones auxiliares anteriores para actualizar la información relativa al “follower” y a los “followings” del usuario original. Las funciones anteriores (nuevo_follower y nuevo_following) sólo podrán ser llamadas desde esta función, nunca de forma directa.

Adicinalmente, devuelve `False` si alguna de las funciones invocadas devuelve `False` debido a que alguno de los usuarios no existe en la base de datos Redis.

In [8]:
def seguir(follower, followed, timestamp):
    return nuevo_follower(followed, follower, timestamp) and nuevo_following(follower, followed, timestamp)

- **nuevo_post**: Esta función nos permitirá incluir nuevos mensajes en nuestra base de datos. Recibirá como parámetros el usuario que crea el mensaje, el cuerpo del mensaje y un “timestamp” representando el momento de creación del mensaje. Para cada mensaje se creará una clave cuyo nombre siga la estructura ya utilizada: “post:idPost”, donde “idPost” será un contador incremental distinto al utilizado para los usuarios. Esta estructura contendrá, para cada post, el identificador del usuario que lo ha creado, el momento de su creación y el cuerpo del mensaje. Además, para una mejor gestión de los posts, se creará otra estructura “posts:[id]”, donde “id” será un identificador de usuario. En esta estructura almacenaremos la lista de “idPost” de todos los posts pertenecientes a este usuario. Es importante que esta lista no sólo almacene los posts creados por el usuario, sino también los creados por sus “followings” (usuarios a los que sigue), para una mejor gestión posterior del acceso a los posts.

Como en las anteriores funciones se ha hecho, si el usuario en cuestión no existe, esta función no realiza su funcionalidad y devuelve un `False`.

Para guardar toda la información relativa a un post, se ha utilizado la siguiente estructura de clave: `post:[post_id]` cuyo valor es un *hash map*, cuyas claves para guardar la información relativa al post son las siguientes: `timestamp`, `userid` y `message`.

Para guardar la relación entre el usuario y los posts que debe visualizar en su timeline, se ha utilizado la siguiente estructura de clave: `user:[user_id]:posts` cuyo valor es un conjunto no ordenado de identificadores de post tanto del usuario autor del post como de cualquiera de sus *followers*

Adicionalmente, para poder ordenar los post cuando estos sean extraídos de la base de datos, se guarda la información relativa al `timeline` siguiendo el siguiente patrón como clave: `post_[post_id]_timeline`cuyo valor es el valor del `timeline` de dicho post.

In [13]:
def nuevo_post(username, message, timestamp):
    postid = str(redis_db.incr('post_id'))
    
    userid = get_user_id_or_name(username)
    
    if userid is None:
        return False
    
    redis_db.hmset('post:' + postid, {
        'timestamp': timestamp,
        'userid': userid,
        'message': message
    })
    
    redis_db.set('post_' + postid + '_timeline', timestamp)
    
    redis_db.sadd('user:' + userid + ':posts', postid)
    
    follower_ids = redis_db.zrange('user:' + userid + ':followers', 0, -1)
    
    for follower_id in follower_ids:
        follower_id = str(follower_id.decode('utf-8'))
        redis_db.sadd('user:' + follower_id + ':posts', postid)
    
    

### 2. Conjunto de datos

In [10]:
import pandas as pd
import numpy as np
import os

In [11]:
tweets = pd.read_csv(
    filepath_or_buffer=os.path.join('..', 'data', 'twitter_sample.csv'), 
    header=0, 
    sep=',', 
    quotechar='"', 
    encoding='utf-8'
)

relations = pd.read_csv(
    filepath_or_buffer=os.path.join('..', 'data','relations.csv'), 
    header=0, 
    sep=',', 
    encoding='utf-8'
)

En primera instancia, vamos a crear todos los usuarios, puesto que asumimos que todos ya existían

In [12]:
tweets['User'].unique()

array(['andyglittle', 'afparron', 'drshahrul80', 'karin_stowell',
       'cathcooney', 'dkalnow', 'alkhalilkouma', 'seers_helen',
       'hanyshita', nan, 'roxanefeller', 'animalhealthEU', 'charleskod'],
      dtype=object)

In [13]:
tweets['User'].unique().size

13

In [14]:
tweets[tweets['User'].isna()]

Unnamed: 0,User,Post_Time,Tweet_Content,Unnamed: 3
14,,02 Jul 2019 20:56:39,@stemagno74 @wcrfint @macmillancancer @NIHRres...,


In [15]:
tweets.drop(index=14, inplace=True)

In [16]:
def create_users_from_tweets(tweets):
    users = tweets['User'].unique()
    for user in users:
        nuevo_usuario(user)

In [17]:
create_users_from_tweets(tweets)

In [18]:
redis_db.hget('users', 'karin_stowell').decode('utf-8')

'4'

In [19]:
relations['User'].unique().size

12

In [20]:
relations['Follows'].unique().size

12

In [21]:
from datetime import datetime as dt

date_format = '%d %b %Y %H:%M:%S'

In [22]:
def from_date_to_timestamp(date):
    return int(dt.strptime(date, date_format).timestamp())

In [23]:
def from_timestamp_to_date(timestamp):
    return dt.fromtimestamp(timestamp).strftime(date_format)

In [24]:
def create_relations(relations):
    for i, relation in relations.iterrows():
        seguir(relation['User'], relation['Follows'], from_date_to_timestamp(relation['Following_Time']))

In [25]:
create_relations(relations)

In [26]:
def create_posts(tweets):
    for i, tweet in tweets.iterrows():
        nuevo_post(tweet['User'], tweet['Tweet_Content'], from_date_to_timestamp(tweet['Post_Time']))

In [27]:
create_posts(tweets)

### 3. Pruebas

In [28]:
def obtener_followers(username):
    iduser = get_user_id_or_name(username)
    follower_ids = redis_db.zscan('user:' + iduser.decode('utf-8') + ':followers')[1]
    print('El usuario ' + username + ' tiene ' + str(len(follower_ids)) + ' followers:\n')
    for follower in follower_ids:
        print(get_user_id_or_name(follower[0].decode('utf-8')).decode('utf-8'), 'empezó a seguirle el', from_timestamp_to_date(follower[1]))
    

In [29]:
obtener_followers('drshahrul80')

El usuario drshahrul80 tiene 3 followers:

animalhealthEU empezó a seguirle el 19 Jul 2019 14:59:55
alkhalilkouma empezó a seguirle el 01 Aug 2019 12:17:59
karin_stowell empezó a seguirle el 01 Aug 2019 21:58:25


In [30]:
def obtener_following(username):
    iduser = get_user_id_or_name(username)
    following_ids = redis_db.zscan('user:' + iduser.decode('utf-8') + ':following')[1]
    print('El usuario ' + username + ' sigue a ' + str(len(following_ids)) + ' usuarios:\n')
    for following in following_ids:
        print('A', get_user_id_or_name(following[0].decode('utf-8')).decode('utf-8'), 'empezó a seguirle el', from_timestamp_to_date(following[1]))
    

In [31]:
obtener_following('alkhalilkouma')

El usuario alkhalilkouma sigue a 2 usuarios:

A animalhealthEU empezó a seguirle el 01 Jul 2019 19:25:03
A drshahrul80 empezó a seguirle el 01 Aug 2019 12:17:59


In [64]:
def obtener_timeline(username, tweets_propios=True):
    iduser = get_user_id_or_name(username).decode('utf-8')
    posts = redis_db.sort('user:' + iduser + ':posts', by='post_*_timeline', desc=True)
    for post in posts:
        id_post = post.decode('utf-8')
        id_user_post = redis_db.hget('post:' + str(id_post), 'userid').decode('utf-8')
        name_user_post = str(get_user_id_or_name(id_user_post).decode('utf-8'))
        timestamp_post = str(from_timestamp_to_date(int(redis_db.hget('post:' + str(id_post), 'timestamp').decode('utf-8'))))
        message_post = redis_db.hget('post:' + str(id_post), 'message').decode('utf-8')
        if(id_user_post == iduser or not tweets_propios):
            print('- [' + timestamp_post + ']' + 
                  ' El usuario ' + name_user_post + 
                  ' twitteó: ' + message_post)
    

In [66]:
obtener_timeline('drshahrul80', True)

- [28 Aug 2019 23:49:34] El usuario drshahrul80 twitteó: @Medtronic Here, here! Engage with your patients, even with just a smile. #morethanmedicine #thisiscancer #patientsaspeople
- [15 Aug 2019 13:54:47] El usuario drshahrul80 twitteó: Our young patients are ready for the procedure and much less nervous, and their parents and guardians are also less worried! This is what #MoreThanMedicine at @NYCHealthSystem/@BellevueHosp looks like. /3
- [03 Aug 2019 15:20:48] El usuario drshahrul80 twitteó: We hope to get some lovely weather on our annual 6 mile sponsored walk on Sat 12 Oct, so why not join us and register here if you would like to raise funds to help others live well with cancer. https://t.co/ddnrNCnBXa
#letswalktogether #stomp2019 #morethanmedicine https://t.co/OhqLAw6EE5
- [31 Jul 2019 14:04:40] El usuario drshahrul80 twitteó: Animal health solutions are so much #MorethanMedicine!
Other examples of how we protect animal health ⬇️⬇️ https://t.co/9zqLhohGae
- [29 Jul 2019 10:11:35