# Trabajo 1

Elena Torr√≥ Mart√≠nez

Esta pr√°ctica tiene como objetivo inicializarse con Redis a trav√©s de Python, creando unas funciones que interact√∫en con la base de datos para almacenar y representar mensajes tipo Twitter.

Se han utilizado las siguientes librer√≠as:

- redis
- pandas
- datetime

- [1. Iniciar Redis](#Iniciar-Redis)


## Iniciar Redis

El primer paso es iniciar Redis, conect√°ndonos en local con la base de datos que se ha creado utilizando el `docker-compose` proporcionado. Se ha a√±adido el comando `flushall` para **reiniciar** la base de datos cada vez que se ejecute el notebook.

In [1]:
import redis

host='127.0.0.1'
port=6379

redis_db=redis.Redis(host=host,port=port, decode_responses=True)

redis_db.flushall()

True

## Lectura de datos

Para leer los datos, que se encuentran en formato, vamos a utilizar la librer√≠a **Pandas**, y a importar los datos creando una instancia de un DataFrame para poder manipularlos. Este es el contenido de los DataFrames que se van a utilizar: `relations_df` para las relaciones de seguimento entre los usuarios y `users_df` para los tweets de cada usuario.

In [2]:
import pandas as pd

relations_df = pd.read_csv('relations.csv')
relations_df.head()

Unnamed: 0,User,Follows,Following_Time
0,roxanefeller,cathcooney,13 Jun 2019 05:59:58
1,andyglittle,charleskod,14 Jul 2019 10:07:29
2,andyglittle,seers_helen,18 Jul 2019 09:50:48
3,andyglittle,karin_stowell,31 Aug 2019 15:20:48
4,hanyshita,andyglittle,12 Jul 2019 14:20:46


In [3]:
users_df = pd.read_csv('twitter_sample.csv')
users_df.head()

Unnamed: 0,User,Post_Time,Tweet_Content,Unnamed: 3
0,andyglittle,13 Jul 2019 05:59:58,We've loved being motivated by the stories of ...,
1,andyglittle,05 Jul 2019 10:07:29,Thanks for the shout-out on our #MorethanMedic...,
2,afparron,11 Jul 2019 09:50:48,#MorethanMedicine‚Ää‚Äî‚ÄäOur Story via ‚Å¶@animalhea...,
3,drshahrul80,03 Aug 2019 15:20:48,We hope to get some lovely weather on our annu...,
4,karin_stowell,04 Aug 2019 14:20:46,This is what #MoreThanMedicine is about. Love ...,


## Conversi√≥n de Fechas

Para guardar las fechas vamos a convertirlas a formato `timestamp` utilizando la librer√≠a `datetime`. Como Redis, al recuperar una fecha, la devuelve en formato `string` hay que parsearla primero a `float` y despu√©s utilizar el formato desearlo para imprimirla.

Se han creado dos m√©todos: `date_to_datetime` para guardar las fechas y `datetime_to_date` para recuperarlas.

In [4]:
import datetime

date_format = '%d %b %Y %H:%M:%S'

def date_to_datetime(date_str):
    return datetime.datetime.strptime(date_str, date_format).timestamp()

def datetime_to_date(date_datetime):
    return datetime.datetime.fromtimestamp(float(date_datetime)).strftime(date_format)

## Nomenclatura

Un punto que he considerado crucial es definir de una manera legible y accesible la nomenclatura para guardar los distintos valores.

### Usuarios

- `users`. Almacena un set con los usuarios existentes. Permite as√≠ saber si un nombre de usuario ya ha sido elegido, ya que el set s√≥lo contiene valores √∫nicos.

- `{user_id}`: Valor autoincrementado para generar los ids de usuarios

- `user:{user_id}`: almacena los datos de usuario. En este caso, no guardamos nada porque no tenemos realmente nada m√°s que guardar, pero servir√≠a para guardar algunos campos como por ejemplo, la biograf√≠a que muestra el usuario en su perfil o similares.
    - datos:
    ```python
      {'username' : 'username'}
    ```

- `{username}`: almacena el id del usuario asociado a un nombre de usuario. Esto se ha decidido as√≠ para que el usuario pueda cambiar de nombre y mantener sin ning√∫n otro cambio adicional todos los otros campos asociados a su id de usuario.
     - datos: `user_id`


- `followers:{user_id}`: almacena un set ordenado con los ids de los usuarios a los que sigue el usuario con identificador `{user_id}`, que nos permiten obtener despu√©s la lista de followers.


- `followings:{user_id}`: almacena un set ordenado con los ids de los usuarios de los que es seguidor `{user_id}`, , que nos permiten obtener despu√©s la lista de followings.

### Posts

- `{post_id}`: Valor autoincrementado para generar los ids de los posts

- `post:{timestamp}{post_id}`: Almacena los datos de un post: el id del usuario que lo ha escrito, el contenido del mismo y la fecha en la que lo hizo. Esto facilita la impresi√≥n del post. El formato del id se debe a que de este modo podemos ordenarlos por fecha utilizando la funci√≥n `sort` como pide el enunciado.

- `posts:user:{id}`: Almacena la lista de posts por usuario. Como la lista hay que recorrerla entera para mostrar los posts y no buscar un elemento dentro de ella, se ha decidido utilizar una simple lista en lugar de otro tipo de estructura.

## Funciones

### Nuevo Usuario

En este caso, se tiene en cuenta si el usuario 

In [5]:
def nuevo_usuario(username):
    if redis_db.sadd('users', username):
        new_id = redis_db.incr('user_id')
        user_id = 'user:{0}'.format(new_id)

        user_data = {
            'username': username
        }
    
        redis_db.set(username, user_id)
        redis_db.hmset(user_id, user_data)

        return user_data

    else:
        print('ERROR: User {0} already exists'.format(username))
        return False

### Nuevo Following y Nuevo Follower

Ya que se crean del mismo modo los conjuntos de followings y followers, se ha abstraido la l√≥gica en la funci√≥n `nuevo_follow`, al que se llama directamente desde `nuevo_following` o `nuevo_follower`, seg√∫n el caso.

In [6]:
def nuevo_follow(username, follow_username, date_str, follow_type):
    if username == follow_username:
        print('ERROR: Username and follower username are the same')
        return False
    if not redis_db.get(username):
        print('ERROR: User {0} does not exist'.format(username))
        return False
    if not redis_db.get(follow_username):
        print('ERROR: User {0} does not exist'.format(follow_username))
        return False

    user_id = redis_db.mget(username)[0]
    follow_id = redis_db.mget(follow_username)[0]
    user_follow_id = '{0}:{1}'.format(follow_type, user_id)

    timestamp = date_to_datetime(date_str)
    follow_data = {follow_username: timestamp}

    redis_db.zadd(user_follow_id, follow_data)
    
    return follow_data

In [7]:
def nuevo_follower(username, follower_username, date_str):
    return nuevo_follow(username, follower_username, date_str, 'followers')

In [8]:
def nuevo_following(username, follower_username, date_str):
    return nuevo_follow(username, follower_username, date_str, 'following')

### Seguir

Esta funci√≥n simplemente llama, como se expresa en el enunciado, a `nuevo_follower` y `nuevo_following`.

In [9]:
def seguir(username, follow_username, date_str):
    nuevo_follower(username, follow_username, date_str)
    nuevo_following(follow_username, username, date_str)

### Nuevo Post

Esta funci√≥n almacena los datos del post como se ha explicado anteriormente. Para ello, se hace en 3 pasos importantes:

1. Guardar el contenido del post en la estructura `post:{timestamp}{post_id}` para su futura ordenaci√≥n
2. A√±adir el post a la lista de posts del usuario que escribe el post
3. Recorrer la lista de usuarios que siguen al usuario que escribe el post para que aparezcan en su timeline, y guardar el post solo si empez√≥ a seguir al usuario **antes** de que hubiera publicado el post.

In [10]:
def nuevo_post(username, message, date_str):
    if not redis_db.get(username):
        print('ERROR: User {0} does not exist'.format(username))
        return False

    new_id = redis_db.incr('post_id')
    timestamp = date_to_datetime(date_str)
    user_id = redis_db.mget(username)[0]

    post_data = {
        'user_id': user_id,
        'message': message,
        'timestamp': timestamp
    }

    # 1. Save Post Content
    post_sort_id = 'post:{0}{1}'.format(timestamp, new_id)
    redis_db.hmset(post_sort_id, post_data)

    # 2. Add to users's post list
    posts_user_id = 'posts:{0}'.format(user_id)
    redis_db.lpush(posts_user_id, post_sort_id)
    
     # 3. Add to following user's post list
    following_user_id = 'following:{0}'.format(user_id)

    for key in redis_db.zscan_iter(following_user_id):
        if (following_timestamp < timestamp):
            following_timestamp = key[1]
            following_username = key[0]
            user_id = redis_db.mget(following_username)[0]

            posts_user_id = 'posts:{0}'.format(user_id)
            redis_db.lpush(posts_user_id, post_sort_id)

In [11]:
def database_setup():
    relations_df = pd.read_csv('relations.csv')
    users_df = pd.read_csv('twitter_sample.csv')

    for username in relations_df.User.unique():
        nuevo_usuario(username)
        
    for index, row in relations_df.iterrows():
        seguir(row['User'], row['Follows'], row['Following_Time'])
    
    for index, row in users_df.iterrows():
        nuevo_post(row['User'], row['Tweet_Content'], row['Post_Time'])

In [12]:
database_setup()

ERROR: User nan does not exist


In [13]:
def obtener_followers(username):
    user_id = redis_db.get(username)[0]
    followers_user_id = 'followers:{0}'.format(user_id)
    follower_user_id = ''

    for key in redis_db.zscan_iter(followers_user_id):
        print('{0} at {1}'.format(key[0], datetime.datetime.fromtimestamp(key[1]).isoformat()))

In [14]:
obtener_followers('andyglittle')

In [15]:
def obtener_following(username):
    user_id = redis_db.get(username)[0]
    followers_user_id = 'following:{0}'.format(user_id)
    follower_user_id = ''

    for key in redis_db.zscan_iter(followers_user_id):
        print('{0} at {1}'.format(key[0], datetime.datetime.fromtimestamp(key[1]).isoformat()))

In [16]:
obtener_following('andyglittle')

In [17]:
def obtener_timeline(username, tweets_propios=False):
    user_id = redis_db.mget(username)[0]
    posts_user_id = 'posts:{0}'.format(user_id)
    sort_by = 'post:*'
    sorted_posts = redis_db.sort(
        posts_user_id,
        by=sort_by,
        get=['*->user_id', '*->message', '*->timestamp'],
        desc=True
    )
    
    for x in range(0, len(sorted_posts), 3):
        username = redis_db.hmget(sorted_posts[x], 'username')[0]
        post_message = sorted_posts[x+1]
        post_date = datetime_to_date(float(sorted_posts[x+2]))
        
        print('@{0}: {1} - at {2}'.format(username, post_message, post_date))
        print('-----')

In [18]:
obtener_timeline('andyglittle')

@andyglittle: Another spot of our #morethanmedicine bus in #bristol this week! If you need support with your cancer diagnosis call us on 0303 3000 118. #livingwellwithcancer https://t.co/eZGLz0BkXB - at 30 Aug 2019 09:55:43
-----
@seers_helen: What a great team ‚Å¶@HealthSourceOH‚Å© ‚Å¶@Local12‚Å© #morethanmedicine https://t.co/g2YzMDUpVA - at 30 Aug 2019 00:49:54
-----
@seers_helen: Will you be at #FIX19? Want a preview of @AG_EM33 story? Then check back Monday for #ChangeOfHeart where we sat down with Alin to discuss her new life since her heart #transplant #MoreThanMedicine https://t.co/Xl9zjr7kZ1 - at 29 Aug 2019 19:54:36
-----
@seers_helen: Czy wiesz, ≈ºe do bez lek√≥w dla zwierzƒÖt potrzeba by 89% wiƒôcej zwierzƒÖt do wyprodukowania tej samej ilo≈õci mleka i wo≈Çowiny?
#MoreThanMedicine https://t.co/SEtHxlV4p1 - at 28 Aug 2019 05:18:35
-----
@andyglittle: For nearly 40 years @PennyBrohnUK has been a link between standard medical treatment and social prescribing, that's why we're 