# Modelado: Twiter en MongoDB

En este notebook vamos a ver como modelar un caso real en MongoDB. En concreto vamos a modelar la base de datos de la aplicación de Tweeter.

Para modelar el caso de uso vamos a crear tres colecciones:

*  **Tweets**: contiene los documentos con la información de todos los tweets.
*  **Users**: contiene los documentos con los datos de los usuarios de tweeter.
*  **Hashstags**: contiene los hashtag que encontramos en el cuerpo de un tweet concreto con un contador donde se almacenan las veces que aparecen en un tweet.

Tendremos una colección de tweets donde guardamos todos los tweets que se generan en tweeter. Para cada tweet embeberemos el usuario que crea el tweet en un docmento embebido bajo el campo user. 

Ademas queremos guardar para cada tweet los usuarios que se ha mencionado. Puesto que un tweet puede mencionar de 0 a N usuarios si decidieramos embeber los datos de estos usuarios en el tweet generaria na duplicidad de información dificilmente gestionable y crecería el tamaño del almacenamiento inecesariamente.

Por todo lo dicho decidimos crear una colección de usuarios y referenciar los usuarios mencionados en el tweet embeebiendo sus referencias en el campo user_mentios de tipo array.

Ya que quermos llevar una contabilización del número de veces que parace un hashtag en un tweet y almacenarlo en base de datos, vamos a utilizar una colección de hashtag donde guardar ese dato junto al valor del hashtag. Referenciaremos los hashtag en el campo entities de tipo array.

Por lo que tendríamos el siguente esquema de colecciones:

![png](../images/MongodbModel.png)

Como ya es habitual como primer paso vamos a importar las librerías y a limpiar el notebook borrando la base de datos del ejercicio.

In [None]:
import pymongo 
from pymongo import MongoClient
from pymongo.errors import DuplicateKeyError
import json

In [None]:
client = MongoClient('mongodb://nosql:nosql@localhost:27017/')
client.drop_database('twitter')

Creamos la base de datos para el notebook.

In [None]:
db = client.twitter

El siguiente método parsea un tweet, lo transforma según el esquema diseñado e inserta los documentos necesarios en cada colección.

In [None]:
def insert_tweet(tweet_json):
   
    # Simplificamos la estructura user_mentions a un array de nombres de usuario
    user_mencioned_list = []
    for user_mencioned in tweet_json['user_mentions']:
        user_mencioned_list.append(user_mencioned["screen_name"])
        user_mencioned["_id"] = user_mencioned["screen_name"]
        try:
            db.users.insert_one(user_mencioned)
        except DuplicateKeyError:
            continue
    tweet_json['user_mentions'] = user_mencioned_list
                 
    # Creamos un documento por hashtag utilizando el operador $inc para incrementar el contador
    for entity in tweet_json['entities']:
        db.hashtags.find_and_modify(query = {"_id" : entity}, 
                                    update ={ "$inc": { "count": 1 } } , 
                                    upsert = True)
       
    
    #Utilizamos como _id de la colección el ID del Tweet
    db.tweets.replace_one({"_id" : tweet_json["id_str"]}, tweet_json, upsert=True)
    
    #Insertamos el documento dentro de la colección de usuarios, utilizando como _id el campo screen_name
    user_json = tweet_json['user']
    db.users.replace_one({"_id" : user_json["screen_name"]}, user_json, upsert=True) 

    
    #En el caso de que el Tweet tenga un Tweet padre (retweet) lo almenamos como documento independiente 
    if 'retweeted_status' in tweet_json:
        insert_tweet(tweet_json['retweeted_status'])

In [None]:
tweets_data_path = '../data/mongoDB/tweets.json'

tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    tweet_json = json.loads(line)
    insert_tweet(tweet_json)


## Contando el número de registros

In [None]:
print("Número de Tweets: " , db.tweets.count())
print("Número de Usuarios: " , db.users.count())
print("Número de Hashtags: " , db.hashtags.count())

## Encontrar un Tweet que tenga Hashtags

## Usuarios más populares

## Usuarios que más tweets tienen

## Hashtags más populares

## Tweets de un determinado Hashtag

## Tweets de un determinado usuario

## Usuarios mas mencionados

## Tweets donde se menciona a un usuario