# Modelado: Twiter en MongoDB

En este notebook vamos a ver como modelar un caso real en MongoDB. En concreto vamos a modelar la base de datos de la aplicación de Tweeter.

Para modelar el caso de uso vamos a crear tres colecciones:

*  **Tweets**: contiene los documentos con la información de todos los tweets.
*  **Users**: contiene los documentos con los datos de los usuarios de tweeter.
*  **Hashstags**: contiene los hashtag que encontramos en el cuerpo de un tweet concreto con un contador donde se almacenan las veces que aparecen en un tweet.

Tendremos una colección de tweets donde guardamos todos los tweets que se generan en tweeter. Para cada tweet embeberemos el usuario que crea el tweet en un docmento embebido bajo el campo user. 

Ademas queremos guardar para cada tweet los usuarios que se ha mencionado. Puesto que un tweet puede mencionar de 0 a N usuarios si decidieramos embeber los datos de estos usuarios en el twee generaria yna duplicidad de información dificilmente gestionable y crecería el tamaño del almacenamiento inecesariamente.

Por todo lo dicho decidimos crear una colección de usuarios y referenciar los usuarios mencionados en el tweet embeebiendo sus referencias en el campo user_mentios de tipo array.

Ya que quermos llevar una contabilización del número de veces que parace un hashtag en un tweet y almacenarlo en base de datos, vamos a utilizar una colección de hashtag donde guardar ese dato junto al valor del hashtag. Referenciaremos los hashtag en el campo entities de tipo array.

Por lo que tendríamos el siguente esquema de colecciones:

![png](../images/MongodbModel.png)

Como ya es habitual como primer paso vamos a importar las librerías y a limpiar el notebook borrando la base de datos del ejercicio.

In [1]:
import pymongo 
from pymongo import MongoClient
from pymongo.errors import DuplicateKeyError
import json

In [2]:
client = MongoClient('mongodb://nosql:nosql@mongo:27017/')
client.drop_database('twitter')

Creamos la base de datos para el notebook.

In [3]:
db = client.twitter

El siguiente método parsea un tweet, lo transforma según el esquema diseñado e inserta los documentos necesarios en cada colección.

In [4]:
def insert_tweet(tweet_json):
   
    # Simplificamos la estructura user_mentions a un array de nombres de usuario
    user_mencioned_list = []
    for user_mencioned in tweet_json['user_mentions']:
        user_mencioned_list.append(user_mencioned["screen_name"])
        user_mencioned["_id"] = user_mencioned["screen_name"]
        try:
            db.users.insert_one(user_mencioned)
        except DuplicateKeyError:
            continue
    tweet_json['user_mentions'] = user_mencioned_list
                 
    # Creamos un documento por hashtag utilizando el operador $inc para incrementar el contador
    for entity in tweet_json['entities']:
        db.hashtags.find_one_and_update(filter = {"_id" : entity}, 
                                        update ={ "$inc": { "count": 1 } },
                                        upsert = True)
       
    
    #Utilizamos como _id de la colección el ID del Tweet
    db.tweets.replace_one({"_id" : tweet_json["id_str"]}, tweet_json, upsert=True)
    
    #Insertamos el documento dentro de la colección de usuarios, utilizando como _id el campo screen_name
    user_json = tweet_json['user']
    db.users.replace_one({"_id" : user_json["screen_name"]}, user_json, upsert=True) 

    
    #En el caso de que el Tweet tenga un Tweet padre (retweet) lo almenamos como documento independiente 
    if 'retweeted_status' in tweet_json:
        insert_tweet(tweet_json['retweeted_status'])

In [6]:
tweets_data_path = '../data/mongoDB/tweets.json'

tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    tweet_json = json.loads(line)
    insert_tweet(tweet_json)


In [7]:
# listar las colecciones existentes:
list = db.list_collection_names()
for item in list:
    print(item)

users
hashtags
tweets


In [30]:
# campos en users:
campos_users = db.users.find().limit(1)
for item in campos_users:
    print(item)

{'_id': 'lexinerus', 'favourites_count': 28, 'description': 'Computer Science, Technology, Buddhism and Curiosity (Ciencias de la computación, Tecnología, Budismo y Curiosidad)', 'friends_count': 171, 'created_at': 'Mon Nov 16 17:28:39 +0000 2009', 'time_zone': 'Central Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/378800000102712738/0772fe6a0154b6a4f852c8c71fc82157_normal.jpeg', 'followers_count': 1456, 'screen_name': 'lexinerus', 'id_str': '90439860', 'statuses_count': 897463, 'geo_enabled': True, 'id': 90439860, 'name': 'lexinerus'}


In [34]:
# campos en hashtags:
campos_hashtags = db.hashtags.find().limit(10)
for item in campos_hashtags:
    print(item)

{'_id': 'SQL', 'count': 101}
{'_id': 'NoSQL', 'count': 1830}
{'_id': 'plevycom', 'count': 8}
{'_id': 'Jobs', 'count': 28}
{'_id': 'MongoDB', 'count': 776}
{'_id': 'nosql', 'count': 606}
{'_id': 'Couchbase', 'count': 108}
{'_id': 'database', 'count': 39}
{'_id': 'OpenSearch', 'count': 10}
{'_id': 'Solr', 'count': 12}


In [35]:
# campos en tweets:
campos_tweets = db.tweets.find().limit(1)
for item in campos_tweets:
    print(item)

{'_id': '658173486075129856', 'lang': 'en', 'source': '<a href="http://ifttt.com" rel="nofollow">IFTTT</a>', 'text': 'ReTw realmanurana: RT pinaldave: All technology news from the world of data, SQL Server, MySQL, NoSQL, Big Data an… https://t.co/hSEh8oTK8c', 'created_at': 'Sun Oct 25 06:49:22 +0000 2015', 'user_mentions': [], 'entities': [], 'id_str': '658173486075129856', 'retweet_count': 0, 'id': 658173486075129856, 'favorite_count': 0, 'user': {'favourites_count': 28, 'description': 'Computer Science, Technology, Buddhism and Curiosity (Ciencias de la computación, Tecnología, Budismo y Curiosidad)', 'friends_count': 171, 'created_at': 'Mon Nov 16 17:28:39 +0000 2009', 'time_zone': 'Central Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/378800000102712738/0772fe6a0154b6a4f852c8c71fc82157_normal.jpeg', 'followers_count': 1456, 'screen_name': 'lexinerus', 'id_str': '90439860', 'statuses_count': 897463, 'geo_enabled': True, 'id': 90439860, 'name': 'lexin

## Contando el número de registros

In [16]:
print("Número de Tweets: " , db.tweets.estimated_document_count())
print("Número de Usuarios: " , db.users.estimated_document_count())
print("Número de Hashtags: " , db.hashtags.estimated_document_count())

Número de Tweets:  2800
Número de Usuarios:  1387
Número de Hashtags:  629


## Encontrar un Tweet que tenga Hashtags

In [19]:
# ver escructura de los datos de la colección 'tweets'
all_tweets = db.tweets.find({}).limit(1)

print(db.tweets.find({}).limit(1))

for tweet in all_tweets:
    print(tweet)

<pymongo.cursor.Cursor object at 0x7fc6140ad668>
{'_id': '658173486075129856', 'lang': 'en', 'source': '<a href="http://ifttt.com" rel="nofollow">IFTTT</a>', 'text': 'ReTw realmanurana: RT pinaldave: All technology news from the world of data, SQL Server, MySQL, NoSQL, Big Data an… https://t.co/hSEh8oTK8c', 'created_at': 'Sun Oct 25 06:49:22 +0000 2015', 'user_mentions': [], 'entities': [], 'id_str': '658173486075129856', 'retweet_count': 0, 'id': 658173486075129856, 'favorite_count': 0, 'user': {'favourites_count': 28, 'description': 'Computer Science, Technology, Buddhism and Curiosity (Ciencias de la computación, Tecnología, Budismo y Curiosidad)', 'friends_count': 171, 'created_at': 'Mon Nov 16 17:28:39 +0000 2009', 'time_zone': 'Central Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/378800000102712738/0772fe6a0154b6a4f852c8c71fc82157_normal.jpeg', 'followers_count': 1456, 'screen_name': 'lexinerus', 'id_str': '90439860', 'statuses_count': 897463, 'g

In [21]:
# Consulta:
tweets_con_hashtags = db.tweets.find({
    "text": {"$regex": r'#\w+'},  # Expresión regular para buscar hashtags (# + alguna letra, nº o guión bajo)
    "entities": {"$exists": True}  # Aseguramos que el campo 'entities' existe
})

# Imprime los tweets encontrados
for tweet in tweets_con_hashtags:
    print(tweet)

{'_id': '658171535824416768', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://bufferapp.com" rel="nofollow">Buffer</a>', 'text': 'Coming Full Circle: Why #SQL now powers the #NoSQL Craze, by Ryan Betts of @VoltDB https://t.co/sj11zLPgEX', 'created_at': 'Sun Oct 25 06:30:02 +0000 2015', 'user_mentions': [{'id': 97716631, 'id_str': '97716631', 'screen_name': 'VoltDB', 'name': 'VoltDB'}], 'entities': ['SQL', 'NoSQL'], 'id_str': '658168624692228096', 'retweet_count': 1, 'id': 658168624692228096, 'favorite_count': 0, 'user': {'favourites_count': 1425, 'description': 'We cover #BigData, #FinTech and #IoT - Looking at how data science and connected devices are changing technology.', 'friends_count': 2505, 'created_at': 'Thu Jan 30 09:46:50 +0000 2014', 'time_zone': 'Amsterdam', 'profile_image_url': 'http://pbs.twimg.com/profile_images/634739150382436353/JIjlGeGO_normal.png', 'followers_count': 8801, 'screen_name': 'DataconomyMedia', 'id_str': '2318606822', 'statuse

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



## Usuarios más populares

In [22]:
usuarios_populares = db.tweets.aggregate([
    {"$group": {"_id": "$user.screen_name", "followers_count": {"$max": "$user.followers_count"}}},
    {"$sort": {"followers_count": -1}},
    {"$limit": 10}
])
for tweet in usuarios_populares:
    print(tweet)

{'_id': 'googlecloud', 'followers_count': 447590}
{'_id': 'Azure', 'followers_count': 383977}
{'_id': 'craigbrownphd', 'followers_count': 368570}
{'_id': 'DavidPapp', 'followers_count': 215114}
{'_id': 'couchbase', 'followers_count': 160978}
{'_id': 'iamdevloper', 'followers_count': 125526}
{'_id': 'analyticbridge', 'followers_count': 117146}
{'_id': 'docker', 'followers_count': 91037}
{'_id': 'javacodegeeks', 'followers_count': 79307}
{'_id': 'developerWorks', 'followers_count': 75534}


## Usuarios que más tweets tienen

In [23]:
usuarios_mas_tweets = db.tweets.aggregate([
    {"$group": {"_id": "$user.screen_name", "tweets_count": {"$sum": 1}}},
    {"$sort": {"tweets_count": -1}},
    {"$limit": 10}
])

for tweet in usuarios_mas_tweets:
    print(tweet)

{'_id': 'Dev_Topics', 'tweets_count': 208}
{'_id': 'BigDataTweetBot', 'tweets_count': 147}
{'_id': 'geneolot', 'tweets_count': 135}
{'_id': 'ameanmbot', 'tweets_count': 102}
{'_id': 'ClearGrip', 'tweets_count': 97}
{'_id': 'retweetjava', 'tweets_count': 72}
{'_id': 'vikasjee', 'tweets_count': 53}
{'_id': 'NoSqlRR', 'tweets_count': 38}
{'_id': 'Pvalsfr', 'tweets_count': 37}
{'_id': 'vermanivivek', 'tweets_count': 24}


## Hashtags más populares

In [57]:
hashtags_mas_populares = db.tweets.aggregate([
    {"$match": {"text": {"$regex": r'#\w+'}}},
    {"$project": {"hashtags": {"$regexFindAll": {"input": "$text", "regex": r'#\w+'}}}},
    {"$unwind": {"path": "$hashtags", "preserveNullAndEmptyArrays": True}},
    {"$group": {"_id": "$hashtags.match", "count": {"$sum": 1}}},
    {"$sort": {"count": -1}},
    {"$limit": 10}
])

for hashtag in hashtags_mas_populares:
    print(hashtag)

{'_id': '#NoSQL', 'count': 1212}
{'_id': '#BigData', 'count': 570}
{'_id': '#Java', 'count': 530}
{'_id': '#SoapUi', 'count': 499}
{'_id': '#MongoDB', 'count': 490}
{'_id': '#Hadoop', 'count': 461}
{'_id': '#nosql', 'count': 384}
{'_id': '#hive', 'count': 310}
{'_id': '#bigdata', 'count': 158}
{'_id': '#MongoDb', 'count': 112}


## Tweets de un determinado Hashtag

In [103]:
# Uso de expresión regular para buscar el hashtag en el campo 'text' del tweet

import re

hashtag = "NoSQL"

# Uso de expresión regular para buscar el hashtag en el texto
tweets_con_hashtag = db.tweets.find({
    "text": {"$regex": f'#{re.escape(hashtag)}', "$options": "i"}
})

# número de tweets con el hashtag
num_tweets = db.tweets.count_documents({"text": {"$regex": f'#{re.escape(hashtag)}', "$options": "i"}})

# Impresión
print(f"Número de tweets con el hashtag '{hashtag}': {num_tweets}")

if num_tweets == 0:
    print(f"No se ha encontrado ningún tweet con el hashtag '{hashtag}'.")
else:
    for tweet in tweets_con_hashtag:
        print(tweet)


Número de tweets con el hashtag 'NoSQL': 1699
{'_id': '658171535824416768', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://bufferapp.com" rel="nofollow">Buffer</a>', 'text': 'Coming Full Circle: Why #SQL now powers the #NoSQL Craze, by Ryan Betts of @VoltDB https://t.co/sj11zLPgEX', 'created_at': 'Sun Oct 25 06:30:02 +0000 2015', 'user_mentions': [{'id': 97716631, 'id_str': '97716631', 'screen_name': 'VoltDB', 'name': 'VoltDB'}], 'entities': ['SQL', 'NoSQL'], 'id_str': '658168624692228096', 'retweet_count': 1, 'id': 658168624692228096, 'favorite_count': 0, 'user': {'favourites_count': 1425, 'description': 'We cover #BigData, #FinTech and #IoT - Looking at how data science and connected devices are changing technology.', 'friends_count': 2505, 'created_at': 'Thu Jan 30 09:46:50 +0000 2014', 'time_zone': 'Amsterdam', 'profile_image_url': 'http://pbs.twimg.com/profile_images/634739150382436353/JIjlGeGO_normal.png', 'followers_count': 8801, 'screen_name': 'Data

{'_id': '657015275288707072', 'lang': 'it', 'retweeted_status': {'lang': 'it', 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'text': 'Amen,  Bambini #BigData #Java #SoapUi #Hadoop #NoSQL #hive #MongoDB https://t.co/rhe2O6bLTP', 'created_at': 'Thu Oct 22 02:07:02 +0000 2015', 'user_mentions': [], 'entities': ['BigData', 'Java', 'SoapUi', 'Hadoop', 'NoSQL', 'hive', 'MongoDB'], 'id_str': '657015273107623936', 'retweet_count': 1, 'id': 657015273107623936, 'favorite_count': 0, 'user': {'favourites_count': 12111, 'description': 'Contractor, CSPO Software Engineer', 'friends_count': 191, 'created_at': 'Sun Mar 31 13:08:29 +0000 2013', 'time_zone': 'Eastern Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/561944062215729153/pQM7PaV6_normal.jpeg', 'followers_count': 218, 'screen_name': 'geneolot', 'id_str': '1318360982', 'statuses_count': 11385, 'geo_enabled': True, 'id': 1318360982, 'name': 'Gene Olot'}}, 'source

In [215]:
# Tweets donde el hashtag específico aparece como una entidad dentro del campo 'entities'

hashtag_buscar = "NoSQL"

numero_tweets_hashtag = db.tweets.count_documents({"entities": {"$elemMatch": {"$eq": hashtag_buscar}}})

# Impresión
print(f"El hashtag {hashtag_buscar} aparece en {numero_tweets_hashtag} tweets.")

for tweet in db.tweets.find({"entities": {"$elemMatch": {"$eq": hashtag_buscar}}}):
    print(tweet)
    print("\n")  # Añade un salto de línea entre tweets


El hashtag NoSQL aparece en 1230 tweets.
{'_id': '658171535824416768', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://bufferapp.com" rel="nofollow">Buffer</a>', 'text': 'Coming Full Circle: Why #SQL now powers the #NoSQL Craze, by Ryan Betts of @VoltDB https://t.co/sj11zLPgEX', 'created_at': 'Sun Oct 25 06:30:02 +0000 2015', 'user_mentions': [{'id': 97716631, 'id_str': '97716631', 'screen_name': 'VoltDB', 'name': 'VoltDB'}], 'entities': ['SQL', 'NoSQL'], 'id_str': '658168624692228096', 'retweet_count': 1, 'id': 658168624692228096, 'favorite_count': 0, 'user': {'favourites_count': 1425, 'description': 'We cover #BigData, #FinTech and #IoT - Looking at how data science and connected devices are changing technology.', 'friends_count': 2505, 'created_at': 'Thu Jan 30 09:46:50 +0000 2014', 'time_zone': 'Amsterdam', 'profile_image_url': 'http://pbs.twimg.com/profile_images/634739150382436353/JIjlGeGO_normal.png', 'followers_count': 8801, 'screen_name': 'Dataconom

{'_id': '657481982457356288', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://www.hootsuite.com" rel="nofollow">Hootsuite</a>', 'text': 'Get rapid ramp-up on #NoSQL application development with lessons and labs. Try free online training today! http://t.co/Y6KSzbJ2cB', 'created_at': 'Thu Oct 15 21:08:38 +0000 2015', 'user_mentions': [], 'entities': ['NoSQL'], 'id_str': '654765852382785536', 'retweet_count': 39, 'id': 654765852382785536, 'favorite_count': 185, 'user': {'favourites_count': 1023, 'description': 'Most complete, open source NoSQL database http://t.co/8hh92daYQK\n\n \nGet started with Couchbase today!', 'friends_count': 611, 'created_at': 'Wed Jan 12 19:23:02 +0000 2011', 'time_zone': 'Pacific Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/654754343531380736/aEtiCqGZ_normal.png', 'followers_count': 160978, 'screen_name': 'couchbase', 'id_str': '237401623', 'statuses_count': 8519, 'geo_enabled': True, 'id': 237401623,

## Tweets de un determinado usuario

In [27]:
usuario = "BigDataTweetBot"
tweets_del_usuario = db.tweets.find({"user.screen_name": usuario})

for tweet in tweets_del_usuario:
    print(tweet)

{'_id': '658138684013809664', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'text': 'Not bad for a soccer. . #SoapUi #Hadoop #BigData #Java #Oracle #sqlserver #MongoDb #NoSQL #SoapUi  https://t.co/AZuj2s1Ukh', 'created_at': 'Sun Oct 25 04:26:58 +0000 2015', 'user_mentions': [], 'entities': ['SoapUi', 'Hadoop', 'BigData', 'Java', 'Oracle', 'sqlserver', 'MongoDb', 'NoSQL', 'SoapUi'], 'id_str': '658137651107766272', 'retweet_count': 2, 'id': 658137651107766272, 'favorite_count': 1, 'user': {'favourites_count': 12111, 'description': 'Contractor, CSPO Software Engineer', 'friends_count': 191, 'created_at': 'Sun Mar 31 13:08:29 +0000 2013', 'time_zone': 'Eastern Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/561944062215729153/pQM7PaV6_normal.jpeg', 'followers_count': 218, 'screen_name': 'geneolot', 'id_str': '1318360982', 'statuses_count': 11385, 'geo_enabled'

## Usuarios más mencionados

In [200]:
usuarios_mencionados = db.tweets.aggregate([
    {"$unwind": "$user_mentions"},
    {"$group": {
            "_id": "$user_mentions",
            "count": {"$sum": 1}}},
    {"$sort": {"count": -1}},
    {"$limit": 10}
])

for usuario in usuarios_mencionados:
    print(usuario)

{'_id': 'geneolot', 'count': 168}
{'_id': 'couchbase', 'count': 100}
{'_id': 'aerospikedb', 'count': 64}
{'_id': 'ClearGrip', 'count': 54}
{'_id': 'patio11', 'count': 52}
{'_id': 'SiliconArmada', 'count': 45}
{'_id': 'vermanivivek', 'count': 34}
{'_id': 'javacodegeeks', 'count': 32}
{'_id': 'McMcgregory', 'count': 30}
{'_id': 'infoworld', 'count': 29}


## Tweets donde se menciona a un usuario

In [203]:
usuario = "geneolot"
# Realiza la consulta
tweets_mencion_usuario = db.tweets.find({"user_mentions": usuario})
# Cuenta documentos
numero_tweets_mencion_usuario = db.tweets.count_documents({"user_mentions": usuario})

# Imprime los resultados
print(f"El usuario {usuario} ha sido mencionado en {numero_tweets_mencion_usuario} tweets.")
print("\n")
for tweet in tweets_mencion_usuario:
    print(tweet)

El usuario geneolot ha sido mencionado en 168 tweets.


{'_id': '658138684013809664', 'lang': 'en', 'retweeted_status': {'lang': 'en', 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'text': 'Not bad for a soccer. . #SoapUi #Hadoop #BigData #Java #Oracle #sqlserver #MongoDb #NoSQL #SoapUi  https://t.co/AZuj2s1Ukh', 'created_at': 'Sun Oct 25 04:26:58 +0000 2015', 'user_mentions': [], 'entities': ['SoapUi', 'Hadoop', 'BigData', 'Java', 'Oracle', 'sqlserver', 'MongoDb', 'NoSQL', 'SoapUi'], 'id_str': '658137651107766272', 'retweet_count': 2, 'id': 658137651107766272, 'favorite_count': 1, 'user': {'favourites_count': 12111, 'description': 'Contractor, CSPO Software Engineer', 'friends_count': 191, 'created_at': 'Sun Mar 31 13:08:29 +0000 2013', 'time_zone': 'Eastern Time (US & Canada)', 'profile_image_url': 'http://pbs.twimg.com/profile_images/561944062215729153/pQM7PaV6_normal.jpeg', 'followers_count': 218, 'screen_name': 'geneolot', 'id_st