<a href="https://colab.research.google.com/github/williamm6891/Test2/blob/master/Untitled68.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div style="text-align: center;">
    <img src="https://keystoneacademic-res.cloudinary.com/image/upload/element/14/146415_LogoVIU.jpg" width="450" height="250"/>
</div>



# **Actividad Guiada - Fundamentos de la Tecnología Big Data** 📚💡

## **Información Básica** 📌

- **Tema:** Extracción, procesamiento y visualización de datos. Primer contacto con una base de datos NoSQL 🗄️
  - *Subtemas:*
    1. Crear una base de datos usando MongoDB 📁.
    2. Crear una colección con cuentas de twitter y tweets a partir del dataset proporcionado 🐦.
    3. Cargar el ejemplo de datos geolocalizados que incorpora MongoDB Atlas 🌍.
    4. Consultar y manipular los datos 🔍✏️.
    5. Visualizar los datos utilizando MongoDB Charts 📊.

- **Nombre:** Carolina Vásquez Barba 🙋‍♀️
- **Fecha:** 03-11-2023 🗓️

## **Descripción** ✍️

En esta actividad, se debe revisar los tutoriales de creación y uso de herramientas para el manejo de MongoDB Atlas/Charts, MongoDB Compass y Google Colab 💼.

## **Objetivos** 🚀

1. Crear base de datos 📈.
2. Crear colecciones 🗂️.
3. Manipular datos de las bases de datos en Python 🐍.
4. Visualizar en MongoDB Charts 📊.

## **Instrucciones** 📜

1. Resolver 4 ejercicios en Python 🐍 basados en los subtemas listados y gráficas en MongoDB Charts. Además, consulta los siguientes enlaces:

   - [Python](https://www.python.org/) 🐍 para programar los ejercicios.
   - [Google Colab](https://colab.research.google.com/) 📓 para escribir y probar el código.
   - [MongoDB](https://www.mongodb.com/es/atlas/database) 🍃 para la creación de los charts.

## **Recursos Necesarios** 🧰

- [Python](https://www.python.org/) 🐍
- [Google Colab](https://colab.research.google.com/) 📓
- [MongoDB](https://www.mongodb.com/es/atlas/database) 🍃
- [Pandas para trabajar con DataFrames](https://pandas.pydata.org/) 🐼


In [None]:
#### Paquetes a instalar en Google Colab

#!python --version
#pip install pymongo
#pip install Twython
#pip install twython

In [None]:
###### PARTE 1: Importación de los paquetes de python necesarios  ######

#import sys
import time
import json
import pandas as pd
import pymongo
from twython import Twython
import timeit
from datetime import datetime

In [None]:
##### En caso de 2cargar y manipular archivos desde Google Drive

from google.colab import drive
drive.mount('/content/drive')

In [None]:
###### PARTE 1: Establecer conexión con MongoDB Atlas  ######

from pymongo.mongo_client import MongoClient

uri = "mongodb+srv://williamm6891:Wi68am91@cluster0.95euixo.mongodb.net/"

# Crea un nuevo cliente y conecta al servidor
client = MongoClient(uri)

# Envía un ping para confirmar que la conexión ha sido exitosa
try:
    client.admin.command('ping')
    print("¡Te conectaste exitosamente a MongoDB!")
except Exception as e:
    print(e)

In [None]:
###### PARTE 2: Importación de Twython y Twitter app key and access token  ######

APP_KEY = 'm04a47Vk2AMRg6XiFRwb1UP6v' # API Key
APP_SECRET = '7ySaFR5T3Zhnmx00fbvi3HlXbIUXDpJFm1izgUjl1sb3XSwG2K' # API Secret Key
OAUTH_TOKEN = '1518635392655835136-GZKTwdFPes1bokRpQCXcceGoZUzRsx' # Access Token
OAUTH_TOKEN_SECRET = 'g9wLblzK0t10hTq9hF5rd63Al2LipIcXIefLMsZVyMuPT' # Access Token Secret

twitter = Twython(APP_KEY, APP_SECRET, OAUTH_TOKEN, OAUTH_TOKEN_SECRET)

In [None]:
###### PARTE 3: Definición para leer datos de Twitter ######

def get_data_user_timeline_all_pages(kid, page):
    try:
        '''
'count' especifica el número de tweets que se deben intentar recuperar, hasta un máximo de 200
 por solicitud distinta. El valor del conteo se considera mejor como un límite para
 el número de tweets que se devolverán porque se eliminó el contenido suspendido o eliminado
 después de que el recuento ha sido aplicado Incluimos retweets en el conteo, incluso si
 include_rts no se suministra. Se recomienda que siempre envíe include_rts = 1 cuando
 utilizando este método API.
        '''
        d = twitter.get_user_timeline(screen_name=kid, count="200", page=page, include_entities="true", include_rts="1")
    except Exception as e:
        print ("Error reading id %s, exception: %s" % (kid, e))
        return None
    return d

In [None]:
###### PARTE 4: Configurar la base de datos Mongo y las colecciones ######

# Datos de ejemplo, necesario modificar por vuestra instancia en MongoDB Atlas o local
dbStringConnection = "mongodb+srv://williamm6891:Wi68am91@cluster0.95euixo.mongodb.net/"

dbName = 'Test'
dbCollectionA = 'twitter_Actividad_Cuentas_R'
dbCollectionT = 'tweets_Actividad_R'

client = pymongo.MongoClient(dbStringConnection)

# Definición de la base de datos MongoDB
db = client[dbName]

# Crea la colección accounts in la base de datos para los detalles de las cuentas de twitter
accounts = db[dbCollectionA]

# Crea un índice sobre la colección de cuentas para evitar la inserción de duplicados
db[dbCollectionA].create_index([('Twitter_handle', pymongo.ASCENDING)], unique=True)

# Muestra los índices sobre la colección accounts
#list(db.accounts.index_information())

#Muestra el número de cuentas en la colección accounts
#accounts.count_documents({})

# Crea la colleción donde se insertarán los tweets
tweets = db[dbCollectionT]

# Crea un índice de unicidad en la colección tweets para evitar duplicados
db[dbCollectionT].create_index([('id_str', pymongo.ASCENDING)], unique=True)

#Muestra los índices sobre la colección tweets
#list(db.tweets.index_information())

#Muestra el número de tweets en la tabla
#tweets.count_documents({})

#Para ver el listado de las bases de datos en MongoDB
#client.database_names()

#Para ver el listado de las colecciones en la base de datos 'MLB'
#db.collection_names()

'id_str_1'

In [None]:
###### PARTE 5: Crear un campo de amigos y otro campo de tweets enviados dentro de las cuentas de Twitter ######

accounts_collection = db["twitter_Actividad_Cuentas_R"]
dbCollectionA = 'twitter_Actividad_Cuentas_R'

# Iterar sobre cada cuenta de Twitter en twitter_Actividad_Cuentas_R
for account in accounts_collection.find():
    twitter_handle = account["Twitter_handle"]

    # Obtener detalles de la cuenta de Twitter (twitter_handle)
    user_details = twitter.show_user(screen_name=twitter_handle)

    # Extraer número de amigos y tweets enviados
    amigos = user_details.get("friends_count", 0)  # Número de cuentas que el usuario de Twitter sigue (amigos)
    tweets_enviados = user_details.get("statuses_count", 0)  # Número total de tweets enviados

    # Actualizar MongoDB con estos nuevos datos
    accounts_collection.update_one(
        {"Twitter_handle": twitter_handle},
        {"$set": {"amigos": amigos, "tweets_enviados": tweets_enviados}}
    )

In [None]:
###### PARTE 6: Crear un campo de frescura en cada tweet ######

tweets_collection = db["tweets_Actividad_R"]

# Fecha actual
current_date = datetime.utcnow()

# Iterar sobre cada tweet en la colección tweets_Actividad_R
for tweet in tweets_collection.find():
    # Obtener la fecha de creación del tweet
    tweet_date = datetime.strptime(tweet["created_at"], '%a %b %d %H:%M:%S +0000 %Y')

    # Calcular la diferencia en días entre la fecha actual y la fecha de creación del tweet
    days_difference = (current_date - tweet_date).days

    # Actualizar el tweet con el campo "Frescura" en la colección tweets_Actividad_R
    tweets_collection.update_one(
        {"id_str": tweet["id_str"]},
        {"$set": {"Frescura": days_difference}}
    )

In [None]:
###### PARTE 6: Crear un campo de fecha_creacion en cada cuenta de Twitter ######

# Leer la colección twitter_Actividad_Cuentas_R desde MongoDB

cuentas = list(accounts_collection.find())

# Iterar sobre cada cuenta de Twitter y obtener la fecha de creación
for cuenta in cuentas:
    twitter_handle = cuenta.get("Twitter_handle")
    if twitter_handle:
        user_details = twitter.show_user(screen_name=twitter_handle)
        cuenta["fecha_creacion"] = user_details.get("created_at")

        # Actualizar  cada cuenta de Twitter en MongoDB con el campo "fecha_creacion"
        accounts_collection.update_one(
            {"Twitter_handle": twitter_handle},
            {"$set": {"fecha_creacion": cuenta["fecha_creacion"]}}
        )

In [None]:
###### PARTE 7: Crear un campo de madurez en cada cuenta de Twitter ######

tweets_collection = db["tweets_Actividad_R"]
accounts_collection = db["twitter_Actividad_Cuentas_R"]

# Iterar sobre cada tweet en tweets_Actividad_R
for tweet in tweets_collection.find():
    try:
        # Obtener la fecha de creación del tweet
        tweet_date = datetime.strptime(tweet["created_at"], '%a %b %d %H:%M:%S +0000 %Y')

        # Obtener el "screen_name" del usuario (cuenta de Twitter) que envió el tweet
        screen_name = tweet["user"]["screen_name"]

        # Buscar la cuenta de Twitter asociada al tweet usando "Twitter_handle"
        account = accounts_collection.find_one({"Twitter_handle": screen_name})

        if account:
            # Obtener la fecha de creación de la cuenta de Twitter
            account_creation_date = datetime.strptime(account["fecha_creacion"], '%a %b %d %H:%M:%S +0000 %Y')

            # Calcular la diferencia en días entre la fecha de creación de la cuenta de Twitter y la fecha de creación del tweet
            days_difference = (tweet_date - account_creation_date).days

            # Actualizar el tweet con el campo "Madurez"
            tweets_collection.update_one(
                {"id_str": tweet["id_str"]},
                {"$set": {"Madurez": days_difference}}
            )
        else:
            print(f"No se encontró cuenta de Twitter con Twitter_handle {screen_name} asociada para el tweet {tweet['id_str']}")

    except Exception as e:
        print(f"Error al procesar el tweet {tweet['id_str']}: {e}")

In [None]:
###### PARTE 8: Número de tweets por cuenta (Verificación para MongoDB Charts) ######

# Conexión a MongoDB (colección de tweets)
tweets_collection = db["tweets_Actividad_R"]

# Consulta para agrupar tweets por el identificador del usuario (cuenta de Twitter) y contarlos
pipeline = [
    {
        "$group": {
            "_id": "$user.id_str",  # Agrupa por el identificador del usuario (cuenta de Twitter)
            "screen_name": {"$first": "$user.screen_name"},  # Obtiene el nombre de usuario (cuenta de Twitter)
            "total_tweets": {"$sum": 1}  # Suma los tweets para cada usuario (cuenta de Twitter)
        }
    },
    {
        "$sort": {
            "total_tweets": -1  # Ordena los resultados en orden descendente por total de tweets
        }
    }
]

results = list(tweets_collection.aggregate(pipeline))

# Imprimir los resultados
for result in results:
    print(f"Screen Name: {result['screen_name']}, Total Tweets: {result['total_tweets']}")


Screen Name: AlejandroSanz, Total Tweets: 1000
Screen Name: uc3m, Total Tweets: 1000
Screen Name: elmundoes, Total Tweets: 1000
Screen Name: el_pais, Total Tweets: 1000
Screen Name: LuisFonsi, Total Tweets: 1000
Screen Name: LaVanguardia, Total Tweets: 1000
Screen Name: La_UPM, Total Tweets: 1000
Screen Name: sanchezcastejon, Total Tweets: 1000
Screen Name: RafaelNadal, Total Tweets: 1000
Screen Name: JuanLuisGuerra, Total Tweets: 998
Screen Name: unicomplutense, Total Tweets: 997
Screen Name: valenciacf, Total Tweets: 996


In [None]:
###### PARTE 9: Número de tweets por día de la semana (Verificación para MongoDB Charts) ######

# Conexión a MongoDB (colección de tweets)
tweets_collection = db["tweets_Actividad_R"]

# Consulta para agrupar tweets por día de la semana y contarlos
pipeline = [
    {
        "$project": {
            "dayOfWeek": {"$substr": ["$created_at", 0, 3]}  # Extrae el día de la semana (ej: "Mon", "Tue")
        }
    },
    {
        "$group": {
            "_id": "$dayOfWeek",  # Agrupa por día de la semana
            "total_tweets": {"$sum": 1}  # Suma los tweets para cada día
        }
    },
    {
        "$sort": {
            "_id": 1  # Ordena los resultados por día de la semana alfabéticamente
        }
    }
]

results = list(tweets_collection.aggregate(pipeline))

# Imprimir los resultados
for result in results:
    print(f"Día: {result['_id']}, Total Tweets: {result['total_tweets']}")


Día: Fri, Total Tweets: 2035
Día: Mon, Total Tweets: 1761
Día: Sat, Total Tweets: 1160
Día: Sun, Total Tweets: 973
Día: Thu, Total Tweets: 2199
Día: Tue, Total Tweets: 1794
Día: Wed, Total Tweets: 2069
