# Data Engineer Challenge

## Nombre: Gonzalo Alexis Figueroa Olivera

### Título: Ingeniero Informático

### Estudios:
- Diplomado en Machine Learning
- Diplomado en Inteligencia Artificial
- Diplomado en Big Data

### Actualmente:
- Estudiando Máster en Business Intelligence & Analytics


# Proceso de Gitflow

Inicialmente, me basé en Gitflow para crear mi repositorio LATAM. La estructura inicial incluía las ramas **main** y **develop**. Cualquier actualización se realizaba creando una rama desde **develop** y fusionándola de nuevo en **develop**. Finalmente, se fusionaban los cambios en la rama **main**.

<p align="center">
  <img src="https://wac-cdn.atlassian.com/dam/jcr:34c86360-8dea-4be4-92f7-6597d4d5bfae/02%20Feature%20branches.svg?cdnVersion=1746" alt="Gitflow" width="600"/>
</p>

## Ramas Principales
- **main**: Código de producción estable.
- **develop**: Código en desarrollo para la próxima versión.

## Ramas de Soporte
- **feature**: Nuevas características desde **develop**.
- **release**: Preparación de versiones desde **develop**.
- **hotfix**: Correcciones urgentes desde **main**.

### Flujo Básico
1. Crear una rama **feature** desde **develop**.
2. Fusionar la rama **feature** en **develop** al completar.
3. Crear una rama **release** desde **develop**, luego fusionarla en **main** y **develop**.
4. Crear una rama **hotfix** desde **main**, luego fusionarla en **main** y **develop**.

Este proceso facilita el desarrollo organizado y la entrega continua de software.



# Instalación de Librerías Necesarias

En mi notebook de instancia Databricks de Spark, ya vienen preinstaladas las librerías `pandas` y `spark`, por lo que no es necesario volver a instalarlas. A continuación, se detalla el proceso de instalación de las demás librerías necesarias:

1. **pandas**: Esta librería ya viene preinstalada en Databricks y es fundamental para la manipulación y análisis de datos en estructuras de datos como DataFrames.

2. **spark**: Al ser una instancia de Databricks, Spark también viene preinstalado. Spark es esencial para la computación distribuida y el procesamiento de grandes volúmenes de datos.

### Descripción de las Librerías Adicionales

1. **memory_profiler**:
   - **Descripción**: `memory_profiler` es una herramienta que permite monitorear el uso de memoria de una aplicación Python. Es especialmente útil para identificar y optimizar segmentos de código que consumen mucha memoria, lo que ayuda a mejorar la eficiencia y el rendimiento del programa.
   - **Uso**: Se utiliza para realizar perfiles de memoria en scripts de Python, generando reportes detallados del consumo de memoria a lo largo de la ejecución del código.

2. **emoji**:
   - **Descripción**: La librería `emoji` permite trabajar con emojis en Python de manera sencilla. Es útil para aplicaciones que requieren la inclusión, manipulación y visualización de emojis, como en el procesamiento de datos de redes sociales, chats, o cualquier otra aplicación que necesite manejar texto enriquecido con emojis.
   - **Uso**: Facilita la adición y conversión de emojis en cadenas de texto, proporcionando una manera directa de integrar estos símbolos gráficos en aplicaciones Python.

Es importante asegurar que todas las librerías adicionales requeridas para el proyecto estén instaladas adecuadamente para evitar problemas durante la ejecución del código. El entorno de Databricks facilita este proceso y optimiza el tiempo de configuración al incluir ya las librerías más comúnmente utilizadas como `pandas` y `spark`.



In [0]:
#instalacion de librerias
!pip install memory_profiler
!pip install emoji

# Extensión de Memory Profiler

El comando mágico `%load_ext memory_profiler` se utiliza para cargar la extensión `memory_profiler` en un notebook. Esto permite utilizar herramientas de `memory_profiler` para monitorear y analizar el uso de memoria en celdas específicas del notebook.

### Uso Posterior

Una vez cargada la extensión, se pueden usar comandos mágicos como `%%memit` para medir el uso de memoria de una celda completa o `%%mprun` para analizar funciones específicas.


In [0]:
%load_ext memory_profiler

# Función `evaluate_function`

La función `evaluate_function` he creado para medir el tiempo de ejecución y el uso de memoria de una función específica. Toma como argumentos la función a evaluar y la ruta a un archivo que se pasa como argumento a la función. Luego, imprime:

- El nombre de la función evaluada.
- El tiempo de ejecución en segundos.
- El pico de uso de memoria en MiB.
- El uso promedio de memoria en MiB.

Esto ayuda a identificar y optimizar el rendimiento de la función en términos de tiempo y memoria.


In [0]:
from memory_profiler import memory_usage
import time

def evaluate_function(func, file_path):
    """
    Evalúa el tiempo de ejecución y el uso de memoria de una función dada.

    Args:
        func (callable): La función a evaluar.
        file_path (str): La ruta al archivo que será pasado como argumento a la función.

    Returns:
        None

    Imprime:
        - El nombre de la función evaluada.
        - El tiempo de ejecución en segundos.
        - El pico de uso de memoria en MiB.
        - El uso promedio de memoria en MiB.
        - Máximo uso de memoria en intervalos de 0.1 segundos.
        - Promedio de uso de memoria en intervalos de 0.1 segundos.

    Manejo de Excepciones:
        Captura y muestra cualquier excepción que ocurra durante la ejecución de la función.
    """
    try:
        # Medir el tiempo de inicio
        start_time = time.time()

        # Medir el uso de memoria
        mem_usage = memory_usage((func, (file_path,)), interval=0.1)

        # Medir el tiempo de finalización
        end_time = time.time()
        
        # Calcular métricas
        execution_time = end_time - start_time
        peak_memory = max(mem_usage) - min(mem_usage)
        avg_memory = sum(mem_usage) / len(mem_usage)
        max_interval_memory = max(mem_usage)
        avg_interval_memory = sum(mem_usage) / len(mem_usage)

        # Imprimir resultados
        print(f"Evaluando {func.__name__}")
        print(f"Tiempo: {execution_time:.2f} segundos")
        print(f"Memoria pico: {peak_memory:.2f} MiB")
        print(f"Memoria promedio: {avg_memory:.2f} MiB")
        print(f"Máximo uso de memoria en intervalos: {max_interval_memory:.2f} MiB")
        print(f"Promedio de uso de memoria en intervalos: {avg_interval_memory:.2f} MiB")

    except Exception as e:
        print(f"Ocurrió un error al evaluar la función {func.__name__}: {e}")

## Proceso de Carga de Datos

1. **Subida del Archivo**:
   - Subí el archivo a mi unidad de Databricks.

2. **Descompresión del Archivo**:
   - Utilicé el comando de Linux `%sh unzip` para descomprimir el archivo en el mismo directorio.

3. **Visualización del Contenido**:
   - Utilicé el comando `ls` para visualizar el nombre del archivo descomprimido.

4. **Carga en DataFrame de Spark**:
   - Usando la librería de Spark, cargué el archivo en un DataFrame de Spark.

5. **Creación de Tabla Temporal**:
   - Convertí el DataFrame en una tabla temporal llamada `tweets`. Esto me permitió comprender los datos que contiene la tabla, así como la lógica de almacenamiento.

6. **Impresión del Esquema**:
   - Imprimí el esquema de la tabla para entender su estructura.

Este proceso me ayuda a entender mejor los datos y a encontrar respuestas a las preguntas del desafío.


In [0]:
%sh
unzip /dbfs/mnt/landing/fuentesexternas/test/tamla/tweets.json.zip -d /dbfs/mnt/landing/fuentesexternas/test/tamla/


In [0]:
!ls /dbfs/mnt/landing/fuentesexternas/test/tamla/

## Cargar json por medio de spark

In [0]:
from pyspark.sql import SparkSession
file_path = "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json"

#carga del archivo usando spark
df = spark.read.json(file_path)

#creacion de dataframe a tabla delta
df.createOrReplaceTempView("tweets")


### Exploración de la tabla

In [0]:
%sql select * from tweets

content,conversationId,date,id,lang,likeCount,media,mentionedUsers,outlinks,quoteCount,quotedTweet,renderedContent,replyCount,retweetCount,retweetedTweet,source,sourceLabel,sourceUrl,tcooutlinks,url,user
The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. @narendramodi @DelhiPolice Shame on you. #ModiDontSellFarmers #FarmersProtest #FreeNodeepKaur https://t.co/es3kn0IQAF,1364506249291784198,2021-02-24T09:23:35+00:00,1364506249291784198,en,0,,"List(List(null, null, null, Narendra Modi, null, null, null, 18839785, null, null, null, null, null, null, null, null, null, null, https://twitter.com/narendramodi, narendramodi, null), List(null, null, null, #DilKiPolice Delhi Police, null, null, null, 1850705408, null, null, null, null, null, null, null, null, null, null, https://twitter.com/DelhiPolice, DelhiPolice, null))",List(https://twitter.com/ravisinghka/status/1364150844757860352),0,"List(This is what the indian police are good at, beating & raping women ! @police_haryana @DelhiPolice https://t.co/mj1qzF7nGh, 1364150844757860352, 2021-02-23T09:51:20+00:00, 1364150844757860352, en, 1939, null, List(List(null, null, null, Haryana Police, null, null, null, 887564756629966848, null, null, null, null, null, null, null, null, null, null, https://twitter.com/police_haryana, police_haryana, null), List(null, null, null, #DilKiPolice Delhi Police, null, null, null, 1850705408, null, null, null, null, null, null, null, null, null, null, https://twitter.com/DelhiPolice, DelhiPolice, null)), List(https://www.google.co.uk/amp/s/m.timesofindia.com/city/chandigarh/was-brutally-thrashed-in-thana-nodeep-kaur-tells-punjab-and-haryana-high-court/amp_articleshow/81164092.cms), 59, null, This is what the indian police are good at, beating & raping women ! @police_haryana @DelhiPolice google.co.uk/amp/s/m.timeso…, 66, 744, null, Twitter for iPhone, Twitter for iPhone, http://twitter.com/download/iphone, List(https://t.co/mj1qzF7nGh), https://twitter.com/RaviSinghKA/status/1364150844757860352, List(2014-02-16T23:38:54+00:00, Founder/CEO of Khalsa Aid, Sikh,philanthropist, 20 Years of coordinating aid,humanitarian & passionate about human rights.All views my own:Inc working in Iraq, List(), ravinder singh, 30134, 227423, 4042, 2347762888, https://t.co/cgdi8BLkK2, http://www.khalsaaid.org, 212, Slough, England , 4944, https://pbs.twimg.com/profile_banners/2347762888/1591307489, https://pbs.twimg.com/profile_images/686526444642643968/bnCPdE7N_normal.jpg, false, Founder/CEO of Khalsa Aid, Sikh,philanthropist, 20 Years of coordinating aid,humanitarian & passionate about human rights.All views my own:Inc working in Iraq, 38683, https://twitter.com/RaviSinghKA, RaviSinghKA, false))",The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. @narendramodi @DelhiPolice Shame on you. #ModiDontSellFarmers #FarmersProtest #FreeNodeepKaur twitter.com/ravisinghka/st…,0,0,,Twitter for iPhone,Twitter for iPhone,http://twitter.com/download/iphone,List(https://t.co/es3kn0IQAF),https://twitter.com/ArjunSinghPanam/status/1364506249291784198,"List(2009-06-06T07:50:57+00:00, Global Citizen, Actor, Director: Sky is the roof above my head, the world is the road I travel, love is my food & mother earth is my bed. Roy in @CosmosMovie, List(), Arjun Singh Panam, 4269, 603, 311, 45091142, https://t.co/3uaoV3gCt3, https://www.cosmosmovieofficial.com, 23, , 1211, https://pbs.twimg.com/profile_banners/45091142/1612601766, https://pbs.twimg.com/profile_images/1215541746492461056/3De61YoQ_normal.jpg, false, Global Citizen, Actor, Director: Sky is the roof above my head, the world is the road I travel, love is my food & mother earth is my bed. Roy in @CosmosMovie, 17534, https://twitter.com/ArjunSinghPanam, ArjunSinghPanam, false)"
"#FarmersProtest #ModiIgnoringFarmersDeaths #ModiDontSellFarmers @Kisanektamorcha Farmers constantly distroying crops throughout India. Really, it's hearts breaking...we care about our crops like our children. And govt. agriculture minister is laughing on us🚜🌾WE WILL WIN💪 https://t.co/kLspngG9xE",1364506237451313155,2021-02-24T09:23:32+00:00,1364506237451313155,en,0,"List(List(139.934, null, null, https://pbs.twimg.com/ext_tw_video_thumb/1364506005531361280/pu/img/TlV5WZdUsaU2Qpmy.jpg, video, List(List(632000, video/mp4, https://video.twimg.com/ext_tw_video/1364506005531361280/pu/vid/320x580/2EhqHfKscfd1GQnM.mp4?tag=10), List(null, application/x-mpegURL, https://video.twimg.com/ext_tw_video/1364506005531361280/pu/pl/xKomqeZ_R13sSAq0.m3u8?tag=10))))","List(List(null, null, null, Kisan Ekta Morcha, null, null, null, 1338536920066879488, null, null, null, null, null, null, null, null, null, null, https://twitter.com/Kisanektamorcha, Kisanektamorcha, null))",List(),0,,"#FarmersProtest #ModiIgnoringFarmersDeaths #ModiDontSellFarmers @Kisanektamorcha Farmers constantly distroying crops throughout India. Really, it's hearts breaking...we care about our crops like our children. And govt. agriculture minister is laughing on us🚜🌾WE WILL WIN💪 https://t.co/kLspngG9xE",0,0,,Twitter for Android,Twitter for Android,http://twitter.com/download/android,List(),https://twitter.com/PrdeepNain/status/1364506237451313155,"List(2021-01-29T09:58:06+00:00, Live in the sunshine where you belong, List(), Pradeep Nain, 240, 14, 134, 1355092620662329349, null, null, 0, , 102, https://pbs.twimg.com/profile_banners/1355092620662329349/1612611418, https://pbs.twimg.com/profile_images/1364170636264804352/7xfhNn0S_normal.jpg, false, Live in the sunshine where you belong, 160, https://twitter.com/PrdeepNain, PrdeepNain, false)"
ਪੈਟਰੋਲ ਦੀਆਂ ਕੀਮਤਾਂ ਨੂੰ ਮੱਦੇਨਜ਼ਰ ਰੱਖਦੇ ਹੋਏ ਮੇਰੇ ਹਿਸਾਬ ਨਾਲ ਬਾਹਰ(ਪ੍ਰਦੇਸ਼) ਜਾਣ ਨਾਲੋਂ ਬਿਹਤਰ ਆ ਭਾਰਤ 'ਚ ਪੈਟਰੋਲ ਪੰਪ ਪਾ ਲਈਏ। 🤫🤫🤔🤔 #FarmersProtest,1364506195453767680,2021-02-24T09:23:22+00:00,1364506195453767680,pa,0,,,List(),0,,ਪੈਟਰੋਲ ਦੀਆਂ ਕੀਮਤਾਂ ਨੂੰ ਮੱਦੇਨਜ਼ਰ ਰੱਖਦੇ ਹੋਏ ਮੇਰੇ ਹਿਸਾਬ ਨਾਲ ਬਾਹਰ(ਪ੍ਰਦੇਸ਼) ਜਾਣ ਨਾਲੋਂ ਬਿਹਤਰ ਆ ਭਾਰਤ 'ਚ ਪੈਟਰੋਲ ਪੰਪ ਪਾ ਲਈਏ। 🤫🤫🤔🤔 #FarmersProtest,0,0,,Twitter for Android,Twitter for Android,http://twitter.com/download/android,List(),https://twitter.com/parmarmaninder/status/1364506195453767680,"List(2012-01-27T17:30:27+00:00, ।।ਨਾਨਕ ਨਾਮ ਚੜ੍ਹਦੀ ਕਲਾ ਤੇਰੈ ਭਾਣੈ ਸਰਬੱਤ ਦਾ ਭਲਾ।।, List(), maninder singh, 846, 72, 151, 476006247, null, null, 0, , 265, https://pbs.twimg.com/profile_banners/476006247/1613580104, https://pbs.twimg.com/profile_images/1332977102749052932/tH_XUbMg_normal.jpg, false, ।।ਨਾਨਕ ਨਾਮ ਚੜ੍ਹਦੀ ਕਲਾ ਤੇਰੈ ਭਾਣੈ ਸਰਬੱਤ ਦਾ ਭਲਾ।।, 2285, https://twitter.com/parmarmaninder, parmarmaninder, false)"
@ReallySwara @rohini_sgh watch full video here https://t.co/wBPNdJdB0n #farmersprotest #NoFarmersNoFood https://t.co/fUsTOKOcXK,1364350947099484160,2021-02-24T09:23:16+00:00,1364506167226032128,en,0,"List(List(46.375, null, null, https://pbs.twimg.com/ext_tw_video_thumb/1364506093972566023/pu/img/wDpadWHLRoeCv_F7.jpg, video, List(List(632000, video/mp4, https://video.twimg.com/ext_tw_video/1364506093972566023/pu/vid/320x566/vmTZxIj53Ak47VJG.mp4?tag=10), List(832000, video/mp4, https://video.twimg.com/ext_tw_video/1364506093972566023/pu/vid/406x720/mCrsdejs_QB5C76h.mp4?tag=10), List(null, application/x-mpegURL, https://video.twimg.com/ext_tw_video/1364506093972566023/pu/pl/5oFp-iiNuCkC17ce.m3u8?tag=10))))","List(List(null, null, null, Swara Bhasker, null, null, null, 1546101560, null, null, null, null, null, null, null, null, null, null, https://twitter.com/ReallySwara, ReallySwara, null), List(null, null, null, Rohini Singh, null, null, null, 267861878, null, null, null, null, null, null, null, null, null, null, https://twitter.com/rohini_sgh, rohini_sgh, null))",List(https://youtu.be/-bUKumwq-J8),0,,@ReallySwara @rohini_sgh watch full video here youtu.be/-bUKumwq-J8 #farmersprotest #NoFarmersNoFood https://t.co/fUsTOKOcXK,0,0,,Twitter Web App,Twitter Web App,https://mobile.twitter.com,List(https://t.co/wBPNdJdB0n),https://twitter.com/anmoldhaliwal/status/1364506167226032128,"List(2010-04-28T03:12:18+00:00, coming soon, List(), Anmol, 77, 51, 27, 137908912, null, null, 0, Brampton, On, 12, null, https://pbs.twimg.com/profile_images/1564975143/DSCN0990_-_Copy_-_Copy_normal.JPG, false, coming soon, 228, https://twitter.com/anmoldhaliwal, anmoldhaliwal, false)"
#KisanEktaMorcha #FarmersProtest #NoFarmersNoFood https://t.co/g9TYYBHQRH,1364506144002088963,2021-02-24T09:23:10+00:00,1364506144002088963,und,0,"List(List(null, https://pbs.twimg.com/media/Eu-zGYfVgAQ3s5_?format=jpg&name=large, https://pbs.twimg.com/media/Eu-zGYfVgAQ3s5_?format=jpg&name=small, null, photo, null))",,List(),0,,#KisanEktaMorcha #FarmersProtest #NoFarmersNoFood https://t.co/g9TYYBHQRH,0,0,,Twitter for iPhone,Twitter for iPhone,http://twitter.com/download/iphone,List(),https://twitter.com/KotiaPreet/status/1364506144002088963,"List(2021-02-08T14:35:10+00:00, , List(), Preet Kotia, 22, 5, 23, 1358786390696206337, null, null, 0, , 6, https://pbs.twimg.com/profile_banners/1358786390696206337/1614008177, https://pbs.twimg.com/profile_images/1358786653943263232/CssWTw1B_normal.jpg, false, , 9, https://twitter.com/KotiaPreet, KotiaPreet, false)"
Jai jwaan jai kissan #FarmersProtest #ModiIgnoringFarmersDeaths https://t.co/LXi7d92wwf,1364506120497360896,2021-02-24T09:23:05+00:00,1364506120497360896,hi,0,,,List(https://twitter.com/rajeshpunia15/status/1364505140238057472),0,"List(किसान आंदोलन अब घर घर पहुंच चुका है https://t.co/7BfmArxgZo, 1364505140238057472, 2021-02-24T09:19:11+00:00, 1364505140238057472, hi, 5, List(List(null, https://pbs.twimg.com/media/Eu-yLZdWYAADLe9?format=jpg&name=large, https://pbs.twimg.com/media/Eu-yLZdWYAADLe9?format=jpg&name=small, null, photo, null)), null, List(), 1, null, किसान आंदोलन अब घर घर पहुंच चुका है https://t.co/7BfmArxgZo, 0, 1, null, Twitter for Android, Twitter for Android, http://twitter.com/download/android, List(), https://twitter.com/RajeshPunia15/status/1364505140238057472, List(2017-03-06T07:40:05+00:00, , List(), Rajesh Punia, 35086, 1904, 2104, 838655409736957953, null, null, 1, Ajmer, India, 219, https://pbs.twimg.com/profile_banners/838655409736957953/1577600845, https://pbs.twimg.com/profile_images/1211171899205705728/3lsXMs3G_normal.jpg, false, , 1448, https://twitter.com/RajeshPunia15, RajeshPunia15, false))",Jai jwaan jai kissan #FarmersProtest #ModiIgnoringFarmersDeaths twitter.com/rajeshpunia15/…,0,0,,Twitter for iPhone,Twitter for iPhone,http://twitter.com/download/iphone,List(https://t.co/LXi7d92wwf),https://twitter.com/babli_708/status/1364506120497360896,"List(2020-12-01T05:11:01+00:00, , List(), Babli, 15386, 314, 443, 1333639588624150528, null, null, 0, England, United Kingdom, 76, https://pbs.twimg.com/profile_banners/1333639588624150528/1607014357, https://pbs.twimg.com/profile_images/1334540981513940992/0xis8ETU_normal.jpg, false, , 4926, https://twitter.com/babli_708, babli_708, false)"
#FarmersProtest,1364506076272496640,2021-02-24T09:22:54+00:00,1364506076272496640,und,0,,,List(),0,,#FarmersProtest,0,0,,Twitter for Android,Twitter for Android,http://twitter.com/download/android,List(),https://twitter.com/Varinde17354019/status/1364506076272496640,"List(2020-12-02T06:05:36+00:00, , List(), Varinder Singh, 12, 2, 1, 1334015603770736641, null, null, 0, , 0, null, https://pbs.twimg.com/profile_images/1334016008000917504/pWpfxe9B_normal.jpg, false, , 17, https://twitter.com/Varinde17354019, Varinde17354019, false)"
#ModiDontSellFarmers #FarmersProtest https://t.co/uGQb1O5Jg9,1364505995859423234,2021-02-24T09:22:35+00:00,1364505995859423234,und,0,,,List(https://twitter.com/jagjitvaheguru/status/1364492540033040385),0,"List(The @sikhchannel show we did, hosted by Brian Harris, last Friday. @minkaur5 and @jagjitvaheguru discuss the Farmers Protests and the recent events behind it. https://t.co/iCB2wFIZ7m via @YouTube @SikhPA @sharecharityuk @Punjab2000music @A_W_M_B @BaazNewsOrg @jindisinghka, 1364492540033040385, 2021-02-24T08:29:07+00:00, 1364492540033040385, en, 3, null, List(List(null, null, null, Sikh Channel, null, null, null, 43500061, null, null, null, null, null, null, null, null, null, null, https://twitter.com/sikhchannel, sikhchannel, null), List(null, null, null, Minreet Kaur, null, null, null, 132295084, null, null, null, null, null, null, null, null, null, null, https://twitter.com/minkaur5, minkaur5, null), List(null, null, null, Jagjit Singh, null, null, null, 1183153390706147330, null, null, null, null, null, null, null, null, null, null, https://twitter.com/jagjitvaheguru, jagjitvaheguru, null), List(null, null, null, YouTube, null, null, null, 10228272, null, null, null, null, null, null, null, null, null, null, https://twitter.com/YouTube, YouTube, null), List(null, null, null, SikhPressAssociation, null, null, null, 2459519659, null, null, null, null, null, null, null, null, null, null, https://twitter.com/SikhPA, SikhPA, null), List(null, null, null, SHARE, null, null, null, 708284909174054912, null, null, null, null, null, null, null, null, null, null, https://twitter.com/sharecharityuk, sharecharityuk, null), List(null, null, null, Punjab2000, null, null, null, 22248383, null, null, null, null, null, null, null, null, null, null, https://twitter.com/Punjab2000music, Punjab2000music, null), List(null, null, null, AsianWomenMeanBusiness, null, null, null, 2471497028, null, null, null, null, null, null, null, null, null, null, https://twitter.com/A_W_M_B, A_W_M_B, null), List(null, null, null, Baaz, null, null, null, 1347153799690006529, null, null, null, null, null, null, null, null, null, null, https://twitter.com/BaazNewsOrg, BaazNewsOrg, null), List(null, null, null, Jindi Singh KA, null, null, null, 1104844608524083200, null, null, null, null, null, null, null, null, null, null, https://twitter.com/jindisinghka, jindisinghka, null)), List(https://youtu.be/EwFj2TRWDYU), 2, null, The @sikhchannel show we did, hosted by Brian Harris, last Friday. @minkaur5 and @jagjitvaheguru discuss the Farmers Protests and the recent events behind it. youtu.be/EwFj2TRWDYU via @YouTube @SikhPA @sharecharityuk @Punjab2000music @A_W_M_B @BaazNewsOrg @jindisinghka, 0, 0, null, Twitter for iPhone, Twitter for iPhone, http://twitter.com/download/iphone, List(https://t.co/iCB2wFIZ7m), https://twitter.com/jagjitvaheguru/status/1364492540033040385, List(2019-10-12T22:52:23+00:00, Sikh Educator, World Sikh Parliamentarian, sevadaar @ Khalsa Foundation, Share Charity, Property developer, Author, Award winning care home operator, List(), Jagjit Singh, 4721, 1403, 605, 1183153390706147330, null, null, 6, , 1002, https://pbs.twimg.com/profile_banners/1183153390706147330/1601119000, https://pbs.twimg.com/profile_images/1342193204612001797/RscqAefq_normal.jpg, false, Sikh Educator, World Sikh Parliamentarian, sevadaar @ Khalsa Foundation, Share Charity, Property developer, Author, Award winning care home operator, 1944, https://twitter.com/jagjitvaheguru, jagjitvaheguru, false))",#ModiDontSellFarmers #FarmersProtest twitter.com/jagjitvaheguru…,0,0,,Twitter Web App,Twitter Web App,https://mobile.twitter.com,List(https://t.co/uGQb1O5Jg9),https://twitter.com/BitnamSingh/status/1364505995859423234,"List(2009-05-25T17:16:20+00:00, Activist Against Fascism, List(), Bitnam Singh Khalsa, 721, 114, 593, 42444028, null, null, 0, UK, 25, null, https://pbs.twimg.com/profile_images/1214115913626206208/y6W1Bj2x_normal.jpg, false, Activist Against Fascism, 714, https://twitter.com/BitnamSingh, BitnamSingh, false)"
@mandeeppunia1 watch full video here https://t.co/wBPNdJdB0n #farmersprotest #NoFarmersNoFood https://t.co/71iMqEc6aK,1364428985074032646,2021-02-24T09:22:34+00:00,1364505991887347714,en,0,"List(List(46.375, null, null, https://pbs.twimg.com/ext_tw_video_thumb/1364505953136181248/pu/img/uRvtkCkJObFOd0tL.jpg, video, List(List(832000, video/mp4, https://video.twimg.com/ext_tw_video/1364505953136181248/pu/vid/406x720/NPJ6Ncjfm3c-CwlD.mp4?tag=10), List(null, application/x-mpegURL, https://video.twimg.com/ext_tw_video/1364505953136181248/pu/pl/QqE1zJNShrjgp0Sm.m3u8?tag=10), List(632000, video/mp4, https://video.twimg.com/ext_tw_video/1364505953136181248/pu/vid/320x566/MEJ50u12ho4CUZyp.mp4?tag=10))))","List(List(null, null, null, Mandeep Punia, null, null, null, 326645848, null, null, null, null, null, null, null, null, null, null, https://twitter.com/mandeeppunia1, mandeeppunia1, null))",List(https://youtu.be/-bUKumwq-J8),0,,@mandeeppunia1 watch full video here youtu.be/-bUKumwq-J8 #farmersprotest #NoFarmersNoFood https://t.co/71iMqEc6aK,0,0,,Twitter Web App,Twitter Web App,https://mobile.twitter.com,List(https://t.co/wBPNdJdB0n),https://twitter.com/anmoldhaliwal/status/1364505991887347714,"List(2010-04-28T03:12:18+00:00, coming soon, List(), Anmol, 77, 51, 27, 137908912, null, null, 0, Brampton, On, 12, null, https://pbs.twimg.com/profile_images/1564975143/DSCN0990_-_Copy_-_Copy_normal.JPG, false, coming soon, 228, https://twitter.com/anmoldhaliwal, anmoldhaliwal, false)"
#FarmersProtest https://t.co/ehd5FBSZGx,1364505896576053248,2021-02-24T09:22:11+00:00,1364505896576053248,und,0,,,List(https://twitter.com/borisjohnson/status/1364232978994524160),0,"List(I want to thank farmers for keeping the UK fed throughout the pandemic. You do incredible work, all day, in all weathers.  My full message to the @NFUtweets Conference #NFU21: https://t.co/BYQXUQy8rA https://t.co/I5M0Siyx3v, 1364232978994524160, 2021-02-23T15:17:43+00:00, 1364232978994524160, en, 3538, List(List(54.92, null, null, https://pbs.twimg.com/media/Eu6rXrpWQAYAhrY.jpg, video, List(List(832000, video/mp4, https://video.twimg.com/amplify_video/1364215118079401985/vid/640x360/e7AGAZrZTqeKUd_4.mp4?tag=13), List(null, application/x-mpegURL, https://video.twimg.com/amplify_video/1364215118079401985/pl/QTvnIYH7Ws9g-dyA.m3u8?tag=13), List(288000, video/mp4, https://video.twimg.com/amplify_video/1364215118079401985/vid/480x270/sqrU_xTafYQHuJD-.mp4?tag=13), List(2176000, video/mp4, https://video.twimg.com/amplify_video/1364215118079401985/vid/1280x720/GT7Z-6yB-AQNL32b.mp4?tag=13)))), List(List(null, null, null, National Farmers' Union, null, null, null, 61736345, null, null, null, null, null, null, null, null, null, null, https://twitter.com/NFUtweets, NFUtweets, null)), List(https://www.nfuonline.com/news/latest-news/nfu21-watch-prime-minister-boris-johnsons-exclusive-message-for-nfu-members/), 79, null, I want to thank farmers for keeping the UK fed throughout the pandemic. You do incredible work, all day, in all weathers.  My full message to the @NFUtweets Conference #NFU21: nfuonline.com/news/latest-ne… https://t.co/I5M0Siyx3v, 559, 427, null, Twitter Media Studio, Twitter Media Studio, https://studio.twitter.com, List(https://t.co/BYQXUQy8rA), https://twitter.com/BorisJohnson/status/1364232978994524160, List(2015-04-01T20:15:49+00:00, Prime Minister of the United Kingdom and @Conservatives leader. Member of Parliament for Uxbridge and South Ruislip., List(), Boris Johnson, 458, 3367483, 456, 3131144855, https://t.co/cEV9soNllt, http://gov.uk/coronavirus, 8063, United Kingdom, 1762, https://pbs.twimg.com/profile_banners/3131144855/1609837695, https://pbs.twimg.com/profile_images/1331215386633756675/NodbPVQv_normal.jpg, false, Prime Minister of the United Kingdom and @Conservatives leader. Member of Parliament for Uxbridge and South Ruislip., 4300, https://twitter.com/BorisJohnson, BorisJohnson, true))",#FarmersProtest twitter.com/borisjohnson/s…,0,0,,Twitter for iPhone,Twitter for iPhone,http://twitter.com/download/iphone,List(https://t.co/ehd5FBSZGx),https://twitter.com/SatThiara/status/1364505896576053248,"List(2013-06-04T19:35:45+00:00, Views expressed are my own.... MUFC for life!, List(), Sat Thiara, 1372, 98, 471, 1483101823, null, null, 1, United Kingdom, 124, https://pbs.twimg.com/profile_banners/1483101823/1395503415, https://pbs.twimg.com/profile_images/1355536423412256771/vvPK6wJE_normal.jpg, false, Views expressed are my own.... MUFC for life!, 1585, https://twitter.com/SatThiara, SatThiara, false)"


In [0]:
#imprimiendo el esquema
df.printSchema()

## q1: Top 10 fechas con más tweets y el usuario más activo por cada fecha

### Lo que se pedía
Implementar dos funciones:
- `q1_time(file_path: str) -> List[Tuple[datetime.date, str]]`: Optimizada para el tiempo de ejecución.
- `q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]`: Optimizada para el uso de memoria.

Las funciones deben retornar una lista de tuplas con la fecha y el usuario que más publicaciones tiene por cada una de esas fechas.

### Lo que se realizó
- **q1_time**: Función optimizada para el tiempo de ejecución.
  - **Código**:
    ```python
    def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
        # Código implementado...
    ```

- **q1_memory**: Función optimizada para el uso de memoria.
  - **Código**:
    ```python
    def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
        # Código implementado...
    ```

In [0]:
#q1_time_v1
from pyspark.sql import SparkSession
from typing import List, Tuple
import datetime
import pandas as pd

# Crear sesión de Spark
spark = SparkSession.builder.appName("TwitterAnalysis").getOrCreate()

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Procesa un archivo JSON de tweets, agrupando por fecha y usuario,
    y retorna una lista de las fechas con más tweets y el usuario más activo en cada fecha.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.

    Returns:
    List[Tuple[datetime.date, str]]: Lista de tuplas que contienen la fecha y el usuario más activo en esa fecha.
    """
    try:
        # Leer el archivo JSON con Spark
        df_spark = spark.read.json(file_path)
        
        # Convertir a un DataFrame de pandas
        df = df_spark.select("date", "user.username").toPandas()
        
        # Convertir la columna de fechas a tipo datetime
        df['date'] = pd.to_datetime(df['date'], errors='coerce')
        df['tweet_date'] = df['date'].dt.date
        
        # Filtrar filas con fechas no convertibles
        df = df.dropna(subset=['date'])
        
        # Agrupar por fecha y contar los tweets por fecha
        df_fechas_agrupadas = df.groupby('tweet_date').size().reset_index(name='count')
        df_fechas_agrupadas = df_fechas_agrupadas.sort_values(by='count', ascending=False).head(10)
        
        # Inicializar lista para almacenar resultados
        result = []

        for _, row in df_fechas_agrupadas.iterrows():
            fecha = row['tweet_date']
            
            # Agrupar por usuario y contar los tweets, filtrando por la fecha de la iteración
            user_counts = df[df['tweet_date'] == fecha] \
                                 .groupby('username').size().reset_index(name='count') \
                                 .sort_values(by='count', ascending=False).head(1)
            
            # Obtener el usuario con más tweets en esa fecha
            if not user_counts.empty:
                top_user = user_counts.iloc[0]
                result.append((fecha, top_user['username']))
            else:
                result.append((fecha, None))
        
        return result

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []





# Ejemplo de uso
#result_list = q1_time('/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json')
#print(result_list)


In [0]:
#q1_memory_v1
from pyspark.sql import SparkSession
from typing import List, Tuple
import datetime
import pandas as pd

# Crear sesión de Spark
spark = SparkSession.builder.appName("TwitterAnalysis").getOrCreate()

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Procesa un archivo JSON de tweets, agrupando por fecha y usuario,
    y retorna una lista de las fechas con más tweets y el usuario más activo en cada fecha.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.

    Returns:
    List[Tuple[datetime.date, str]]: Lista de tuplas que contienen la fecha y el usuario más activo en esa fecha.
    """
    try:
        # Leer el archivo JSON con Spark
        df_spark = spark.read.json(file_path)
        
        # Convertir a un DataFrame de pandas
        df = df_spark.select("date", "user.username").toPandas()
        
        # Convertir la columna de fechas a tipo datetime
        df['date'] = pd.to_datetime(df['date'], errors='coerce')
        df['tweet_date'] = df['date'].dt.date
        
        # Filtrar filas con fechas no convertibles
        df = df.dropna(subset=['date'])
        
        # Liberar memoria de columnas no necesarias
        df.drop(columns=['date'], inplace=True)
        
        # Convertir la columna 'username' a categoría para reducir uso de memoria
        df['username'] = df['username'].astype('category')
        
        # Agrupar por fecha y contar los tweets por fecha
        df_fechas_agrupadas = df.groupby('tweet_date').size().reset_index(name='count')
        df_fechas_agrupadas = df_fechas_agrupadas.sort_values(by='count', ascending=False).head(10)
        
        # Inicializar lista para almacenar resultados
        result = []

        for _, row in df_fechas_agrupadas.iterrows():
            fecha = row['tweet_date']
            
            # Agrupar por usuario y contar los tweets, filtrando por la fecha de la iteración
            user_counts = df[df['tweet_date'] == fecha] \
                                 .groupby('username').size().reset_index(name='count') \
                                 .sort_values(by='count', ascending=False).head(1)
            
            # Obtener el usuario con más tweets en esa fecha
            if not user_counts.empty:
                top_user = user_counts.iloc[0]
                result.append((fecha, top_user['username']))
            else:
                result.append((fecha, None))
            
            # Liberar memoria de DataFrame intermedio
            del user_counts

        # Liberar memoria de DataFrame principal
        del df
        del df_fechas_agrupadas
        
        return result

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []

# Ejemplo de uso
# result = q1_memory("/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
# print(result)



### Resultados:

In [0]:
print('resultados:')
print('q1_time:')
result = q1_time("/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print(result)
print('q1_memory:')
result = q1_memory("/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print(result)

### Evaluación:

In [0]:

evaluate_function(q1_time, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print('----------')
evaluate_function(q1_memory, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")

## Comparación de Desempeño Q1

### Resumen

- **q1_time**: Optimiza el tiempo de ejecución utilizando pandas.
- **q1_memory**: Optimiza el uso de memoria utilizando procesamiento por lotes y conversión a categorías.

### Comparación de Desempeño

| Aspecto           | `q1_time`                     | `q1_memory`                   |
|-------------------|-------------------------------|-------------------------------|
| **Tiempo**        | 3.75 segundos                 | 3.97 segundos                 |
| **Memoria pico**  | 26.70 MiB                     | 26.70 MiB                     |
| **Memoria promedio** | 198.42 MiB                  | 210.57 MiB                    |
| **Máximo uso de memoria en intervalos** | 223.11 MiB | 223.15 MiB |
| **Promedio de uso de memoria en intervalos** | 198.42 MiB | 210.57 MiB |

### Explicación

- **q1_time**:
  - **Tiempo de ejecución**: 3.75 segundos
  - **Motivo**: Esta función es más rápida porque utiliza pandas para procesar los datos de una vez, aprovechando la eficiencia de las operaciones vectorizadas. La carga de datos y el procesamiento se realizan en una sola pasada, lo que minimiza el tiempo total de ejecución.

- **q1_memory**:
  - **Tiempo de ejecución**: 3.97 segundos
  - **Motivo**: Aunque esta función es un poco más lenta, optimiza el uso de memoria procesando los datos en lotes y convirtiendo la columna 'username' a categoría. Al manejar los datos en partes más pequeñas y reducir el uso de memoria mediante la conversión a categorías, evita la sobrecarga de memoria que podría ocurrir al intentar procesar un gran conjunto de datos de una vez.



---

---

---

## q2: Top 10 emojis más usados con su respectivo conteo

### Lo que se pedía
Implementar dos funciones:
- `q2_time(file_path: str) -> List[Tuple[str, int]]`: Optimizada para el tiempo de ejecución.
- `q2_memory(file_path: str) -> List[Tuple[str, int]]`: Optimizada para el uso de memoria.

Las funciones deben retornar una lista de tuplas con el emoji y su conteo.

### Lo que se realizó
- **q2_time**: Función optimizada para el tiempo de ejecución.
  - **Código**:
    ```python
    def q2_time(file_path: str) -> List[Tuple[str, int]]:
        # Código implementado...
    ```

- **q2_memory**: Función optimizada para el uso de memoria.
  - **Código**:
    ```python
    def q2_memory(file_path: str) -> List[Tuple[str, int]]:
        # Código implementado...
    ```


In [0]:

#q2_time_v1
import pandas as pd
import emoji
from pyspark.sql import SparkSession
from typing import List, Tuple

# Inicializar Spark
spark = SparkSession.builder.appName("EmojiExtractor").getOrCreate()

def q2_time(file_path: str) -> List[Tuple[str, int]]:
    """
    Extrae y cuenta los emojis más frecuentes en los contenidos de tweets.
    Optimiza el tiempo de ejecución utilizando operaciones eficientes con pandas.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.

    Returns:
    List[Tuple[str, int]]: Lista de tuplas con los emojis y su frecuencia.
    """
    try:
        # Leer los datos con Spark
        df_spark = spark.read.json(file_path)
        
        # Convertir a pandas
        df = df_spark.select("content").toPandas()

        # Inicializar diccionario de emojis
        diccionario_emojis = {}

        # Función para extraer emojis y actualizar el diccionario
        def extraer_emojis(texto, diccionario):
            for caracter in texto:
                if emoji.is_emoji(caracter):
                    diccionario[caracter] = diccionario.get(caracter, 0) + 1
            return diccionario

        # Aplicar la función de extracción de emojis a cada contenido de tweet
        df['content'].apply(lambda x: extraer_emojis(x, diccionario_emojis))

        # Limpiar el diccionario de caracteres no deseados
        caracteres_no_deseados = ['🏻', '🏽']
        for caracter in caracteres_no_deseados:
            diccionario_emojis.pop(caracter, None)

        # Convertir diccionario a DataFrame y ordenar
        df_emojis = pd.DataFrame(diccionario_emojis.items(), columns=['emoji', 'count'])
        top_10_emojis = df_emojis.nlargest(10, 'count')

        return list(top_10_emojis.itertuples(index=False, name=None))

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []





In [0]:
#q2_memory_v1
import pandas as pd
import emoji
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, monotonically_increasing_id
from typing import List, Tuple

# Inicializar Spark
spark = SparkSession.builder.appName("EmojiExtractor").getOrCreate()

def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    """
    Extrae y cuenta los emojis más frecuentes en los contenidos de tweets.
    Optimiza el uso de memoria procesando los datos en lotes pequeños.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.

    Returns:
    List[Tuple[str, int]]: Lista de tuplas con los emojis y su frecuencia.
    """
    try:
        # Leer los datos con Spark y agregar una columna de id para particionar los datos
        df_spark = spark.read.json(file_path).withColumn("id", monotonically_increasing_id())

        # Inicializar diccionario de emojis
        diccionario_emojis = {}

        # Definir el tamaño del lote
        batch_size = 10000

        # Contar el número total de filas
        total_rows = df_spark.count()

        # Función para extraer emojis y actualizar el diccionario
        def extraer_emojis(texto, diccionario):
            for caracter in texto:
                if emoji.is_emoji(caracter):
                    diccionario[caracter] = diccionario.get(caracter, 0) + 1
            return diccionario

        for start in range(0, total_rows, batch_size):
            # Filtrar los datos por lotes usando el número de fila
            df_batch_spark = df_spark.filter((col("id") >= start) & (col("id") < start + batch_size))
            df_batch = df_batch_spark.select("content").toPandas()
            
            # Aplicar la función de extracción de emojis a cada contenido de tweet
            for content in df_batch['content']:
                diccionario_emojis = extraer_emojis(content, diccionario_emojis)

        # Limpiar el diccionario de caracteres no deseados
        caracteres_no_deseados = ['🏻', '🏽']
        for caracter in caracteres_no_deseados:
            diccionario_emojis.pop(caracter, None)

        # Convertir diccionario a DataFrame y asegurarse de que la columna 'count' sea de tipo int
        df_emojis = pd.DataFrame(diccionario_emojis.items(), columns=['emoji', 'count'])
        df_emojis['count'] = df_emojis['count'].astype(int)
        
        # Ordenar y obtener los top 10 emojis
        top_10_emojis = df_emojis.nlargest(10, 'count')

        return list(top_10_emojis.itertuples(index=False, name=None))

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []




### Resultados:

In [0]:

print('resultados:')
print('q2_time:')
result = q2_time("/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print(result)
print('---')
print('q2_memory:')
result = q2_memory("/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print(result)

### Evaluación

In [0]:
evaluate_function(q2_time, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print('----------')
evaluate_function(q2_memory, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")

## Comparación de Desempeño Q2

### Resumen

- **q2_time**: Optimiza el tiempo de ejecución utilizando operaciones eficientes con pandas.
- **q2_memory**: Intento fallido de optimizar el uso de memoria procesando los datos en lotes pequeños.

### Comparación de Desempeño

| Aspecto           | `q2_time`                     | `q2_memory`                   |
|-------------------|-------------------------------|-------------------------------|
| **Tiempo**        | 9.94 segundos                 | 48.41 segundos                |
| **Memoria pico**  | 49.48 MiB                     | 1.52 MiB                      |
| **Memoria promedio** | 215.38 MiB                  | 208.66 MiB                    |
| **Máximo uso de memoria en intervalos** | 253.81 MiB | 209.93 MiB |
| **Promedio de uso de memoria en intervalos** | 215.38 MiB | 208.66 MiB |

### Explicación

- **q2_time**:
  - **Tiempo de ejecución**: 9.94 segundos
  - **Motivo**: Esta función es más rápida porque utiliza pandas para procesar los datos de una vez, aprovechando la eficiencia de las operaciones vectorizadas. La extracción de emojis se realiza en una sola pasada sobre los datos, lo que minimiza el tiempo total de ejecución.

- **q2_memory**:
  - **Tiempo de ejecución**: 48.41 segundos
  - **Motivo**: Esta función intentó optimizar el uso de memoria procesando los datos en lotes pequeños y utilizando particiones en Spark. Sin embargo, debido a errores en el procesamiento por lotes, no se logró una mejora significativa en el uso de memoria. A pesar de esto, la función mantuvo un uso de memoria promedio más bajo, pero a costa de un tiempo de ejecución considerablemente mayor, pero el resultado se vio afectado por tanto necesitaria mas tiempo para mejorar esto.




%md
---


---

---

## q3: Top 10 usuarios más influyentes en función de menciones

### Lo que se pedía
Implementar dos funciones:
- `q3_time(file_path: str) -> List[Tuple[str, int]]`: Optimizada para el tiempo de ejecución.
- `q3_memory(file_path: str) -> List[Tuple[str, int]]`: Optimizada para el uso de memoria.

Las funciones deben retornar una lista de tuplas con el usuario y el conteo de menciones.



### Lo que se realizó
- **q3_time**: Función optimizada para el tiempo de ejecución.
  - **Código**:
    ```python
    def q3_time(file_path: str) -> List[Tuple[str, int]]:
        # Código implementado...
    ```

- **q3_memory**: Función optimizada para el uso de memoria.
  - **Código**:
    ```python
    def q3_memory(file_path: str) -> List[Tuple[str, int]]:
        # Código implementado...
    ```

In [0]:

import pandas as pd
from pyspark.sql import SparkSession
from typing import List, Tuple
import time

# Inicializar Spark
spark = SparkSession.builder.appName("MentionExtractor").getOrCreate()


def q3_time(file_path: str) -> List[Tuple[str, int]]:
    """
    Extrae y cuenta las menciones más frecuentes en los tweets.
    Optimiza el tiempo de ejecución utilizando operaciones eficientes con pandas.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.

    Returns:
    List[Tuple[str, int]]: Lista de tuplas con los usuarios y la frecuencia de menciones.
    """
    try:
    
        # Leer los datos con Spark
        df_spark = spark.read.json(file_path)
        
        # Convertir a pandas
        df = df_spark.select("mentionedUsers").toPandas()

        # Inicializar una lista para almacenar las menciones
        mentions_list = []

        # Recorrer todos los registros de 'mentionedUsers'
        for index, row in df.iterrows():
            mentioned_users = row['mentionedUsers']
            if mentioned_users:
                for user in mentioned_users:
                    mentions_list.append(user['username'])

        # Crear un DataFrame de pandas con las menciones
        mentions_df = pd.DataFrame(mentions_list, columns=['username'])

        # Contar las menciones por usuario
        mention_counts = mentions_df['username'].value_counts().reset_index()
        mention_counts.columns = ['username', 'count']

        # Obtener los 10 usuarios más mencionados
        top_mentions = mention_counts.head(10)

        # Convertir el DataFrame de top menciones a una lista de tuplas
        top_mentions_list = list(top_mentions.itertuples(index=False, name=None))

        return top_mentions_list

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []





In [0]:
import pandas as pd
from pyspark.sql import SparkSession
from typing import List, Tuple

# Inicializar Spark
spark = SparkSession.builder.appName("MentionExtractor").getOrCreate()

def chunk_list(lst, chunk_size):
    """Dividir una lista en partes de tamaño chunk_size"""
    for i in range(0, len(lst), chunk_size):
        yield lst[i:i + chunk_size]

def q3_memory(file_path: str, chunk_size: int = 10000) -> List[Tuple[str, int]]:
    """
    Extrae y cuenta las menciones más frecuentes en los tweets.
    Optimiza el uso de memoria utilizando operaciones eficientes con pandas y procesamiento por chunks.

    Args:
    file_path (str): Ruta al archivo JSON de tweets.
    chunk_size (int): Tamaño del chunk para procesamiento de datos.

    Returns:
    List[Tuple[str, int]]: Lista de tuplas con los usuarios y la frecuencia de menciones.
    """
    try:
        # Leer los datos con Spark
        df_spark = spark.read.json(file_path)
        
        # Convertir a pandas
        df = df_spark.select("mentionedUsers").toPandas()

        # Inicializar una lista para almacenar las menciones
        mentions_list = []

        # Recorrer todos los registros de 'mentionedUsers'
        for index, row in df.iterrows():
            mentioned_users = row['mentionedUsers']
            if mentioned_users:
                for user in mentioned_users:
                    mentions_list.append(user['username'])

        # Crear un DataFrame vacío para acumular resultados
        all_mentions_df = pd.DataFrame(columns=['username'])

        # Procesar la lista de menciones por chunks
        for chunk in chunk_list(mentions_list, chunk_size):
            chunk_df = pd.DataFrame(chunk, columns=['username'])
            chunk_df['username'] = chunk_df['username'].astype('category')
            
            # Contar las menciones por usuario en el chunk
            chunk_mention_counts = chunk_df['username'].value_counts().reset_index()
            chunk_mention_counts.columns = ['username', 'count']
            
            # Agregar los resultados al DataFrame acumulativo
            all_mentions_df = pd.concat([all_mentions_df, chunk_mention_counts], ignore_index=True)
        
        # Agrupar y sumar los conteos finales
        final_mention_counts = all_mentions_df.groupby('username')['count'].sum().reset_index()
        
        # Obtener los 10 usuarios más mencionados
        top_mentions = final_mention_counts.nlargest(10, 'count')

        # Convertir el DataFrame de top menciones a una lista de tuplas
        top_mentions_list = list(top_mentions.itertuples(index=False, name=None))

        return top_mentions_list

    except Exception as e:
        print(f"Error al procesar el archivo JSON: {e}")
        return []



### Resultados:

In [0]:

print(q3_time('/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json'))
print('------')
print(q3_memory('/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json'))


### Evaluación:

In [0]:
evaluate_function(q3_time, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")
print('----------')
evaluate_function(q3_memory, "/mnt/landing/fuentesexternas/test/tamla/farmers-protest-tweets-2021-2-4.json")

## Comparación de Desempeño Q3

### Resumen

- **q3_time**: Optimiza el tiempo de ejecución utilizando operaciones eficientes con pandas.
- **q3_memory**: Intento de optimizar el uso de memoria procesando los datos en lotes pequeños. Sin embargo, los tiempos de ejecución son casi idénticos.

### Comparación de Desempeño

| Aspecto           | `q3_time`                     | `q3_memory`                   |
|-------------------|-------------------------------|-------------------------------|
| **Tiempo**        | 13.81 segundos                | 14.03 segundos                |
| **Memoria pico**  | 49.87 MiB                     | 44.99 MiB                     |
| **Memoria promedio** | 231.84 MiB                 | 235.74 MiB                    |
| **Máximo uso de memoria en intervalos** | 252.07 MiB | 252.06 MiB |
| **Promedio de uso de memoria en intervalos** | 231.84 MiB | 235.74 MiB |

### Explicación

- **q3_time**:
  - **Tiempo de ejecución**: 13.81 segundos
  - **Motivo**: Esta función es más rápida porque utiliza pandas para procesar los datos de una vez, aprovechando la eficiencia de las operaciones vectorizadas. La extracción de menciones se realiza en una sola pasada sobre los datos, lo que minimiza el tiempo total de ejecución.

- **q3_memory**:
  - **Tiempo de ejecución**: 14.03 segundos
  - **Motivo**: Esta función intentó optimizar el uso de memoria procesando los datos en lotes pequeños y utilizando particiones en Spark. Sin embargo, debido a la naturaleza del procesamiento, los tiempos de ejecución resultaron ser casi idénticos a `q3_time`. Aunque se intentó reducir el uso de memoria, el impacto no fue significativo en comparación con `q3_time`.

En resumen, ambos métodos tienen tiempos de ejecución muy similares, y el intento de optimizar la memoria en `q3_memory` no mostró una mejora considerable en comparación con `q3_time`.


### Palabras Finales

Lamento que algunos de los ejercicios realizados puedan parecer poco concluyentes. Me enfoqué inicialmente en encontrar la forma más eficiente de resolver el problema. Una vez que logré una solución óptima en términos de rendimiento, me dediqué a optimizarla en términos de uso de memoria. Este proceso me tomó mucho tiempo, y debido a mi carga laboral, no pude lograr la optimización completa en el tiempo disponible.

Finalmente, decidí presentar una versión optimizada para casos en los que se presenten problemas de memoria.

El desafío fue excepcional.
