# Data Engineer Challenge

En este desaf√≠o, vamos a realizar un an√°lisis de datos sobre un conjunto de tweets relacionados con las protestas de agricultores. Utilizaremos Python y algunas herramientas como para el desarrollo como `unittest`, `cProfile`, `memory_profiler` y `Jupyter Notebook` para llevar a cabo este an√°lisis.

## - Preparaci√≥n del entorno

A nivel local se crea un repositorio en gitHub entorno virtual que sirven para el inicio del desarrollo.

## Instalaci√≥n de los requerimientos:   

Dentro del entorno virtual o el Jupyter Notebook se instalan los paquetes requeridos desde requirements.txt

In [None]:
# Instalar los paquetes desde requirements.txt
!pip install -r https://raw.githubusercontent.com/eLgRuNgE/challenge_DE/develop/requirements.txt

Collecting emoji==2.10.1 (from -r https://raw.githubusercontent.com/eLgRuNgE/challenge_DE/develop/requirements.txt (line 1))
  Downloading emoji-2.10.1-py2.py3-none-any.whl (421 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m421.5/421.5 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting memory-profiler==0.61.0 (from -r https://raw.githubusercontent.com/eLgRuNgE/challenge_DE/develop/requirements.txt (line 2))
  Downloading memory_profiler-0.61.0-py3-none-any.whl (31 kB)
Collecting psutil==5.9.8 (from -r https://raw.githubusercontent.com/eLgRuNgE/challenge_DE/develop/requirements.txt (line 3))
  Downloading psutil-5.9.8-cp36-abi3-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (288 kB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m288.2/28

Se cargan los datos desde JSON

In [3]:
import zipfile
import io
import requests

# URL del archivo ZIP
url = "https://raw.githubusercontent.com/eLgRuNgE/challenge_DE/develop/data/tweets.json.zip"

# Descargar el archivo ZIP
response = requests.get(url)
zip_file = zipfile.ZipFile(io.BytesIO(response.content))

# Obtengo el archivo requerido
target_file_name = "farmers-protest-tweets-2021-2-4.json"
zip_file.extract(target_file_name)

# Ahora `target_file_name` est√° disponible en el directorio actual de Colab
test_file_path = target_file_name

# **Reto Q1**

Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as. Debe incluir las siguientes funciones:

```python
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
Returns:
[(datetime.date(1999, 11, 15), "LATAM321"), (datetime.date(1999, 7, 15), "LATAM_CHI"), ...]
```

# **Q1 Enfoque 1:** Optimizaci√≥n del tiempo de ejecuci√≥n.

### ***- Primer intento:*** funci√≥n `q1_time`

La soluci√≥n m√°s obvia a este problema es usar la clase `defaultdict` que se encuentra en el m√≥dulo `collections` de Python. Funciona de manera similar a un diccionario convencional (dict), pero con una diferencia clave: autom√°ticamente crea valores por defecto para claves que a√∫n no est√°n en el diccionario. Esto significa que no es necesario preocuparse por verificar si una clave existe antes de acceder a ella o asignarle un valor.

En esta implementaci√≥n tambi√©n se lee el archivo linea por linea para mejorar el uso de memoria y no cargar todo el archivo json en memoria.


***Descripci√≥n detallada:***

***1.   Lectura del archivo JSON:***
*   La funci√≥n comienza abriendo el archivo JSON especificado en el par√°metro `file_path` en modo de lectura.
*   Luego lee todas las l√≠neas del archivo y carga los datos en una lista de listas.
*   Cada sublista contiene la fecha del tweet y el nombre de usuario del autor del tweet.
*   Estos datos se extraen del JSON utilizando la funci√≥n `json.loads(line)['date'].split('T')[0]` para obtener la fecha y `json.loads(line)['user']['username']` para obtener el nombre de usuario.

***2.   Procesamiento de los datos:***
*   Se utiliza un diccionario para almacenar los pares fecha - usuario y sus respectivos conteos de tweets.
*   Para cada tweet en el archivo, se extrae la fecha y el nombre de usuario.
*   Luego, se actualiza el contador de tweets por usuario y fecha en el diccionario.

***3.   Determinaci√≥n de las fechas m√°s comunes:***
*   Utilizando `sorted()` y `key`, se determinan las 10 fechas m√°s comunes en el diccionario.
*   Las fechas se ordenan seg√∫n el n√∫mero total de tweets publicados en cada una de ellas.

***4.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   Para cada una de las fechas m√°s comunes, se determina el usuario m√°s activo.
*   Esto se logra encontrando el usuario con el mayor n√∫mero de tweets para esa fecha en particular.

***5.   Formateo de las fechas:***
*   Las fechas extra√≠das inicialmente est√°n en formato de cadena de texto.
*   Se utilizan para crear objetos datetime.date utilizando la funci√≥n `datetime.strptime()` para convertirlas al formato deseado.

***6.   Agrupaci√≥n de las fechas y usuarios:***
*   Finalmente, se combinan las fechas formateadas y los usuarios m√°s activos en una lista de tuplas.
*   Cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

***7.   Retorno de resultados:***
*   La funci√≥n devuelve la lista de tuplas que contiene las 10 fechas principales con los usuarios m√°s activos para cada una de esas fechas.
*   Esta funci√≥n proporciona una manera eficiente de analizar datos de tweets y obtener informaci√≥n sobre las fechas y usuarios m√°s activos en la plataforma.

In [None]:
import json
from collections import defaultdict
from datetime import datetime
from typing import List, Tuple

def q1_time_attempt_1(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n analiza un archivo JSON que contiene registros de tweets y devuelve las 10 fechas
    m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha
        y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si no se encuentra el archivo especificado en file_path.
    """

    # Paso 1: Lectura del archivo JSON
    dates_dict = defaultdict(lambda: defaultdict(int))

    # Paso 2: Procesamiento de los datos
    with open(file_path, 'r') as data:
        for line_data in data:
            tweet = json.loads(line_data)
            tweet_date = tweet['date'].split('T')[0]
            username = tweet['user']['username']

            # Actualizaci√≥n del contador de tweets por usuario y fecha
            dates_dict[tweet_date][username] += 1

    # Paso 3: Determinaci√≥n de las fechas m√°s comunes
    top_dates = sorted(dates_dict.keys(), key=lambda x: sum(dates_dict[x].values()), reverse=True)[:10]

    # Paso 4: Obtenci√≥n del usuario m√°s activo por fecha
    top_users = [max(dates_dict[date], key=dates_dict[date].get) for date in top_dates]

    # Paso 5: Formateo de las fechas
    top_dates = [datetime.strptime(date_str, "%Y-%m-%d").date() for date_str in top_dates]

    # Paso 6: Agrupaci√≥n de las fechas y usuarios
    result = list(zip(top_dates, top_users))

    return result

### ***- Segundo intento:*** funci√≥n `q1_time`

La funci√≥n `q1_time` procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

***Descripci√≥n detallada:***

***1.   Obtenci√≥n de los datos de fecha y usuario:***
*   Primero se guardan los datos de fecha y nombre de usuario en una lista de listas, para poder contarlos correctamente.
*   Se abre el archivo especificado en `file_path` y se lee l√≠nea por l√≠nea.
*   Los datos se almacenan en una lista donde cada elemento es otra lista que contiene la fecha del tweet y el nombre de usuario del autor.

***2.   Determinaci√≥n de las fechas m√°s comunes:***
*   Se utiliza la clase `Counter()` junto con list comprehension para obtener las 10 fechas m√°s comunes de todos los tweets.
*   Se cuentan las ocurrencias de cada fecha en la lista de datos y se obtienen las 10 fechas m√°s comunes utilizando el m√©todo `most_common(10)`.

***3.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   De manera similar, se obtiene el usuario que m√°s tweete√≥ para cada una de las fechas m√°s comunes.
*   Se filtran los datos para cada fecha com√∫n y se cuentan las ocurrencias de cada usuario.
*   Se selecciona el usuario con mayor cantidad de tweets para cada fecha com√∫n.

***4.   Formateo de las fechas y agrupaci√≥n con los usuarios:***
*   Se utilizan las fechas obtenidas anteriormente y se las convierte al formato `datetime.date` utilizando la funci√≥n `datetime.strptime()`.
*   Se combinan las fechas formateadas y los usuarios m√°s activos en una lista de tuplas.

***5.   Retorno de resultados:***
*   La funci√≥n devuelve la lista de tuplas que contiene las 10 fechas principales con los usuarios m√°s activos para cada una de esas fechas.


In [None]:
import json
from collections import Counter
from datetime import datetime
from typing import List, Tuple

def q1_time_attempt_2(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """
    # Paso 1: Obtenci√≥n de los datos de fecha y usuario
    with open(file_path, 'r') as data:
        tweets_dates_users = [[json.loads(line)['date'].split('T')[0], json.loads(line)['user']['username']] for line in data.readlines()]

    # Paso 2: Determinaci√≥n de las fechas m√°s comunes
    most_common_dates = Counter([d[0] for d in tweets_dates_users]).most_common(10)

    # Paso 3: Obtenci√≥n del usuario m√°s activo para cada fecha m√°s com√∫n
    most_common_users = [Counter([d[1] for d in tweets_dates_users if d[0] == date[0]]).most_common(1)[0][0] for date in most_common_dates]

    # Paso 4: Formateo de las fechas y agrupaci√≥n con los usuarios
    result = list(zip([datetime.strptime(date[0], "%Y-%m-%d").date() for date in most_common_dates], most_common_users))

    # Paso 5: Retorno de resultados
    return result

### ***- Intento Final:*** funci√≥n `q1_time`


En este intento no se almacenan los datos directamente en una lista donde cada elemento es otra lista que contiene la fecha del tweet y el nombre de usuario del autor. Tampoco se utiliza la clase Counter para optimizar la ejecuci√≥n de la funci√≥n `q1_time`.

***Descripci√≥n detallada:***

***1.   Obtenci√≥n de los datos de fecha y usuario:***
*   Primero se leen todas las l√≠neas del archivo JSON especificado en el par√°metro `file_path`.
*   Los datos se almacenan en una lista de listas, donde cada sublista contiene la fecha del tweet y el nombre de usuario del autor.

***2.   Determinaci√≥n de las fechas m√°s comunes:***
*   Se cuenta la frecuencia de cada fecha en la lista de datos para obtener las 10 fechas m√°s comunes.
*   No se utiliza la clase `Counter` para optimizar el c√≥digo y se realiza el conteo manualmente.

***3.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   Para cada una de las fechas m√°s comunes, se filtran los datos y se cuentan las ocurrencias de cada usuario.
*   Se selecciona el usuario con mayor cantidad de tweets para cada fecha com√∫n.

***4.   Formateo de las fechas y agrupaci√≥n con los usuarios:***
*   Se utilizan las fechas obtenidas anteriormente y se las convierte al formato `datetime.date` utilizando la funci√≥n `datetime.strptime()`.
*   Se combinan las fechas formateadas y los usuarios m√°s activos en una lista de tuplas.

***5.   Retorno de resultados:***
*   La funci√≥n devuelve la lista de tuplas que contiene las 10 fechas principales con los usuarios m√°s activos para cada una de esas fechas.


In [None]:
import json
from datetime import datetime
from typing import List, Tuple

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """
    # Paso 1: Obtenci√≥n de los datos de fecha y usuario
    tweets_dates_users = []
    with open(file_path, 'r') as data:
        for line in data.readlines():
            tweet = json.loads(line)
            tweet_date = tweet['date'].split('T')[0]
            username = tweet['user']['username']
            tweets_dates_users.append((tweet_date, username))

    # Paso 2: Determinaci√≥n de las fechas m√°s comunes
    date_counts = {}
    for tweet_date, _ in tweets_dates_users:
        if tweet_date in date_counts:
            date_counts[tweet_date] += 1
        else:
            date_counts[tweet_date] = 1
    most_common_dates = sorted(date_counts.items(), key=lambda x: x[1],
                               reverse=True)[:10]

    # Paso 3: Obtenci√≥n del usuario m√°s activo para cada fecha m√°s com√∫n
    most_common_users = []
    for date, _ in most_common_dates:
        user_counts = {}
        for tweet_date, username in tweets_dates_users:
            if tweet_date == date:
                if username in user_counts:
                    user_counts[username] += 1
                else:
                    user_counts[username] = 1
        most_common_user = max(user_counts, key=user_counts.get)
        most_common_users.append(most_common_user)

    # Paso 4: Formateo de las fechas y agrupaci√≥n con los usuarios
    result = [(datetime.strptime(date[0], "%Y-%m-%d").date(), user)
                for date, user in zip(most_common_dates, most_common_users)]

    # Paso 5: Retorno de resultados
    return result

## - Pruebas y Ejecuci√≥n de la funci√≥n `q1_time`

De acuerdo a la documentaci√≥n, para medir el tiempo de ejecuci√≥n se recomienda el uso de [py-spy](https://github.com/benfred/py-spy) o [Python Profilers](https://docs.python.org/3/library/profile.html) sin embargo el uso de estas herramientas para una sola funci√≥n lo considero engorroso ya que solo requiero medir el tiempo que tarda en ejecutarse la funcion `q1_time`.

***1. Medici√≥n de tiempo:***

Dada la explicaci√≥n anterior, para la medici√≥n del tiempo de ejecuci√≥n de `q1_time` solamente utilizo la funci√≥n `time` nativa de Phyton para tomar un tiempo de inicio antes de la ejecuci√≥n de la funci√≥n y un tiempo final una vez culmina su ejecuci√≥n luego calculo la diferencia entre ambos y obtengo la medici√≥n de tiempo requerida.

***2. Ejecuci√≥n de q1_time:***

Se realiza la ejecici√≥n de de `q1_time` con `test_file_path` como argumento (base de datos) y se imprime su resultado.

***3. Impresi√≥n de resultado "Humanizado":***

Se imprime el mismo resultado anterior organizando la informaci√≥n para que resulta m√°s facil de comprender.

In [None]:
import time

# Medir el tiempo de ejecuci√≥n de q1_time_attempt_1
start_time = time.time()
q1_time_attempt_1(test_file_path)
end_time = time.time()
# Calcular el tiempo de ejecuci√≥n
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n de q1_time_attempt_1: {execution_time} s \n")

# Medir el tiempo de ejecuci√≥n de q1_time_attempt_2
start_time = time.time()
q1_time_attempt_2(test_file_path)
end_time = time.time()
# Calcular el tiempo de ejecuci√≥n
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n de q1_time_attempt_2: {execution_time} s \n")

# Medir el tiempo de ejecuci√≥n de q1_time
start_time = time.time()
results = q1_time(test_file_path)
end_time = time.time()
# Calcular el tiempo de ejecuci√≥n
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n de q1_time: {execution_time} s \n")

# Imprimir los resultados obtenidos
print("Resultados obtenidos:")
print(results, "\n")

print("Resultados humanizados:")
for i, (date, username) in enumerate(results, start=1):
    print(f"{i}. Fecha: {date}, Usuario con m√°s publicaciones: {username}")

Tiempo de ejecuci√≥n de q1_time_attempt_1: 7.153099298477173 s 

Tiempo de ejecuci√≥n de q1_time_attempt_2: 9.681710720062256 s 

Tiempo de ejecuci√≥n de q1_time: 7.5432960987091064 s 

Resultados obtenidos:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')] 

Resultados humanizados:
1. Fecha: 2021-02-12, Usuario con m√°s publicaciones: RanbirS00614606
2. Fecha: 2021-02-13, Usuario con m√°s publicaciones: MaanDee08215437
3. Fecha: 2021-02-17, Usuario con m√°s publicaciones: RaaJVinderkaur
4. Fecha: 2021-02-16, Usuario con m√°s publicaciones: jot__b
5. Fecha: 2021-02-14, Usuario con m√°s

# **Q1 Enfoque 2:** Optimizaci√≥n de la memoria en uso.

###***- Primer intento:*** funci√≥n `q1_memory`

La funci√≥n `q1_memory` procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

En este primer intento no voy a usar librerias adicionales, utilizo simplemente un diccionario est√°ndar `dates_dict` de Python para ir recolectando fechas y usuarios junto con el m√©todo `setdefault()`.

La funci√≥n `q1_memory_attemp_1` procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

***Descripci√≥n detallada:***

***1.   Inicializaci√≥n del diccionario de fechas y usuarios:***
*   Se crea un diccionario llamado `dates_dict` para almacenar los pares de fecha-usuario y contar la cantidad de tweets por usuario en cada fecha.

***2.   Procesamiento de los datos:***
*   Se abre el archivo especificado en `file_path` en modo de lectura y se procesa l√≠nea por l√≠nea.
*   Para cada l√≠nea, se carga el JSON y se extraen la fecha y el nombre de usuario del tweet.
*   Se actualiza el contador de tweets por usuario y fecha en el diccionario `dates_dict`.

***3.   Ordenamiento de las fechas seg√∫n la cantidad total de tweets:***
*   Se obtienen las fechas m√°s comunes ordenando el diccionario `dates_dict` seg√∫n la suma de los valores (n√∫mero de tweets) de cada fecha.

***4.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   Para cada fecha m√°s com√∫n, se obtiene el usuario m√°s activo (el que m√°s tweets ha realizado) utilizando el m√©todo `max`.

***5.   Formateo de las fechas:***
*   Las fechas extra√≠das inicialmente est√°n en formato de cadena de texto. Se utilizan para crear objetos `datetime.date` utilizando la funci√≥n `datetime.strptime()` para convertirlas al formato deseado.

***6.   Retorno de resultados:***
*   La funci√≥n devuelve una lista de tuplas, donde cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

Esta implementaci√≥n proporciona una manera eficiente de analizar datos de tweets y obtener informaci√≥n sobre las fechas y usuarios m√°s activos en la plataforma.


In [None]:
import json
from datetime import datetime
from typing import List, Tuple

def q1_memory_attempt_1(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """
    # Paso 1: Inicializaci√≥n del diccionario de fechas y usuarios
    dates_dict = {}

    # Paso 2: Procesamiento de los datos
    with open(file_path, 'r') as data:
        for line_data in data:
            tweet = json.loads(line_data)
            tweet_date = tweet['date'].split('T')[0]
            username = tweet['user']['username']

            # Paso 3: Actualizaci√≥n del contador de tweets por usuario y fecha
            if tweet_date not in dates_dict:
                dates_dict[tweet_date] = {}

            dates_dict[tweet_date].setdefault(username, 0)
            dates_dict[tweet_date][username] += 1

    # Paso 4: Ordenamiento de las fechas seg√∫n la cantidad total de tweets
    top_dates = sorted(dates_dict.keys(), key=lambda x: sum(dates_dict[x].values()), reverse=True)[:10]

    # Paso 5: Obtenci√≥n del usuario m√°s activo por fecha
    top_users = [max(dates_dict[date], key=dates_dict[date].get) for date in top_dates]

    # Paso 6: Formateo de las fechas
    top_dates = [datetime.strptime(date_str, "%Y-%m-%d").date() for date_str in top_dates]

    # Paso 7: Retorno de resultados
    return list(zip(top_dates, top_users))

###***- Segundo intento:*** funci√≥n `q1_memory`

En este otro intento, se proporciona una manera eficiente de analizar datos de tweets y obtener informaci√≥n sobre las fechas y usuarios m√°s activos en la plataforma.

La gran diferencia con el anterior es que al realizar la lectura del archivo, los datos se almacenan en una lista donde cada elemento es otra lista que contiene la fecha del tweet y el nombre de usuario del autor.

***Descripci√≥n detallada:***

***1.   Lectura del archivo JSON:***
*   La funci√≥n comienza abriendo el archivo JSON especificado en el par√°metro `file_path` en modo de lectura.
*   Lee l√≠nea por l√≠nea del archivo y carga los datos en un diccionario donde cada clave es la fecha del tweet y el valor es otro diccionario que almacena los usuarios y sus respectivos conteos de tweets.

***2.   Procesamiento de los datos:***
*   Para cada l√≠nea en el archivo, se extrae la fecha del tweet y el nombre de usuario del autor.
*   Se actualiza el contador de tweets por usuario y fecha en el diccionario utilizando `setdefault()`.

***3.   Determinaci√≥n de las fechas m√°s comunes:***
*   Las fechas se ordenan seg√∫n el n√∫mero total de tweets publicados en cada una de ellas, utilizando `sorted()` y una funci√≥n `key`.

***4.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   Para cada una de las fechas m√°s comunes, se determina el usuario m√°s activo encontrando el usuario con el mayor n√∫mero de tweets para esa fecha en particular.

***5.   Formateo de las fechas:***
*   Las fechas extra√≠das inicialmente est√°n en formato de cadena de texto.
*   Se utilizan para crear objetos `datetime.date` utilizando la funci√≥n `datetime.strptime()` para convertirlas al formato deseado.

***6.   Agrupaci√≥n de las fechas y usuarios:***
*   Se combinan las fechas formateadas y los usuarios m√°s activos en una lista de tuplas.
*   Cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

***7.   Retorno de resultados:***
*   La funci√≥n devuelve la lista de tuplas que contiene las 10 fechas principales con los usuarios m√°s activos para cada una de esas fechas.

In [None]:
import json
from datetime import datetime
from typing import List, Tuple

def q1_memory_attempt_2(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve las 10 fechas m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """
    # Paso 1: Inicializaci√≥n del diccionario de fechas y usuarios
    dates_dict = {}

    # Paso 2: Procesamiento de los datos
    with open(file_path, 'r') as data:
        tweets_dates_users = [[json.loads(line)['date'].split('T')[0], json.loads(line)['user']['username']] for line in data.readlines()]

    for tweet_date, username in tweets_dates_users:
        # Paso 3: Actualizaci√≥n del contador de tweets por usuario y fecha
        if tweet_date not in dates_dict:
            dates_dict[tweet_date] = {}
        dates_dict[tweet_date][username] = dates_dict[tweet_date].get(username, 0) + 1

    # Paso 4: Ordenamiento de las fechas seg√∫n la cantidad total de tweets
    top_dates = sorted(dates_dict.keys(), key=lambda x: sum(dates_dict[x].values()), reverse=True)[:10]

    # Paso 5: Obtenci√≥n del usuario m√°s activo por fecha
    top_users = [max(dates_dict[date], key=dates_dict[date].get) for date in top_dates]

    # Paso 6: Formateo de las fechas
    top_dates = [datetime.strptime(date_str, "%Y-%m-%d").date() for date_str in top_dates]

    # Paso 7: Retorno de resultados
    return list(zip(top_dates, top_users))

###***- Intento definitivo:*** funci√≥n `q1_memory`

Luego de intentar con los diccionarios est√°ndar de Python, la soluci√≥n m√°s obvia a este problema es usar la clase `defaultdict` que se encuentra en el m√≥dulo `collections` de Python. Funciona de manera similar a un diccionario convencional (dict), pero con una diferencia clave: autom√°ticamente crea valores por defecto para claves que a√∫n no est√°n en el diccionario. Esto significa que no es necesario preocuparse por verificar si una clave existe antes de acceder a ella o asignarle un valor.

En esta implementaci√≥n tambi√©n se lee el archivo linea por linea para mejorar el uso de memoria y no cargar todo el archivo json en memoria.


***Descripci√≥n detallada:***

***1.   Lectura del archivo JSON:***
*   La funci√≥n comienza abriendo el archivo JSON especificado en el par√°metro `file_path` en modo de lectura.
*   Luego lee todas las l√≠neas del archivo y carga los datos en una lista de listas.
*   Cada sublista contiene la fecha del tweet y el nombre de usuario del autor del tweet.
*   Estos datos se extraen del JSON utilizando la funci√≥n `json.loads(line)['date'].split('T')[0]` para obtener la fecha y `json.loads(line)['user']['username']` para obtener el nombre de usuario.

***2.   Procesamiento de los datos:***
*   Se utiliza un diccionario para almacenar los pares fecha - usuario y sus respectivos conteos de tweets.
*   Para cada tweet en el archivo, se extrae la fecha y el nombre de usuario.
*   Luego, se actualiza el contador de tweets por usuario y fecha en el diccionario.

***3.   Determinaci√≥n de las fechas m√°s comunes:***
*   Utilizando `sorted()` y `key`, se determinan las 10 fechas m√°s comunes en el diccionario.
*   Las fechas se ordenan seg√∫n el n√∫mero total de tweets publicados en cada una de ellas.

***4.   Obtenci√≥n del usuario m√°s activo por fecha:***
*   Para cada una de las fechas m√°s comunes, se determina el usuario m√°s activo.
*   Esto se logra encontrando el usuario con el mayor n√∫mero de tweets para esa fecha en particular.

***5.   Formateo de las fechas:***
*   Las fechas extra√≠das inicialmente est√°n en formato de cadena de texto.
*   Se utilizan para crear objetos datetime.date utilizando la funci√≥n `datetime.strptime()` para convertirlas al formato deseado.

***6.   Agrupaci√≥n de las fechas y usuarios:***
*   Finalmente, se combinan las fechas formateadas y los usuarios m√°s activos en una lista de tuplas.
*   Cada tupla contiene una fecha y el usuario m√°s activo para esa fecha.

***7.   Retorno de resultados:***
*   La funci√≥n devuelve la lista de tuplas que contiene las 10 fechas principales con los usuarios m√°s activos para cada una de esas fechas.
*   Esta funci√≥n proporciona una manera eficiente de analizar datos de tweets y obtener informaci√≥n sobre las fechas y usuarios m√°s activos en la plataforma.

In [None]:
import json
from collections import defaultdict
from datetime import datetime
from typing import List, Tuple

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n analiza un archivo JSON que contiene registros de tweets y devuelve las 10 fechas
    m√°s comunes junto con el usuario m√°s activo para cada fecha.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los registros de tweets.

    Returns:
        List[Tuple[datetime.date, str]]: Una lista de tuplas, donde cada tupla contiene una fecha
        y el usuario m√°s activo para esa fecha.

    Raises:
        FileNotFoundError: Si no se encuentra el archivo especificado en file_path.
    """

    # Paso 1: Lectura del archivo JSON
    dates_dict = defaultdict(lambda: defaultdict(int))

    # Paso 2: Procesamiento de los datos
    with open(file_path, 'r') as data:
        for line_data in data:
            tweet = json.loads(line_data)
            tweet_date = tweet['date'].split('T')[0]
            username = tweet['user']['username']

            # Actualizaci√≥n del contador de tweets por usuario y fecha
            dates_dict[tweet_date][username] += 1

    # Paso 3: Determinaci√≥n de las fechas m√°s comunes
    top_dates = sorted(dates_dict.keys(), key=lambda x: sum(dates_dict[x].values()), reverse=True)[:10]

    # Paso 4: Obtenci√≥n del usuario m√°s activo por fecha
    top_users = [max(dates_dict[date], key=dates_dict[date].get) for date in top_dates]

    # Paso 5: Formateo de las fechas
    top_dates = [datetime.strptime(date_str, "%Y-%m-%d").date() for date_str in top_dates]

    # Paso 6: Agrupaci√≥n de las fechas y usuarios
    result = list(zip(top_dates, top_users))

    return result

## - Ejecuto la funci√≥n `q1_memory`

***Medici√≥n de memoria:***

Utilizando memory_profiler para medir el uso de memoria de la funci√≥n `q1_memory`. `memory_usage` devuelve una lista que contiene el uso de memoria en diferentes puntos de la ejecuci√≥n de la funci√≥n. En este caso, se pasa `(q1_memory, (test_file_path,))` como argumento a `memory_usage`, lo que significa que est√°s midiendo el uso de memoria de `q1_memory` con `test_file_path` como argumento (base de datos). Finalmente se imprime el usuo de memoria de `q1_memory`.

***2. Ejecuci√≥n de q1_memory:***

Se realiza la ejecici√≥n de de `q1_memory` con `test_file_path` como argumento (base de datos) y se imprime su resultado.

***3. Impresi√≥n de resultado "Humanizado":***

Se imprime el mismo resultado anterior organizando la informaci√≥n para que resulta m√°s facil de comprender.


In [None]:
import memory_profiler

# Medir el uso de memoria de q1_memory con memory-profiler
mem_usage = memory_profiler.memory_usage((q1_memory, (test_file_path, )))

# Imprimir el uso de memoria
print(f"Uso de memoria de q1_memory: {max(mem_usage)} MB \n")

# Ejecutar q1_memory y obtener los resultados
results = q1_memory(test_file_path)

# Imprimir los resultados obtenidos
print("Resultados obtenidos:")
print(results, "\n")

print("Resultados humanizados:")
for i, (date, username) in enumerate(results, start=1):
    print(f"{i}. Fecha: {date}, Usuario con m√°s publicaciones: {username}")

Uso de memoria de q1_memory: 1015.05078125 MB 

Resultados obtenidos:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')] 

Resultados humanizados:
1. Fecha: 2021-02-12, Usuario con m√°s publicaciones: RanbirS00614606
2. Fecha: 2021-02-13, Usuario con m√°s publicaciones: MaanDee08215437
3. Fecha: 2021-02-17, Usuario con m√°s publicaciones: RaaJVinderkaur
4. Fecha: 2021-02-16, Usuario con m√°s publicaciones: jot__b
5. Fecha: 2021-02-14, Usuario con m√°s publicaciones: rebelpacifist
6. Fecha: 2021-02-18, Usuario con m√°s publicaciones: neetuanjle_nitu
7. Fecha: 2021-02-15, Usuario con m√°s

Luego de todas las pruebas, para este punto en el que se prioriza el uso de memoria, se opta por dejar la implementaci√≥n de `q1_memory` con la implementaci√≥n que usa `defaultdict` y la lectura del json linea por linea, ya que es la que mejores resultados arroja.

# **Reto Q2**

Los top 10 emojis m√°s usados con su respectivo conteo. Debe incluir las siguientes funciones:
```python
def q2_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns:
[("‚úàÔ∏è", 6856), ("‚ù§Ô∏è", 5876), ...]
```

# **Q2 Enfoque 1:** Optimizaci√≥n del tiempo de ejecuci√≥n.

### ***- Primer intento:*** funci√≥n `q2_time_attempt_1`

En este intento lo que hago es buscar los emojis mapeando los caracteres y usando un diccionario est√°ndar para contar la frecuencia de cada emoji. Aca se utiliza el m√©todo `json.load(f)` para cargar todos los tweets del archivo JSON en una lista de diccionarios.



#### Descripci√≥n detallada:

1. **Inicializaci√≥n del diccionario de conteo de emojis:**
   - Se crea un diccionario vac√≠o llamado `emoji_counts` para almacenar la frecuencia de cada emoji.

2. **Lectura del archivo JSON y procesamiento de los tweets:**
   - Se abre el archivo JSON especificado en modo de lectura.
   - Se leen todos los tweets de una vez y se almacenan en la lista `tweets`.
   
3. **Obtenci√≥n del contenido de los tweets en un gran string:**
   - Se inicializa una cadena vac√≠a llamada `tweets_content` para almacenar el contenido de todos los tweets.
   - Se itera sobre cada tweet en la lista `tweets`, se carga el contenido del tweet como un diccionario JSON y se agrega el contenido al string `tweets_content`.

4. **B√∫squeda de emojis en el gran string:**
   - Se recorre cada caracter del string `tweets_content` y se verifica si es un emoji v√°lido utilizando la funci√≥n `map(chr, range(128, 1024))`.
   - Los emojis v√°lidos encontrados se agregan a la lista `all_emojis`.
   
5. **Conteo de la frecuencia de cada emoji:**
   - Se itera sobre cada emoji en la lista `all_emojis`.
   - Se actualiza el diccionario `emoji_counts` con la frecuencia de cada emoji.
   
6. **Obtenci√≥n de los 10 emojis m√°s utilizados:**
   - Se ordena el diccionario `emoji_counts` seg√∫n el valor de frecuencia de los emojis en orden descendente.
   - Se seleccionan los 10 emojis m√°s utilizados y se devuelven en una lista de tuplas.

7. **Retorno de resultados:**
   - La funci√≥n devuelve una lista de tuplas que contiene los 10 emojis m√°s utilizados junto con su respectivo conteo de ocurrencias.


In [None]:
import json
from typing import List, Tuple

def q2_time_attempt_1(file_path: str) -> List[Tuple[str, int]]:
    """
    Encuentra los 10 emojis m√°s utilizados en los tweets presentes en el archivo JSON especificado,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): Ruta al archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados, cada una con su respectivo conteo de ocurrencias.
    """
    # Paso 1: Inicializaci√≥n de un diccionario para contar la frecuencia de cada emoji
    emoji_counts = {}

    # Paso 2: Lectura del archivo JSON y procesamiento de los tweets
    with open(file_path, 'r') as data:
        # Paso 3: Se obtienen todos los objetos de tweets de una vez
        tweets = data.readlines()

    # Paso 4: Se obtiene un gran string que contiene todos los contenidos de los tweets
    tweets_content = ""
    for tweet in tweets:
        tweets_content += json.loads(tweet)['content']

    # Paso 5: Obtenci√≥n de todos los emojis presentes en el gran string
    all_emojis = [char for char in tweets_content if char in ' '.join(map(chr, range(128, 1024)))]

    # Paso 6: Conteo de la frecuencia de cada emoji y actualizaci√≥n del diccionario de conteo
    for emoji in all_emojis:
        emoji_counts[emoji] = emoji_counts.get(emoji, 0) + 1

    # Paso 7: Obtenci√≥n de los 10 emojis m√°s utilizados con su respectivo conteo
    top_10_emojis = sorted(emoji_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    return top_10_emojis

### ***- Segundo intento:*** funci√≥n `q2_time`

A diferencia de la implementaci√≥n anterior, en donde busco los emojis comparando si est√°n dentro del rango de c√≥digos Unicode que representan emojis lo cual se prueba que es muy ineficiente, ahora en este intento utilizo la funci√≥n `emoji_list` de la librer√≠a `emoji` para obtener los emojis presentes en el contenido de cada tweet, manteniendo el resto de la funcionalidad intacta.


#### Descripci√≥n detallada:

***1.   Inicializaci√≥n del contador de emojis:***
*   Se inicializa un diccionario vac√≠o `emoji_counts` para contar la frecuencia de cada emoji encontrado en los tweets.

***2.   Lectura del archivo JSON:***
*   Se lee el archivo JSON especificado en el par√°metro `file_path` y se almacenan todos los objetos de tweets de una vez en la lista `tweets`.

***3.   Concatenaci√≥n de los contenidos de los tweets:***
*   Se recorren todos los tweets en la lista `tweets` y se concatenan sus contenidos en un solo gran string `tweets_content`.

***4.   Obtenci√≥n de los emojis presentes en los tweets:***
*   Utilizando la funci√≥n `emoji_list` se obtienen los emojis presentes en el gran string `tweets_content`. La funci√≥n `emoji_list` devuelve una lista de diccionarios, donde cada diccionario contiene informaci√≥n sobre un emoji, incluyendo su representaci√≥n Unicode.
*   `[emoji['emoji'] for emoji in emoji_list(tweets_content)]` Utiliza una list comprehension para extraer solo la representaci√≥n Unicode de cada emoji de la lista de diccionarios devuelta por `emoji_list`, y almacena estas representaciones en la lista `emojis_in_tweets`. Esto asegura que solo se obtenga la representaci√≥n Unicode de cada emoji y no se incluyan otros detalles del diccionario.

***5.   Actualizaci√≥n del contador de emojis:***
*   Se recorren todos los emojis presentes en la lista `emojis_in_tweets` y se actualiza el contador de emojis `emoji_counts` con la frecuencia de cada emoji.

***6.   Obtenci√≥n de los 10 emojis m√°s utilizados:***
*   Se ordena el diccionario `emoji_counts` por sus valores en orden descendente para obtener los emojis m√°s utilizados.
*   Se seleccionan los primeros 10 elementos del diccionario ordenado para obtener los 10 emojis m√°s utilizados junto con su respectivo conteo de ocurrencias.

***7.   Retorno de resultados:***
*   La funci√≥n devuelve una lista de tuplas que contiene los 10 emojis m√°s utilizados, donde cada tupla tiene la forma `(emoji, conteo)`.


In [None]:
import json
from emoji import emoji_list
from typing import List, Tuple

def q2_time_attempt_2(file_path: str) -> List[Tuple[str, int]]:
    """
    Encuentra los 10 emojis m√°s utilizados en los tweets presentes en el archivo JSON especificado,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): Ruta al archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados, cada una con su respectivo conteo de ocurrencias.
    """
    # Paso 1: Se inicializa un diccionario para contar la frecuencia de cada emoji
    emoji_counts = {}

    # Paso 2: Se obtienen todos los objetos de tweets de una vez
    with open(file_path, 'r') as data:
        tweets = data.readlines()

    # Paso 3: Se obtiene un gran string que contiene todos los contenidos de los tweets
    tweets_content = ""
    for tweet in tweets:
        tweets_content += json.loads(tweet)['content']

    # Paso 4: Se obtienen los emojis presentes en el gran string utilizando emoji_list
    emojis_in_tweets = [emoji['emoji'] for emoji in emoji_list(tweets_content)]

    # Paso 5: Se actualiza el contador de emojis con la frecuencia de cada emoji
    for emoji in emojis_in_tweets:
        emoji_counts[emoji] = emoji_counts.get(emoji, 0) + 1

    # Paso 6: Se obtienen los 10 emojis m√°s utilizados con su respectivo conteo
    top_10_emojis = sorted(emoji_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    return top_10_emojis

###***- Intento definitivo:*** funci√≥n `q2_time`


En esta versi√≥n final, se utiliza la clase `Counter`, que es una clase en Python que se encuentra en el m√≥dulo `collections` y que me permite contar la ocurrencia de elementos en una secuencia y generar un diccionario con las frecuencias de esos elementos para contar la ocurrencia de emojis.

En lugar de iterar manualmente sobre los tweets y acumular los emojis, se utiliza un enfoque m√°s eficiente. El uso de Counter simplifica significativamente el proceso y mejora la eficiencia del c√≥digo en t√©rminos de legibilidad y rendimiento.


#### Detalles de la Implementaci√≥n

1. **Inicializaci√≥n del contador de emojis:**
   Se inicializa un objeto `Counter` para contar la frecuencia de cada emoji en los tweets.

2. **Lectura del archivo JSON y procesamiento de los tweets:**
   Se abre el archivo JSON especificado en modo de lectura y se recorren todas las l√≠neas.
   Para cada l√≠nea, se carga el contenido del tweet como un diccionario JSON y se extraen los emojis presentes en el contenido del tweet.

3. **Obtenci√≥n de los emojis de cada l√≠nea:**
   Se utiliza la funci√≥n `emoji_list` para obtener una lista de emojis presentes en el contenido del tweet.

4. **Actualizaci√≥n del contador de emojis:**
   Se actualiza el contador de emojis utilizando el m√©todo `update` del objeto `Counter` con la lista de emojis obtenida en el paso anterior.

5. **Devoluci√≥n de los 10 emojis m√°s utilizados:**
   Se devuelve una lista con los 10 emojis m√°s utilizados junto con sus respectivos conteos de ocurrencias, utilizando el m√©todo `most_common` del objeto `Counter`.

In [None]:
import json
from collections import Counter
from datetime import datetime
from emoji import emoji_list
from typing import List, Tuple

def q2_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve los 10 emojis m√°s utilizados,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados,
        cada una con su respectivo conteo de ocurrencias.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """

    # Paso 1: Inicializaci√≥n del contador de emojis
    emoji_counter = Counter()

    # Paso 2: Lectura del archivo JSON y procesamiento de los tweets
    with open(file_path, 'r') as data:
        for line in data:
            tweet_content = json.loads(line)['content']

            # Paso 3: Obtenci√≥n de los emojis de cada l√≠nea
            tweet_emojis = [emoji['emoji'] for emoji in emoji_list(tweet_content)]

            # Paso 4: Actualizaci√≥n del contador de emojis
            emoji_counter.update(tweet_emojis)

    # Paso 5: Devoluci√≥n de los 10 emojis m√°s utilizados
    return emoji_counter.most_common(10)

## - Pruebas y Ejecuci√≥n de la funci√≥n `q2_time`

Al igual que en el primer reto, solo se utiliza la libreria `time` para la medici√≥n del tiempo que tarda en ejecutarse la funcion `q2_time`.

***1. Medici√≥n de tiempo:***

Dada la explicaci√≥n anterior, para la medici√≥n del tiempo de ejecuci√≥n de `q2_time` solamente utilizo la funci√≥n `time` nativa de Phyton para tomar un tiempo de inicio antes de la ejecuci√≥n de la funci√≥n y un tiempo final una vez culmina su ejecuci√≥n luego calculo la diferencia entre ambos y obtengo la medici√≥n de tiempo requerida.

***2. Ejecuci√≥n de q2_time:***

Se realiza la ejecici√≥n de de `q2_time` con `test_file_path` como argumento (base de datos) y se imprime su resultado.

***3. Impresi√≥n de resultado "Humanizado":***

Se imprime el mismo resultado anterior organizando la informaci√≥n para que resulta m√°s facil de comprender.

In [None]:
import time

# Medir el tiempo de ejecuci√≥n de q2_time
start_time = time.time()
results = q2_time(test_file_path)
end_time = time.time()
# Calcular el tiempo de ejecuci√≥n
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n de q2_time: {execution_time} s \n")

# Imprimir los resultados obtenidos
print("Resultados obtenidos:")
print(results, "\n")

print("Resultados humanizados:")
for i, (date, username) in enumerate(results, start=1):
    print(f"{i}. Fecha: {date}, Usuario con m√°s publicaciones: {username}")

Tiempo de ejecuci√≥n de q2_time: 23.365424394607544 s 

Resultados obtenidos:
[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)] 

Resultados humanizados:
1. Fecha: üôè, Usuario con m√°s publicaciones: 5049
2. Fecha: üòÇ, Usuario con m√°s publicaciones: 3072
3. Fecha: üöú, Usuario con m√°s publicaciones: 2972
4. Fecha: üåæ, Usuario con m√°s publicaciones: 2182
5. Fecha: üáÆüá≥, Usuario con m√°s publicaciones: 2086
6. Fecha: ü§£, Usuario con m√°s publicaciones: 1668
7. Fecha: ‚úä, Usuario con m√°s publicaciones: 1651
8. Fecha: ‚ù§Ô∏è, Usuario con m√°s publicaciones: 1382
9. Fecha: üôèüèª, Usuario con m√°s publicaciones: 1317
10. Fecha: üíö, Usuario con m√°s publicaciones: 1040


##***Conclusi√≥n*** `q2_time`

Los intentos 1 y 2 se intentaron hacer utilizando el minimo de funciones adicionales, en el primero de ellos usando representaci√≥n Unicode de cada emoji para hacer la b√∫squeda y en el segundo usando `emoji_list()`, pero al revisar su ejecuci√≥n y los resultados que se obtienen no son satisfactorios, puesto que muchos Unicodes los malinterpreta y el proceso de b√∫squeda es muy lento.

En la versi√≥n final se utilizan `Counter` y `emoji_list` de manera que se crea una manera simple y eficiente de hacer la b√∫squeda y conteo de los emojis sobre la base de datos y despu√©s de todos los intentos se obtiene en esta implementaci√≥n el mejor tiempo de respuesta.

# **Q2 Enfoque 2:** Optimizaci√≥n de la memoria en uso.


###***- Primer intento:*** funci√≥n `q2_memory`

En este primer intento se toma el primer intento realizado en `q2_time`, pero para optimizar el uso de memoria en esta funci√≥n se procesa cada tweet l√≠nea por l√≠nea directamente desde el archivo, evitando cargar todo el contenido del archivo en memoria.

En este intento, procesamos cada l√≠nea del archivo directamente en el bucle `for line in data`. Esto reduce la carga de memoria al no necesitar almacenar todas las l√≠neas en una lista antes de procesarlas.


#### Descripci√≥n detallada:

1. **Inicializaci√≥n del diccionario de conteo de emojis:**
   - Se crea un diccionario vac√≠o llamado `emoji_counts` para almacenar la frecuencia de cada emoji.

2. **Lectura del archivo JSON y procesamiento de los tweets:**
   - Se abre el archivo JSON especificado en modo de lectura.
   - Se leen todos los tweets de una vez y se almacenan en la lista `tweets`.
   
3. **Obtenci√≥n del contenido de los tweets en un gran string:**
   - Se inicializa una cadena vac√≠a llamada `tweets_content` para almacenar el contenido de todos los tweets.
   - Se itera sobre cada tweet en la lista `tweets`, se carga el contenido del tweet como un diccionario JSON y se agrega el contenido al string `tweets_content`.

4. **B√∫squeda de emojis en el gran string:**
   - Se recorre cada caracter del string `tweets_content` y se verifica si es un emoji v√°lido utilizando la funci√≥n `map(chr, range(128, 1024))`.
   - Los emojis v√°lidos encontrados se agregan a la lista `all_emojis`.
   
5. **Conteo de la frecuencia de cada emoji:**
   - Se itera sobre cada emoji en la lista `all_emojis`.
   - Se actualiza el diccionario `emoji_counts` con la frecuencia de cada emoji.
   
6. **Obtenci√≥n de los 10 emojis m√°s utilizados:**
   - Se ordena el diccionario `emoji_counts` seg√∫n el valor de frecuencia de los emojis en orden descendente.
   - Se seleccionan los 10 emojis m√°s utilizados y se devuelven en una lista de tuplas.

7. **Retorno de resultados:**
   - La funci√≥n devuelve una lista de tuplas que contiene los 10 emojis m√°s utilizados junto con su respectivo conteo de ocurrencias.



In [5]:
import json
from typing import List, Tuple

def q2_memory_attempt_1(file_path: str) -> List[Tuple[str, int]]:
    """
    Encuentra los 10 emojis m√°s utilizados en los tweets presentes en el archivo JSON especificado,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): Ruta al archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados, cada una con su respectivo conteo de ocurrencias.
    """
    # Paso 1: Inicializaci√≥n de un diccionario para contar la frecuencia de cada emoji
    emoji_counts = {}

    # Paso 2: Lectura del archivo JSON y procesamiento de los tweets l√≠nea por l√≠nea
    with open(file_path, 'r') as data:
        for line in data:
            # Paso 3: Cargar el contenido del tweet como un diccionario
            tweet = json.loads(line)

            # Paso 4: Obtener los emojis presentes en el contenido del tweet
            tweet_content = tweet['content']
            emojis_in_tweet = [char for char in tweet_content if char in ' '.join(map(chr, range(128, 1024)))]

            # Paso 5: Actualizaci√≥n del contador de emojis con la frecuencia de cada emoji en el tweet
            for emoji in emojis_in_tweet:
                emoji_counts[emoji] = emoji_counts.get(emoji, 0) + 1

    # Paso 6: Obtenci√≥n de los 10 emojis m√°s utilizados con su respectivo conteo
    top_10_emojis = sorted(emoji_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    return top_10_emojis


###***- Segundo intento:*** funci√≥n `q2_memory`

En este intento de `q2_memory` tomo como base el correspondiente intento de `q2_time` en donde utilizo `emoji_list()` para hacer la b√∫squeda de los emojis y se hace la lectura del archivo JSON y procesamiento de los tweets l√≠nea por l√≠nea para optimizar el manejo de memoria.


#### Descripci√≥n detallada:

1. **Inicializaci√≥n del diccionario de conteo de emojis:**
   - Se crea un diccionario vac√≠o llamado `emoji_counts` para almacenar la frecuencia de cada emoji.

2. **Lectura del archivo JSON y procesamiento de los tweets l√≠nea por l√≠nea:**
   - Se abre el archivo JSON especificado en modo de lectura.
   - Se itera sobre cada l√≠nea del archivo para procesar cada tweet individualmente.

3. **Cargar el contenido del tweet como un diccionario:**
   - Se carga el contenido del tweet como un diccionario JSON utilizando la funci√≥n `json.loads()`.

4. **Obtenci√≥n de los emojis presentes en el contenido del tweet:**
   - Se extrae el contenido del tweet y se obtienen los emojis presentes en √©l utilizando la funci√≥n `emoji_list()` del m√≥dulo `emoji`.
   - Los emojis se almacenan en una lista llamada `emojis_in_tweet`.

5. **Actualizaci√≥n del contador de emojis con la frecuencia de cada emoji en el tweet:**
   - Se itera sobre cada emoji en la lista `emojis_in_tweet`.
   - Se actualiza el diccionario `emoji_counts` con la frecuencia de cada emoji.

6. **Obtenci√≥n de los 10 emojis m√°s utilizados:**
   - Se ordena el diccionario `emoji_counts` seg√∫n el valor de frecuencia de los emojis en orden descendente.
   - Se seleccionan los 10 emojis m√°s utilizados y se devuelven en una lista de tuplas.

Este intento utiliza la funci√≥n `emoji_list()` del m√≥dulo `emoji` para obtener los emojis presentes en el contenido de cada tweet, sin la necesidad de usar ninguna librer√≠a adicional.


In [6]:
import json
from typing import List, Tuple
from emoji import emoji_list

def q2_memory_attempt_2(file_path: str) -> List[Tuple[str, int]]:
    """
    Encuentra los 10 emojis m√°s utilizados en los tweets presentes en el archivo JSON especificado,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): Ruta al archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados, cada una con su respectivo conteo de ocurrencias.
    """
    # Paso 1: Inicializaci√≥n de un diccionario para contar la frecuencia de cada emoji
    emoji_counts = {}

    # Paso 2: Lectura del archivo JSON y procesamiento de los tweets l√≠nea por l√≠nea
    with open(file_path, 'r') as data:
        for line in data:
            # Paso 3: Cargar el contenido del tweet como un diccionario
            tweet = json.loads(line)

            # Paso 4: Obtener los emojis presentes en el contenido del tweet
            tweet_content = tweet['content']
            emojis_in_tweet = [emoji['emoji'] for emoji in emoji_list(tweet_content)]

            # Paso 5: Actualizaci√≥n del contador de emojis con la frecuencia de cada emoji en el tweet
            for emoji in emojis_in_tweet:
                emoji_counts[emoji] = emoji_counts.get(emoji, 0) + 1

    # Paso 6: Obtenci√≥n de los 10 emojis m√°s utilizados con su respectivo conteo
    top_10_emojis = sorted(emoji_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    return top_10_emojis


###***- Intento definitivo:*** funci√≥n `q2_memory`

In [7]:
import json
from collections import Counter
from datetime import datetime
from emoji import emoji_list
from typing import List, Tuple

def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    """
    Esta funci√≥n procesa un archivo JSON que contiene registros de tweets y devuelve los 10 emojis m√°s utilizados,
    junto con su respectivo conteo de ocurrencias.

    Args:
        file_path (str): La ruta del archivo JSON que contiene los datos de los tweets.

    Returns:
        List[Tuple[str, int]]: Una lista de tuplas que contiene los 10 emojis m√°s utilizados,
        cada una con su respectivo conteo de ocurrencias.

    Raises:
        FileNotFoundError: Si el archivo especificado en file_path no se encuentra.
    """

    # Inicializaci√≥n del contador de emojis
    emoji_counter = Counter()

    # Lectura del archivo JSON y procesamiento de los tweets
    with open(file_path, 'r') as data:
        for line in data:
            tweet_content = json.loads(line)['content']

            # Obtenci√≥n de los emojis de cada l√≠nea
            tweet_emojis = [emoji['emoji'] for emoji in emoji_list(tweet_content)]

            # Actualizaci√≥n del contador de emojis
            emoji_counter.update(tweet_emojis)

    # Devoluci√≥n de los 10 emojis m√°s utilizados
    return emoji_counter.most_common(10)


## - Ejecuto la funci√≥n `q2_memory`

***Medici√≥n de memoria:***

Utilizando memory_profiler para medir el uso de memoria de la funci√≥n `q1_memory`. `memory_usage` devuelve una lista que contiene el uso de memoria en diferentes puntos de la ejecuci√≥n de la funci√≥n. En este caso, se pasa `(q2_memory, (test_file_path,))` como argumento a `memory_usage`, lo que significa que est√°s midiendo el uso de memoria de `q2_memory` con `test_file_path` como argumento (base de datos). Finalmente se imprime el usuo de memoria de `q2_memory`.

***2. Ejecuci√≥n de q2_memory:***

Se realiza la ejecici√≥n de de `q2_memory` con `test_file_path` como argumento (base de datos) y se imprime su resultado.

***3. Impresi√≥n de resultado "Humanizado":***

Se imprime el mismo resultado anterior organizando la informaci√≥n para que resulta m√°s facil de comprender.

In [8]:
import memory_profiler

# Medir el uso de memoria de q1_memory con memory-profiler
mem_usage = memory_profiler.memory_usage((q2_memory, (test_file_path, )))

# Imprimir el uso de memoria
print(f"Uso de memoria de q1_memory: {max(mem_usage)} MB \n")

# Ejecutar q1_memory y obtener los resultados
results = q2_memory(test_file_path)

# Imprimir los resultados obtenidos
print("Resultados obtenidos:")
print(results, "\n")

print("Resultados humanizados:")
for i, (date, username) in enumerate(results, start=1):
    print(f"{i}. Fecha: {date}, Usuario con m√°s publicaciones: {username}")

Uso de memoria de q1_memory: 172.3203125 MB 

Resultados obtenidos:
[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)] 

Resultados humanizados:
1. Fecha: üôè, Usuario con m√°s publicaciones: 5049
2. Fecha: üòÇ, Usuario con m√°s publicaciones: 3072
3. Fecha: üöú, Usuario con m√°s publicaciones: 2972
4. Fecha: üåæ, Usuario con m√°s publicaciones: 2182
5. Fecha: üáÆüá≥, Usuario con m√°s publicaciones: 2086
6. Fecha: ü§£, Usuario con m√°s publicaciones: 1668
7. Fecha: ‚úä, Usuario con m√°s publicaciones: 1651
8. Fecha: ‚ù§Ô∏è, Usuario con m√°s publicaciones: 1382
9. Fecha: üôèüèª, Usuario con m√°s publicaciones: 1317
10. Fecha: üíö, Usuario con m√°s publicaciones: 1040


##***Conclusi√≥n*** `q2_memory`

Semejante que con q2_time, los intentos 1 y 2 se intentaron hacer utilizando el minimo de funciones adicionales, en el primero de ellos usando representaci√≥n Unicode de cada emoji para hacer la b√∫squeda y en el segundo usando `emoji_list()`, pero al revisar su ejecuci√≥n y los resultados que se obtienen no son satisfactorios, puesto que muchos Unicodes los malinterpreta y el proceso de b√∫squeda es muy lento.

En la versi√≥n final se utilizan `Counter`, `emoji_list()`, junto con un recorrido linea a linea del archivo para evitar la sobrecarga en memoria de informaci√≥n y asi, de esta manera se crea una manera simple y eficiente de hacer la b√∫squeda y conteo de los emojis sobre la base de datos y despu√©s de todos los intentos se obtiene en esta implementaci√≥n el mejor tiempo de respuesta.

# **Reto Q3**


El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos. Debe incluir las siguientes funciones:
```python
def q3_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns:
[("LATAM321", 387), ("LATAM_CHI", 129), ...]
```

# **Q3 Enfoque 1:** Optimizaci√≥n del tiempo de ejecuci√≥n.

###***- Intento definitivo:*** funci√≥n `q3_time`


En esta versi√≥n final, se utiliza la clase `Counter`, que es una clase en Python que se encuentra en el m√≥dulo `collections` y que me permite contar la ocurrencia de elementos en una secuencia y generar un diccionario con las frecuencias de esos elementos para contar la ocurrencia de emojis.

En lugar de iterar manualmente sobre los tweets y acumular los emojis, se utiliza un enfoque m√°s eficiente. El uso de Counter simplifica significativamente el proceso y mejora la eficiencia del c√≥digo en t√©rminos de legibilidad y rendimiento.


#### Detalles de la Implementaci√≥n

1. **Inicializaci√≥n del contador de emojis:**
   Se inicializa un objeto `Counter` para contar la frecuencia de cada emoji en los tweets.

2. **Lectura del archivo JSON y procesamiento de los tweets:**
   Se abre el archivo JSON especificado en modo de lectura y se recorren todas las l√≠neas.
   Para cada l√≠nea, se carga el contenido del tweet como un diccionario JSON y se extraen los emojis presentes en el contenido del tweet.

3. **Obtenci√≥n de los emojis de cada l√≠nea:**
   Se utiliza la funci√≥n `emoji_list` para obtener una lista de emojis presentes en el contenido del tweet.

4. **Actualizaci√≥n del contador de emojis:**
   Se actualiza el contador de emojis utilizando el m√©todo `update` del objeto `Counter` con la lista de emojis obtenida en el paso anterior.

5. **Devoluci√≥n de los 10 emojis m√°s utilizados:**
   Se devuelve una lista con los 10 emojis m√°s utilizados junto con sus respectivos conteos de ocurrencias, utilizando el m√©todo `most_common` del objeto `Counter`.

In [None]:
# **Reto Q3**

##***Conclusi√≥n*** `q2_memory`

Los intentos 1 y 2 se intentaron hacer utilizando el minimo de funciones adicionales y  la representaci√≥n Unicode de cada emoji, pero al revisar su ejecuci√≥n y los resultados que se obtienen no son satisfactorios, puesto que muchos Unicodes los malinterpreta y el proceso de b√∫squeda es muy lento.

En la versi√≥n final se utilizan `Counter` y `emoji_list` de manera que se crea una manera simple y eficiente de hacer la b√∫squeda y conteo de los emojis sobre la base de datos y despu√©s de todos los intentos se obtiene en esta implementaci√≥n el mejor tiempo de respuesta.

# **Enfoque 2:** Optimizaci√≥n de la memoria en uso.