En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

# 0. Import de Librerias y otros parametros
---

In [21]:
import pandas as pd
from typing import List, Tuple
from datetime import datetime, date
import json

In [7]:
#variable con el archivo
file_path = 'farmers-protest-tweets-2021-2-4.json'

Leer el archivo JSON utilizando la opción lines=True<br>
Esto indica que cada línea del archivo es un objeto JSON independiente.<br>
Usar lines=True es más eficiente para archivos grandes porque permite procesar cada línea individualmente en lugar de cargar todo el archivo en la memoria a la vez, lo que mejora el rendimiento y reduce el uso de memoria.

# 1. Lectura del archivo
---

In [4]:
df = pd.read_json(file_path, lines=True)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117407 entries, 0 to 117406
Data columns (total 21 columns):
 #   Column           Non-Null Count   Dtype              
---  ------           --------------   -----              
 0   url              117407 non-null  object             
 1   date             117407 non-null  datetime64[ns, UTC]
 2   content          117407 non-null  object             
 3   renderedContent  117407 non-null  object             
 4   id               117407 non-null  int64              
 5   user             117407 non-null  object             
 6   outlinks         117407 non-null  object             
 7   tcooutlinks      117407 non-null  object             
 8   replyCount       117407 non-null  int64              
 9   retweetCount     117407 non-null  int64              
 10  likeCount        117407 non-null  int64              
 11  quoteCount       117407 non-null  int64              
 12  conversationId   117407 non-null  int64              
 13 

In [24]:
# Convertir la columna de fechas a formato datetime
df['date'] = pd.to_datetime(df['date']).dt.date

In [25]:
# Contar el número de tweets por fecha
date_counts = df['date'].value_counts().nlargest(10)

In [27]:
# Encontrar el usuario con más tweets por cada una de las top 10 fechas
result = []
for top_date in date_counts.index:
    top_user = df[df['date'] == top_date]['user'].apply(lambda x: x['username']).value_counts().idxmax()
    result.append((top_date, top_user))

In [29]:
# Crear DataFrame con los resultados
result_df = pd.DataFrame(result, columns=['Date', 'Username'])

In [31]:
result_df.head(20)

Unnamed: 0,Date,Username
0,2021-02-12,RanbirS00614606
1,2021-02-13,MaanDee08215437
2,2021-02-17,RaaJVinderkaur
3,2021-02-16,jot__b
4,2021-02-14,rebelpacifist
5,2021-02-18,neetuanjle_nitu
6,2021-02-15,jot__b
7,2021-02-20,MangalJ23056160
8,2021-02-23,Surrypuria
9,2021-02-19,Preetm91


In [17]:
# Optimizada para tiempo
def q1_time(file_path: str) -> List[Tuple[date, str]]:
    # Leer el archivo JSON
    df = pd.read_json(file_path, lines=True)

    # Convertir la columna de fechas a formato datetime
    df['date'] = pd.to_datetime(df['date']).dt.date

    # Contar el número de tweets por fecha
    date_counts = df['date'].value_counts().nlargest(10)

    # Encontrar el usuario con más tweets por cada una de las top 10 fechas
    result = []
    for top_date in date_counts.index:
        top_user = df[df['date'] == top_date]['user'].apply(lambda x: x['username']).value_counts().idxmax()
        result.append((top_date, top_user))

    return result

In [18]:
q1_time(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [22]:
# Optimizada para memoria
def q1_memory(file_path: str) -> List[Tuple[date, str]]:
    from collections import defaultdict, Counter

    date_counts = Counter()
    user_counts = defaultdict(Counter)

    # Leer el archivo línea por línea
    with open(file_path, 'r') as f:
        for line in f:
            tweet = json.loads(line)
            tweet_date = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S%z').date()
            user = tweet['user']['username']
            
            date_counts[tweet_date] += 1
            user_counts[tweet_date][user] += 1

    # Obtener las top 10 fechas con más tweets
    top_dates = date_counts.most_common(10)

    # Encontrar el usuario con más tweets para cada una de las top 10 fechas
    result = [(top_date, user_counts[top_date].most_common(1)[0][0]) for top_date, _ in top_dates]

    return result

In [23]:
q1_memory(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]