En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu soluci√≥n y todas las suposiciones que est√°s considerando. Aqu√≠ puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

Se detallar√° el c√≥mo se trabaj√≥ el archivo .json para cada una de las funciones. Tambien se considerar√°n todas las posibles mejoras necesarias al momento de trabajar los datos. El c√≥mo trabajar el archivo deber√≠a ser similar para cada caso, con algunos ejercicios requiriendo mas proceso que otros.

Para el primer ejercicio se deberia priorizar un count por fecha en tweets, luego de cada fecha con count mas alto, hacer el count de los usuarios con mas publicaciones. Como solo se necesita la fecha y el autor, probablemente se pueda trabajar el archivo para reducir carga en busqueda por iteraci√≥n.

Similar al anterior ejercicio, count por emoji que se encuentre, ordenar y retornar los 10 mas altos. En este caso solo se requiere el contenido del tweet y no los demas parametros. Transformar para el retorno el unicode en emoji.

Nuevamente, contar los @usuarios que existan por post, ordenar y retornar los mas altos.

Inicialmente para las soluciones mas rapidas, usaremos principalmente pandas para su manejo eficiente de columnas, dado que hay harto grouping que hacer.

In [54]:
import json 
import pandas as pd


Se resolver√°n los tres problemas con pandas, leyendo el json y convirtiendolo en un dataframe para su manipulaci√≥n.

In [11]:
file_path = "../../farmers-protest-tweets-2021-2-4.json"

data=[]
with open(file_path, 'r') as file:
    for line in file:
        obj = json.loads(line)
        data.append(obj)
        
df = pd.DataFrame(data)


Se agregan columnas a conveniencia, editando "date" para trabajarse con a√±o-mes-dia
Adem√°s se agrega la columna username, que extrae el "username" del objeto "user" presente en cada fila.
Se generan los dataframes, uno con los dias de mas tweets y otro con los usuarios que mas postearon en cada d√≠a, esto luego se mergea para tener el resultado final.

In [47]:
df['date'] = pd.to_datetime(df['date'])
df['date_only'] = df['date'].dt.date
df['username'] = df['user'].apply(lambda x: x['username'])

grouped = df.groupby(['date_only', 'username']).size().reset_index(name='count')
most_frequent_user = grouped.loc[grouped.groupby('date_only')['count'].idxmax()]
print("\nMost frequent username for each date:")
print(most_frequent_user)

grouped_df=df.groupby('date_only').size().reset_index(name='count')

print(len(most_frequent_user))
print(len(grouped_df))





Most frequent username for each date:
        date_only         username  count
2740   2021-02-12  RanbirS00614606    176
7536   2021-02-13  MaanDee08215437    178
15136  2021-02-14    rebelpacifist    119
18540  2021-02-15           jot__b    134
23260  2021-02-16           jot__b    133
26577  2021-02-17   RaaJVinderkaur    185
33193  2021-02-18  neetuanjle_nitu    195
35219  2021-02-19         Preetm91    267
38382  2021-02-20  MangalJ23056160    108
42691  2021-02-21       Surrypuria    161
46533  2021-02-22   preetysaini321    110
48696  2021-02-23       Surrypuria    135
51458  2021-02-24   preetysaini321    107
13
13


In [49]:
join=pd.merge(most_frequent_user,grouped_df, on='date_only')
sorted_join = join.sort_values(by='count_y', ascending=False)

print(sorted_join)

     date_only         username  count_x  count_y
0   2021-02-12  RanbirS00614606      176    12347
1   2021-02-13  MaanDee08215437      178    11296
5   2021-02-17   RaaJVinderkaur      185    11087
4   2021-02-16           jot__b      133    10443
2   2021-02-14    rebelpacifist      119    10249
6   2021-02-18  neetuanjle_nitu      195     9625
3   2021-02-15           jot__b      134     9197
8   2021-02-20  MangalJ23056160      108     8502
11  2021-02-23       Surrypuria      135     8417
7   2021-02-19         Preetm91      267     8204
9   2021-02-21       Surrypuria      161     7532
10  2021-02-22   preetysaini321      110     7071
12  2021-02-24   preetysaini321      107     3437


Ahora con este dataframe solo falta tomar los 10 primeros, pasarlos a una lista de tuplas para el retorno de q1

In [52]:
dateuser=sorted_join[['date_only','username']].head(10)
q1_t = [tuple(x) for x in dateuser.values]
print(q1_t)


[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


Q2 Es un problema mucho mas simple, utilizando la libreria emoji y counter se resuelve rapidamente, siendo eficiente, dentro de lo posible, en el uso de memoria y tiempo.


In [73]:
import emoji
from collections import Counter

with open(file_path, 'r') as file:
    emoji_counts = Counter()
    for line in file:
        obj = json.loads(line)
        for char in obj["content"]:
            if char in emoji.EMOJI_DATA:
                emoji_counts[char] += 1

emoji_counts=sorted(emoji_counts.items(), key=lambda x: x[1], reverse=True)[:10]

print(emoji_counts)



    


[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]


Q3 Es similar a Q2, con la diferencia que esta vez se utilizan expresiones regulares para detectar las menciones en usuarios en el contenido de cada tweet.

In [81]:
import re

with open(file_path, 'r') as file:
    dif_mentions = Counter()
    mention = re.compile(r'@(\w+)')

    for line in file:
        obj = json.loads(line)
        mentions = mention.findall(obj["content"])
        dif_mentions.update(mentions)
print (dif_mentions.most_common(10))



[('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]


Tanto Q2 como Q3 son problemas simples que no tienen variaci√≥n en caso de generar soluciones distintas para mejor tiempo o mejor memoria. Por otra parte Q1 si es trabajable, dado que todo el grouping y el uso de dataframes puede ser reducido a costa de hacer mas iteraciones pero ocupando menos memoria.