## Librerías 📚

A continuación se importan las librerías que se utilizarán para este ejercicio

In [1]:
import re
import pandas as pd

# 🦆 Top 10 tweets más retweeted 

In [2]:
def top_retweeted(df):
    sorted_by_retweet_count = df.sort_values(by='retweetCount', ascending=False)
    return sorted_by_retweet_count[['url', 'content', 'user', 'retweetCount']].head(10)

# 🦆 Top 10 usuarios en función a la cantidad de tweets que emitieron

In [3]:
def get_user_id(row):
    return row['user']['id']

In [4]:
def get_username(row):
    return row['user']['username']

In [5]:
def get_username_by_user_id(row, df):
    return df[df['user_id'] == row['user_id']].iloc[0]['username']

In [6]:
def top_users(df):
    df['user_id'] = df.apply(lambda row: get_user_id(row), axis=1)
    df['username'] = df.apply(lambda row: get_username(row), axis=1)
    
    grouped_by_user = df.groupby(by=["user_id"])
    
    # get top 10 users id
    top_user_id = grouped_by_user['id'].count().sort_values(ascending=False).head(10)
    
    top_user_id = top_user_id.to_frame()
    top_user_id.reset_index(inplace=True)
    top_user_id.rename(columns={"id":"count"}, inplace=True)
    
    top_user_id['username'] = top_user_id.apply(lambda row: get_username_by_user_id(row, df), axis=1)
    
    return top_user_id

# 🦆 Top 10 días donde hay más tweets


In [7]:
def get_day(row):
    return row['date'].date()

In [8]:
def top_days(df):
    df['day'] = df.apply(lambda row: get_day(row), axis=1)
    
    grouped_by_day = df.groupby(by=["day"])
    top_days = grouped_by_day['id'].count().sort_values(ascending=False).head(10)
    
    top_days = top_days.to_frame()
    top_days.reset_index(inplace=True)
    
    return top_days

# 🦆 Top 10 hashtags más usados


In [9]:
def get_hashtags(row):
    return re.findall(r"#\w+", row['content'])

In [10]:
def top_hashtags(df):
    df['hashtags'] = df.apply(lambda row: get_hashtags(row), axis=1)
    hashtag_list = [item for i, sublist in df["hashtags"].iteritems() for item in sublist]
    
    df_hashtags = pd.DataFrame(hashtag_list, columns=['hashtag'])
    
    occurrences = df_hashtags.value_counts().to_frame()
    occurrences.reset_index(inplace=True)
    occurrences.rename(columns={0:"count"}, inplace=True)
    
    return occurrences.head(10)

# Main

In [11]:
def import_dataset(path):
    return pd.read_json(path, lines=True)

In [12]:
def get_menu():
    menu = {
        '1': {
            'label': 'Top 10 tweets más retweeted',
            'function': top_retweeted
        },
        '2': {
            'label': 'Top 10 usuarios en función a la cantidad de tweets que emitieron',
            'function': top_users
        },
        '3': {
            'label': 'Top 10 días donde hay más tweets',
            'function': top_days
        },
        '4': {
            'label': 'Top 10 hashtags más usados',
            'function': top_hashtags
        }
    }
    
    return menu

In [13]:
def print_title():
    print('---------------------')
    print('TWITTER STATS')
    print('---------------------')

In [14]:
def print_menu(menu):
    print('\nEscribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...')
    
    for k, v in menu.items():
        print(f'[ {k} ]: {v["label"]}')
        

In [15]:
def main(path_dataset):
    df = import_dataset(path_dataset)
    
    print_title()
    
    menu = get_menu()
    print_menu(menu)
    
    selected = input()
    
    while selected != 'FIN':
        if selected in menu.keys():
            response = menu[selected]['function'](df)
            display(response)
            
        print_menu(menu)
        selected = input()

### Ejemplo de uso

En este caso, el path **relativo** del dataset es `dataset.json`.

In [16]:
main('dataset.json')

---------------------
TWITTER STATS
---------------------

Escribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...
[ 1 ]: Top 10 tweets más retweeted
[ 2 ]: Top 10 usuarios en función a la cantidad de tweets que emitieron
[ 3 ]: Top 10 días donde hay más tweets
[ 4 ]: Top 10 hashtags más usados
1


Unnamed: 0,url,content,user,retweetCount
408128,https://twitter.com/rihanna/status/13566258896...,why aren’t we talking about this?! #FarmersPro...,"{'username': 'rihanna', 'displayname': 'Rihann...",315547
395142,https://twitter.com/GretaThunberg/status/13566...,We stand in solidarity with the #FarmersProtes...,"{'username': 'GretaThunberg', 'displayname': '...",103957
266196,https://twitter.com/GretaThunberg/status/13572...,I still #StandWithFarmers and support their pe...,"{'username': 'GretaThunberg', 'displayname': '...",67694
366579,https://twitter.com/miakhalifa/status/13568483...,"“Paid actors,” huh? Quite the casting director...","{'username': 'miakhalifa', 'displayname': 'Mia...",35921
372793,https://twitter.com/miakhalifa/status/13568277...,What in the human rights violations is going o...,"{'username': 'miakhalifa', 'displayname': 'Mia...",26972
314192,https://twitter.com/TeamJuJu/status/1357048037...,"Happy to share that I’ve donated $10,000 to pr...","{'username': 'TeamJuJu', 'displayname': 'JuJu ...",23251
215034,https://twitter.com/BobBlackman/status/1357755...,There has been much social media coverage arou...,"{'username': 'BobBlackman', 'displayname': 'Bo...",20132
398011,https://twitter.com/vanessa_vash/status/135668...,Farmers feed the world. Fight for them. Protec...,"{'username': 'vanessa_vash', 'displayname': 'V...",18744
325261,https://twitter.com/kylekuzma/status/135700972...,Should be talking about this! #FarmersProtest\...,"{'username': 'kylekuzma', 'displayname': 'kuz'...",17368
163689,https://twitter.com/AmandaCerny/status/1359013...,To all of my influencer/celeb friends- read up...,"{'username': 'AmandaCerny', 'displayname': 'Am...",15677



Escribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...
[ 1 ]: Top 10 tweets más retweeted
[ 2 ]: Top 10 usuarios en función a la cantidad de tweets que emitieron
[ 3 ]: Top 10 días donde hay más tweets
[ 4 ]: Top 10 hashtags más usados
2


Unnamed: 0,user_id,count,username
0,980633168981061632,7134,harjot_tweeting
1,69027875,2091,tasveersandhu
2,2930682630,1991,shells_n_petals
3,452391771,1841,jot__b
4,1354532795847073796,1806,rebelpacifist
5,48085084,1722,rumsomal
6,872085660886282240,1502,Iamjazzie96
7,1340186972615307264,1460,Jass_k_G
8,1309302936317636608,1453,DigitalKisanBot
9,921732117024919552,1446,z_khalique007



Escribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...
[ 1 ]: Top 10 tweets más retweeted
[ 2 ]: Top 10 usuarios en función a la cantidad de tweets que emitieron
[ 3 ]: Top 10 días donde hay más tweets
[ 4 ]: Top 10 hashtags más usados
3


Unnamed: 0,day,id
0,2021-02-03,83866
1,2021-02-04,58607
2,2021-02-05,33332
3,2021-02-02,28548
4,2021-02-06,22420
5,2021-02-07,11325
6,2021-02-09,9320
7,2021-02-08,8920
8,2021-02-10,7973
9,2021-02-11,5698



Escribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...
[ 1 ]: Top 10 tweets más retweeted
[ 2 ]: Top 10 usuarios en función a la cantidad de tweets que emitieron
[ 3 ]: Top 10 días donde hay más tweets
[ 4 ]: Top 10 hashtags más usados
4


Unnamed: 0,hashtag,count
0,#FarmersProtest,406613
1,#IStandWithFarmers,15783
2,#farmersprotest,15458
3,#IndianFarmersHumanRights,12019
4,#FarmersAreIndia,11043
5,#StandWithFarmers,10645
6,#Rihanna,9117
7,#FarmersProtests,8750
8,#Farmers,6561
9,#shameonbollywood,6270



Escribe un número para conocer las estadísticas de Twitter o escribe FIN para terminar el programa ...
[ 1 ]: Top 10 tweets más retweeted
[ 2 ]: Top 10 usuarios en función a la cantidad de tweets que emitieron
[ 3 ]: Top 10 días donde hay más tweets
[ 4 ]: Top 10 hashtags más usados
FIN
