# Σημειωματάριο πρώτο: Συνθέτοντας το DataFrame των Tweets

## Από το JSON του Twitter API στο CSV 

Στο πρώτο notebook, συλλέγουμε τα δεδομένα για τα tweets σε ένα DataFrame. Τα δεδομένα λαμβάνονται από το JSON που μας επέστρεψε το *search endpoint* του Twitter API ύστερα από αναζήτηση με τον όρο "*CVE-2021*". Το JSON αυτό περιέχει τα tweets και τα δεδομένα που τα συνοδεύουν. Στο παρόν notebook, δημιουργείται η πρωταρχική μορφή του dataset με την αποθήκευση των tweets και των πληροφοριών των χρηστών εκείνων που δημοσίευσαν τα συγκεκριμένα tweets. Τα δεδομένα συλλέγονται και συσσωρεύονται σε ένα DataFrame το οποίο στη συνέχεια εξάγεται σε ένα αρχείο CSV. 

In [1]:
import json
import pandas as pd
import numpy as np

In [3]:
# Aνοίγουμε το json αρχείο με τα tweets και διαβάζουμε τα δεδομένα του παιρνώντας τα στην twitter_data.
# Εάν κάνουμε type(twitter_data) τώρα θα μας εμφανίσει dict που σημαίνει ότι διαβάζει το json file και δημιουργεί
# ένα dictionary.
with open('Data/tweets/app_CVE_2021_since_2020_all_tweets.json') as file:
    twitter_data = json.load(file)

Για κάθε tweet το Twitter API μας δίνει πρόσβαση σε αρκετές διαφορετικές πληροφορίες, τις οποία βλέπουμε στην συνέχεια για το 1ο tweet από αυτά που μας επιστράφηκαν:

In [None]:
# Eμφάνιση του πρώτου tweet για να δούμε τί είδους δεδομένα έχουμε στη διάθεσή μας για κάθε tweet.
# Χρησιμοποιούμε την json.dumps η οποία μετατρέπει ένα αντικείμενο σε json format (serialization) προς εγγραφή
# σε αρχείο για να εμφανίσουμε το record του tweet με "όμορφο" τρόπο,
# δηλαδή με τη στοίχιση και τις εσοχές αντί για απλό string.
print("Οι πληροφορίες για το πρώτο από τα tweets που μας επέστρεψε το API:\n")
print(json.dumps(twitter_data['data'][0], indent = 2))

Οι πληροφορίες για το πρώτο από τα tweets που μας επέστρεψε το API:

{
  "text": "CVE-2021-34582\n\nIn Phoenix Contact FL MGUARD 1102 and 1105 in Versions 1.4.0, 1.4.1 and 1.5.0 a user with high privileges can inject HTML code (XSS) through web-based management or the REST API with a manipulated c...\n\nhttps://t.co/YDYnY307QV",
  "author_id": "941389496771399680",
  "created_at": "2021-11-10T13:38:40.000Z",
  "public_metrics": {
    "retweet_count": 0,
    "reply_count": 0,
    "like_count": 0,
    "quote_count": 0
  },
  "id": "1458428897368940553"
}


### Ποιά είναι η δομή του JSON με τα δεδομένα μας;

Το JSON που μας επιστρέφει το search endpoint του Twitter API, περιλαμβάνει τα αντικείμενα:

* **data**: Το κύριο object που μας ενδιαφέρει καθώς εδώ βρίσκονται τα tweets και οι πληροφορίες που τα συνοδεύουν. Είναι μια λίστα από αντικείμενα tweets σαν αυτό που φαίνεται παραπάνω.
* **includes**: Λίστα που περιέχει τα υποαντικείμενα:
    * **users**:  με τις πληροφορίες των χρηστών που δημοσίευσαν τα tweets, και
    * **media**, με τις πληροφορίες για τα πολυμέσα που συνοδεύουν εκείνα τα tweets που περιέχουν media.
* **meta**: Αντικείμενο με τα metadata της αναζήτησης.

Αφού είδαμε ένα μέρος από το αντικείμενο **data** με τις πληροφορίες που συνοδεύουν το κάθε tweet, θα ρίξουμε μια ματιά και στα άλλα αντικείμενα του JSON.

Για κάθε αντικείμενο από την λίστα **users** και **media** που συσχετίζεται με τα παραπάνω tweets, το Twitter API μας επιστρέφει
αρκετά δεδομένα, τα οποία βλέπουμε στην συνέχεια.

In [None]:
# Eμφάνιση του πρώτου αντικειμένου από τις λίστες users και media του αντικειμένου includes για να δούμε τί δεδομένα έχουμε
# στη διάθεσή μας για κάθε χρήστη και πολυμέσο τα οποία σχετίζονται με τα tweets που βρίσκονται στο αντικείμενο data.
print("Για το 1ο αντικείμενο user έχουμε:")
print(json.dumps(twitter_data['includes']['users'][0], indent = 2))
print("\nΓια το 1ο αντικείμενο media έχουμε:")
print(json.dumps(twitter_data['includes']['media'][0], indent = 2))
print("\nΚαι τέλος, μέσα στο json file έχουμε και μεταδεδομένα που σχετίζονται με την αναζήτηση που κάναμε για να βρούμε αυτά τα tweets:")
print(json.dumps(twitter_data['meta'], indent = 2))

Για το 1ο αντικείμενο user έχουμε:
{
  "description": "Vulnerability Feed Bot (tweets new and some old vulns) \n\nFollow @vulmoncom for human-controlled official account",
  "username": "VulmonFeeds",
  "public_metrics": {
    "followers_count": 1830,
    "following_count": 2,
    "tweet_count": 85174,
    "listed_count": 46
  },
  "id": "941389496771399680",
  "name": "Vulmon Vulnerability Feed"
}

Για το 1ο αντικείμενο media έχουμε:
{
  "media_key": "3_1458428421445459974",
  "type": "photo"
}

Και τέλος, μέσα στο json file έχουμε και μεταδεδομένα που σχετίζονται με την αναζήτηση που κάναμε για να βρούμε αυτά τα tweets:
{
  "newest_id": "1346143505337511939",
  "oldest_id": "1458328731110445056",
  "result_count": 500,
  "next_token": "b26v89c19zqg8o3foshu7l6iqb1pu476whajftkbuysu5"
}


## Η συλλογή των δεδομένων από το JSON

Στην συνέχεια παρουσιάζονται με μεγαλύτερη λεπτομέρεια τα αντικείμενα **data** και **users**, όπου εντοπίζονται τα tweets (δηλαδή τα κύρια δεδομένα) και οι πληροφορίες των χρηστών που τα δημοσίευσαν αντίστοιχα. Ύστερα από την διερεύνηση των αντικειμένων αυτών, συλλέγονται τα δεδομένα και δημιουργείται το DataFrame.

### Το αντικείμενο data

Αφού είδαμε την μορφή των περιεχομένων του JSON file μπορούμε στην συνέχεια να προσωρήσουμε στην διαδικασία της συλλογής των δεδομένων που χρειαζόμαστε.

Θα χρειαστεί να γίνει επαναληπτικά η διαπέραση του JSON για την συλλογή των δεδομένων των tweets σε μια λίστα. Η  μορφή όμως του αρχείου είναι τέτοια, που **απαιτεί ιδιαίτερη προσοχή**. Ύστερα από αρκετές αποτυχημένες προσπάθειες για την συλλογή των δεδομένων, οδηγηθήκαμε στο συμπέρασμα ότι μόνο τα πρώτα 500 αντικείμενα της λίστας του αντικειμένου **data** (δηλ. η twitter_data['data']) αποτελούν μεμονωμένες εγγραφές για tweets. Από το index 500 και μετά, σε κάθε θέση της λίστας, υπάρχουν εμφωλευμένες λίστες που η κάθε μια περιέχει από 500 εγγραφές για tweets, εκτός από το index 920, δηλαδή το τελευταίο, που περιέχει 167 tweets.

In [None]:
for i in range (0,len(twitter_data['data'])):
    if 'public_metrics' not in twitter_data['data'][i]:
        print("Δεν υπάρχουν public metrics στο index ",i, "της λίστας. Ας δούμε λοιπόν τί υπάρχει εδώ:\n\n" )
        print(twitter_data['data'][i])
        break   

Δεν υπάρχουν public metrics στο index  500 της λίστας. Ας δούμε λοιπόν τί υπάρχει εδώ:


[{'public_metrics': {'retweet_count': 0, 'reply_count': 0, 'like_count': 0, 'quote_count': 0}, 'created_at': '2021-11-10T07:00:37.000Z', 'author_id': '941389496771399680', 'id': '1458328726047965184', 'text': 'CVE-2021-38665\n\nRemote Desktop Protocol Client Information Disclosure Vulnerability\n\nhttps://t.co/RD0vHAFSFG'}, {'public_metrics': {'retweet_count': 0, 'reply_count': 0, 'like_count': 0, 'quote_count': 0}, 'created_at': '2021-11-10T07:00:06.000Z', 'author_id': '1083500716235223040', 'id': '1458328596356169728', 'text': 'CVE-2021-24827 https://t.co/LpoBm5H7hW #HarsiaInfo'}, {'public_metrics': {'retweet_count': 0, 'reply_count': 0, 'like_count': 0, 'quote_count': 0}, 'created_at': '2021-11-10T06:57:37.000Z', 'author_id': '941389496771399680', 'id': '1458327971111002115', 'text': 'CVE-2021-42285\n\nWindows Kernel Elevation of Privilege Vulnerability\n\nhttps://t.co/72IIYlNvE2'}, {'public_met

Εντοπίσαμε το σημείο από το οποίο η λίστα σταματά να αποτελείται πια από tweets, αλλά περιέχει πλέον υπο-λίστες από tweets. Αυτό σημαίνει ότι χρειάζεται να δώσουμε μεγαλύτερη προσοχή στην δομή του JSON, στον τρόπο δηλαδή με τον οποία είναι αποθηκευμένα τα αντικείμενα.

In [None]:
print("Συνολικά η λίστα του αντικειμένου data με τα tweets, δηλ. η twitter_data['data] αποτελείται από",len(twitter_data['data']),"αντικείμενα.\nΕίδαμε όμως ότι δεν έχουμε ίδιου τύπου αντικείμενα σε κάθε θέση της λίστας.")
print("Στις 500 πρώτες θέσεις έχουμε tweets και στις υπόλοιπες έως το τέλος έχουμε λίστες από tweets.")
print("\nΜέχρι και το index 499 της λίστας έχουμε σε κάθε θέση",len(twitter_data['data'][499]),"πεδία,τα οποία είναι τα πεδία που συνθέτουν ένα tweet (δηλ. text, author_id, created_at, public_metrics και id).")

Συνολικά η λίστα του αντικειμένου data με τα tweets, δηλ. η twitter_data['data] αποτελείται από 921 αντικείμενα.
Είδαμε όμως ότι δεν έχουμε ίδιου τύπου αντικείμενα σε κάθε θέση της λίστας.
Στις 500 πρώτες θέσεις έχουμε tweets και στις υπόλοιπες έως το τέλος έχουμε λίστες από tweets.

Μέχρι και το index 499 της λίστας έχουμε σε κάθε θέση 5 πεδία,τα οποία είναι τα πεδία που συνθέτουν ένα tweet (δηλ. text, author_id, created_at, public_metrics και id).


Από το index 500 όμως της λίστας και ύστερα, βρίσκοντα άλλες -εμφωλευμένες- υπολίστες. Παρακάτω βλέπουμε τον αριθμό των tweets που περιέχονται στις λίστες που υπάρχουν στις θέσεις 500 και 920 της βασικής λίστας twitter_data['data'].

In [None]:
print("Στο index 500 έχουμε μια υπολίστα με",len(twitter_data['data'][500]),"αντικείμενα, καθένα από τα οποία είναι ολόκληρα αντικείμενα tweets (με τα 5 πεδία που  αναφέρθηκαν παραπάνω για το κάθε tweet).")
print("Το ίδιο ισχύει και για τα τελευταία",len(twitter_data['data'][920]),"tweets που εντοπίζονται στη θέση 920, που είναι και η τελευταία της λίστας.")
# Δες εδώ για έλεγχο: https://note.nkmk.me/en/python-dict-in-values-items/

Στο index 500 έχουμε μια υπολίστα με 500 αντικείμενα, καθένα από τα οποία είναι ολόκληρα αντικείμενα tweets (με τα 5 πεδία που  αναφέρθηκαν παραπάνω για το κάθε tweet).
Το ίδιο ισχύει και για τα τελευταία 167 tweets που εντοπίζονται στη θέση 920, που είναι και η τελευταία της λίστας.


Άρα συμπαιραίνουμε ότι χρειάζεται ειδική επεξεργασία-προσπέλαση η λίστα με τα tweets. Θα χρειαστούμε διπλό for
για να πάρουμε όλα τα tweets που υπάρχουν εκεί. Στις λίστες της λίστας... 

### Το αντικείμενο users

Παρόμοια όμως και η συλλογή των δεδομένων των χρηστών απαιτεί προσεκτική μεταχείριση καθώς όπως θα δούμε τώρα, και σε αυτό το μέρος του JSON τα δεδομένα εντοπίζονται σε μια λίστα με υπο-λίστες.

In [None]:
# Διερεύνηση του μέρους του JSON που περιέχει τις πληροφορίες των users

# Συνολικά έχουμε 500 λίστες με ['users']
print("Στο αντικείμενο users έχουμε μια λίστα που αποτελείται από", len(twitter_data['includes']['users']),"αντικείμενα με πληροφορίες χρηστών στο json.")
print("Κάθε ένα από τα αντικείμενα αυτά είτε είναι users είτε λίστα από users.") 

# Και από τη θέση [0] έως και την θέση [78] της λίστας user έχουμε κάθε φορά και από ένα user object. 
print("Στις θέσεις από 0 έως και 78 σε αυτή την λίστα, έχουμε ένα αντικείμενο user σε κάθε θέση.")
print("Μέγεθος του αντικειμένου στη θέση 0 της λίστας:",len(twitter_data['includes']['users'][0]))   
print("Μέγεθος του αντικειμένου στη θέση 1 της λίστας:",len(twitter_data['includes']['users'][1]))     
print("Μέγεθος του αντικειμένου στη θέση 78 της λίστας:",len(twitter_data['includes']['users'][78]))
print("Το 5 υποδηλώνει τα 5 keys που έχουν τα δεδομένα των χρηστών:")
print("Για παράδειγμα βλέπουμε το αντικείμενο που υπάρχει στη θέση 78 της κεντρικής λίστας\n", json.dumps(twitter_data['includes']['users'][78], indent = 1))

# Mετά έχουμε πολλά user objects σε κάθε μια θέση.
print("Στις υπόλοιπες θέσεις της λίστας έχουμε σε κάθε θέση και από μια υπο-λίστα η οποία με τη σειρά της περιέχει άγνωστο αριθμό από αντικείμενα users.")  
print("Μέγεθος της υπο-λίστας στη θέση 79 της κεντρικής λίστας:",len(twitter_data['includes']['users'][79]))
print("Μέγεθος της υπο-λίστας στη θέση 100 της κεντρικής λίστας:",len(twitter_data['includes']['users'][100])) 
print("Μέγεθος της υπο-λίστας στη θέση 200 της κεντρικής λίστας:",len(twitter_data['includes']['users'][200])) 
print("Μέγεθος της υπο-λίστας στη θέση 499 της κεντρικής λίστας:",len(twitter_data['includes']['users'][499])) 
print("Για παράδειγμα βλέπουμε το αντικείμενο της θέσης 5 της υπο-λίστας εκείνης που υπάρχει \nστη θέση 79 της κεντρικής λίστας\n", json.dumps(twitter_data['includes']['users'][79][5], indent = 1))

Στο αντικείμενο users έχουμε μια λίστα που αποτελείται από 500 αντικείμενα με πληροφορίες χρηστών στο json.
Κάθε ένα από τα αντικείμενα αυτά είτε είναι users είτε λίστα από users.
Στις θέσεις από 0 έως και 78 σε αυτή την λίστα, έχουμε ένα αντικείμενο user σε κάθε θέση.
Μέγεθος του αντικειμένου στη θέση 0 της λίστας: 5
Μέγεθος του αντικειμένου στη θέση 1 της λίστας: 5
Μέγεθος του αντικειμένου στη θέση 78 της λίστας: 5
Το 5 υποδηλώνει τα 5 keys που έχουν τα δεδομένα των χρηστών:
Για παράδειγμα βλέπουμε το αντικείμενο που υπάρχει στη θέση 78 της κεντρικής λίστας
 {
 "description": "Free NIST & CVE vulnerability alerts provided by @remotelyrmm.",
 "username": "RemotelyAlerts",
 "public_metrics": {
  "followers_count": 8,
  "following_count": 28,
  "tweet_count": 940,
  "listed_count": 0
 },
 "id": "1437489413043408903",
 "name": "Remotely Alerts"
}
Στις υπόλοιπες θέσεις της λίστας έχουμε σε κάθε θέση και από μια υπο-λίστα η οποία με τη σειρά της περιέχει άγνωστο αριθμό από αντικείμενα user

Οπότε χρειαζόμαστε προσοχή και στην επαναληπτική διαδικασία για την συλλογή των δεδομένων των χρηστών!

### Η συλλογή των δεδομένων των users

Συλλέγουμε αρχικά τα δεδομένα των χρηστών από το αντικείμενο users του JSON και τα τοποθετούμε σε μια λίστα.

In [None]:
users = []

# Η διαδικασία διάσχυσης ορίζεται από τον ιδιαίτερο τρόπο με τον οποίο είναι διατεταγμένα τα δεδομένα 
# στο json file, τον οποίο διερευνήσαμε παραπάνω.
for i in range (79):

    user_id = twitter_data['includes']['users'][i]['id']
    user_name = twitter_data['includes']['users'][i]['name']
    user_username = twitter_data['includes']['users'][i]['username']
    user_description = twitter_data['includes']['users'][i]['description']
    user_followers = twitter_data['includes']['users'][i]['public_metrics']['followers_count']
    user_following = twitter_data['includes']['users'][i]['public_metrics']['following_count']
    user_tweet_count = twitter_data['includes']['users'][i]['public_metrics']['tweet_count']
    user_listed_count = twitter_data['includes']['users'][i]['public_metrics']['listed_count']

    users.append([user_id,
                  user_name,
                  user_username,
                  user_description,
                  user_followers,
                  user_following,
                  user_tweet_count,
                  user_listed_count
                 ])

# Και μετά η διάσχιση συνεχίζει στα υπόλοιπα δεδομένα που διατάσσονται πολλά-πολλά σε υπο-λίστες, ξεκινώντας από τη
# θέση 79 της λίστας twitter_data['includes']['users'].
for i in range (79, 500):
    
    # Οι πληροφορίες για κάθε user ξεχωριστά εντοπίζονται ως στοιχεία της υπολίστας [i] της κεντρικής λίστας['users']
    # και δεν ξέρουμε πόσους users έχει κάθε τέτοια υπολίστα.
    for j in range (0, len(twitter_data['includes']['users'][i])):
        
        user_id = twitter_data['includes']['users'][i][j]['id']
        user_name = twitter_data['includes']['users'][i][j]['name']
        user_username = twitter_data['includes']['users'][i][j]['username']
        user_description = twitter_data['includes']['users'][i][j]['description']
        user_followers = twitter_data['includes']['users'][i][j]['public_metrics']['followers_count']
        user_following = twitter_data['includes']['users'][i][j]['public_metrics']['following_count']
        user_tweet_count = twitter_data['includes']['users'][i][j]['public_metrics']['tweet_count']
        user_listed_count = twitter_data['includes']['users'][i][j]['public_metrics']['listed_count']
        
        users.append([user_id,
                      user_name,
                      user_username,
                      user_description,
                      user_followers,
                      user_following,
                      user_tweet_count,
                      user_listed_count
                     ])

Και τώρα παιρνάμε τα δεδομένα σε ένα DataFrame, το οποίο και ονομάζουμε **users_df**.

In [None]:
users_df = pd.DataFrame(users, columns =  [
                                   'author_id',
                                   'author_name',
                                   'author_username',
                                   'author_description',
                                   'author_followers_count',
                                   'author_following_count',
                                   'author_tweet_count',
                                   'author_listed_count'])
users_df

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
0,941389496771399680,Vulmon Vulnerability Feed,VulmonFeeds,Vulnerability Feed Bot (tweets new and some ol...,1830,2,85174,46
1,1132127578922344448,IT news for all,IT_news_for_all,Сбор новостей с каналов ИТ тематики\n🔥🎯https:/...,20,17,4684,1
2,955014888446939136,Wolfgang Sesin,WolfgangSesin,"Check Point Master & Instructor, Pentest Exper...",292,494,203761,9
3,958005194398289920,www.sesin.at,www_sesin_at,for more information about us please visit htt...,88,0,212994,0
4,1345711683147186177,Sun_up Risk_management,management_sun,シス管不在企業を応援するリスクマージメント系情報提供サービスを運営しています。\n#フリーラ...,50,79,4265,3
...,...,...,...,...,...,...,...,...
39168,68806705,Francisco Donoso,Francisckrs,I only tweet about Infosec topics. The analysi...,1506,613,2091,39
39169,873270375538458626,DarkOwl,BuhoOscuro,Cyber & Human Intelligence | Qualitative Risk ...,537,851,10380,6
39170,1122743043914858496,jah🇪🇹,jah_s3,17 y.o wannabe hacker |Blockchain security,32,414,267,2
39171,1242047789959393280,imacbot,imacbot1,,0,0,59,0


Στην συνέχεια εξετάζουμε το ενδεχόμενο να έχουμε κρατήσει διπλότυπους χρήστες στο DataFrame μας.

In [None]:
if (users_df['author_id'].is_unique):
    print("Όλα καλά! Δεν έχουν μπει στο users_df διπλότυπες εγγραφές για ίδιους authors.")
    print("Στο dataset μας έχουμε ", len(users_df), "ξεχωριστούς authors.")
else:
    print("Υπάρχουν διπλότυπες εγγραφές στο users_df, δηλ. γραμμές με ίδιο author_id.")
    print("Μπορεί να υπάρχουν και διπλότυπα author_descriptions αλλά μας αφορά το author_id αφού θέλουμε να κρατήσουμε\nτους διαφορετικούς χρήστες (το author_id θα λέγαμε πως είναι το primary key μιλώντας με database όρους).")
    print("Ας δούμε όμως πρώτα τα διαφορετικά author_ids και το πόσα αντίγραφα έχουμε για κάθε ένα από αυτά:\n")
    duplicates_author_ids = users_df.pivot_table(columns=['author_id'], aggfunc='size') # Από https://datatofish.com/count-duplicates-pandas/
    print (duplicates_author_ids)
    print("\nΣυμπεραίνουμε ότι έχουμε 10609 διαφορετικούς authors στο dataset μας, ενώ αυτή την στιγμή το users_df αποτελείται   από",users_df.shape[0],"εγγραφές.")

Υπάρχουν διπλότυπες εγγραφές στο users_df, δηλ. γραμμές με ίδιο author_id.
Μπορεί να υπάρχουν και διπλότυπα author_descriptions αλλά μας αφορά το author_id αφού θέλουμε να κρατήσουμε
τους διαφορετικούς χρήστες (το author_id θα λέγαμε πως είναι το primary key μιλώντας με database όρους).
Ας δούμε όμως πρώτα τα διαφορετικά author_ids και το πόσα αντίγραφα έχουμε για κάθε ένα από αυτά:

author_id
10000122               1
1000206141417177088    1
100027629              1
1000288828194615296    1
1000297241368825856    1
                      ..
999768020456108032     5
999799141              9
99981998               1
999826194429304832     1
999959508217577472     1
Length: 10609, dtype: int64

Συμπεραίνουμε ότι έχουμε 10609 διαφορετικούς authors στο dataset μας, ενώ αυτή την στιγμή το users_df αποτελείται   από 39173 εγγραφές.


Θα διαγράψουμε τις διπλότυπες εγγραφές, δηλαδή τις γραμμές στο users_df που έχουν ίδιο author_id. Για να το κάνουμε αυτό μπορούμε να χρησιμοποιήσουμε την παράμετρο *subset* της *drop_duplicates*. Όμως αν το κάνουμε αυτό **δεν θα διασφαλίσουμε ότι έχουμε κρατήσει την τελευταία εγγραφή του χρήστη**. Στο JSON έχουμε πολλές εμφανίσεις του ίδιου χρήστη, επειδή ανάμεσα σε κάθε νέα απάντηση που λαβαίνουμε από το Twitter API, έχει μεσολαβήσει ένας χρόνος, έστω και μικρός. Κατά την διάρκεια αυτού του χρόνου, είναι σίγουρο ότι έχουν συμβεί αλλαγές στο Twitter, και μια αλλαγή που μας αφορά είναι να έχουν τροποποιηθεί τα δεδομένα των χρηστών. Αυτό το βλέπουμε με ένα παράδειγμα στη συνέχεια εμφανίζοντας τις γραμμές στις οποίες το author_id είναι ίσο με 109082290.

Αν πάμε να εμφανίσουμε τις εγγραφές που έχουν αυτό το author_id στο users_df θα πάρουμε:

In [None]:
users_df.loc[users_df['author_id'] == '109082290']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
176,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
1744,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
1811,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
2440,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
3986,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
4917,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
6412,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
6768,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
7301,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167
7754,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167


Βλέπουμε ότι έχουμε πολλές εγγραφές για τον ίδιο χρήστη. Με μια γρήγρη ματιά φαίνονται ίδιες όλες τους, όμως αν είμαστε πιο προσεκτικοί θα δούμε ότι οι τιμές της στήλης 'author_tweet_count' που περιλαμβάνει τον αριθμό των tweets που έχουν δημοσιευτεί από τον συγκεκριμένο λογαριασμό διαφέρουν. Οπότε εμείς θέλουμε να κρατήσουμε την τελευταία γιατί αυτή είναι η πιο πρόσφατη. Στο συγκεκριμένο παράδειγμα, έχουν αλλάξει οι τιμές αυτής της στήλης. Σε άλλα παραδείγματα μπορεί να έχουν αλλάξει τιμές από περισσότερες στήλες.

Αν κάνουμε απλά drop_duplicates ως προς το author_id θα δούμε ότι δεν κρατείται η τελευταία γραμμή, αλλά η πρώτη:

In [None]:
removed = users_df.drop_duplicates(subset = ['author_id'])

In [None]:
removed.loc[removed['author_id'] == '109082290']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
176,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309801,167


Οπότε θα χεριαστεί να χρησιμοποιήσουμε την παράμετρο **keep** της μεθόδου, δίνοντας την τιμή last, ζητώντας ουσιαστικά από την βιβλιοθήκη, να διαγράψει τις γραμμές που έχουν ίδιο author_id, αλλά να κρατήσει την τελευταία εμφάνιση.

In [None]:
users_df = users_df.drop_duplicates(subset = ['author_id'], keep = 'last')

In [None]:
users_df.loc[users_df['author_id'] == '109082290']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
35326,109082290,National Cyber Security,NcsVentures,We are a leader in #news for #cybersecurity #h...,9816,159,309815,167


Τέλεια! Έχουμε κρατήσει την πιο πρόσφατη παρατήρηση, αυτή που είναι και η επιθυμητή ώστε τα δεδομένα μας να ανταποκρίνονται όσο το δυνατόν περισσότερο στην πραγματικότητα!

**Δίδαγμα**: Πάντα πρέπει να προσέχουμε να κάνουμε το καλύτερο που μπορούμε στην διαδικασία της συλλογής δεδομένων έτσι ώστε αυτά να ανταποκρίνονται -όσο είναι δυνατόν- στην πραγματικότητα. Ο σκοπός που συλλέγουμε τα δεδομένα άλλωστε, είναι να τα αναλύσουμε ώστε να βγάλουμε χρήσιμα συμπεράσματα από αυτά, να εξάγουμε γνώση. Άρα απαιτείται να δίνουμε **ΤΕΡΑΣΤΙΑ** σημασία στην ποιότητα των δεδομένων!



In [None]:
print("Τώρα το users_df έχει μέγεθος ίσο με",len(users_df)," όσοι είναι δηλαδή οι ξεχωριστοί users.")

Τώρα το users_df έχει μέγεθος ίσο με 10609  όσοι είναι δηλαδή οι ξεχωριστοί users.


Ας ελέγξουμε μήπως υπάρχουν mising values στο DataFrame.

In [None]:
users_df.isnull().sum()

author_id                 0
author_name               0
author_username           0
author_description        0
author_followers_count    0
author_following_count    0
author_tweet_count        0
author_listed_count       0
dtype: int64

Βλέπουμε να εμφανίζεται μηδενικός αριθμός από missing values στο DataFrame. Στην πράξη όμως μετά από δοκιμές, βρέθηκε ότι **τελικά υπάρχουν missing values**! Δεν έχουν μετρηθεί όμως παραπάνω, για τον λόγο ότι δεν έχουν την τιμή NaN. Έχουν την τιμή του κενού string την οποία πήραν από τις καταχωρίσεις στο JSON. Για παράδειγμα, αυτό συμβαίνει με την τιμή του χαρακτηριστικού *author_description* της γραμμής 51 του DataFrame όπως βλέπουμε στην συνέχεια:

In [None]:
users_df.loc[users_df['author_username'] == 'RedBeardIOCs']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
11013,1299305317944250368,RedBeard,RedBeardIOCs,,333,0,22566,17


Συνεπώς, πρέπει να ελέγξουμε και για missing values που έχουν την τιμή του κενού.

In [None]:
emptys_from_users_df = users_df.loc[:,:] == ""

In [None]:
emptys_from_users_df.sum()

author_id                   0
author_name                 0
author_username             0
author_description        876
author_followers_count      0
author_following_count      0
author_tweet_count          0
author_listed_count         0
dtype: int64

Παρατηρούμε, ότι υπάρχουν 876 γραμμές με κενή τιμή στην περιγραφή του λογαριασμού. Μπορούμε να συμπαιράνουμε ότι ίσως δεν είναι υποχρεωτική η δήλωση περιγραφής του λογαριασμού στο Twitter. Όμως, επιθυμούμε να έχουμε την τιμή NaN εκεί έτσι ώστε να μπορούμε να μετρήσουμε τους users που έχουν κενή περιγραφή λογαριασμού. Είναι ιδιαίτερα σημαντικό αυτό, καθώς μπορεί τελικά να παίζουν κάποιον ρόλο οι χρήστες που δεν έχουν περιγραφή (π.χ. μπορεί η πλειοψηφία τους να είναι bot accounts).

In [None]:
users_df.loc[users_df['author_description'] == "", 'author_description'] = np.NaN

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [None]:
users_df.isna().sum()

author_id                   0
author_name                 0
author_username             0
author_description        876
author_followers_count      0
author_following_count      0
author_tweet_count          0
author_listed_count         0
dtype: int64

Υπάρχουν και κάποιοι (λίγοι) λογαριασμοί χρηστών που είτε στο όνομά τους, είτε στο description έχουν για τιμή ένα αλφαριθμητικό όπως το *'N/A'*, το *'n/a'* ή το *'null'*. Σε μια παλιότερη υλοποίηση, η βιβλιοθήκη pandas σε αυτές τις περιπτώσεις, έδινε την τιμή NaN. Τέτοιοι λογαριασμοί είναι: 

In [None]:
users_df.loc[users_df['author_name'] == 'N/A']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
8360,1113180707646472193,,c3yhuncamli,,55,546,611,1


In [None]:
users_df.loc[users_df['author_description'] == 'n/a']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
13585,1192059930779537409,Annie Do,AnnieDo52640257,,9,5,15778,0


In [None]:
users_df.loc[users_df['author_description'] == 'null']

Unnamed: 0,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
22964,371100310,Abdullah Alharbi,Abady0x1,,1995,92,1186,4


Όμως αποφασίστηκε ότι δεν θα πρέπει να καταχωρούνται ως NaN μιας και είναι τιμές που επέλεξαν οι χρήστες να δώσουν (είτε στο όνομα είτε στην περιγραφή). Μπορούμε να δούμε άλλωστε ότι είναι και valuable χρήστες από τα metrics τους.

Ας κρατήσουμε σε ένα CSV αρχείο το DataFrame των users, γιατί ίσως μας χρειαστεί στην πορεία που θα έχουμε στα επόμενα notebooks.

In [None]:
users_df.to_csv('Data/tweets/users.csv', index=False)

Τώρα πλέον που έχουμε κρατήσει στο users_df τις τελευταίες εμφανίσεις των χρηστών από το JSON και έχουμε δώσει την τιμή NaN στα κελιά του *users_df* που είχαν για τιμή ένα κενό string, έχουμε το DataFrame μας στην μορφή που θέλουμε. Οπότε έχοντας συγκεντρωμένους τους users μας, μπορούμε να προσωρήσουμε με την συλλογή των tweets.

### Η συλλογή των δεδομένων των tweets σε μια λίστα

Διατρέχουμε τώρα επαναληπτικά το αντικείμενο **data** του JSON έτσι ώστε να συλλέξουμε σε μια λίστα το περιεχόμενο και τις πληροφορίες των tweets. Κάθε φορά που συναντάμε ένα tweet, αναζητούμε στο *users_df* τις πληροφορίες του χρήστη που δημοσίευσε το συγκεκριμένο tweet. Έτσι κρατάμε στη λίστα τόσο τις πληροφορίες των tweets όσο και τις πληροφορίες των συγγραφέων τους.  

#### Σχετικά με την αποδοτικότητα

Ο σωστός τρόπος να "γεμίσουμε" ένα DataFrame με δεδομένα δεν είναι με χρήση της μεθόδου append. Υπολογιστικά το κόστος είναι μεγάλο. (*Περισσότερες πληροφορίες είναι διαθέσιμες στο [σχετικό ερώτημα](https://stackoverflow.com/questions/13784192/creating-an-empty-pandas-dataframe-then-filling-it) από το StackOverflow*). Η σωστή προσέγγιση είναι να δημιουργήσουμε πρώτα μια λίστα και στη συνέχεια να την "γεμίσουμε" με δεδομένα χρησιμοποιώντας την μέθοδο append και μετά να κάνουμε μετατροπή της σε DataFrame.

Στην πρώτη προσπάθεια συγγραφής αυτού του notebook, εφαρμόστηκε η κακή μέθοδος της δημιουργίας κενού DataFrame το οποίο γεμίζει στη συνέχεια με append. Ο χρόνος που χρειάστηκε για να γεμίσει το DataFrame ήταν απαγορευτικός, ενώ στην παρούσα υλοποίηση με την χρήση λίστας είναι πολύ μικρότερος. Η διαδικασία ήταν ιδιαίτερα χρονοβόρα και μάλιστα για να μπορεί να γίνει ελεγχόμενα, έγινε επαναληπτικά (δηλ. στο μεθεπόμενο κελί δεν έτρεξε ο βρόχος *for i in range (500,920)* αλλά ανά 50 (500,550) και μετά (550,600) κοκ και κάθε φορά η εκτέλεση απαιτούσε περίπου 15 λεπτά). Στην παρούσα έκδοση, αν και η εκτέλεση απαιτεί περίπου 5 λεπτά, αυτό οφείλεται στο ότι χρειαζόμαστε να προσπελάσουμε το DataFrame με τους χρήστες, δηλαδή το *users_df*. (Άλλωστε, κάθε φορά που γίνεται διάσχυση ενός DataFrame ο χρόνος εκτέλεσης είναι μεγάλος.) Αν δεν προσθέσουμε και τις πληροφορίες των χρηστών τώρα, τότε ο χρόνος θα είναι αμελητέος. Όμως εάν το κάναμε αυτό μετά, (αφού δηλαδή δημιουργούσαμε το DataFrame με τα tweets) τότε θα χρειάζονταν πολύ περισσότερος χρόνος για να τοποθετήσουμε τα δεδομένα του κάθε user εκεί που πρέπει (σε μια υλοποίηση που ακολούθησε αυτή την προσέγγιση, η εκτέλεση χρειάστηκε περίπου μία ώρα).  

**Δίδαγμα**: Από αυτή την διαδικασία πάντως λαμβάνεται ένα ιδιαίτερα σημαντικό δίδαγμα, για άλλη μια φορά, που τονίζει ότι *πρέπει να αναζητάμε πάντα την ορθή και αποδοτική λύση, την προτιμότερη, και όχι μια λύση που απλώς "δουλεύει"*.

In [None]:
tweets = [] 

# Ξεκινάμε με τα πρώτα 500 που έχουν απλή πρόσβαση...
for i in range (0,500):
    
    # Αναζήτηση στο users_df του user εκείνου που είναι ο συγγραφέας του συγκεκριμένου tweet.
    # Έτσι θα αποθηκεύσουμε στο row μαζί με τις πληροφορίες του tweet και τις πληροφορίες του user.
    user_id = twitter_data['data'][i]['author_id']
    user_row = users_df.loc[users_df['author_id'] == user_id]     
    
    tweets.append({'id': twitter_data['data'][i]['id'],
                   'text': twitter_data['data'][i]['text'],
                   'created_at': twitter_data['data'][i]['created_at'],
                   'retweet_count': twitter_data['data'][i]['public_metrics']['retweet_count'],
                   'reply_count': twitter_data['data'][i]['public_metrics']['reply_count'],
                   'like_count': twitter_data['data'][i]['public_metrics']['like_count'],
                   'quote_count': twitter_data['data'][i]['public_metrics']['quote_count'],
                   'author_id': twitter_data['data'][i]['author_id'],
                   'author_name': user_row['author_name'].values[0],
                   'author_username': user_row['author_username'].values[0],
                   'author_description': user_row['author_description'].values[0],
                   'author_followers_count': user_row['author_followers_count'].values[0],
                   'author_following_count': user_row['author_following_count'].values[0],
                   'author_tweet_count': user_row['author_tweet_count'].values[0],
                   'author_listed_count': user_row['author_listed_count'].values[0]
                  })

In [None]:
# ...και συνεχίζουμε με τις εμφωλευμένες λίστες που υπάρχουν στις επόμενες θέσεις της λίστας twitter_data['data']...
for i in range (500,920):
    for tweet in twitter_data['data'][i]:
        
        user_id = tweet['author_id']
        user_row = users_df.loc[users_df['author_id'] == user_id]
        
        tweets.append({'id': tweet['id'],
                       'text': tweet['text'],
                       'created_at': tweet['created_at'],
                       'retweet_count': tweet['public_metrics']['retweet_count'],
                       'reply_count': tweet['public_metrics']['reply_count'],
                       'like_count': tweet['public_metrics']['like_count'],
                       'quote_count': tweet['public_metrics']['quote_count'],
                       'author_id': tweet['author_id'],
                       'author_name': user_row['author_name'].values[0],
                       'author_username': user_row['author_username'].values[0],
                       'author_description': user_row['author_description'].values[0],
                       'author_followers_count': user_row['author_followers_count'].values[0],
                       'author_following_count': user_row['author_following_count'].values[0],
                       'author_tweet_count': user_row['author_tweet_count'].values[0],
                       'author_listed_count': user_row['author_listed_count'].values[0]
                      })

### Από την λίστα στο DataFrame

Στην συνέχεια δημιουργούμε κι εμφανίζουμε το DataFrame που σχηματίζεται με τα δεδομένα που συλλέξαμε από το JSON αρχείο. 


In [None]:
tweets_df = pd.DataFrame(tweets)

In [None]:
tweets_df

Unnamed: 0,id,text,created_at,retweet_count,reply_count,like_count,quote_count,author_id,author_name,author_username,author_description,author_followers_count,author_following_count,author_tweet_count,author_listed_count
0,1458428897368940553,CVE-2021-34582\n\nIn Phoenix Contact FL MGUARD...,2021-11-10T13:38:40.000Z,0,0,0,0,941389496771399680,Vulmon Vulnerability Feed,VulmonFeeds,Vulnerability Feed Bot (tweets new and some ol...,1830,2,85176,46
1,1458428424326983680,SAP объявила об исправлении критических уязвим...,2021-11-10T13:36:47.000Z,0,0,0,0,1132127578922344448,IT news for all,IT_news_for_all,Сбор новостей с каналов ИТ тематики\n🔥🎯https:/...,20,17,4685,1
2,1458428142373179392,CVE-2021-34598\n\nIn Phoenix Contact FL MGUARD...,2021-11-10T13:35:40.000Z,0,0,0,0,941389496771399680,Vulmon Vulnerability Feed,VulmonFeeds,Vulnerability Feed Bot (tweets new and some ol...,1830,2,85176,46
3,1458427987301371911,New post from https://t.co/uXvPWJy6tj (CVE-202...,2021-11-10T13:35:03.000Z,0,0,0,0,955014888446939136,Wolfgang Sesin,WolfgangSesin,"Check Point Master & Instructor, Pentest Exper...",292,494,203762,9
4,1458427985753776138,New post from https://t.co/9KYxtdZjkl (CVE-202...,2021-11-10T13:35:02.000Z,0,0,0,0,958005194398289920,www.sesin.at,www_sesin_at,for more information about us please visit htt...,88,0,212995,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
210094,1346143661831172097,CVE-2021-26287 is called Confident Sickle\nhtt...,2021-01-04T17:17:13.000Z,0,0,0,0,1096056138569842688,vulnonym,vulnonym,I'm a bot generating names for CVE IDs.,902,0,37553,16
210095,1346143642998743043,CVE-2021-26286 shall henceforth be named Relia...,2021-01-04T17:17:09.000Z,0,0,0,0,1096056138569842688,vulnonym,vulnonym,I'm a bot generating names for CVE IDs.,902,0,37553,16
210096,1346143619967811586,"One night, CVE-2021-25847 wished upon a star, ...",2021-01-04T17:17:03.000Z,0,0,0,0,1096056138569842688,vulnonym,vulnonym,I'm a bot generating names for CVE IDs.,902,0,37553,16
210097,1346143576116375555,Let the annals of the day show that CVE-2021-1...,2021-01-04T17:16:53.000Z,0,0,0,0,1096056138569842688,vulnonym,vulnonym,I'm a bot generating names for CVE IDs.,902,0,37553,16


Ας δούμε τί συμβαίνει με τα missing values. Αρχικά θα ελέγξουμε μήπως έχουμε για τιμή κάπου την κενή συμβολοσειρά και στη συνέχεια θα χρησιμοποιήσουμε την μέθοδο isna().

In [None]:
emptys_from_tweets_df = tweets_df.loc[:,:] == ""

In [None]:
emptys_from_tweets_df.sum()

id                        0
text                      0
created_at                0
retweet_count             0
reply_count               0
like_count                0
quote_count               0
author_id                 0
author_name               0
author_username           0
author_description        0
author_followers_count    0
author_following_count    0
author_tweet_count        0
author_listed_count       0
dtype: int64

In [None]:
print(tweets_df.isna().sum())

id                           0
text                         0
created_at                   0
retweet_count                0
reply_count                  0
like_count                   0
quote_count                  0
author_id                    0
author_name                  0
author_username              0
author_description        3859
author_followers_count       0
author_following_count       0
author_tweet_count           0
author_listed_count          0
dtype: int64


Ωραία, υπάρχουν missing values μόνο στις περιγραφές των χρηστών και αυτό είναι αναμενόμενο, το αντιμετωπίσαμε στην ενότητα του σχηματισμού του **users_df**. 
Τώρα ας κάνουμε τον έλεγχο για διπλότυπα tweets.

In [None]:
if (tweets_df['id'].is_unique):
    print("Όλα καλά! Δεν έχουν μπει στο tweets διπλότυπες εγγραφές για ίδια tweets, (ενώ είναι αναμενόμενο να έχουμε διπλότυπα\nγια τους users αφού ένας user κοινοποιεί άγνωστο αριθμό από tweets).")
    print("Στο dataset μας έχουμε", tweets_df.shape[0], "ξεχωριστά tweets.")

Όλα καλά! Δεν έχουν μπει στο tweets διπλότυπες εγγραφές για ίδια tweets, (ενώ είναι αναμενόμενο να έχουμε διπλότυπα
για τους users αφού ένας user κοινοποιεί άγνωστο αριθμό από tweets).
Στο dataset μας έχουμε 210099 ξεχωριστά tweets.


Ολοκληρώνουμε αποθηκεύοντας το DataFrame μας σε ένα αρχείο CSV για να μπορέσουμε να προχωρήσουμε σε επόμενα notebooks με την ανάλυση.

In [None]:
tweets_df.to_csv('Data/tweets/tweets_2021_with_users.csv', index=False)

In [None]:
# Ερώτηση: μήπως τώρα που το DataFrame σχηματίζεται από λίστα είναι διαφορετικά τα δεδομένα που κρατούνται; 
# Απάντηση: όχι, δεν είναι διαφορετικά! Το ελέγξαμε όπως φαίνεται στην συνέχεια. Ας σημειωθεί ότι ο κώδικας παρακάτω
# αφορά στην περίπτωση που χτίζουμε το DataFrame μόνο με τα tweets, χωρίς τις πληροφορίες των χρηστών. Δοκιμάστηκε
# όμως και για το DataFrame που έχει και tweets και users και βρέθηκε ότι είναι ίδιο, με την διαφορά ότι δεν έχει 
# NaNs εκεί που δεν πρέπει να έχει όπως συνέβαινε στο άλλο (π.χ. ονόματα λογαριασμών 'null' και 'n/a').
#
# Απλά απαιτήθηκε να γίνει type casting καθώς για κάποιον λόγο στο παλιό csv τα ids αποθηκεύτηκαν ως int και όχι 
# ως str (το οποίο str είναι και το σωστό σαν τύπος για αναγνωριστικά, αφού δεν έχουν την έννοια του αριθμού).
# Το tweets_df2 περιείχε το dataset όπως είχε σχηματιστεί με append σε DataFrame και όχι σε λίστα.
# Το print εμφάνισε True και η concat επέστρεψε ένα κενό DataFrame.

#tweets_df = tweets_df.astype({"id": int, "author_id": int})
#tweets_df2 = pd.read_csv('../Data/tweets/tweets_2021.csv',lineterminator='\n')
#print(tweets_df.equals(tweets_df2))
#pd.concat([tweets_df,tweets_df2]).drop_duplicates(keep=False)