In [1]:
import json                         # module pour load le file
import re                           # module pour retourner les hasthtags
from textblob import TextBlob       # module pour analyser le sentiment du tweet
import pandas as pd                 # module pour visualiser et comparer les tweets
import matplotlib.pyplot as plt     
from datetime import datetime
import random as rd             
import langid

# Data utilisé pour la création des dictionnaires pour faciliter l'analyse de diagramme,...
file = open("tweets.json","r")
data =json.load(file)
file.close()

# Data utilisé pour analyser visuellement les différentes caractéristiques d'un tweet
data2 = pd.read_json("tweets.json")
df_data = pd.DataFrame(data2)

In [2]:
class Tweet :
    def __init__(self,id_tweet,location_tweet,creation_tweet,retweet_count,tweet_language,tweet_text) :
        self.id = id_tweet
        self.location = location_tweet
        self.created = creation_tweet
        self.retweet = retweet_count
        self.language = tweet_language
        self.text = tweet_text
    
    def __str__(self):
        return f"Tweet id : {self.id}\nAuthor Location : {self.location} \nTweet Creation : {self.created} \nNumber of Retweets : {self.retweet} \nTweet Language : {self.language} \nTweet Text : {self.text}"
    
    def get_author(self):
        id_tweet = self.id
        return id_tweet
    
    def get_text(self):
        return self.text
    
    def get_hashtags(self):
        return re.findall(r"#(\w+)", self.text)

    def get_mention(self):
        return re.findall(r"@(\w+)", self.text)
    
    def get_sentiment(self):
        text = TextBlob(self.text)
        text_polarity = text.sentiment.polarity
        if text_polarity > 0 :
            return "Positive"
        elif text_polarity < 0 :
            return "Negative"
        else :
            return "Neutral" 


#instance/ objets de la class
tweets = [Tweet(tweet["id"],tweet["AuthorLocation"],tweet["CreatedAt"],tweet["RetweetCount"],tweet["TweetLanguage"],tweet["TweetText"]) for tweet in data]

In [3]:
#########################################################################################################################
##########################################  AVEC LES DICTIONNAIRES   ####################################################
#########################################################################################################################

# Pour Top K Hashtags -> 2 fonctions

# La première :
def all_hashtag():
    '''retourne tout les hashtags du fichier json dans une liste'''
    l = []                                         # on intialise la liste qui va être retournée à l'éxécution de la fonction
    for tweet in tweets:                           # on parcours tout les tweets (un par un)
        if tweet.get_hashtags()== [] :             # on vérifie avec l'atribut de l'instance si la valeur retourner est  "[]" <- pas de valeur ; dans ce cas là on passe au tweet suivant
            continue
        else :
            temp = tweet.get_hashtags()            # on affecte a temp (variable temporaire) la liste des hashtags de chaque tweet
            for hashtag in temp :                  # on accède à chaque hashtag présent dans temp
                l.append(hashtag)                  # on l'affecte à la liste finale qu'on va retourner
                
    return l
    
   
# La deuxième :
def top_hashtag(k):
    '''retourne le top k (index) hashtag utilisé dans la database'''
    hashtags = all_hashtag()                       # utilisation de la fonction all_hashtag() pour récupérer la liste complète des hashtag
    hashtag_count = {}                             # on initialise un dictionnaire vide pour compter chaque occurence de chaque hashtag
    for hashtag in hashtags :                      # ici on prend chaque hashtag un par un, ici nommé "e" (pour élément)
        if hashtag in hashtag_count :              # on vérifie si "hashtag" est dans le dictionnaire qui compte les occurences
            hashtag_count[hashtag] += 1            # dans ce cas là on incrémente sa valeur de 1
        else :
            hashtag_count[hashtag] = 1             # dans le cas contraire, on initialise la clé "hashtag" à une valeur initiale de 1 

    hashtag_count = dict(sorted(hashtag_count.items(),key = lambda x : x[1], reverse=True)) # on tri le dictionnaire en fonction des valeurs avec le lambda x[1] et reverse = True (de manière croissante)
    temp = list(hashtag_count.items())[:k]        # on converti le dictionnaire en une liste pour pouvoir effectué un slicing (afin d'obtenir les top k éléments) 
    top_k_hashtag = dict(temp)                    # on reconverti en dictionnaire afin de pouvoir manipuler les clés et valeurs facilement et dans un odre précis
    
    # Diagramme avec plt
    x_hashtag = list(top_k_hashtag.keys())        # on affecte à la variable x_hashtag les clés du dictionnaire (les hashtags (str))
    y_occurence = list(top_k_hashtag.values())    # on affecte à la variable y_occurence les valeurs des clés du dictionnaire (les occurences)

    plt.bar(x_hashtag,y_occurence)                # on créer le diagramme en bar avec en x -> x_hashtag et en y -> y_occurence
    plt.xlabel("Hashtag")                         # "Hashtag" comme titre de l'axe des x
    plt.ylabel("Occurence")                       # "Occurence" comme titre de l'axe des y

    plt.xticks(fontsize=6)                        # on précise la taille du texte pour les valeurs en x (les hashtags)
    plt.show()                                    # affichage du diagramme

    return top_k_hashtag                          # on retourne en même temps le dictionnaire trié en ordre croissant des top k hashtags

#########################################################################################################################

# Pour Top K Users -> 2 fonctions 

# La première : 
def all_users():
    '''retourne tout les utilisateurs présent dans le fichier json dans une liste'''
    l = []                                       # on intialise la liste qui va être retournée à l'éxécution de la fonction
    for tweet in tweets:                         # on parcours tout les tweets (un par un)
        user = tweet.get_author()                # on extrait l'auteur grâce à la méthode .get_author() qu'on place dans la variable user
        l.append(user)                           # on ajoute à la liste l'utilisateur/id du tweet
                
    return l

# La deuxième : 
def top_users(k):
    '''retourne le top k (index) d'utilisateurs/id présent dans la database'''
    users = all_users()                          # utilisation de la fonction all_users() pour récupérer la liste complète des utilisateurs
    user_ntweet = {}                             # on initialise un dictionnaire vide pour compter chaque occurence de chaque id
    for user in users :                          # ici on prend chaque id un par un, ici nommé "user"
        if user in user_ntweet :                 # on vérifie si l'id est déjà dans le dictionnaire
            user_ntweet[user] += 1               # si c'est le ce cas, on incrémente sa valeur de 1 
        else :
            user_ntweet[user] = 1                # sinon on crée une clé pour l'id correspondant et on initie sa valeur à 1 

    user_ntweet = dict(sorted(user_ntweet.items(), key = lambda x : x[1], reverse=True)) # on tri le dictionnaire en fonction des valeurs avec le lambda x[1] et reverse = True (de manière croissante)
    temp = list(user_ntweet.items())[:k]         # on converti le dictionnaire en une liste pour pouvoir effectué un slicing (afin d'obtenir les top k éléments)
    top_k_users = dict(temp)                     # on reconverti en dictionnaire afin de pouvoir manipuler les clés et valeurs facilement et dans un odre précis

    x_user = list(top_k_users.keys())            # on affecte à la variable x_user les clés du dictionnaire (les id (str))
    y_occurence = list(top_k_users.values())     # on affecte à la variable y_occurence les valeurs du dictionnaire (les occurences)

    plt.bar(x_user,y_occurence)                  # on créer le diagramme en bar avec en x -> x_hashtag et en y -> y_occurence
    plt.xlabel("User")                           # "User" comme titre de l'axe des x
    plt.ylabel("Occurence")                      # "Occurence" comme titre de l'axe des y

    plt.xticks(fontsize=5)                       # on précise la taille du texte pour les valeurs en x (les id)
    plt.show()                                   # affichage du diagramme

    return top_k_users                           # on retourne en même temps le dictionnaire trié en ordre croissant des top k users

#########################################################################################################################

# Pour the top K mentions -> 2 fonctions 

# La première : 
def all_mentions():
    '''retourne toutes les mentions de la database'''
    l = []                                        # on initialise la liste qui va être utilisée pour retourner les mentions à l'éxécution de la fonction
    for tweet in tweets:
        if tweet.get_mention()== [] :             # on vérifie avec l'atribut de l'instance si la valeur retourner est  "[]" <- pas de valeur ; dans ce cas là on passe au tweet suivant
            continue
        else :
            mentions = tweet.get_mention()        # on place les mentions obtenues du tweet dans la variable temporaire mentions (qui va correspondre à une liste) 
            for mention in mentions :             # on parcours chaque élément de la liste (ils peuvent être dans une liste de liste par exemple :[[mention],mention2,...])
                l.append(mention)                 # et on l'ajoute à notre liste finale
                
    return l

def top_mention(k):
    '''retourne le top k (index) d'utilisateurs/id présent dans la database'''
    mentions = all_mentions()                       # utilisation de la fonction all_mentions() pour récupérer la liste complète des mentions
    mention_ntweet = {}                             # on initialise un dictionnaire vide pour compter chaque occurence de chaque mention
    for mention in mentions :                       # ici on prend chaque mention, une par une
        if mention in mention_ntweet :              # on vérifie si la mention est présente dans le dictionnaire
            mention_ntweet[mention] += 1            # dans ce cas là on incrémente la valeur corresponde à la mention (la clé)
        else :
            mention_ntweet[mention] = 1             # dans le cas contraire on initie la clé correspondante à la mention à 1

    mention_ntweet = dict(sorted(mention_ntweet.items(),key = lambda x : x[1], reverse=True)) # on tri le dictionnaire en fonction des valeurs avec le lambda x[1] et reverse = True (de manière croissante)
    temp = list(mention_ntweet.items())[:k]         # on converti le dictionnaire en une liste pour pouvoir effectué un slicing (afin d'obtenir les top k éléments)
    top_k_mentions = dict(temp)                     # on reconverti la liste en dictionnaire trié en ordre croissant des top k mentions

    x_mention = list(top_k_mentions.keys())         # on affecte à la variable x_mention les clés du dictionnaire (les mentions (str))
    y_occurence = list(top_k_mentions.values())     # on affecte à la variable y_occurence les valeurs du dictionnaire (les occurences)

    plt.bar(x_mention,y_occurence)                  # on créer le diagramme en bar avec en x -> x_mention et en y -> y_occurence
    plt.xlabel("Mention",)                          # on créer le diagramme en bar avec en x -> x_mention
    plt.ylabel("Occurence")                         # on créer le diagramme en bar avec en y -> y_occurence

    plt.xticks(fontsize=7)                          # on précise la taille du texte pour les valeurs en x (les mentions)
    plt.show()                                      # affichage du diagramme

    return top_k_mentions                           # on retourne en même temps le dictionnaire trié en ordre croissant des top k mentions

#########################################################################################################################

def top_topics():
    pass


###########################################################################################################################
################################################## AVEC LES DATAFRAMES   ##################################################
###########################################################################################################################


def all_tweet_mention(mention):
    '''retourne l'ensemble des tweets mentionnant un utilisateur spécifique dans un dataframe'''                                                               
    return df_data[df_data["TweetText"].str.contains(f"@{mention}",regex=False)]              # on tri les lignes de la database pour extraire seulement celle qui contiennent @mention dans la colonne 

def all_tweet_hashtag(hashtag):
    '''retourne l'ensemble des tweets faisant référence à un hashtag spécifique'''                                                               
    return df_data[df_data["TweetText"].str.contains(f"#{hashtag}",regex=False)]              # on tri les lignes de la database pour extraire seulement celle qui contiennent #hashtag dans la colonne de TweetText

def user_specified_hashtag(hashtag):
    '''retourne les id de chaque utilisateur mentionnant un hashtag spécifique'''                                                         
    return df_data[df_data["TweetText"].str.contains(f"#{hashtag}",regex=True)].get("id")     # on tri les lignes de la database pour extraire  les #hashtag présent dans la colonne TweetText et on extrait seulement les id

def user_mentionned(user):
    '''retourne les utilisateurs mentionnés par un utilisateur spécifique'''                                                                
    text = str(df_data[df_data["id"]==user].get("TweetText"))                                 # on attribue à la variable text le texte du tweet qui correspond à l'utilisiateur spécifique
    return re.findall(r"@(\w+)", text)                                                        # on nettoie le text en extrayant les mentions avec le r"@(\w+)"



In [15]:
################################################# PARTIE SUR LA CREATION DE TWEET #############################################################

def creation_time():
    '''retourne la date,heure, ... actuelle dans le format utilisé dans le base de donnée'''
    actual_time = datetime.now()                                          # on attribue la date actuelle à la variable actual_time 
    actual_time = actual_time.strftime("%Y-%m-%dT%H:%M:%SZ")              # on reformatise la date avec le format correspondant au fichier json, https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior
    return actual_time

def random_location():
    '''retourner une ville aléatoire pour simuler la localisation de l'auteur du tweet'''                                                    
    locations =[                                                          # locations est une liste de ville 
                "Tokyo, Japan", 
                "New York City, United-States",
                "London, England",
                "Pekin, China",
                "Paris, France",
                "Montreal, Canada",
                "Madrid, Spain",
                "Los Angeles, United-States",
                "Delhi, India",
                "Beirut, Lebanon",
                "Versailles, France",
                "Amsterdam, Netherland",
                "Shanghai, China",
                "Moscou, Russia",
                "São Paulo, Brasil"
                ]
    
    return locations[rd.randint(0,len(locations)-1)]                     # on va retourner un ville aléatoire avec l'utilsation du module random (pour l'index)

def create_tweet():
    '''Fonction qui va permettre d'écrire un tweet et de l'intégrer dans la base de donnée'''  

    text_tweet = input("Que voulez vous tweetez ?")                      # le sujet de notre tweet est récupérer dans la variable text_tweet
    tweet_lang,_ = langid.classify(text_tweet)                           # la langue est extraite de la variable text_tweet grace au module langid
    tweet = {                                                            # dictionnaire qui va contenir les informations sur le tweet
        "id": int(input("Veuillez entrez votre id: ")),                  # on récupère l'id de l'utilisateur (il va le rentrer)
        "AuthorLocation": random_location(),
        "CreatedAt": creation_time() ,
        "RetweetCount": rd.randint(1,10),
        "TweetLanguage": tweet_lang,
        "TweetText": text_tweet                                          # à corriger pour les é etc on obtient /u... 
            }

    try:
        with open("filetest.json", "r") as file:
            database = json.load(file)
    except FileNotFoundError:
         
         database = []

    
    database.append(tweet)

    
    with open("filetest.json", "w") as file:
        json.dump(database, file,indent=3)

create_tweet()

In [20]:
def text_cleaning(text):
  '''retourne le texte entrée, nettoyer de tout symboles/emojis'''
  # Pattern trouvé sur le lien suivant : https://gist.github.com/Alex-Just/e86110836f3f93fe7932290526529cd1#gistcomment-3208085
  
  pattern = re.compile(
    "(["
    "\U0001F1E0-\U0001F1FF"  # flags (iOS)
    "\U0001F300-\U0001F5FF"  # symbols & pictographs
    "\U0001F600-\U0001F64F"  # emoticons
    "\U0001F680-\U0001F6FF"  # transport & map symbols
    "\U0001F700-\U0001F77F"  # alchemical symbols
    "\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
    "\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
    "\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
    "\U0001FA00-\U0001FA6F"  # Chess Symbols
    "\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
    "\U00002702-\U000027B0"  # Dingbats
    "])"
                      )
  
  text = re.sub(pattern, r'', text)                  # ici l'expression regulière va supprimer (sub en anglais) les émojis et caractères contenus dans le pattern
  return text

def transfer(source, destination):
  '''retourne un "fichier_atterissage.json", une base de donnée nettoyer'''
  with open(source,"r") as source_file, open(destination,"w") as destination_file :       # on ouvre le fichier source (-> source_file) et fichier destination (-> destination_file)

      content_source = source_file.read()                        # on extrait le contenu de notre fichier source que l'on attribue à la variable content_source
      content_source = text_cleaning(content_source)             # 

      destination_file.write(content_source)

transfer("tweets.json","fichier_atterrissage.json")

In [None]:
############################################## TESTS ########################################################

In [None]:
all_hashtag()

In [None]:
all_tweet_hashtag("ArtificialIntelligence")

In [None]:
user_mentionned(1418705513660010496)        # à corriger

In [None]:
all_tweet_hashtag("MachineLearning")

In [None]:
all_tweet_mention("nigewillson")

In [None]:
user_mentionned(1415291886860967936)

In [None]:
df_data

In [None]:
top_hashtag(5)

In [None]:
# Test for Top k hashtags
all_hashtag()
top_hashtag(3)

In [None]:
# Test for Top k users
all_users()
top_users(4)

In [None]:
# Test for Top k mentions
all_mentions()
top_mention(7)

In [6]:
all_tweet_hashtag("DataScience")

Unnamed: 0,id,AuthorLocation,CreatedAt,RetweetCount,TweetLanguage,TweetText
3,1415291968700264448,Internet,2021-07-14T12:47:54Z,20,en,RT @HarbRimah: Making AI Sing https://t.co/FJo...
99,1415594177136668672,The Netherlands,2021-07-15T08:48:46Z,0,en,Employers turning to #ArtificialIntelligence t...
154,1415775469161652224,Europe,2021-07-15T20:49:10Z,37,en,RT @Paula_Piccard: Decoding crop genetics with...
253,1416122729066123264,The Netherlands,2021-07-16T19:49:03Z,1,en,A simple model of the brain provides new direc...
270,1416168124831895552,Germany,2021-07-16T22:49:26Z,167,en,RT @Paula_Piccard: 9 top applications of artif...
328,1416364411355385856,"Brighton & Hove, UK",2021-07-17T11:49:25Z,4,en,RT @Fisher85M: What are some Artificial Intell...
375,1416515546753929216,"Tallinn, Estonia",2021-07-17T21:49:58Z,307,en,RT @Paula_Piccard: Artificial Intelligence Cre...
377,1416515488000221184,Internet,2021-07-17T21:49:44Z,307,en,RT @Paula_Piccard: Artificial Intelligence Cre...
423,1416681648662269952,,2021-07-18T08:50:00Z,79,en,RT @machinelearnTec: Using artificial intellig...
424,1416681626311008256,Europe,2021-07-18T08:49:55Z,79,en,RT @machinelearnTec: Using artificial intellig...


In [5]:
all_tweet_mention("SpirosMargaris")

Unnamed: 0,id,AuthorLocation,CreatedAt,RetweetCount,TweetLanguage,TweetText
142,1415745098394996736,,2021-07-15T18:48:29Z,170,en,RT @DeepLearn007: Amazing #AI Translates Menta...
200,1415926488801718272,Kenya,2021-07-16T06:49:16Z,0,en,Why Global #ArtificialIntelligence \n\nis the ...
367,1416485301925539840,"Irvine, CA",2021-07-17T19:49:47Z,1,en,RT @SpirosMargaris: Researchers at @facebookai...
448,1416757077003931648,"Austin, TX",2021-07-18T13:49:43Z,2,en,RT @SpirosMargaris: What are the Implications ...
449,1416757074030174208,,2021-07-18T13:49:43Z,2,en,RT @SpirosMargaris: What are the Implications ...
457,1416787435535618048,U.K.,2021-07-18T15:50:21Z,12,en,RT @SpirosMargaris: What are the Implications ...
521,1417074345927745536,All Over the World,2021-07-19T10:50:26Z,4,en,RT @SpirosMargaris: Artificial Intelligence st...
943,1418614895818403840,"Dallas, TX",2021-07-23T16:52:02Z,0,en,As the presence of #AI and #automation increas...
1133,1419279456724791296,Northeast USA,2021-07-25T12:52:46Z,6,en,RT @SpirosMargaris: Good read\n\n#ArtificialIn...
1135,1419294395287982080,"Frankfurt on the Main, Germany",2021-07-25T13:52:07Z,25,en,RT @SpirosMargaris: What is #AI? \n\nEverythin...


In [None]:
df_data

In [None]:
all_hashtag()

In [None]:
user_specified_hashtag("FEATURED")

In [None]:
user_mentionned(1415291886860967936)

In [None]:
all_tweet_hashtag("machine")

In [None]:
tweets[829].get_mention()

In [None]:
text_cleaning("Je m'appelle Ahmad, j'ai 19 et j'étudie l'informatique à l'Université de Versaille Saint-Quention en Yvelines 🎓")

"Je m'appelle Ahmad, j'ai 19 et j'étudie l'informatique à l'Université de Versaille Saint-Quention en Yvelines "