In [2]:
import json

# On ouvre le fichier json et on le charge dans une liste de dictionnaire
with open("aitweets.json", "r", encoding="UTF-8") as file:
    data = [json.loads(line) for line in file]

def clean_text(text: str, excepted_char: list) -> list:
    """
    Cette fonction prend en paramètre un string et retourne le string nettoyés sous forme de liste.
    :param text: str
    :param excepted_char: list
    :return cleaned_text: list
    """

    # On remplace les caractères spéciaux par des espaces sauf si ceux-ci sont dans excepted_char
    cleaned_text = text.translate({
        char: " " for char in text if not char.isalnum() and char not in excepted_char
    })

    # On sépare le texte en liste de mots
    cleaned_text = cleaned_text.strip().split()

    return cleaned_text # On retourne la liste


def extraction_ha(tweet: dict) -> dict:
    """
    Cette fonction prend en paramètre un tweet et retourne un dictionnaire contenant l'id du tweet et la liste des hashtags.
    :param tweet: dict
    :return data_list: dict
    """

    # On crée un dictionnaire avec l'id du tweet et une liste vide pour les hashtags
    data_list = {
        "id": tweet["id"],
        "hashtags": [],
        "arobase": []
    }
    
    # On parcourt chaque mot du tweet
    for word in clean_text(tweet["TweetText"], ["#", "@"]):
        if word[0] == "#": # Si le mot commence par un #
            data_list["hashtags"].append(word[1:].lower()) # On ajoute le mot sans le # à la liste des hashtags
        elif word[0] == "@": # Si le mot commence par un @
            data_list["arobase"].append(word[1:].lower()) # On ajoute le mot sans le @ à la liste des arobase

    return data_list # On retourne le dictionnaire


{'id': '1415291904850153474', 'hashtags': []}
{'id': '1415291947560828933', 'hashtags': ['hdatasystems', 'artificia…']}
{'id': '1415291877897605120', 'hashtags': []}
{'id': '1415291886860967940', 'hashtags': []}
{'id': '1415291968700264450', 'hashtags': ['machinelearning', 'datascience', 'python', 'ai', '100daysofcode', 'devcommunity', 'iot', 'flutte…']}
{'id': '1415292139941109763', 'hashtags': ['artificialintelligence']}
{'id': '1415292142256365573', 'hashtags': []}
{'id': '1415292148967223298', 'hashtags': []}
{'id': '1415307247010213893', 'hashtags': ['ai', 'artificialintelligence']}
{'id': '1415307203645296642', 'hashtags': []}
{'id': '1415307239657811971', 'hashtags': ['deeplearning', 'ai']}
{'id': '1415307213929861124', 'hashtags': ['artificialintelligence']}
{'id': '1415307277913968651', 'hashtags': []}
{'id': '1415322365664321549', 'hashtags': ['featured', 'courses', 'machine', 'learning']}
{'id': '1415322360480141314', 'hashtags': ['featured', 'courses', 'machine', 'learning'