# Etape 1 : mise en forme des données

*Durée prévisionnelle : 1h*

Cette première étape nécessite de se confronter aux données réelles qui ne sont pas nécessairement structurées comme souhaitée, et mettre en place les étapes de consolidation (*data management*).

Objectif du notebook :

1. produire un dataset manipulable
2. débuter des statistiques de caractérisation

Choix : ne pas recourir à une base de données car nous sommes dans l'exploratoire. Cela pourrait être une des débouchées de la réflexion.

## 1. Format des données

Les données ont été collectées au fil de l'eau par une interface spécialisée (Gazouilloire, de Sciences Po). Si le tweet fait partie d'un thread, tout le thread est récupéré. La collecte a été lancée à partir du 1ier mars 2020, et dans ce cas ce jeu de données s'arrête en octobre 2020. Il y a un fichier par jour.

Vous pouvez télécharger les données ici : https://www.dropbox.com/scl/fo/21bfj3fq3nac3ix1rccvn/h?rlkey=dk5pxipkfwdx4d709ro294r2i&dl=0

### Comprendre la structuration des données

- Charger un fichier avec pandas ?
- Quelles sont les données ? Qu'est-ce qui caractérise un tweet ?
- Quel est le format ? Quels sont les différents champs ? Que signifient ces champs ?
- Est-ce que tout nous intéresse ? Faire une sélection des champs d'intérêt pour étudier 1/ l'évolution temporelle des tweets ; 2/ les comptes actifs ; 3/ les relations entre les comptes (retweets)

In [1]:
import pandas as pd

On peut spécifier le type de données lors de l'ouverture avec Pandas

In [19]:
df = pd.read_csv("../../../Données/Tweets_HCQ/2020-09-10.csv.gz",
                 dtype = {"id":str,"quoted_id":str,"retweeted_user_id":str}
                )

In [18]:
df

Unnamed: 0,id,time,created_at,from_user_name,text,filter_level,possibly_sensitive,withheld_copyright,withheld_scope,withheld_countries,...,retweeted_user_id,quoted_id,quoted_user_name,quoted_user_id,links,medias_urls,medias_files,mentioned_user_names,mentioned_user_ids,hashtags
0,1303845646689087493,1.599696e+09,2020-09-10T00:00:01,jack_1300xjr,RT @JillLayJones1: Chloroquine ! En supositoire !,,,,,,...,1.077716e+18,1303451967134539776,Mediavenir,1.214316e+18,,,,jilllayjones1,1077715582471102464,coronavirus|covid19|covid19france|lacombe|rent...
1,1303845646315720706,1.599696e+09,2020-09-10T00:00:01,JamesCheef,How can you blame governors saying they weren’...,,,,,,...,,,,,,,,,,
2,1303845652439408641,1.599696e+09,2020-09-10T00:00:02,draintheswamp55,RT @karenalibby: @TDanevirke @stella_immanuel ...,,,,,,...,5.429721e+08,,,,,,,karenalibby|stella_immanuel|tdanevirke,542972106|121532017|1043298463981740033,
3,1303845651776712706,1.599696e+09,2020-09-10T00:00:02,dustoff2,RT @DrTomFrieden: Places around the world that...,,,,,,...,8.204525e+17,,,,,,,drtomfrieden,820452522494226433,
4,1303845660215644160,1.599696e+09,2020-09-10T00:00:04,MagdaSims,RT @emergrigollette: Tem gente que fala que é ...,,0.0,,,,...,8.387876e+17,1303514442974597121,felipeoabrj,4.965425e+07,https://twitter.com/felipeoabrj/status/1303514...,,,emergrigollette,838787596859899904,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65582,1304207994465509381,1.599782e+09,2020-09-10T23:59:51,GreybeardOlorin,RT @TomFitton: #Hydroxychloroquine is a safe d...,,,,,,...,1.826669e+07,,,,,,,tomfitton,18266688,hydroxychloroquine
65583,1304207998043205635,1.599782e+09,2020-09-10T23:59:52,alineja13,@adadessine @MoniquePlaza3 Raoult 😂😂😂😂😂😂😂 http...,,0.0,,,,...,,,,,https://www.youtube.com/watch?v=sESXt8O5ksE&fe...,,,adadessine|moniqueplaza3,328497033|832272924727975937,
65584,1304208008667443201,1.599782e+09,2020-09-10T23:59:54,calcarneiro85,RT @malufontes: falta arroz e sobra cloroquina...,,0.0,,,,...,1.689305e+07,,,,"https://www.metro1.com.br/audios/17987,malu-fo...",,,malufontes,16893050,
65585,1304208008642142208,1.599782e+09,2020-09-10T23:59:54,AMluvinit2,"@DonaldJTrumpJr Me too, I would like to report...",,,,,,...,,,,,,,,donaldjtrumpjr,39344374,


On veut garder certains champs

    id
    created_at
    lang
    text
    from_user_name
    from_user_tweetcount
    from_user_followercount
    from_user_friendcount
    retweeted_id
    quoted_user_id
    mentioned_user_names
    hashtags
    links


> Penser à travailler sur un sous-échantillon du corpus

In [10]:
df.columns

Index(['id', 'time', 'created_at', 'from_user_name', 'text', 'filter_level',
       'possibly_sensitive', 'withheld_copyright', 'withheld_scope',
       'withheld_countries', 'truncated', 'retweet_count', 'favorite_count',
       'reply_count', 'lang', 'to_user_name', 'to_user_id',
       'in_reply_to_status_id', 'source', 'source_name', 'source_url',
       'location', 'lat', 'lng', 'from_user_id', 'from_user_realname',
       'from_user_verified', 'from_user_description', 'from_user_url',
       'from_user_profile_image_url', 'from_user_utcoffset',
       'from_user_timezone', 'from_user_lang', 'from_user_tweetcount',
       'from_user_followercount', 'from_user_friendcount',
       'from_user_favourites_count', 'from_user_listed',
       'from_user_withheld_scope', 'from_user_withheld_countries',
       'from_user_created_at', 'collected_via_search', 'collected_via_stream',
       'collected_via_thread_only', 'collected_at_timestamp', 'retweeted_id',
       'retweeted_user_name', 'r

## 2. Mise en forme de la base de données

La première étape est de consolider les données

### Ecrire une fonction qui filtre les tweets d'un jour et la tester sur un fichier CSV

- garder uniquement les tweets qui mentionnent le mot clé d'intérêt chloro*
- qui sont en français
- en enlevant les colonnes qui ne nous intéressent pas pour avoir un dataset plus manipulable
- mettre les id en chaînes de caractères pour éviter certains problèmes

In [34]:
nom_fichier = "../../../Données/Tweets_HCQ/2020-04-08.csv.gz"

def filtrer_tableau_tweets(nom_fichier):
    """
    Ouvrir et renvoyer le tableau filtré
    """
    tableau = pd.read_csv(nom_fichier,dtype={"id":str,"quoted_user_id":str,
                                             "retweeted_id":str,
                                             "retweeted_user_id":str})
    cols = ["id","created_at","lang","text",
            "from_user_name","from_user_tweetcount","from_user_followercount","from_user_friendcount",
            "retweeted_id","quoted_user_id","mentioned_user_names","hashtags","links",
            'retweeted_user_name', 'retweeted_user_id']
    f_lang = tableau["lang"] == "fr"
    f_mc = tableau["text"].str.lower().str.contains("chloro|chl0r0|chlor0|chl0ro")
    return tableau[f_lang & f_mc][cols]

df = filtrer_tableau_tweets(nom_fichier)
df.to_parquet("../../../Données/fichiers_parquet/2020-04-08.parquet")

  tableau = pd.read_csv(nom_fichier)


### Traiter l'ensemble des données pour construire une structure de données parquet qui ne contient que les données filtrées

- Convertir un fichier csv en parquet avec pandas
- Tester la vitesse d'ouverture
- Convertir l'ensemble des fichiers

In [32]:
df.to_parquet("test.parquet")
df.to_csv("test.csv.gz")

In [36]:
%time df = pd.read_parquet("test.parquet")
%time df = pd.read_csv("test.csv.gz")

CPU times: user 67.3 ms, sys: 24 ms, total: 91.3 ms
Wall time: 64 ms
CPU times: user 246 ms, sys: 12.1 ms, total: 258 ms
Wall time: 257 ms


> Pour faciliter la gestion mémoire : lire chaque csv en chunk et sauvegarder chaque fichier dans un format parquet dans un dossier commun. Mais attention, il y a un enjeu à bien définir un format commun sinon il peut y avoir des soucis.

Sur Parquet & CSV https://www.icem7.fr/cartographie/parquet-devrait-remplacer-le-format-csv/

> Il est possible de créer un seul fichier parquet, mais pour cela il faut gérer correctement le schéma de la base avec `pyarrow`

In [None]:
import os

# Dossiers concernés
repertoire = "../../../Données/Tweets_HCQ/"
cible = "../../../Données/fichiers_parquet/"

# ne garder que les noms de fichiers qui ont "2020" dedans (correspondant à notre période)
fichiers = [i for i in os.listdir(repertoire) if "2020" in i]

# Boucle sur tous les fichiers
for f in fichiers:
    # print(repertoire + f)
    # lire et filtrer un fichier avec la fonction
    df = filtrer_tableau_tweets(repertoire + f)
    
    # écrire le tableau filtrée dans un fichier
    df.to_parquet(cible+f)

### Charger les données filtrées, supprimer les doublons et compléter la base en calculant le nombre de reweets

Dans le cas où il y a un problème de schéma, il est possible d'ouvrir les fichiers un à un, puis les concaténer dans un dataframe unique.

In [None]:
corpus = []
for f in os.listdir(cible):
    corpus.append(pd.read_parquet(cible+f))
df = pd.concat(corpus)
df.to_parquet("dataset.parquet")

Charger les données (soit le dossier ; soit le fichier)

In [49]:
df = pd.read_parquet("../../../Données/Tweets_HCQ_parquet/")

Dédoublonnons

In [53]:
df = df.drop_duplicates(subset=["id"])

Calculer les retweets

In [70]:
retweets = df["retweeted_id"].value_counts()
df = df.join(retweets,on="id")
df = df.rename(columns={"count":"retweet"})

In [71]:
df.to_parquet("./dataset_hcq.parquet")

## 3. Faire des statistiques sur les tweets (comptage)

### Débuter l'exploration des données avec des statistiques descriptives du corpus

- nombre de tweets originaux
- nombre de retweet
- comptes ayant le plus de tweets originaux
    - regarder les tweets associés
- Identifier les tweets les plus retweetés du corpus
- comptes ayant le plus de retweets total (plus grande viralité)

In [74]:
pd.isnull(df["retweeted_id"]).sum()/len(df)

0.1718286638615212

In [78]:
df["original"] = pd.isnull(df["retweeted_id"])

In [80]:
df.groupby("from_user_name")["original"].sum().sort_values()

from_user_name
00000CHANEL          0
audescande           0
auderaiplie          0
audemazoue           0
audemannoury         0
                  ... 
lan1794           1333
InfoVeryfiable    1337
GBOU66            1824
zenutopia1        2022
a_1_0_2           2038
Name: original, Length: 442388, dtype: int64

In [82]:
df.groupby("from_user_name")["retweet"].sum().sort_values()

from_user_name
00000CHANEL             0.0
chicaa135               0.0
chibron_bac2bac         0.0
chibre59                0.0
chibdan4christ          0.0
                     ...   
CorinneReverbel     33655.0
Conflits_FR         41617.0
medicalfollower     77274.0
biobiobiobior      136669.0
raoult_didier      189286.0
Name: retweet, Length: 442388, dtype: float64

### (pas traité) Aller vers une visualisation

- Visualiser la distribution des retweets par tweet
- Proposer une visualisation de la diversité de l'activité des comptes (volume de tweets, viralité, taille des comptes)

> Pour la visualisation : 
>- en x : nombre d'abonnés
>- en y : nombre de tweets fait
>- en taille nombre de retweet

### Bonus : Analyser les biographies des comptes

- Sortir un fichier comptes/bio pour les comptes qui ont fait au moins 10 tweets originaux
    - Quelle bio sélectionner ?

Construire un jeu de données par comptes qui ont au moins 2 activités :

- nom
- bio
- date premier tweet/retweet
- date dernier tweet/retweet
- nombre de tweet
- nombre de retweet