# Etape 1 : mise en forme des donn√©es

*Dur√©e pr√©visionnelle : 1h*

Cette premi√®re √©tape n√©cessite de se confronter aux donn√©es r√©elles qui ne sont pas n√©cessairement structur√©es comme souhait√©e, et mettre en place les √©tapes de consolidation (*data management*).

Objectif du notebook :

1. produire un dataset manipulable
2. d√©buter des statistiques de caract√©risation

Choix : ne pas recourir √† une base de donn√©es car nous sommes dans l'exploratoire. Cela pourrait √™tre une des d√©bouch√©es de la r√©flexion.

## 1. Format des donn√©es

Les donn√©es ont √©t√© collect√©es au fil de l'eau par une interface sp√©cialis√©e (Gazouilloire, de Sciences Po). Si le tweet fait partie d'un thread, tout le thread est r√©cup√©r√©. La collecte a √©t√© lanc√©e √† partir du 1ier mars 2020, et dans ce cas ce jeu de donn√©es s'arr√™te en octobre 2020. Il y a un fichier par jour.

Vous pouvez t√©l√©charger les donn√©es ici : https://www.dropbox.com/scl/fo/21bfj3fq3nac3ix1rccvn/h?rlkey=dk5pxipkfwdx4d709ro294r2i&dl=0

### Comprendre la structuration des donn√©es

- Charger un fichier avec pandas ?
- Quelles sont les donn√©es ? Qu'est-ce qui caract√©rise un tweet ?
- Quel est le format ? Quels sont les diff√©rents champs ? Que signifient ces champs ?
- Est-ce que tout nous int√©resse ? Faire une s√©lection des champs d'int√©r√™t pour √©tudier 1/ l'√©volution temporelle des tweets ; 2/ les comptes actifs ; 3/ les relations entre les comptes (retweets)

In [1]:
import pandas as pd

On peut sp√©cifier le type de donn√©es lors de l'ouverture avec Pandas

In [19]:
df = pd.read_csv("../../../Donn√©es/Tweets_HCQ/2020-09-10.csv.gz",
                 dtype = {"id":str,"quoted_id":str,"retweeted_user_id":str}
                )

In [18]:
df

Unnamed: 0,id,time,created_at,from_user_name,text,filter_level,possibly_sensitive,withheld_copyright,withheld_scope,withheld_countries,...,retweeted_user_id,quoted_id,quoted_user_name,quoted_user_id,links,medias_urls,medias_files,mentioned_user_names,mentioned_user_ids,hashtags
0,1303845646689087493,1.599696e+09,2020-09-10T00:00:01,jack_1300xjr,RT @JillLayJones1: Chloroquine ! En supositoire !,,,,,,...,1.077716e+18,1303451967134539776,Mediavenir,1.214316e+18,,,,jilllayjones1,1077715582471102464,coronavirus|covid19|covid19france|lacombe|rent...
1,1303845646315720706,1.599696e+09,2020-09-10T00:00:01,JamesCheef,How can you blame governors saying they weren‚Äô...,,,,,,...,,,,,,,,,,
2,1303845652439408641,1.599696e+09,2020-09-10T00:00:02,draintheswamp55,RT @karenalibby: @TDanevirke @stella_immanuel ...,,,,,,...,5.429721e+08,,,,,,,karenalibby|stella_immanuel|tdanevirke,542972106|121532017|1043298463981740033,
3,1303845651776712706,1.599696e+09,2020-09-10T00:00:02,dustoff2,RT @DrTomFrieden: Places around the world that...,,,,,,...,8.204525e+17,,,,,,,drtomfrieden,820452522494226433,
4,1303845660215644160,1.599696e+09,2020-09-10T00:00:04,MagdaSims,RT @emergrigollette: Tem gente que fala que √© ...,,0.0,,,,...,8.387876e+17,1303514442974597121,felipeoabrj,4.965425e+07,https://twitter.com/felipeoabrj/status/1303514...,,,emergrigollette,838787596859899904,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65582,1304207994465509381,1.599782e+09,2020-09-10T23:59:51,GreybeardOlorin,RT @TomFitton: #Hydroxychloroquine is a safe d...,,,,,,...,1.826669e+07,,,,,,,tomfitton,18266688,hydroxychloroquine
65583,1304207998043205635,1.599782e+09,2020-09-10T23:59:52,alineja13,@adadessine @MoniquePlaza3 Raoult üòÇüòÇüòÇüòÇüòÇüòÇüòÇ http...,,0.0,,,,...,,,,,https://www.youtube.com/watch?v=sESXt8O5ksE&fe...,,,adadessine|moniqueplaza3,328497033|832272924727975937,
65584,1304208008667443201,1.599782e+09,2020-09-10T23:59:54,calcarneiro85,RT @malufontes: falta arroz e sobra cloroquina...,,0.0,,,,...,1.689305e+07,,,,"https://www.metro1.com.br/audios/17987,malu-fo...",,,malufontes,16893050,
65585,1304208008642142208,1.599782e+09,2020-09-10T23:59:54,AMluvinit2,"@DonaldJTrumpJr Me too, I would like to report...",,,,,,...,,,,,,,,donaldjtrumpjr,39344374,


On veut garder certains champs

    id
    created_at
    lang
    text
    from_user_name
    from_user_tweetcount
    from_user_followercount
    from_user_friendcount
    retweeted_id
    quoted_user_id
    mentioned_user_names
    hashtags
    links


> Penser √† travailler sur un sous-√©chantillon du corpus

In [10]:
df.columns

Index(['id', 'time', 'created_at', 'from_user_name', 'text', 'filter_level',
       'possibly_sensitive', 'withheld_copyright', 'withheld_scope',
       'withheld_countries', 'truncated', 'retweet_count', 'favorite_count',
       'reply_count', 'lang', 'to_user_name', 'to_user_id',
       'in_reply_to_status_id', 'source', 'source_name', 'source_url',
       'location', 'lat', 'lng', 'from_user_id', 'from_user_realname',
       'from_user_verified', 'from_user_description', 'from_user_url',
       'from_user_profile_image_url', 'from_user_utcoffset',
       'from_user_timezone', 'from_user_lang', 'from_user_tweetcount',
       'from_user_followercount', 'from_user_friendcount',
       'from_user_favourites_count', 'from_user_listed',
       'from_user_withheld_scope', 'from_user_withheld_countries',
       'from_user_created_at', 'collected_via_search', 'collected_via_stream',
       'collected_via_thread_only', 'collected_at_timestamp', 'retweeted_id',
       'retweeted_user_name', 'r

## 2. Mise en forme de la base de donn√©es

La premi√®re √©tape est de consolider les donn√©es

### Ecrire une fonction qui filtre les tweets d'un jour et la tester sur un fichier CSV

- garder uniquement les tweets qui mentionnent le mot cl√© d'int√©r√™t chloro*
- qui sont en fran√ßais
- en enlevant les colonnes qui ne nous int√©ressent pas pour avoir un dataset plus manipulable
- mettre les id en cha√Ænes de caract√®res pour √©viter certains probl√®mes

In [34]:
nom_fichier = "../../../Donn√©es/Tweets_HCQ/2020-04-08.csv.gz"

def filtrer_tableau_tweets(nom_fichier):
    """
    Ouvrir et renvoyer le tableau filtr√©
    """
    tableau = pd.read_csv(nom_fichier,dtype={"id":str,"quoted_user_id":str,
                                             "retweeted_id":str,
                                             "retweeted_user_id":str})
    cols = ["id","created_at","lang","text",
            "from_user_name","from_user_tweetcount","from_user_followercount","from_user_friendcount",
            "retweeted_id","quoted_user_id","mentioned_user_names","hashtags","links",
            'retweeted_user_name', 'retweeted_user_id']
    f_lang = tableau["lang"] == "fr"
    f_mc = tableau["text"].str.lower().str.contains("chloro|chl0r0|chlor0|chl0ro")
    return tableau[f_lang & f_mc][cols]

df = filtrer_tableau_tweets(nom_fichier)
df.to_parquet("../../../Donn√©es/fichiers_parquet/2020-04-08.parquet")

  tableau = pd.read_csv(nom_fichier)


### Traiter l'ensemble des donn√©es pour construire une structure de donn√©es parquet qui ne contient que les donn√©es filtr√©es

- Convertir un fichier csv en parquet avec pandas
- Tester la vitesse d'ouverture
- Convertir l'ensemble des fichiers

In [32]:
df.to_parquet("test.parquet")
df.to_csv("test.csv.gz")

In [36]:
%time df = pd.read_parquet("test.parquet")
%time df = pd.read_csv("test.csv.gz")

CPU times: user 67.3 ms, sys: 24 ms, total: 91.3 ms
Wall time: 64 ms
CPU times: user 246 ms, sys: 12.1 ms, total: 258 ms
Wall time: 257 ms


> Pour faciliter la gestion m√©moire : lire chaque csv en chunk et sauvegarder chaque fichier dans un format parquet dans un dossier commun. Mais attention, il y a un enjeu √† bien d√©finir un format commun sinon il peut y avoir des soucis.

Sur Parquet & CSV https://www.icem7.fr/cartographie/parquet-devrait-remplacer-le-format-csv/

> Il est possible de cr√©er un seul fichier parquet, mais pour cela il faut g√©rer correctement le sch√©ma de la base avec `pyarrow`

In [None]:
import os

# Dossiers concern√©s
repertoire = "../../../Donn√©es/Tweets_HCQ/"
cible = "../../../Donn√©es/fichiers_parquet/"

# ne garder que les noms de fichiers qui ont "2020" dedans (correspondant √† notre p√©riode)
fichiers = [i for i in os.listdir(repertoire) if "2020" in i]

# Boucle sur tous les fichiers
for f in fichiers:
    # print(repertoire + f)
    # lire et filtrer un fichier avec la fonction
    df = filtrer_tableau_tweets(repertoire + f)
    
    # √©crire le tableau filtr√©e dans un fichier
    df.to_parquet(cible+f)

### Charger les donn√©es filtr√©es, supprimer les doublons et compl√©ter la base en calculant le nombre de reweets

Dans le cas o√π il y a un probl√®me de sch√©ma, il est possible d'ouvrir les fichiers un √† un, puis les concat√©ner dans un dataframe unique.

In [None]:
corpus = []
for f in os.listdir(cible):
    corpus.append(pd.read_parquet(cible+f))
df = pd.concat(corpus)
df.to_parquet("dataset.parquet")

Charger les donn√©es (soit le dossier ; soit le fichier)

In [49]:
df = pd.read_parquet("../../../Donn√©es/Tweets_HCQ_parquet/")

D√©doublonnons

In [53]:
df = df.drop_duplicates(subset=["id"])

Calculer les retweets

In [70]:
retweets = df["retweeted_id"].value_counts()
df = df.join(retweets,on="id")
df = df.rename(columns={"count":"retweet"})

In [71]:
df.to_parquet("./dataset_hcq.parquet")

## 3. Faire des statistiques sur les tweets (comptage)

### D√©buter l'exploration des donn√©es avec des statistiques descriptives du corpus

- nombre de tweets originaux
- nombre de retweet
- comptes ayant le plus de tweets originaux
    - regarder les tweets associ√©s
- Identifier les tweets les plus retweet√©s du corpus
- comptes ayant le plus de retweets total (plus grande viralit√©)

In [74]:
pd.isnull(df["retweeted_id"]).sum()/len(df)

0.1718286638615212

In [78]:
df["original"] = pd.isnull(df["retweeted_id"])

In [80]:
df.groupby("from_user_name")["original"].sum().sort_values()

from_user_name
00000CHANEL          0
audescande           0
auderaiplie          0
audemazoue           0
audemannoury         0
                  ... 
lan1794           1333
InfoVeryfiable    1337
GBOU66            1824
zenutopia1        2022
a_1_0_2           2038
Name: original, Length: 442388, dtype: int64

In [82]:
df.groupby("from_user_name")["retweet"].sum().sort_values()

from_user_name
00000CHANEL             0.0
chicaa135               0.0
chibron_bac2bac         0.0
chibre59                0.0
chibdan4christ          0.0
                     ...   
CorinneReverbel     33655.0
Conflits_FR         41617.0
medicalfollower     77274.0
biobiobiobior      136669.0
raoult_didier      189286.0
Name: retweet, Length: 442388, dtype: float64

### (pas trait√©) Aller vers une visualisation

- Visualiser la distribution des retweets par tweet
- Proposer une visualisation de la diversit√© de l'activit√© des comptes (volume de tweets, viralit√©, taille des comptes)

> Pour la visualisation : 
>- en x : nombre d'abonn√©s
>- en y : nombre de tweets fait
>- en taille nombre de retweet

### Bonus : Analyser les biographies des comptes

- Sortir un fichier comptes/bio pour les comptes qui ont fait au moins 10 tweets originaux
    - Quelle bio s√©lectionner ?

Construire un jeu de donn√©es par comptes qui ont au moins 2 activit√©s :

- nom
- bio
- date premier tweet/retweet
- date dernier tweet/retweet
- nombre de tweet
- nombre de retweet