# Projet de programmation

## Introduction <a name="intro"></a>

Il faut récupèrer le projet avec : 

    git clone https://github.com/gwatkinson/projet-python-twitter.git

Puis, il faut créer le fichier `projet/credentials.py`, qui contient les clés de l'API de Twitter.

Dans le format suivant :

```python
credentials = {
    "consumer_key": "XXXXXXX",
    "consumer_secret": "XXXXXXX",
    "access_token": "XXXXXXX",
    "access_token_secret": "XXXXXXX",
}
```

Finalement, il suffit d'executer les cellules de ce notebook dans l'ordre.

## Table des matières

* [Introduction](#intro)
1. [Récupération des données](#data)
2. [Modélisation](#model)
3. [Visualisation](#visu)
* [Conclusion](#conc)
* [Annexes](#annex)

## 1. Récupération des données <a name="data"></a>



Nous avons utilisé l'**API** de Twitter pour récupérer les nouveaux tweets publiés sur Twitter, la nuit du 3 au 4 Novembre 2020 (la nuit de l'éléction américaine). Nous avons seulement récupérer les tweets qui contennaient certains mots :

In [1]:
# Liste 3 sur Trump et Biden uniquement
liste_3 = [
    "biden",
    "trump",
    "JoeBiden",
    "realDonaldTrump",
]

# Liste 4 sur le thème 'vote'
liste_4 = [
    "iwillvote",
    "govote",
    "uselection",
    "vote",
]

# Liste 5 sur le thème 'election'
liste_5 = [
    "uselection",
    "president",
    "presidentialelection",
    "presidential",
    "electionnight",
]

Pour cela, nous avons utilisé le module python `tweepy` ainsi que les fonctions codées dans le module `streaming` (voir la documentation pour plus d'information sur [`start_stream`](https://gwatkinson.github.io/projet-python-twitter/streaming.html#projet_python_twitter.streaming.start_stream)). Voici un exemple d'utilisation du code que nous avons écrit :

In [1]:
import projet.streaming as stream                           # Contient les focntions pour le streaming
import projet.listes_mots as listes                         # Contient les listes de mots
import projet._credentials as cred                          # Contient les clés d'authentification à l'API

credentials = stream.CredentialsClass(cred.credentials)     # Pour se connecter à l'API (il faut le fichier projet/_credentials.py)

stream.start_stream(
    credentials=credentials,
    liste_mots=listes.liste_3,                              # Liste des mots à tracker (voir `projet.listes_mots`)
    nb=200,                                                 # Nombre de tweets à recupérer
    # timeout=10/3600,                                        # Durée du stream
    fprefix="exemple_liste_3",                              # À modifier en fonction de la liste selectionnée
    path="./data/json/",                                    # À modifier selon l'utilisateur (doit finir par "/" ou "\")
    verbose=True,
)

Début du stream
Progress: [------------------->] 100 %
Les 200 tweets ont été récupérés.
Le stream a duré : 0.0h
Fin du stream


Un fichier `json` a été créé dans `data/json/`.

Pour voir à quoi ressemble les données :

In [2]:
import glob
import json
import pandas as pd

path = glob.glob("data\\json\\exemple_liste_3*.json")[-1]  # On récupère le dernier fichier exemple crée
print("On regarde le fichier : "+path+"\n")

tweets_list = []
with open(path, "r") as fh:
    file = fh.read().split("\n")
    for line in file:
        if line:
            tweets_list.append(json.loads(line))

print("Le premier tweet :")
print(tweets_list[0])


On regarde le fichier : data\json\exemple_liste_3_20201207-181917.json

Le premier tweet :
{'created_at': 'Mon Dec 07 17:19:09 +0000 2020', 'id': 1335997287001174021, 'id_str': '1335997287001174021', 'text': "RT @KelemenCari: @SidneyPowell1 @realDonaldTrump @DanScavino @GenFlynn @LLinWood Why don't they just meet over Zoom? The rest of America is…", 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'truncated': False, 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 1026922476994002950, 'id_str': '1026922476994002950', 'name': 'Fight for Freedom! 🇺🇲🇮🇳🇹🇼🇭🇰🇬🇧🇵🇭🇺🇲', 'screen_name': 'Austerity2020', 'location': None, 'url': None, 'description': 'Asian American U.S. Patriot. TRUMP is the ONLY WORLD LEADER who stands up to the CCP! #TRUMP2020ToSaveAmerica #FightBack', 'translator_type': 'none', 'protected': False, 'verif

Il s'agit du format `json`. Il est difficile de voir les variable comme cela. On peut créer une `dataframe pandas` pour mieux comprendre les données.

In [5]:
df_tweets = pd.DataFrame(tweets_list)
print("Dimensions : ", df_tweets.shape, "\n")
print("Colonnes : ", list(df_tweets), "\n")
df_tweets.head()

Dimensions :  (200, 36) 

Colonnes :  ['created_at', 'id', 'id_str', 'text', 'source', 'truncated', 'in_reply_to_status_id', 'in_reply_to_status_id_str', 'in_reply_to_user_id', 'in_reply_to_user_id_str', 'in_reply_to_screen_name', 'user', 'geo', 'coordinates', 'place', 'contributors', 'retweeted_status', 'is_quote_status', 'quote_count', 'reply_count', 'retweet_count', 'favorite_count', 'entities', 'favorited', 'retweeted', 'filter_level', 'lang', 'timestamp_ms', 'display_text_range', 'extended_tweet', 'possibly_sensitive', 'quoted_status_id', 'quoted_status_id_str', 'quoted_status', 'quoted_status_permalink', 'extended_entities'] 



Unnamed: 0,created_at,id,id_str,text,source,truncated,in_reply_to_status_id,in_reply_to_status_id_str,in_reply_to_user_id,in_reply_to_user_id_str,...,lang,timestamp_ms,display_text_range,extended_tweet,possibly_sensitive,quoted_status_id,quoted_status_id_str,quoted_status,quoted_status_permalink,extended_entities
0,Mon Dec 07 17:19:09 +0000 2020,1335997287001174021,1335997287001174021,RT @KelemenCari: @SidneyPowell1 @realDonaldTru...,"<a href=""http://twitter.com/download/android"" ...",False,,,,,...,en,1607361549507,,,,,,,,
1,Mon Dec 07 17:19:09 +0000 2020,1335997286992777225,1335997286992777225,@robertkaeguttle @DigitalSoulja @hoodietrades ...,"<a href=""https://mobile.twitter.com"" rel=""nofo...",True,1.335997e+18,1.3359965804958147e+18,1.227717e+18,1.2277172942452367e+18,...,en,1607361549505,"[72, 140]",{'full_text': '@robertkaeguttle @DigitalSoulja...,,,,,,
2,Mon Dec 07 17:19:09 +0000 2020,1335997287512895489,1335997287512895489,Biden elige al latino Xavier Becerra para diri...,"<a href=""https://dolartoday.com/swat-comunicac...",False,,,,,...,es,1607361549629,,,False,,,,,
3,Mon Dec 07 17:19:09 +0000 2020,1335997287382790144,1335997287382790144,RT @JuliansRum: 2012 https://t.co/Omm2RNaUzt,"<a href=""https://mobile.twitter.com"" rel=""nofo...",False,,,,,...,und,1607361549598,,,False,2.532067e+17,2.5320666366492262e+17,{'created_at': 'Tue Oct 02 18:55:47 +0000 2012...,"{'url': 'https://t.co/Omm2RNaUzt', 'expanded':...",
4,Mon Dec 07 17:19:09 +0000 2020,1335997287374483465,1335997287374483465,RT @StellaMoris1: Two pictures of Julian in UK...,"<a href=""http://twitter.com/download/iphone"" r...",False,,,,,...,en,1607361549596,,,,,,,,


## 2. Modélisation <a name="model"></a>

## 3. Visualisation <a name="visu"></a>

## Conclusion <a name="conc"></a>

## Annexes <a name="annex"></a>