# Startup weekend: Création d'une application de recherche de bourses d'études

Dans ce tutoriel nous vous montrerons comment créer de bout en bout une application basée sur l'intelligence artificielle, l’utilisation du no-code et l'api temps réel de Twitter.

L'application permet (d'etre informer dans un temps raisonable d'une offre) de retrouver rapidement une offre de bourses d'études au Cameroun publiée sur le réseau social Twitter.

## Aperçu général

La création de l’application est composée de quatre partie principales.


1.   La sources de données

La source de données utilisée pour la réalisation de cette application est twitter. 
Twitter fournit un API permettant d’avoir accès aux données liées aux tweets par ses utilisateurs. Au nombre de ces informations nous avons l’id du tweet, sa date de création, son url, l’id du user, son nom, son nom d’utilisateur, le lien vers le média associé et le texte du tweet qui sont ceux utilisés pour la réalisation de l’application. 

Tweepy est la librairie en Python pour l’utilisation de l’API de Twitter. Nous utilisons la version 4.8.0 de tweepy qui nous donne accès à la version v2 de l’API de Twitter. La documentation complète pour Tweepy peut être trouvée [ici](https://docs.tweepy.org/en/latest/client.html).
Notons également que les données sont récupérées en temps réel.

2.   L’enrichissement des données

Une fois qu’un tweet est récupéré, ces informations sont enrichies avec un modèle d’intelligence artificielle. L’enrichissement consiste à prédire si le texte du tweet parle de bourse scolaire ou pas  grâce à un modèle d’intelligence artificielle.
Le modèle utilisé est un modèle d'apprentissage profond qui permet la classification de texte. 
Nous n'entrerons pas de modèle dans ce tutoriel. Nous utiliserons un modèle pré-entraîne disponible sur [HuggingFace hub](https://huggingface.co/) et accessible via sa librairie 🤗transformers.

3. Le stockage des données

Le stockage des données se fait dans un Google spreadsheet qui sert de base de donées de l'application.
La données récupérée et enrichie est stockée en temps réel dans un sheet de Google spreadsheet.

4. L’application web

L’application web pour faciliter la recherche de bourse scolaire à été créée avec la plateforme de no-code [Glide apps](https://go.glideapps.com/). 
Comme toutes les plateformes no-code, Glide permet de créer une application web sans aucune compétence en programmation informatique.



**Architecture**

![An image](https://drive.google.com/uc?export=view&id=1Qm5dnD2M_ZhJ5Sr-oisbZ9thaeYbF-10)

## Ecrire dans une feuille de Google sheet via Python

Nous commençons par écrire une fonction qui se chargera d'insérer les données dans une feuille de Google spreadsheet.

Comme mentionné ci-dessus, nous utilisons une feuille de Google spreadsheet pour stocker les données collectées via l’api Tweepy.

Pour l'écriture des données dans Google spreadsheet se fait grâce à l’api Google Drive. La bibliothèque Python permettant d’interagir avec l’api est gspread. Toutefois, l’utilisation demande d’avoir des accès. 

Prérequis pour l’utilisation de gspread
0. Avoir  un compte Gmail 😎
1. Avoir un compte Google Drive
2. Activer l'API Drive via la console Google cloud 
2. Créer des informations d'identification pour un serveur Web pour accéder aux données d'application telle que Google sheet

Pour la réaliser 2 & 3 suivez les instructions de la doc officielle de gspread [ici](https://docs.gspread.org/en/latest/oauth2.htm)

La réalisation des prérequis vous permettra d'avoir un fichier JSON contenant les accès nécessaires pour l’utilisation de l’API.Ci-dessous un exemple du contenu du fichier JSON. 
```json
{
  "type": "service_account",
  "project_id": "serious-hall-335114",
  "private_key_id": "13cc64608faebf4295282c3d61678463685b9866",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANB...oIBAQDpP69rkrI=\n-----END PRIVATE KEY-----\n",
  "client_email": "l4edufund@serious-hall-335114.iam.gserviceaccount.com",
  "client_id": "118042364195151758282",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot...-335114.iam.gserviceaccount.com"
}
```

[Ici](https://www.worthwebscraping.com/how-to-save-scraped-data-in-to-googlesheet/) un tutoriel plus détaillé pour l’utilisation de gspread  

### Instalation et configuration de gspread

In [None]:
%%capture
!pip install gspread==3.4.2
!pip install oauth2client==4.1.3

In [None]:
# importation des modules 
import gspread
from oauth2client.service_account import ServiceAccountCredentials

**Info sur la configuration de gspread**

Dans la configuration ci dessous, 
- La variable `gsread_credentials` est utilisée pour stocker le chemin vers  le fichier json contenant les identifications comme décrit précédemment. Remplacez par le vôtre;
- La variable `scope` n'a pas besoin d'être modifiée. Le scope définir la portée, où nous voulons que les informations d'identification soient envoyées pour se connecter. 
- `spreadsheet_key` est l'identifiant du spreadsheet dans lequel les données seront écrites. La clé de la feuille de calcul se trouve dans l'URL de partage de la feuille, marquée ici en rouge.

> **Expemple:**
> https ://docs.google.com/spreadsheets/d/$\color{red}{\text{1JQe_t7OVcqWi4gD7S8wwFzNmqy0YNXaxsey1TgT1ugA}}$/edit?usp=sharing

**Remarque**

Le mail dans les information d'identification (`client_email`) contenu dans le fichier json doit être ajouté comme éditeur du sheet.

In [None]:
gsread_credentials = '/content/serious-hall-335114-13cc64608fae.json'
scope = ['https://spreadsheets.google.com/feeds',
         'https://www.googleapis.com/auth/drive',
         'https://www.googleapis.com/auth/drive.file',
         'https://www.googleapis.com/auth/spreadsheets'
         ]
spreadsheet_key = '1qbj9euQ9rObKW3sa3luU5aFwxtchdLe_-ORSwZEt5qY'
credentials = ServiceAccountCredentials.from_json_keyfile_name(
    gsread_credentials, scope
    )
gc = gspread.authorize(credentials)
spreadsheet = gc.open_by_key(spreadsheet_key)

Écrivons une courte fonction pour écrire une liste de valeurs dans le sheet. 
Une fois l’écriture des données faite, elle renvoie la valeur True.

In [None]:
def add_sheet_row(row, sheet_name='Tweets'):
    """This function add new row data in a sheet.
    Args:
        row (list): list of values to add to the sheet
        sheet_name (str): the name of the sheet in Google Spreadsheet.If does 
        not exist, a new sheet will be created with sheet_name as its name
    
    Returns:
        bool `True` if the insertion has been successful.
    """
    spreadsheet.values_append(sheet_name,
        params={'valueInputOption': 'USER_ENTERED'},
        body={'values': [row]}
        )
    return True

**Exemple**

Ajoutons une entête au fichier

In [None]:
header = ["id", "created_at", "url", "user_ids", "names", "username",
          "media_link", "text", "category", "propability"]

add_row(header, sheet_name='Tweets')

## Enrichissement des données grâce à un modèle d'intelligence artificielle

Comme vous le constaterez, nous n'entrerons pas de modèle dans ce tutoriel. Nous utiliserons un modèle pré-entraîne disponible sur HuggingFace hub et accessible via la librairie 🤗 transformers.

**HuggingFace** est une plateforme open-source avec une approche axée sur la communauté qui fournit des modèles d'intelligence artificielle pour la résolution de tâches variées. La plupart des modèles disponibles sont principalement des modèles de traitement automatique du langage naturel (NLP) tels que: la classification de textes, la traduction de texte, résumé de textes, reconnaissance automatique de l’audio, ….

**🤗 Transformers** est une bibliothèque Python qui fournit les fonctionnalités pour créer, affiner (fine tuning) et utiliser les modèles de HuggingFace hub.



Installons la bibliothèque `transformers` et `sentencepiece` une dépendance nécessaire pour notre cas d’usage.

In [None]:
%%capture
!pip install transformers
!pip install sentencepiece

In [None]:
import sentencepiece
from transformers import pipeline

`pipeline` est une fonction de haut niveau qui relie un modèle avec ses étapes de prétraitement et de post-traitement nécessaires, nous permettant de créer une pipeline qui prendre en entrée un texte et d'obtenir une réponse intelligible.

Pour créer le modèle, nous renseignons en paramètre le type de tâche  `zero-shot-classification` (classification zéro-shot) et le nom du modèle pré-entraîné disponible sur le hub `BaptisteDoyen/camembert-base-xnli` voulu.

En termes simples, ici **la classification zéro-shot** consiste à prendre un modèle qui a appris à classifier des textes selon un ensemble de labels pour l’utiliser afin de classifier un ensemble de textes suivant des labels que le classificateur n'a jamais vu auparavant.

Pour plus de détails sur l’utilisation de la bibliothèque 🤗Transformers consulté le cours fourni par HuggingFace [ici](https://huggingface.co/course/chapter0/1?fw=pt).


In [None]:
# load model from HuggingFace hub
repo_name = "BaptisteDoyen/camembert-base-xnli"
classifier = pipeline(task="zero-shot-classification",
                      model=repo_name)

Downloading:   0%|          | 0.00/882 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/422M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/433 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/792k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/299 [00:00<?, ?B/s]

Une fois le modèle créé, nous écrivons une fonction `pred_category` qui prend en paramètres un texte puis retourne sa classe d'appartenance (Bourse d'étude ou bourse financière) ainsi la probabilité associée.

In [None]:
def pred_category(text):
    """This function take a text and predicts whether it
    talk about Education or Finance.

    Args:
        text (str): the text whose membership class should be predict.
    
    Returns:
        A list `(category, prob)`
    """
    # this can be handle for better prediction
    candidate_labels = ["etude education","finance economie"]
    label_map = {
        'etude education': 'Education',
        'finance economie': "Finance"
    }  
    pred = classifier(text, candidate_labels)
    category = label_map[pred['labels'][0]]
    prob = round(pred['scores'][0], 4)
    return (category, prob)

## Récupération en temps réel des tweets via tweepy streaming


[plus](https://docs.tweepy.org/en/stable/streamingclient.html#)

Le processus d’acquisition des données se fait en temps réel via la librairie tweepy. Cependant, l’utilisation de tweepy requiert des identifications de Twitter developers. 
Les prérequis pour l’utilisation de tweepy sont:
1. Avoir un compte Twitter (Eh oui! Pour reçevoir, il faut donner 😅)
2. Avoir un  compte développeur Twitter
3. Enfin, créer un token bearer pour vous connecter à l'API.

Vous trouverez ici la documentation sur la création de compte un tutoriel vous permettant

**Description de l’acquisition**

Nous utilisons un filtre afin de récupérer uniquement les tweets contenant les mots clés `Cameroun’ et `Bourse`. Ceci nous permet de réduire le flux et est largement suffisant pour atteindre les objectifs de ce tutoriel. Toutefois, vous pourrez l’adapter à votre guise. 

Une fois un tweet récupéré, nous récupérons l’id du tweet `id`, sa date de création `created_at`, son url `url`, l’id du user `user_ids`, son nom `names`, son nom d’utilisateur `username`, le lien vers le média associé `media_link` si il y en a et le texte du tweet `text`. Ensuite, le texte du tweet est passé à la fonction `pred_category` qui prédit la catégorie. C’est-à-dire prédit si le texte parle de bourse d’étude où de bourse lié au marché financier. 

Toutes ces informations sont stockées dans une liste et passées à la fonction `add_sheet_row` pour ajouter ces informations dans Google sheet.

Installation de `tweepy`, `json` et `ast`. `json` et `ast` sont utilisés pour transformer le tweet en un objet json.

In [None]:
%%capture
!pip install tweepy==4.8.0
!pip install json==2.0.9
!pip install ast

In [3]:
import ast
import json
import tweepy

Les informations identifications nécéssaires ont été stocké dans un fichier json. Que nous chargeons afin de récupérer la clé `BEARER_TOKEN`.

In [None]:
# load credentials from the twitter developer api 
with open('/content/twitter_cred.json', 'r') as f:
    twitter_cred = json.load(f)

BEARER_TOKEN = twitter_cred["BEARER_TOKEN"]

Tout le processus d’acquisition des données décrit ci-dessus est réalisé grâce à la classe `Listener`.

`Listener` hérite de la classe `StreamingClient` de tweepy. La méthode `on_data` est appelée lorsqu' un tweet respectant le filtre défini est émis. 


In [None]:
class Listener(tweepy.StreamingClient):
    """Filter and sample realtime Tweets with Twitter API v2"""

    def on_data(self, tweet):
        """This is called when raw data is received from the stream.
        Then handles and pushes the data to Google Sheets.
        """
        # transform raw data 'tweet' from bytes to dict using ast library
        tweet = tweet.decode("UTF-8")
        tweet = ast.literal_eval(tweet)
        # Get tweet infos
        id = tweet['data']['id']
        create_at = "-".join(tweet['data']['created_at'].split('T')[0].split("-")[::-1])
        url = f"https://twitter.com/twitter/statuses/{tweet['data']['id']}"
        user_id = tweet['includes']['users'][0]['id']
        name = tweet['includes']['users'][0]['name']
        username = '@' + tweet['includes']['users'][0]['username']
        text = tweet['data']['text']
        media_url = None
        category = None
        prob = None
        try:
            media = tweet['includes'].get('media')[0]
            if media: 
                media_url = media.get('url')
            if not media_url:
                media_url = media.get('preview_image_url')
        except:
            # add default image if media url does not exist
            media_url = "https://drive.google.com/file/d/1IuSVo7OTx6VLcLsTm0y673JQJV-PtmkR/view?usp=sharing"
            if category=="Finance":
                media_url = "https://drive.google.com/file/d/15-zQfhbTZyZ6waluFQEr7NgQSzIPv9Ac/view?usp=sharing"
        # enrichment step 
        category, prob = pred_category(text)

        row = [id, create_at, url, user_id, name, username, media_url, text,
               category, prob]
        row = ["" if val==None else val for val in row]
        add_sheet_row(row, sheet_name='Tweets')
        return None

On crée une instance de la classe Listener, puis on y ajoute la règle de  filtrage voulu.

In [None]:
listner = Listener(BEARER_TOKEN, return_type=dict)
listner.add_rules(tweepy.StreamRule("bourse cameroun"))
#listner.add_rules(tweepy.StreamRule("scholarship cameroun"))

L'exécution du code ci-dessous démarre la récupération du code en continu.

In [None]:
listner.filter(backfill_minutes=None,
               expansions=['attachments.media_keys','author_id'],
               media_fields=['url','preview_image_url'],
               place_fields=['country'],
               poll_fields=None,
               tweet_fields=['created_at','text','id'],
               user_fields=['name','id','username'],
               threaded=False)

## Création de l'application web avec Glide apps

[lien pour accéder à l'application](https://l4scholarship.glideapp.io/)


## END 😎