# Startup weekend: Cr√©ation d'une application de recherche de bourses d'√©tudes

Dans ce tutoriel nous vous montrerons comment cr√©er de bout en bout une application bas√©e sur l'intelligence artificielle, l‚Äôutilisation du no-code et l'api temps r√©el de Twitter.

L'application permet (d'etre informer dans un temps raisonable d'une offre) de retrouver rapidement une offre de bourses d'√©tudes au Cameroun publi√©e sur le r√©seau social Twitter.

## Aper√ßu g√©n√©ral

La cr√©ation de l‚Äôapplication est compos√©e de quatre partie principales.


1.   La sources de donn√©es

La source de donn√©es utilis√©e pour la r√©alisation de cette application est twitter. 
Twitter fournit un API permettant d‚Äôavoir acc√®s aux donn√©es li√©es aux tweets par ses utilisateurs. Au nombre de ces informations nous avons l‚Äôid du tweet, sa date de cr√©ation, son url, l‚Äôid du user, son nom, son nom d‚Äôutilisateur, le lien vers le m√©dia associ√© et le texte du tweet qui sont ceux utilis√©s pour la r√©alisation de l‚Äôapplication. 

Tweepy est la librairie en Python pour l‚Äôutilisation de l‚ÄôAPI de Twitter. Nous utilisons la version 4.8.0 de tweepy qui nous donne acc√®s √† la version v2 de l‚ÄôAPI de Twitter. La documentation compl√®te pour Tweepy peut √™tre trouv√©e [ici](https://docs.tweepy.org/en/latest/client.html).
Notons √©galement que les donn√©es sont r√©cup√©r√©es en temps r√©el.

2.   L‚Äôenrichissement des donn√©es

Une fois qu‚Äôun tweet est r√©cup√©r√©, ces informations sont enrichies avec un mod√®le d‚Äôintelligence artificielle. L‚Äôenrichissement consiste √† pr√©dire si le texte du tweet parle de bourse scolaire ou pas  gr√¢ce √† un mod√®le d‚Äôintelligence artificielle.
Le mod√®le utilis√© est un mod√®le d'apprentissage profond qui permet la classification de texte. 
Nous n'entrerons pas de mod√®le dans ce tutoriel. Nous utiliserons un mod√®le pr√©-entra√Æne disponible sur [HuggingFace hub](https://huggingface.co/) et accessible via sa librairie ü§ótransformers.

3. Le stockage des donn√©es

Le stockage des donn√©es se fait dans un Google spreadsheet qui sert de base de don√©es de l'application.
La donn√©es r√©cup√©r√©e et enrichie est stock√©e en temps r√©el dans un sheet de Google spreadsheet.

4. L‚Äôapplication web

L‚Äôapplication web pour faciliter la recherche de bourse scolaire √† √©t√© cr√©√©e avec la plateforme de no-code [Glide apps](https://go.glideapps.com/). 
Comme toutes les plateformes no-code, Glide permet de cr√©er une application web sans aucune comp√©tence en programmation informatique.



**Architecture**

![An image](https://drive.google.com/uc?export=view&id=1Qm5dnD2M_ZhJ5Sr-oisbZ9thaeYbF-10)

## Ecrire dans une feuille de Google sheet via Python

Nous commen√ßons par √©crire une fonction qui se chargera d'ins√©rer les donn√©es dans une feuille de Google spreadsheet.

Comme mentionn√© ci-dessus, nous utilisons une feuille de Google spreadsheet pour stocker les donn√©es collect√©es via l‚Äôapi Tweepy.

Pour l'√©criture des donn√©es dans Google spreadsheet se fait gr√¢ce √† l‚Äôapi Google Drive. La biblioth√®que Python permettant d‚Äôinteragir avec l‚Äôapi est gspread. Toutefois, l‚Äôutilisation demande d‚Äôavoir des acc√®s. 

Pr√©requis pour l‚Äôutilisation de gspread
0. Avoir  un compte Gmail üòé
1. Avoir un compte Google Drive
2. Activer l'API Drive via la console Google cloud 
2. Cr√©er des informations d'identification pour un serveur Web pour acc√©der aux donn√©es d'application telle que Google sheet

Pour la r√©aliser 2 & 3 suivez les instructions de la doc officielle de gspread [ici](https://docs.gspread.org/en/latest/oauth2.htm)

La r√©alisation des pr√©requis vous permettra d'avoir un fichier JSON contenant les acc√®s n√©cessaires pour l‚Äôutilisation de l‚ÄôAPI.Ci-dessous un exemple du contenu du fichier JSON. 
```json
{
  "type": "service_account",
  "project_id": "serious-hall-335114",
  "private_key_id": "13cc64608faebf4295282c3d61678463685b9866",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANB...oIBAQDpP69rkrI=\n-----END PRIVATE KEY-----\n",
  "client_email": "l4edufund@serious-hall-335114.iam.gserviceaccount.com",
  "client_id": "118042364195151758282",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot...-335114.iam.gserviceaccount.com"
}
```

[Ici](https://www.worthwebscraping.com/how-to-save-scraped-data-in-to-googlesheet/) un tutoriel plus d√©taill√© pour l‚Äôutilisation de gspread  

### Instalation et configuration de gspread

In [None]:
%%capture
!pip install gspread==3.4.2
!pip install oauth2client==4.1.3

In [None]:
# importation des modules 
import gspread
from oauth2client.service_account import ServiceAccountCredentials

**Info sur la configuration de gspread**

Dans la configuration ci dessous, 
- La variable `gsread_credentials` est utilis√©e pour stocker le chemin vers  le fichier json contenant les identifications comme d√©crit pr√©c√©demment. Remplacez par le v√¥tre;
- La variable `scope` n'a pas besoin d'√™tre modifi√©e. Le scope d√©finir la port√©e, o√π nous voulons que les informations d'identification soient envoy√©es pour se connecter. 
- `spreadsheet_key` est l'identifiant du spreadsheet dans lequel les donn√©es seront √©crites. La cl√© de la feuille de calcul se trouve dans l'URL de partage de la feuille, marqu√©e ici en rouge.

> **Expemple:**
> https ://docs.google.com/spreadsheets/d/$\color{red}{\text{1JQe_t7OVcqWi4gD7S8wwFzNmqy0YNXaxsey1TgT1ugA}}$/edit?usp=sharing

**Remarque**

Le mail dans les information d'identification (`client_email`) contenu dans le fichier json doit √™tre ajout√© comme √©diteur du sheet.

In [None]:
gsread_credentials = '/content/serious-hall-335114-13cc64608fae.json'
scope = ['https://spreadsheets.google.com/feeds',
         'https://www.googleapis.com/auth/drive',
         'https://www.googleapis.com/auth/drive.file',
         'https://www.googleapis.com/auth/spreadsheets'
         ]
spreadsheet_key = '1qbj9euQ9rObKW3sa3luU5aFwxtchdLe_-ORSwZEt5qY'
credentials = ServiceAccountCredentials.from_json_keyfile_name(
    gsread_credentials, scope
    )
gc = gspread.authorize(credentials)
spreadsheet = gc.open_by_key(spreadsheet_key)

√âcrivons une courte fonction pour √©crire une liste de valeurs dans le sheet. 
Une fois l‚Äô√©criture des donn√©es faite, elle renvoie la valeur True.

In [None]:
def add_sheet_row(row, sheet_name='Tweets'):
    """This function add new row data in a sheet.
    Args:
        row (list): list of values to add to the sheet
        sheet_name (str): the name of the sheet in Google Spreadsheet.If does 
        not exist, a new sheet will be created with sheet_name as its name
    
    Returns:
        bool `True` if the insertion has been successful.
    """
    spreadsheet.values_append(sheet_name,
        params={'valueInputOption': 'USER_ENTERED'},
        body={'values': [row]}
        )
    return True

**Exemple**

Ajoutons une ent√™te au fichier

In [None]:
header = ["id", "created_at", "url", "user_ids", "names", "username",
          "media_link", "text", "category", "propability"]

add_row(header, sheet_name='Tweets')

## Enrichissement des donn√©es gr√¢ce √† un mod√®le d'intelligence artificielle

Comme vous le constaterez, nous n'entrerons pas de mod√®le dans ce tutoriel. Nous utiliserons un mod√®le pr√©-entra√Æne disponible sur HuggingFace hub et accessible via la librairie ü§ó transformers.

**HuggingFace** est une plateforme open-source avec une approche ax√©e sur la communaut√© qui fournit des mod√®les d'intelligence artificielle pour la r√©solution de t√¢ches vari√©es. La plupart des mod√®les disponibles sont principalement des mod√®les de traitement automatique du langage naturel (NLP) tels que: la classification de textes, la traduction de texte, r√©sum√© de textes, reconnaissance automatique de l‚Äôaudio, ‚Ä¶.

**ü§ó Transformers** est une biblioth√®que Python qui fournit les fonctionnalit√©s pour cr√©er, affiner (fine tuning) et utiliser les mod√®les de HuggingFace hub.



Installons la biblioth√®que `transformers` et `sentencepiece` une d√©pendance n√©cessaire pour notre cas d‚Äôusage.

In [None]:
%%capture
!pip install transformers
!pip install sentencepiece

In [None]:
import sentencepiece
from transformers import pipeline

`pipeline` est une fonction de haut niveau qui relie un mod√®le avec ses √©tapes de pr√©traitement et de post-traitement n√©cessaires, nous permettant de cr√©er une pipeline qui prendre en entr√©e un texte et d'obtenir une r√©ponse intelligible.

Pour cr√©er le mod√®le, nous renseignons en param√®tre le type de t√¢che  `zero-shot-classification` (classification z√©ro-shot) et le nom du mod√®le pr√©-entra√Æn√© disponible sur le hub `BaptisteDoyen/camembert-base-xnli` voulu.

En termes simples, ici **la classification z√©ro-shot** consiste √† prendre un mod√®le qui a appris √† classifier des textes selon un ensemble de labels pour l‚Äôutiliser afin de classifier un ensemble de textes suivant des labels que le classificateur n'a jamais vu auparavant.

Pour plus de d√©tails sur l‚Äôutilisation de la biblioth√®que ü§óTransformers consult√© le cours fourni par HuggingFace [ici](https://huggingface.co/course/chapter0/1?fw=pt).


In [None]:
# load model from HuggingFace hub
repo_name = "BaptisteDoyen/camembert-base-xnli"
classifier = pipeline(task="zero-shot-classification",
                      model=repo_name)

Downloading:   0%|          | 0.00/882 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/422M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/433 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/792k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/299 [00:00<?, ?B/s]

Une fois le mod√®le cr√©√©, nous √©crivons une fonction `pred_category` qui prend en param√®tres un texte puis retourne sa classe d'appartenance (Bourse d'√©tude ou bourse financi√®re) ainsi la probabilit√© associ√©e.

In [None]:
def pred_category(text):
    """This function take a text and predicts whether it
    talk about Education or Finance.

    Args:
        text (str): the text whose membership class should be predict.
    
    Returns:
        A list `(category, prob)`
    """
    # this can be handle for better prediction
    candidate_labels = ["etude education","finance economie"]
    label_map = {
        'etude education': 'Education',
        'finance economie': "Finance"
    }  
    pred = classifier(text, candidate_labels)
    category = label_map[pred['labels'][0]]
    prob = round(pred['scores'][0], 4)
    return (category, prob)

## R√©cup√©ration en temps r√©el des tweets via tweepy streaming


[plus](https://docs.tweepy.org/en/stable/streamingclient.html#)

Le processus d‚Äôacquisition des donn√©es se fait en temps r√©el via la librairie tweepy. Cependant, l‚Äôutilisation de tweepy requiert des identifications de Twitter developers. 
Les pr√©requis pour l‚Äôutilisation de tweepy sont:
1. Avoir un compte Twitter (Eh oui! Pour re√ßevoir, il faut donner üòÖ)
2. Avoir un  compte d√©veloppeur Twitter
3. Enfin, cr√©er un token bearer pour vous connecter √† l'API.

Vous trouverez ici la documentation sur la cr√©ation de compte un tutoriel vous permettant

**Description de l‚Äôacquisition**

Nous utilisons un filtre afin de r√©cup√©rer uniquement les tweets contenant les mots cl√©s `Cameroun‚Äô et `Bourse`. Ceci nous permet de r√©duire le flux et est largement suffisant pour atteindre les objectifs de ce tutoriel. Toutefois, vous pourrez l‚Äôadapter √† votre guise. 

Une fois un tweet r√©cup√©r√©, nous r√©cup√©rons l‚Äôid du tweet `id`, sa date de cr√©ation `created_at`, son url `url`, l‚Äôid du user `user_ids`, son nom `names`, son nom d‚Äôutilisateur `username`, le lien vers le m√©dia associ√© `media_link` si il y en a et le texte du tweet `text`. Ensuite, le texte du tweet est pass√© √† la fonction `pred_category` qui pr√©dit la cat√©gorie. C‚Äôest-√†-dire pr√©dit si le texte parle de bourse d‚Äô√©tude o√π de bourse li√© au march√© financier. 

Toutes ces informations sont stock√©es dans une liste et pass√©es √† la fonction `add_sheet_row` pour ajouter ces informations dans Google sheet.

Installation de `tweepy`, `json` et `ast`. `json` et `ast` sont utilis√©s pour transformer le tweet en un objet json.

In [None]:
%%capture
!pip install tweepy==4.8.0
!pip install json==2.0.9
!pip install ast

In [3]:
import ast
import json
import tweepy

Les informations identifications n√©c√©ssaires ont √©t√© stock√© dans un fichier json. Que nous chargeons afin de r√©cup√©rer la cl√© `BEARER_TOKEN`.

In [None]:
# load credentials from the twitter developer api 
with open('/content/twitter_cred.json', 'r') as f:
    twitter_cred = json.load(f)

BEARER_TOKEN = twitter_cred["BEARER_TOKEN"]

Tout le processus d‚Äôacquisition des donn√©es d√©crit ci-dessus est r√©alis√© gr√¢ce √† la classe `Listener`.

`Listener` h√©rite de la classe `StreamingClient` de tweepy. La m√©thode `on_data` est appel√©e lorsqu' un tweet respectant le filtre d√©fini est √©mis. 


In [None]:
class Listener(tweepy.StreamingClient):
    """Filter and sample realtime Tweets with Twitter API v2"""

    def on_data(self, tweet):
        """This is called when raw data is received from the stream.
        Then handles and pushes the data to Google Sheets.
        """
        # transform raw data 'tweet' from bytes to dict using ast library
        tweet = tweet.decode("UTF-8")
        tweet = ast.literal_eval(tweet)
        # Get tweet infos
        id = tweet['data']['id']
        create_at = "-".join(tweet['data']['created_at'].split('T')[0].split("-")[::-1])
        url = f"https://twitter.com/twitter/statuses/{tweet['data']['id']}"
        user_id = tweet['includes']['users'][0]['id']
        name = tweet['includes']['users'][0]['name']
        username = '@' + tweet['includes']['users'][0]['username']
        text = tweet['data']['text']
        media_url = None
        category = None
        prob = None
        try:
            media = tweet['includes'].get('media')[0]
            if media: 
                media_url = media.get('url')
            if not media_url:
                media_url = media.get('preview_image_url')
        except:
            # add default image if media url does not exist
            media_url = "https://drive.google.com/file/d/1IuSVo7OTx6VLcLsTm0y673JQJV-PtmkR/view?usp=sharing"
            if category=="Finance":
                media_url = "https://drive.google.com/file/d/15-zQfhbTZyZ6waluFQEr7NgQSzIPv9Ac/view?usp=sharing"
        # enrichment step 
        category, prob = pred_category(text)

        row = [id, create_at, url, user_id, name, username, media_url, text,
               category, prob]
        row = ["" if val==None else val for val in row]
        add_sheet_row(row, sheet_name='Tweets')
        return None

On cr√©e une instance de la classe Listener, puis on y ajoute la r√®gle de  filtrage voulu.

In [None]:
listner = Listener(BEARER_TOKEN, return_type=dict)
listner.add_rules(tweepy.StreamRule("bourse cameroun"))
#listner.add_rules(tweepy.StreamRule("scholarship cameroun"))

L'ex√©cution du code ci-dessous d√©marre la r√©cup√©ration du code en continu.

In [None]:
listner.filter(backfill_minutes=None,
               expansions=['attachments.media_keys','author_id'],
               media_fields=['url','preview_image_url'],
               place_fields=['country'],
               poll_fields=None,
               tweet_fields=['created_at','text','id'],
               user_fields=['name','id','username'],
               threaded=False)

## Cr√©ation de l'application web avec Glide apps

[lien pour acc√©der √† l'application](https://l4scholarship.glideapp.io/)


## END üòé