# Un premier exemple utilisant l'API Sarracenia Moth

Sarracenia est un package conçu pour annoncer la disponibilité de nouvelles données, généralement sous forme de fichiers. 
Nous plaçons les fichiers sur des serveurs standard, les rendons disponibles via le Web ou sftp, 
et informons les utilisateurs qu'ils sont arrivés à l'aide de messages.  

Sarracenia utilise des protocoles de transmission de messages standard existants, comme rabbitmq/AMQP pour transporter les messages, 
et dans les cercles de transmission de messages, car le serveur qui distribue les messages est appelé un *courtier* (broker).

Nous appelons la combinaison d'un courtier de messages et d'un serveur de fichiers (qui peut être un serveur unique ou un grand cluster) une **pompe de données** (data pump).

En supposant que vous avez installé le paquet **metpx-sr3**, soit en tant que paquet debian, ou via pip, 
les annonces d'accès à sens unique à utiliser avec la classe sarracenia.moth (Messages Organisés par les en-têtes de sujet), 
qui permet à un programme python de se connecter à un serveur Sarracenia, 
et commencer à recevoir des messages qui annoncent des ressources.

La fabrique pour construire les objets sarracenia.moth prend deux arguments : 

* courtier : un objet (Credential) contenant une url pointant vers le serveur de messagerie qui annonce des produits, et d'autres options associées.
* options : un dictionnaire d'autres paramètres que la classe pourrait utiliser.

L'exemple ci-dessous construit un appel à un courtier auquel tout le monde peut accéder 
et demander 10 annonces.

Vous pouvez l'exécuter, puis nous pourrons discuter de quelques paramètres :

In [2]:
import sarracenia.moth
import sarracenia.moth.amqp
import sarracenia.credentials

import time
import socket

broker = sarracenia.credentials.Credential('amqps://anonymous:anonymous@hpfx.collab.science.gc.ca')

options = sarracenia.moth.default_options
options.update(sarracenia.moth.amqp.default_options)
options['topicPrefix'] = [ 'v02', 'post' ]
options['bindings'] = [('xpublic', ['v02', 'post'], ['#'])]
options['queue_name'] = 'q_anonymous_' + socket.getfqdn() + '_SomethingHelpfulToYou'

print('options: %s' % options)



options: {'acceptUnmatched': True, 'batch': 25, 'bindings': [('xpublic', ['v02', 'post'], ['#'])], 'broker': None, 'exchange': None, 'expire': 300, 'inline': False, 'inline_encoding': 'guess', 'inline_max': 4096, 'logFormat': '%(asctime)s [%(levelname)s] %(name)s %(funcName)s %(message)s', 'logLevel': 'info', 'messageDebugDump': False, 'message_strategy': {'reset': True, 'stubborn': True, 'failure_duration': '5m'}, 'message_ttl': 0, 'topicPrefix': ['v02', 'post'], 'tls_rigour': 'normal', 'queue_name': 'q_anonymous_fractal_SomethingHelpfulToYou', 'subtopic': [], 'durable': True, 'prefetch': 25, 'auto_delete': False, 'vhost': '/', 'reset': False, 'declare': True, 'bind': True}



Le paramètre **courtier**(broker) est un objet contenant une URL conventionnelle et d'autres options, indiquant le protocole de messagerie à utiliser pour accéder au serveur en amont. Lorsque vous vous connectez à un courtier, vous devez lui indiquer les messages qui vous intéressent. 
Dans Moth, tous les courtiers auxquels nous accédons doivent utiliser des hiérarchies de sujets. Vous pouvez les voir si vous avez 
exécuté avec succès l'exemple ci-dessus, il devrait y avoir dans les impressions de message un élément "sujet"(topic) dans les dictionnaires. 
En voici un exemple :

__v02.post.20210213.WXO-DD.observations.swob-ml.20210213.CTZR__

Celle-ci se divise en deux parties :

* topic_prefix: v02.post
* le reste de l'arborescence des rubriques est le reflet du chemin vers le produit annoncé, par rapport à un répertoire de base.


Dans AMQP, il y a le concept des "échanges" qui sont en quelque sorte comparables aux chaînes de télévision... ce sont des regroupements d'annonces. donc pour se connecter à un courtier AMQP, il faut spécifier:

* exchange: Sarracenia promulgue xpublic comme défaut conventionnel.
* topic_prefix: décidez quelle version des messages vous souhaitez obtenir. Ce serveur produit des v02.
* subtopic: à quel sous-ensemble de messages topic_prefix voulons-nous nous abonner.


## Liaisons

L'option de liaisons définit les trois valeurs ci-dessus. dans l'exemple, les liaisons sont :

* topic_prefix: v02.post  (obtenir des messages v02.)
* exchange: xpublic (celui par défaut.)
* subtopic: # ( un joker AMQP signifiant tout. )

on se connecte au courtier

amqp://hpfx.collab.science.gc.ca, sur l'échange *xpublic*, et nous serons intéressés par tous les messages correspondant à la spécification de sujet v02.post.#... (c'est-à-dire tous les messages v02 disponibles .)

### sous-thème

Le sous-thème ici ( __#__ ) correspond à tout ce qui est produit sur le serveur. Plus le sous-thème est large, plus il y a de messages à envoyer et plus le traitement est important. Il est préférable de le rendre plus étroit. En prenant l'exemple ci-dessus, si nous sommes intéressés par swob, un sous-thème comme:

* *.WXO-DD.observations.swob-ml.#

correspondrait à tous les swobs similaires à celui ci-dessus, mais évitez de vous envoyer des messages pour des non-swobs.

## queue_name

Par convention, dans les courtiers administrés par Sarracenia, les utilisateurs ne peuvent créer que des files d'attente commençant par q_ suivi de leur nom d'utilisateur. nous nous sommes connectés en tant qu'anonymes, et donc q_anonymous doit être utilisé. Après cela, le reste peut être ce que vous voulez, mais il y a quelques considérations :

* Si vous souhaitez démarrer plusieurs processus Python pour partager un flux de données, ils spécifient tous le même nom de file d'attente et ils partageront le flux de messages. Il s'adapte bien à quelques dizaines de téléchargeurs coopérants, mais ne s'adapte pas à l'infini, ne vous attendez pas à plus d'environ 99 processus pour pouvoir partager efficacement une charge à partir d'une seule file d'attente. Pour évoluer au-delà de cela avec AMQP, plusieurs sélections sont préférables.

* si vous allez demander de l'aide aux administrateurs de la pompe de données ... vous devrez leur fournir le nom de la file d'attente, et ils devront peut-être pouvoir le choisir parmi des centaines ou des milliers qui se trouvent sur le serveur.

## Messages

Différents protocoles de messagerie ont différentes structures et conventions de stockage. la classe MoTH renvoie les messages sous forme de dictionnaires python, 
quel que soit le protocole utilisé pour les obtenir ou, en cas de transfert, pour les transmettre. On peut ajouter des champs pour une utilisation programmatique aux messages simplement en ajoutant des éléments au dictionnaire. 
S'ils sont uniquement destinés à un usage interne, ajoutez le nom de l'élément du dictionnaire à la clé spéciale '\_deleteOnPost', afin que l'élément du dictionnaire soit supprimé lors du transfert du message.

## Ack

Les messages sont marqués en transit par le courtier, et si vous ne les reconnaissez pas, la pompe de données les conservera et les réexpédiera éventuellement. conserver les messages en attente en mémoire ralentira également le traitement de tous les messages. Il faut accuser réception des messages dès que possible, mais pas si tôt que vous perdrez des données si le programme est interrompu. Dans l'exemple, nous reconnaissons après avoir fait notre travail d'impression du message.




In [4]:
h = sarracenia.moth.Moth.subFactory(broker, options)

count=0
while count < 10:
    m = h.getNewMessage()  #get only one Message
    if m is not None:
        print("message %d: %s" % (count,m) )
        content = m.getContent() 
        print("first 50 bytes of corresponding file: %s" % content[0:50])
 
        h.ack(m)
    time.sleep(0.1)
    count += 1

h.cleanup() # remove server-side queue defined by Factory.
h.close()
print("obtained 10 product announcements")

message 3: {'sundew_extension': 'DMS:CMC:WXR-TRANSCODER-OBS-DATAMART-IVR:AUDIO', 'to_clusters': 'DDI,DDSR', 'x-delay': 0, 'source': 'MSC-DMS-OP', 'from_cluster': 'DDSR.CMC', 'subtopic': ['20220215', 'WXO-DD', 'hello_weather', 'observations', '03'], '_deleteOnPost': {'local_offset', 'exchange', 'ack_id', 'subtopic'}, 'pubTime': '20220215T132115.073', 'baseUrl': 'https://hpfx.collab.science.gc.ca', 'relPath': '/20220215/WXO-DD/.hello_weather/observations/03/03097.1.OBS.PUB.FR.SPX~20220215130500-20220215150500-1464', 'integrity': {'method': 'arbitrary', 'value': 'b8e417f28fc1f42557f4f633dad2b433'}, 'size': 65812, 'exchange': 'xpublic', 'ack_id': 1, 'local_offset': 0}
first 50 bytes of corresponding file: b'OggS\x00\x02\x00\x00\x00\x00\x00\x00\x00\x00\x13\xb5>\x99\x00\x00\x00\x00\xaa5\xfff\x01PSpeex   1.2rc1\x00\x00\x00\x00\x00\x00\x00\x00'
message 4: {'sundew_extension': 'cvt_nws_bulletins-sr:ENMI:SA:3:Direct:20220215132114', 'from_cluster': 'DDSR.CMC', 'to_clusters': 'DDSR.CMC,DDI.CMC,CM

2ème exemple ... combinez baseURL + relPath (en parlant de retPath) et récupérez les données ... 
utilisez newMessages() au lieu de getNewMessage pour afficher une autre interface utilisateur de consommation. 
Parler de http, et comment la récupération variera en fonction du protocole répertorié dans la baseUrl, et peut être
compliqué.


In [4]:
import urllib.request
import xml.etree.ElementTree as ET


options['bindings'] = [('xpublic', [ 'v02', 'post'], \
        [ '*', 'WXO-DD', 'observations', 'swob-ml', '#'] )]

h = sarracenia.moth.Moth.subFactory(broker, options)

count=0

while count < 10:
    messages = h.newMessages()  #get all received Messages, upto options['batch'] of them at a time.
    for m in messages:
        dataUrl = m['baseUrl']
        if 'retPath' in m:
           dataUrl += m['retPath']
        else:
           dataUrl += m['relPath']

        print("url %d: %s" % (count,dataUrl) )
        with urllib.request.urlopen( dataUrl ) as f:
            vxml = f.read().decode('utf-8')
            xmlData = ET.fromstring(vxml)

            stn_name=''
            tc_id=''
            lat=''
            lon=''
            air_temp=''

            for i in xmlData.iter():
                name = i.get('name')
                if name == 'stn_nam' :
                   stn_name= i.get('value')
                elif name == 'tc_id' :
                   tc_id = i.get('value')
                elif name == 'lat' :
                   lat =  i.get('value')
                elif name == 'long' :
                   lon  = i.get('value')
                elif name == 'air_temp' :
                   air_temp = i.get('value')

            print( 'station: %s, tc_id: %s, lat: %s, long: %s, air_temp: %s' %
                   ( stn_name, tc_id, lat, lon, air_temp  ))
        h.ack(m)
        count += 1
        if count > 10:
            break
    time.sleep(1)

h.cleanup() # remove server-side queue defined by Factory.
h.close()
print("obtained 10 product temperatures")


url 0: https://hpfx.collab.science.gc.ca/20220204/WXO-DD/observations/swob-ml/partners/yt-gov/20220204/antimony_creek/2022-02-04-2000-ytg-antimonycreek-antimony_creek-AUTO-swob.xml
station: Antimony Creek, tc_id: , lat: 64.01471, long: -138.61544, air_temp: -25.2
url 1: https://hpfx.collab.science.gc.ca/20220204/WXO-DD/observations/swob-ml/partners/yt-gov/20220204/henderson/2022-02-04-2000-ytg-henderson-henderson-AUTO-swob.xml
station: Henderson, tc_id: , lat: 63.591667, long: -138.950714, air_temp: MSNG
url 2: https://hpfx.collab.science.gc.ca/20220204/WXO-DD/observations/swob-ml/partners/yt-gov/20220204/braeburn-w/2022-02-04-2000-ytg-braeburn-w-braeburn-w-AUTO-swob.xml
station: Braeburn-W, tc_id: , lat: 61.481453, long: -135.779817, air_temp: -19.4
url 3: https://hpfx.collab.science.gc.ca/20220204/WXO-DD/observations/swob-ml/partners/yt-gov/20220204/haines_jct/2022-02-04-2000-ytg-hainesjct-haines_jct-AUTO-swob.xml
station: Haines Jct, tc_id: , lat: 60.772872, long: -137.575847, air_t

## Télécharger des données avec Python

Vous pouvez utiliser la bibliothèque python urllib pour télécharger des données, puis les analyser. 
Dans cet exemple, les données sont une structure XML par message téléchargé et lu en mémoire. 
Certaines données de station sont ensuite imprimées.

Cela fonctionne bien avec urllib pour les ressources de protocole de transport hyper-test, mais d'autres ressources peuvent être annoncées à l'aide d'autres protocoles, tels que sftp ou ftp. Le code python devra être étendu pour traiter
avec d'autres protocoles, ainsi que des conditions d'erreur, telles que des pannes temporaires.


## Conclusion

[Sarracenia.moth.amqp](../Reference/code.html#module-sarracenia.moth) est le moyen le plus léger d'ajouter la consommation de messages Sarracenia à votre pile python existante. Vous demandez explicitement de nouveaux messages lorsque vous êtes prêt à les utiliser. 

Ce type d'intégration ne fournit pas:

* data retrieval:  vous avez besoin de votre propre code pour télécharger les données correspondantes,

* error recovery: s'il y a des erreurs transitoires, vous devez créer un code de récupération d'erreur (pour récupérer des téléchargements partiels.)

* async/event/data driven: une façon de dire "faites ceci chaque fois que vous obtenez un fichier" ... définissez les rappels à exécuter lorsqu'un événement particulier se produit, plutôt que le flux séquentiel illustré ci-dessus.

La classe sarracenia.flow fournit des téléchargements, une récupération d'erreur et une API asynchrone à l'aide de la classe sarracenia.flowcb (flowCallback).


