# TP AIO

Ce TP a pour but de montrer les avantages de la programmation concurrente asynchrone en Python, par rapport à la programmation classique. Nous implémenterons une même tâche de 2 manières : synchrone (basique) et asynchrone (concurrente).

La tâche est simple : lire un certain nombre de fichiers depuis le web, et compter le nombre de lignes total qui les composent.
- **pour le mode synchrone**, nous utiliserons la librairie `requests`
- **pour le mode asynchrone**, nous utiliserons `aiohttp`

## Les données

Les données sont de simples fichiers sur un bucket GCP public, `but-tp-aio`. Ce sont les fichiers de vecteurs du TP "Shazam" : des fichiers JSONL. Leur contenu n'a pas d'importance dans la mesure où on ne fait que compter les lignes.

Les données sont de simples fichiers textes sur un bucket GCP public, `but-tp-aio`.

# Préliminaires

Avant toute chose il faut être en mesure de compter le nombre de lignes dnas un flux de caractères provnenant de la lecture du fichier. Ecrire une telle fonction, appelée `count_lines`.

<u>Indication</u> : pour lire un fichier texte ouvert en Python, on peut écrire une boucle `for` sur le fichier et itérer ainsi sur les lignes qui le composent.

In [None]:
def count_lines(f):
    ...

On teste la fonction sur un objet `io.StringIO`, qui simule un fichier à partir d'une chaîne de caractères en mémoire.

In [None]:
test_string = '''Ceci est un
fichier de test
qui comporte


quelques
lignes'''

import io
assert count_lines(io.StringIO(test_string)) == 7, 'Vérifier la fonction count_lines...'
print('OK')

# Lecture synchrone

La liste des fichiers, et donc leurs URL publiques, est connue d'avance.

In [None]:
url_list = [f'https://storage.googleapis.com/but-tp-aio/file_{i:03}.txt' for i in range(1, 11)]

print(len(url_list), 'fichiers')

Ecrire une fonction `count_lines_from_url()` qui compte le nombre de lignes dans un fichier texte accessible depuis le web. On utilisera pour cela la fonction `count_lines()` du début, et la librairie `requests`.

Vous pouvez vous référer à la [documentation de `requests`](https://requests.readthedocs.io/en/latest/), le bout de code en exemple tout au début est un très bon point de départ. Dans notre cas c'est bien un appel GET HTTP, et il n'y a pas besoin d'authentification.

In [None]:
import requests

def count_lines_from_url(url):
    ...

Vérification...

In [None]:
n_lines = count_lines_from_url(url_list[6])
expected_n_lines = 100_000
assert n_lines == expected_n_lines, f'Valeur {n_lines} inattendue, il faudrait {expected_n_lines} !'
print('OK')

Faire maintenant la somme des nombres de lignes sur toute la liste, en mesurant le temps d'exécution de la cellule (`%%time`) :

In [None]:
%%time

total_lines = ...
print(total_lines)

# Lecture asynchrone

On installe d'abord la librairie `aiohttp`, puis on importe les librairies utiles :

In [None]:
%pip install aiohttp

In [None]:
import asyncio
import aiohttp
from datetime import datetime

Ecrire une coroutine `count_lines_from_url_async()`, équivalente à `count_lines_from_url_async()` ci-dessus, mais qui utilise `aiohttp` au lieu de `requests`. Elle utilisera aussi la fonction `count_lines()`, qui n'a pas besoin d'être modifiée.

La coroutine prendra en paramètre une session `aiohttp` déjà créée : ne pas la créer dans la fonction.

In [None]:
async def count_lines_from_url_async(session, url):
    ...

Ecrire maintenant une autre coroutine, `count_lines_from_list_async()`, qui parcourt la liste `url_list` et additionne les nombres de lignes de chaque fichier. Utiliser pour cela `asyncio.gather()`.

In [None]:
async def count_lines_from_list_async():
    ...

Enfin, exécuter cette nouvelle coroutine dans la cellule pour afficher les lignes. Noter qu'on ne peut pas utiliser `%%time` avec `await`, on mesure donc le temps "à l'ancienne".

In [None]:
t1 = datetime.now()

total_lines = ...

t2 = datetime.now()

print(total_lines, 'in', (t2 - t1).total_seconds(), 'seocnds')