linogaliana
diff --git a/‎_quarto.yml‎
Lines changed: 1 addition & 0 deletions b/‎_quarto.yml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎content/annexes/evaluation.qmd‎
Lines changed: 1 addition & 62 deletions b/‎content/annexes/evaluation.qmd‎
Lines changed: 1 addition & 62 deletions
diff --git a/‎content/modelisation/1_modelevaluation.qmd‎
Lines changed: 12 additions & 2 deletions b/‎content/modelisation/1_modelevaluation.qmd‎
Lines changed: 12 additions & 2 deletions
@@ -11,6 +11,7 @@ project:
     - content/modelisation/index.qmd
     - content/modelisation/1_modelevaluation.qmd
     - content/NLP/index.qmd
+    - content/modern-ds/s3.qmd
     - content/annexes/corrections.qmd
     - content/annexes/evaluation.qmd
     - content/git/*.qmd
 
@@ -81,7 +81,7 @@ Même si le projet n’est pas celui du cours de stats, il faut que la démarche
 Sur le format du rendu, vous devrez :
 
 * Écrire un rapport sous forme de _Notebook_ (quelques exceptions à cette règle peuvent exister, par exemple si vous développer une appli `Dash` ou `Streamlit` comme expliqué dans la @nte-appli) ou de `Quarto Markdown`. Soyez vigilant avec le contrôle de version (@imp-gitnb)
-* Avoir un projet `Github` avec le rapport. Les données utilisées doivent être accessibles également, dans le dépôt, sur internet ou sur l'espace de stockage du `SSPCloud` (@tip-s3).
+* Avoir un projet `Github` avec le rapport. Les données utilisées doivent être accessibles également, dans le dépôt, sur internet ou sur l'espace de stockage du `SSPCloud` (voir [tutoriel S3](content/modern-ds/s3.qmd#les-données-sur-le-cloud)).
 * Les __dépôts `Github` où seul un *upload* du projet a été réalisé seront pénalisés__. A l'inverse, les dépôts dans lequels le contrôle de version et le travail collaboratif ont été activement pratiqués (`commits` fréquents, `pull requests`, ..) seront valorisés.
 * Le code contenu dans le rapport devra être un maximum propre (pas de copier coller de cellule, préférez des fonctions)
 
@@ -100,67 +100,6 @@ de déporter une partie du code dans des fichiers `.py` importés sous forme de
 :::
 
 
-::: {#tip-s3 .callout-tip collapse="true"}
-## Sauvegarder des données sur le système de stockage du `SSPCloud`
-
-⚠️ __Cette approche n'est pertinente que pour des données dont le temps d'acquisition est suffisamment long pour être dérangeant et ne doit pas être considéré comme une carte blanche à l'absence de reproductibilité.__
-
-Il peut être pénible de refaire tourner fréquemment le code de récupération des données, notamment
-si celui-ci est long. Sous cette condition, il est normal de vouloir écrire des données
-intermédiaires pour des analyses ultérieures (au format `CSV` ou encore mieux au format `Parquet`).
-Se pose alors la question de l'enregistrement pérenne de celles-ci, les conteneurs sur le
-_SSPCloud_ n'étant pas persistant. 
-
-Ces données ne doivent pas être mises dans le dépôt `Github`, ce n'est pas le lieu adapté. 
-Pour le stockage pérenne de données, le _sspcloud_ propose un système de
-stockage `S3` (technologie identique à celle des principaux _cloud providers_).
-Dans un service ayant moins de 24 heures, afin d'avoir des jetons de connexion
-n'étant pas périmés, on instancie la connexion avec 
-
-```python
-import s3fs
-fs = s3fs.S3FileSystem(
-    client_kwargs={'endpoint_url': 'https://'+'minio.lab.sspcloud.fr'}
-)
-```
-
-Cette connexion permet de créer un système de fichier distant
-comme si on était en local. 
-Pour écrire un fichier au format `Parquet` sur cet espace avec `Pandas`, il suffit
-de partir du modèle suivant
-
-```python
-with fs.open("s3/<USERNAME>/<dossier(s)>/<fichier>.parquet") as f:
-  df.to_parquet(f)
-```
-
-Ce principe peut être utilisé pour tout type d'objet, en prenant
-le format adéquat.
-
-A ce stade, ce fichier est privé. Il n'est donc pas lisible
-par un autre utilisateur. Pour le rendre disponible à quelqu'un
-d'autre, il faut rendre disponible ce fichier à un accès _anonyme_. Pour
-cela, en ligne de commande il faut faire:
-
-```shell
-mc anonymous set download s3/<USERNAME>/<dossier(s)>/<fichier>.parquet
-```
-
-Ce fichier devient disponible à n'importe qui par un lien HTTPS. Pour le 
-lire, il suffira de faire
-
-```python
-import pandas as pd
-pd.read_parquet("https://minio.lab.sspcloud.fr/<USERNAME>/<dossier(s)>/<fichier>.parquet")
-```
-
-Pour en savoir plus sur le système S3, les 
-librairies `Python` ou les différentes
-manières de procéder, consulter [ce chapitre](/content/modern-ds/s3.qmd)
-
-:::
-
-
 
 # Barème approximatif
 
 
@@ -125,12 +125,22 @@ Ces métriques devraient rappeler des souvenirs si vous êtes familiers de la m
 
 ## Apprentissage non supervisé
 
-Dans cet ensemble de méthodes, on ne dispose pas de _gold standard_ pour comparer la prédiction à la valeur observée. Pour mesurer la performance d'un algorithme, il faut donc se résoudre à utiliser des métriques de stabilité des prédictions, basées sur des critères statistiques. Cela permet d'évaluer si le fait de complexifier l'algorithme change fondamentalement la distribution des prédictions. Les métriques utilisées dépendent du type d'apprentissage mis en oeuvre. 
+Dans cet ensemble de méthodes, on ne dispose pas de _gold standard_ pour comparer la prédiction à la valeur observée. Pour mesurer la performance d'un algorithme, il faut donc se résoudre à utiliser des métriques de stabilité des prédictions, basées sur des critères statistiques. Cela permet d'évaluer si le fait de complexifier l'algorithme change fondamentalement la distribution des prédictions. 
 
+Les métriques utilisées dépendent du type d'apprentissage mis en oeuvre. Par exemple, le _clustering_ par _K-means_ utilise généralement une mesure d'inertie qui quantifie l'homogénéité des clusters. Une bonne performance correspond au cas où les clusters sont homogènes et se distinguent l'un de l'autre. Plus on a de clusters (le $K$ de $K-means$), plus ceux-ci tendent à être homogènes. Si on ne choisit pas un $K$ adéquat, on peut faire du sur-apprentissage: si on ne compare les modèles qu'en fonction de leur homogénéité, on va choisir un nombre de cluster très élevé ce qui correspond à un cas classique de surapprentissage. Les méthodes de sélection du nombre de cluster optimal, comme la [méthode du coude](https://en.wikipedia.org/wiki/Elbow_method_(clustering)), visent à évaluer le moment où le gain d'inertie lié à l'augmentation du nombre de clusters tend à s'affaisser. On sélectionne alors le nombre de clusters qui offre le meilleur compromis entre parcimonie et performance. 
 
 
+## Comment sont évalués les grands modèles de langage et les IA génératives ?
+
+S'il apparaît relativement intuitif d'évaluer des modèles supervisés (pour lesquels on dispose d'observations faisant office de vérité absolue), comment juger de la qualité d'un outil comme `ChatGPT` ou `Copilot` ? Comment définir une bonne IA générative : est-ce une IA qui fournit une information juste du premier coup (véracité) ? une IA qui fait preuve de capacité de raisonnements (_chain of thought_) dans une discussion ? Doit-on juger le style ou uniquement le fond ?
+
+Ces interrogations sont des champs actifs de recherche. Les [modèles de fondation](https://fr.wikipedia.org/wiki/Mod%C3%A8le_de_fondation) étant très généraux, entraînés à différentes tâches, parfois de manière supervisée, parfois de manière non supervisée, il est difficile de définir un objectif unique permettant de considérer qu'un modèle est, sans ambiguité, meilleur qu'un autre. Le [_leaderboard MTEB (Massive Text Embedding Benchmark)_](https://huggingface.co/blog/lyon-nlp-group/mteb-leaderboard-best-practices) présente par exemple de nombreuses métriques pour des tâches diverses et il peut être difficile de s'y retrouver. Sans compter que le rythme effrené de publication de nouveaux modèles change régulièrement ce classement. 
+
+Globalement, même s'il existe des métriques où on fait automatiquement évaluer la qualité d'un texte à un autre LLM (métriques _LLM as a judge_), pour avoir des modèles de langage de qualité, il est nécessaire d'avoir de l'évaluation humaine à plusieurs niveaux. En premier lieu, il est utile d'avoir un corpus de données annotées (des textes avec un résumé rédigé par un humain, des descriptions d'images, etc.) pour la phase d'entraînement et d'évaluation. Ceci permet de guider le comportement du modèle sur une tâche donnée. 
+
+Mais l'humain peut aussi intervenir _ex post_, pour faire remonter une évaluation de la qualité d'un modèle. On parle de _feedbacks_. Ceci peut prendre plusieurs formes, par exemple une évaluation positive ou négative de la réponse ou une évaluation plus qualitative. Ces informations remontées ne vont pas forcément servir à la version actuelle du modèle mais pourront servir ultérieurement pour entraîner un modèle selon une technique de renforcement. 
+
 
-## Comment sont évalués les grands modèles de langage ?
 
 ## Evaluer sans être tourné vers le passé: les enjeux de la supervision des modèles