Skip to content

InseeFrLab/funathon2023_sujet6

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 

Repository files navigation

funathon2023_sujet6

A la recherche de l'alimentation perdue

Objectif : Rechercher les aliments consommés dans l’œuvre de Proust

Source : A la recherche du temps perdu

Mise en pratique :
- NLP
- recherche d'entités nommées (NER)
- la lecture de documents écrits par Marcel

TODO list :

  • Charger le fichier txt d'à la recherche du temps perdu
  • Se familiariser avec la lib pyhton SPACY et produire des statistiques basiques du document (nombre de lettres, mots, lignes ...)
  • Calcul des mots les plus fréquents (on pourra faire un wordcloud avec)
  • Recherche d'entités nommées
    • utilisation de SPACY ou d'un modèle Huggingface spécialisé dans le NER en français
    • faire le "fine tuning" pour rajouter une catégorie d'entités FOOD
    • sortir la liste des références à des aliments du texte

Data :

Les données sont disponibles sur minio, sur le sspcloud :

projet-funathon/2023/sujet6/data/Marcel Proust - A la recherche du temps perdu.txt

projet-funathon/2023/sujet6/data/ingredients.csv

Bibliographie :

About

A la recherche de l'alimentation perdue

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published