Git contenant les fichiers de code python les + essentiels créés et utilisés pour mon mémoire de M1 sur les claims

On suppose que les données textuelles sont dans le dossier "data" (ici vide, mais je peux fournir les données si besoin ; contactez-moi)

Les fichiers doivent être exécutés dans l'ordre suivant :

I) extraire_claims.ipynb : pattern-matching pour extraire les phrases contenant des indices de claims, et ce dans chaque partie des articles (résumés, introductions, corps, conclusion)
I') stats_claims.ipynb : pas essentiel mais permet d'obtenir des statistiques et des tendances sur les claims précédemment extraits
IIa) metriques_eval.py : fait le clustering et donne les différents scores des métriques d'évaluation => pour tester différentes combinaisons de paramètres et garder la meilleure pour la suite
IIb) classif-avecstopwords.py : fait le clustering, fournit les mots-clefs de chaque cluster et les graphiques de visualisation (à exécuter seulement avec la meilleure combinaison de paramètres trouvés ; refait le clustering mais en sauvegardant les données et donnant les mots-clefs et visualisations)
III) comparer_claims_sw.py : rattache les claims clusterisés aux articles dont ils sont issus et fait en sorte que le degré 0 égale toujours 'incertain', 1 = moyennement certain, 2 = certain ; la 2e partie du code garde seulement 1 claim par partie max (celui qui a le degré le + fort) ; puis préparation des données sur les continents et des données pour voir l'évolution (en intro claim de niveau 1, en corps de niveau 2, en ccl de niveau 0, ...)
IV) extraire_institutions.ipynb : pattern-matching sur les 1000ers caractères des articles pour mettre à part ceux qui sont affiliés aux institutions de la liste (GAFAM + top 50 universités du classement de Shanghai 2021)
IV') extraire_pays_continents.ipynb : pattern-matching sur les 1000ers caractères des articles pour trouver les pays associés aux auteur-ices et les associer à leur continent ; également des cellules pour voir l'évolution diachronique du nombre d'articles associés à tel ou tel continent et pour voir combien d'articles sont écrits majoritairement par des hommes, des femmes ou une égalité selon les continents
IV'') extraire_prenoms_genres.ipynb : extraction des prénoms d'auteur-ices grâce aux fichiers bib, puis association de ces prénoms à leur genre, puis 1er décompte selon le genre majoritaire et 2e décompte selon le genre du/de la 1er-e auteur-ice ; dernière cellule pour l'évolution diachronique du nombre d'autrices
V) generation_graphiques/ : chaque fichier permet de générer des graphiques à partir du clustering des claims, soit en prenant en compte tout le corpus (_total), soit les sous-corpus liés aux institutions, aux continents ou au genre.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.ipynb_checkpoints

.ipynb_checkpoints

data

data

generation_graphiques

generation_graphiques

classif-avecstopwords.py

classif-avecstopwords.py

comparer_claims_sw.py

comparer_claims_sw.py

ducel_fanny_memoirem1.pdf

ducel_fanny_memoirem1.pdf

ducel_fanny_soutenance_m1.pdf

ducel_fanny_soutenance_m1.pdf

extraire_claims.ipynb

extraire_claims.ipynb

extraire_institutions.ipynb

extraire_institutions.ipynb

extraire_pays_continents.ipynb

extraire_pays_continents.ipynb

extraire_prenoms_genres.ipynb

extraire_prenoms_genres.ipynb

metriques_eval.py

metriques_eval.py

readme.md

readme.md

stats_claims.ipynb

stats_claims.ipynb

Repository files navigation

Git contenant les fichiers de code python les + essentiels créés et utilisés pour mon mémoire de M1 sur les claims

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.ipynb_checkpoints		.ipynb_checkpoints
data		data
generation_graphiques		generation_graphiques
classif-avecstopwords.py		classif-avecstopwords.py
comparer_claims_sw.py		comparer_claims_sw.py
ducel_fanny_memoirem1.pdf		ducel_fanny_memoirem1.pdf
ducel_fanny_soutenance_m1.pdf		ducel_fanny_soutenance_m1.pdf
extraire_claims.ipynb		extraire_claims.ipynb
extraire_institutions.ipynb		extraire_institutions.ipynb
extraire_pays_continents.ipynb		extraire_pays_continents.ipynb
extraire_prenoms_genres.ipynb		extraire_prenoms_genres.ipynb
metriques_eval.py		metriques_eval.py
readme.md		readme.md
stats_claims.ipynb		stats_claims.ipynb

FannyDucel/MemoireM1Claims

Folders and files

Latest commit

History

Repository files navigation

Git contenant les fichiers de code python les + essentiels créés et utilisés pour mon mémoire de M1 sur les claims

About

Resources

Stars

Watchers

Forks

Languages