GitHub - nfee006/Bilingual-Text-Analysis: 🧠 Ces scripts appliquent des techniques de traitement du langage naturel (NLP) à des textes bilingues anglais/français qui se trouvent dans un classeur | 🧠 These scripts apply natural language processing (NLP) techniques to English/French bilingual text stored in a spreadsheet.

Scripts de traitement du langage naturel pour les textes bilingues (English follows)

Le traitement du langage naturel (NLP) est la branche de l'intelligence artificielle qui traite de l'utilisation d'ordinateurs pour extraire le sens des textes en langage humain (c'est-à-dire une langue comme l'anglais ou le français plutôt qu'un langage de programmation comme Python).

Ces scripts ont été créés pour analyser la base de données interne de l'ASC sur les leçons apprises, mais ils ont depuis été généralisés et les données initiales ont été épurées. Ces scripts peuvent être appliqués à n'importe quel tableur qui contient une colonne avec du texte en anglais, en français ou dans les deux langues. Avec quelques modifications mineures, ils pourraient également être appliqués à toute autre langue prise en charge par la bibliothèque python gensim.

1_Input/dummy_data.xlsx Données d'entrée fictives. Ce fichier a été créé à partir des documents publics du l'ASC (1, 2).
2_Output/ Tous les fichiers créés dans ce workflow. Les fichiers .xlsx sont créés par les scripts mentionnés dans leurs noms de fichiers. Les fichiers .html sont créés à l'étape 3.
analyze_lessons_step1.ipynb Ce cahier traduit le texte bilingue ENG/FRA et crée une nouvelle colonne avec le texte entièrement anglais, une autre avec le français, et une autre qui indique la langue du texte original. Il s'agit d'une étape de prétraitement.
analyze_lessons_step2.ipynb Ce cahier calcule le score de sentiment VADER (c'est-à-dire le degré de positivité ou de négativité du texte).
analyze_lessons_step3.ipynb Ce cahier effectue une modélisation thématique en utilisant l'allocation latente de Dirichlet (LDA).

Natural Language Processing Scripts for Bilingual Texts (Le français précède)

Natural language processing (NLP) is the branch of artificial intelligence that deals with using computers to extract meaning from human language texts (ie. a language like English or French rather than a programming language like Python).

These scripts were originally created to analyze the CSA's internal lessons learned database, but they have since been generalized and the initial data has been scrubbed. These scripts can be applied to any spreadsheet that contains a column with text in English, French, or both. With a few minor changes, it could also be applied to any other languages supported by the gensim python library.

1_Input/dummy_data.xlsx Dummy input data. This file was created from public CSA documents (1,2).
2_Output/ All files created in this workflow. The .xlsx files are created by the scripts mentioned in their filenames. The .html files are created in step 3.
analyze_lessons_step1.ipynb This notebook translates the ENG/FRA bilingual text and creates a new column with fully English text, another with French, and another that indicates the language of the original text. This is a pre-processing step.
analyze_lessons_step2.ipynb This notebook calculates the VADER sentiment score (ie. how positive or negative the text is).
analyze_lessons_step3.ipynb This notebook conducts topic modelling using latent Dirichlet allocation (LDA).

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
1_Input		1_Input
2_Output		2_Output
LICENSE		LICENSE
README.md		README.md
analyze_lessons_step1.ipynb		analyze_lessons_step1.ipynb
analyze_lessons_step2.ipynb		analyze_lessons_step2.ipynb
analyze_lessons_step3.ipynb		analyze_lessons_step3.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scripts de traitement du langage naturel pour les textes bilingues (English follows)

Natural Language Processing Scripts for Bilingual Texts (Le français précède)

About

Releases

Packages

Languages

License

nfee006/Bilingual-Text-Analysis

Folders and files

Latest commit

History

Repository files navigation

Scripts de traitement du langage naturel pour les textes bilingues (English follows)

Natural Language Processing Scripts for Bilingual Texts (Le français précède)

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages