Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Plan NLP #40

Open
MohamedBsh opened this issue Apr 23, 2022 · 0 comments
Open

Plan NLP #40

MohamedBsh opened this issue Apr 23, 2022 · 0 comments

Comments

@MohamedBsh
Copy link
Collaborator

MohamedBsh commented Apr 23, 2022

plan proposée par : @Serenalyw (Discord : Serena)

Chapitre I: Introduction

Présentation du NLP

Plan du cours

  • Prérequis
  • Plan

Etude des données textuelles

  • différences avec les données structurées et quels enjeux en découlent
  • Pré-traitements:
    • Stemming
    • Lemmatisation
    • Régularisation des expressions
    • Supression des Stop Words
    • Tokenisation

Chapitre II: Notions générales

Modélisation statistique du langage

  • Vectorisation de texte : bow, tf-idf
  • Modélisation de topics : LDA
  • Limite des modèles statistiques

Modèles de langues

  • Modèle unigram/bigram/ngram
  • Perplexité
  • Mise en pratique:
    • Classification unigram/bigram utilisant Naive Bayes/Multinomial Bayes (Comparaison précision unigram et bigram)
    • Génération de texte ngram utilisant une chaîne de Markov

Embeddings

  • Word2Vec : modèle skip-gram et CBow
  • Glove : Global Vectors
  • Mesure de la similarité:
    • Cosine similarity
    • Dot product
  • Exploration de topics: tSNE

Chapitre III: NLP & Deep Learning

Les réseaux de neurones récurrents

  • RNN
    (Problème du vanishing gradient)
  • GRU
  • LSTM
  • Transformers (Parenthèse sur BERT)
    (Possibilité de réutiliser le TP de Pierrot)

Pipelines NLP

  • Image to Text (CLIP openAI)
  • Text to Speech / Speech to Text
  • Text to Image (DALL-E openAI)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Development

No branches or pull requests

2 participants