# 2. Les Projets

* POS Tagging (en ou fr)
* Reconnaissance d'entités nommées 
* Catégorisation des commentaires (Amazon)

** Objectifs: **
Implémenter les deux "pipelines" d'un système TALN, ou en general d'un system Machine Learning.
* Pipeline d'Entraînement
    * Entraînement
    * Testing
* Pipeline de Production
    * Analysis as a service (REST API ou Broker de messages)
    * Présentation des résultats d'analyse. Deux formats: json (résultats purs) et html (résultats marqués sur le texte original)
    
** Base d'évaluation **
* L'Entraînement a fourni un modèle avec un score f1 supérieur à 50% (Évaluation sur données "testing").
* Test driven development
* Qualité du code (référence: Matériel du 1er cour, [Hitchhiker's guide](http://docs.python-guide.org/en/latest/writing/style/), [Code Like a Pythonista](http://python.net/~goodger/projects/pycon/2007/idiomatic/handout.html))
* Commit sur github à la fin de chaque cours. Presentation du project à la fin.

** Bonus **
* Utilisation des design patterns, e.g. factory, iterator, etc.
* Niveau de codage (e.g. utilisation de python avancé, organisation du code, logging au lieu de print, etc.)

---
## Vue d'ensemble

### Pipeline d'Entraînement

![NLP](pictures/Module%204/Training%20pipline.PNG)


### Pipeline de Production


![NLP](pictures/Module%204/Production%20pipeline.PNG)


---
## Étiquetage morpho-syntaxique (POS tagging)
![NLP](pictures/POS%20tagging.gif)

### Exemple avec NLTK

In [3]:
# Run: python -m nltk.downloader words maxent_ne_chunker gutenberg maxent_treebank_pos_tagger averaged_perceptron_tagger
from nltk.corpus import gutenberg
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from itertools import islice

moby_dick = gutenberg.raw('melville-moby_dick.txt')
print('Moby Dick sample: {0}'.format(moby_dick[117:300]))

words = word_tokenize(moby_dick[117:1000])

word_pos = [(word, pos) for word, pos in pos_tag(words) ]

for item in islice(word_pos, 5): # ou: for item in word_pos[:5]
    print(item)

Moby Dick sample: The pale Usher--threadbare in coat, heart, body, and brain; I see him
now.  He was ever dusting his old lexicons and grammars, with a queer
handkerchief, mockingly embellished with 
('The', 'DT')
('pale', 'NN')
('Usher', 'NNP')
('--', ':')
('threadbare', 'NN')


### Données d'entraînement / Anglais
![NLP](pictures/Module%204/NER-POS%20data.png)

### Données d'entraînement / Français
![NLP](pictures/Module%204/POS%20-%20French.png)

---
## Reconnaissance d'entités nommées (NER)

![NLP](pictures/NER.png)

### Exemple avec NLTK

In [1]:
# Run: python -m nltk.downloader words maxent_ne_chunker gutenberg maxent_treebank_pos_tagger averaged_perceptron_tagger
import nltk, re
from nltk.tokenize import sent_tokenize, word_tokenize

def extract_entity_names(t):
    entity_names = []

    if hasattr(t, 'label') and t.label:
        if t.label() in ['ORGANIZATION','PERSON','GPE']:
            entity_names.append((' '.join([child[0] for child in t]),t.label()))
        else:
            for child in t:
                entity_names.extend(extract_entity_names(child))

    return entity_names

# Input data
with open('data/NER Sample.txt', 'r') as f:
    sample = f.read()

# Séparation des phrases
sentences = nltk.sent_tokenize(sample)

# Séparation des mots
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]

# Étiquetage morpho-syntaxique
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]

# Application de NER
chunked_sentences = nltk.ne_chunk_sents(tagged_sentences, binary=False)

entity_names = []
for tree in chunked_sentences:
    entity_names.extend(extract_entity_names(tree))

# Print unique entity names
print(set(entity_names))

{('Blobby', 'PERSON'), ('Jamie Rose', 'ORGANIZATION'), ('Motion Picture Arts', 'ORGANIZATION'), ('Blobby', 'ORGANIZATION'), ('Will Carling', 'PERSON'), ('Noel', 'PERSON'), ('Academy', 'ORGANIZATION'), ('Noel Edmonds', 'PERSON'), ('Oscars', 'PERSON'), ('House Party', 'ORGANIZATION'), ('Sciences', 'ORGANIZATION'), ('Wayne Sleep', 'PERSON')}


---
## Catégorisation des commentaires (Amazon)
![NLP](pictures/Module%204/Amazon%20comments.png)

![NLP](pictures/Module%204/Amazon%20review%20-%20data.png)