# Le projet : Chatlaw

## Présentation du concept

L'objectif de ce projet est de réaliser un chatbot nous permettant d'obtenir une réponse sur une question du domaine juridique. Cette réponse étant obtenu à l'aide d'une similarité d'une réponse déjà présente sur des forums.



![](Images/schema.png)

# Etapes du projet
## crawling de différents sites pour obtenir des données
## prétraitement des données
## catégorisation automatique de ces données
## interaction avec l'utilisateur
 - l'utilisateur peut poser une question juridique et reçoit la question la plus similaire à la sienne dans la base de données, ainsi que la réponse associée

# Crawling

## Objectif et tâches

- Crawler plusieurs forums de droit afin de constituer un corpus de questions/réponses
- Créer un fichier XML facile à parser et reprenant des infos clé

![Crawler logo](Images/web_crawler_logo_2.png)



## Forums crawlés

- NetIris (plus de 300K questions, 8 catégories)
- Juritravail (plus de 150K questions, 27 catégories)

![Juritravail](Images/screenshot_juritravail.png)



## Corpus et métadonnées

- Pour le calcul de similarité : une suite de questions-réponses plain text
- Pour la catégorisation : la catégorie de la question telle qu'indiqué sur le site
- D'autres métadonnées utiles :
	- un id unique par doc
	- le nom du site
	- le titre de la page
	- l'url de la page

![XML](Images/screenshot_corpus_juritravail.png)



## Filtrage des réponses

- Élimination des réponses "vides" en filtrant sur la popularité des auteurs

![Réponse Juritravail](Images/screenshot_juritravail_reponse.png)



## Technologie utilisée

![Logo Python](Images/logo_python.png)
![Logo BeautifulSoup](Images/BeautifulSoup.png)



## Statistiques du corpus

- NetIris : 41229 questions, 60421 réponses aspirées
- Juritravail : 126911 question, 75019 réponses aspirées

![Graphique_1](Images/categories_netiris.png)
![Graphique_2](Images/categories_juritravail.png)

# Prétraitement

In [3]:
a = "Bonjour"
print(a)

Bonjour


# Les tâches de prétraitement sont : 

 - lemmatisation 
 - morpho-syntaxe / syntaxe
 - Entités nommées
 - Repérage de références juridiques

- Ces prétraitements sont effectué avec plusieurs scripts python sur chaque question et réponse.
- La sorite finale est en format Conll, nous avons chaque question et réponse prétraités et étiquités par tree-tagger.   

Le script xml2conll.py prend en argument le fichier XML généré par le groupe de Crawiling, on récupère l'id, la classe, et la sous-classe de chaque question, on récupère la ou les réponses de cette question. L'attribut id permetrra de faire le lien avec la/les réponses de cette question:
![structure.JPG](pic/structure.JPG)



En sortie on aura les fichiers  conll de la question et de la réponses (reliés par l'id).
Exemple d'une question en fromat conll : 

![content_conll.JPG](pic/content_conll.JPG)


# Entité nommées

# Spacy
- Nous avons d'abord essayé spacy, mais nous nous sommes rendu comptes que il n'est pas très performant sur le français. Ainsi qu'en terme de complixité, spacy peut être lent avec un grand corpus. 


# Plyglot

- Plyglot est une librairie de NLP multilingue, un peu comme spacy mais plus rapide. 

- En plus des tâches standards en TAL, (Tokenisation, Part of speech tagging etc) cette librairie permets d'extraire les entité nommées.

- Désavantage : On ne peut pas filtrer les fautes d'orthographes; Le temps d'exécution est long.


Partie du résultat:

![ents.JPG](pic/ents.JPG)

# Repérage de références juridiques

1. TF-IDF. Nous avons récolté un corpus journaliste pour faire la contraste avec notre corpus juridique en retirant les mots qui  ont un score tfidf plus haut dans le corpus juridique. Regardez TFIDF.py. Les défauts sont évidentes, d'abord c'est pas facile de trouver les n-grammes juridiques; aussi, le genre et registre de corpus de contraste est très différent, par exemple, puisque le fichier contraste "contraste" ici est un corpus journaliste, donc il n'y a pas la forme en deuxième personne, alors qu'on a beaucoup de conjugaison en deuxième personne dans le corpus juridique. Le résultat est stocké dans "jury.txt"



![TF-IDF.JPG](pic/TF-IDF.JPG)

2.  À partir d'un dictionnaire juridique en ligne nous pouvons extraire la liste des termes juridique dans "termes_juridiques.txt", le script de téléchargement est "jury.py". A l'aide de cette liste nous pouvons récolter les termes juridiques bien propres depuis notre corpus.        Le script est "extraction.py", donne le résultat qui dans  "jury_words.txt"   




![law_words.JPG](pic/law_words.JPG)

# Catégorisation

# Interaction avec l'utilisateur
## interface graphique

![](Images/flask.png)






## recherche de similarités

La recherche de similarité est effectué avec un script en python. 
Deux scripts sont utilisés pour cela : 

![](Images/scikit.png)



### preprocessdocs.py 

Ce script nous permet de créer un dictionnaire à partir du corpus avec comme attribut, l'id, la classe, la sous-classe, la question, les réponses associées à la question ainsi que la question et les réponses lemmatisées. 
Le tout est sauvegardé dans des "pickles" qui nous permettent de conserver les résultats dans un script python pour pouvoir les réutiliser facilement. Cela nous permet de garder en mémoire celui-ci afin de ne pas refaire le processus dès que l'utilisateur pose une question.


### similarite_with_class.py

Ce script charge, dans un premier temps, le résultat obtenu précédemment, à partir notamment des classes catégorisées par le groupe ayant effectué la classification des documents, et transforme ce résultat en un vecteur TF-IDF. Ensuite, on utilise sur celui-ci un calcul de similarité cosinus dans les documents appartenant à la même classe que celle de la question.


# Test diaporama pour la présentation avec Doctrine

Commande : jupyter nbconvert slides.ipynb --to slides --post serve

| Test        | Tableaux           | Markdown  |
| ------------- |:-------------:| -----:|
| ipsum    | lorem | abc |
| lorem      | ipsum      |   def |
| ipsum | lorem      |    ghi |