In [1]:
import pandas as pd
import spacy, re
import numpy as np
from unidecode import unidecode
from preprocessing import preprocessing_df

# Exemple de lemmatisation

In [2]:
inputText =\
"""
Bonjour bonjour

Lors de notre point mensuel sur la CSS je m’aperçois que sur le mois de mars nous avons énormément de tardifs qui ont été réglés sur mars en comparaison au mois de février. Je ne m’explique pas ce phénomène surtout que de ce que j’avais compris les non règlements du fait du pb avec OXANTIS ne concernaient que 5M€ au total et pour des soins 2019 et que cela devait finalement être récupéré sur le mois d’avril. De mon côté je ne pense pas avoir vu d’alerte sur des factures datant de 2015 et après qui n’auraient pas été réglées. D’où « sortent » ces règlements ?

Je n’ai surement pas tout suivi dans le détail mais je trouve que les tardifs sont très élevés et il me sera demandé une explication par le Fonds CSS. Il est nécessaire je pense d’approfondir ce sujet car cela pourrait avoir des répercussions importantes sur notre définitif au niveau de la mutuelle si ce phénomène est généralisé

   merci côté stats de me donner des précisions sur ce constat pour la CSS et si ceci est également constaté sur l’ensemble du portefeuille HM.
	Et en // merci à Nadège de regarder si tout est OK coté intégration dans DECIBEL

D’avance je vous remercie pour toutes les précisions que vous pourrez m’apporter et je vous souhaite une bonne journée

"""

In [3]:
#fr_dep_news_trf, fr_core_news_md
lemmatizer = spacy.load("fr_core_news_md", disable = ['parser', 'attribute_ruler', 'ner'])
print("Pipeline:", lemmatizer.pipe_names)

Pipeline: ['tok2vec', 'morphologizer', 'lemmatizer']


In [4]:
doc = lemmatizer(inputText)  # Create a Doc from raw text
words_lemmas_list = [unidecode(token.lemma_.lower()) for token in doc if not token.is_stop and re.match('^\w+$', token.lemma_.lower()) is not None]
print(words_lemmas_list)

['bonjour', 'bonjour', 'point', 'mensuel', 'css', 'apercevoir', 'mois', 'mars', 'enormement', 'tardif', 'etre', 'regler', 'mars', 'comparaison', 'mois', 'fevrier', 'explique', 'phenomene', 'non', 'reglement', 'probleme', 'oxantis', 'concerner', 'total', 'soin', '2019', 'devoir', 'finalement', 'recuperer', 'mois', 'avril', 'cote', 'alerte', 'facture', 'dater', '2015', 'etre', 'regler', 'sortir', 'reglement', 'surement', 'suivre', 'detail', 'trouve', 'tardif', 'eleve', 'demander', 'explication', 'fonds', 'css', 'necessaire', 'approfondir', 'sujet', 'repercussion', 'important', 'definitif', 'niveau', 'mutuel', 'phenomene', 'generaliser', 'cote', 'stat', 'donner', 'precision', 'constat', 'css', 'constater', 'ensemble', 'portefeuille', 'hm', 'nadege', 'regarder', 'ok', 'cote', 'integration', 'decibel', 'avance', 'remercier', 'precision', 'pouvoir', 'apporter', 'souhaite', 'bon', 'journee']


# Application aux données

### I - Preprocessing

In [2]:
df = pd.read_csv('data/mails.csv', encoding='utf-16', index_col = 0)
df.head()

Unnamed: 0,header,body,date,from,label
0,1ère relecture gt conso,"yohan,\r \r quand tu as le temps, dis moi si c...","Fri, 29 May 2020 16:53:04 +0200",plonquet nadège,1
1,accepter,"pour accepter la demande, cliquez simplement s...","Mon, 16 Sep 2019 17:09:37 +0200",plonquet nadège,1
2,acces decibel,"\r bonjour,\r pouvez-vous donner les accès à d...","Tue, 23 Mar 2021 13:44:07 +0100",=?iso-8859-1?q?guillaume_v=e9ronique?=\r\r\n\t...,1
3,accès rec4 (http://decibel.sdw-rec4.hm.dm.ad/r...,comme ça ne fonctionne toujours pas sur mon po...,"Mon, 24 Feb 2020 14:28:57 +0100",gueniot bernard <bernard.gueniot@harmonie-mutu...,1
4,actes indemnités hospitalières,tu sais ce que c’est que ces actes qui n’ont p...,"Mon, 25 Mar 2019 11:25:36 +0100",levisse xavier <xavier.levisse@harmonie-mutuel...,1


In [3]:
df = preprocessing_df(df)
df.to_csv('data/mails_preprocessing.csv', encoding = 'utf-16')
df.head()

Unnamed: 0,header,body,date,from,label,text
0,1ère relecture gt conso,"yohan,\r \r quand tu as le temps, dis moi si c...","Fri, 29 May 2020 16:53:04 +0200",plonquet nadège,1,1ère relecture gt conso yohan quand tu as le t...
1,accepter,"pour accepter la demande, cliquez simplement s...","Mon, 16 Sep 2019 17:09:37 +0200",plonquet nadège,1,accepter pour accepter la demande cliquez simp...
2,acces decibel,"\r bonjour,\r pouvez-vous donner les accès à d...","Tue, 23 Mar 2021 13:44:07 +0100",=?iso-8859-1?q?guillaume_v=e9ronique?=\r\r\n\t...,1,acces decibel bonjour pouvez vous donner les a...
3,accès rec4 (http://decibel.sdw-rec4.hm.dm.ad/r...,comme ça ne fonctionne toujours pas sur mon po...,"Mon, 24 Feb 2020 14:28:57 +0100",gueniot bernard <bernard.gueniot@harmonie-mutu...,1,accès rec4 decibel sdw rec4 hm dm ad restituti...
4,actes indemnités hospitalières,tu sais ce que c’est que ces actes qui n’ont p...,"Mon, 25 Mar 2019 11:25:36 +0100",levisse xavier <xavier.levisse@harmonie-mutuel...,1,actes indemnités hospitalières tu sais ce que ...


### II - Lemmatisation

In [5]:
from lemmatization import lemmatize_df

In [6]:
df = lemmatize_df(df)
df.head()

ResourcesFileNotFoundError: Resources file not found at: C:\Users\le_paumier-m\stanza_resources\resources.json  Try to download the model again.