In [5]:
from typing import Pattern
import pandas as pd 
import numpy as np
import nltk
import csv
import re
from re import sub
import sys
from unidecode import unidecode
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
stop_words = set(stopwords.words('french'))

In [6]:
PATTERN_SUPP_HTML : Pattern = re.compile(r'<(.*?)>')
REPLACE_NO_SPACE : Pattern= re.compile(r"['.;:!*=\%?,<>\"()\[\]]")
REPLACE_WITH_SPACE : Pattern = re.compile(r"(<br\s*/><br\s*/>)|(\-)|(\/)|°")

In [50]:
# nettoyer le texte 
def preprocess_clean(reviews):
    #if type(reviews) != float:
    reviews = reviews.lower() # mettre le texte en minuscule

    reviews = re.sub(r'\bagrave\b', 'a', reviews) #replacer agrave par a (!à)
    reviews = re.sub(r'\beacut\b|\begrave\b|\bpreacute\b', 'e', reviews)#

    sub_html = re.findall(PATTERN_SUPP_HTML, reviews) #supprimer les balise html
    for html in sub_html:
        if html:
            reviews = re.sub(r'\s+', ' ', reviews)
            reviews = re.sub(r"\'", ' ', reviews)
            reviews = reviews.replace(html, ' ')
            reviews = reviews.replace('< >', ' ')
    
    reviews = REPLACE_NO_SPACE.sub(' ', reviews) #supprimer tout les caracteres [.;:!=\%?,\"()\[\]]
    reviews = REPLACE_WITH_SPACE.sub(' ', reviews) #supprimer espace entre balise html au cas où y'en a 
    reviews = reviews.replace('ttt', 'traitement') 
    reviews = re.sub(r"([+])", ' plus ', reviews)
    reviews = re.sub(r"([+])", ' ', reviews)
    reviews = re.sub(r'[0-9]', ' ', reviews)
    #reviews = re.sub(r'\b\w{1,3}\b',' ', reviews)

    #La première manipulation souvent effectuée dans le traitement du texte est la suppression de ce qu'on 
    #appelle en anglais les stopwords. Ce sont les mots très courants dans la langue étudiée 
    #("et", "à", "le"... en français) qui n'apportent pas de valeur informative pour la compréhension 
    #du "sens" d'un document et corpus. Il sont très fréquents et ralentissent notre travail : 
    #nous souhaitons donc les supprimer.
    for word in reviews.split() :
        if word in stop_words or len(word) < 2:
            word = r'\b' + word + r'\b'
            reviews = re.sub(word, '', reviews)
         
    reviews = re.sub(' +', ' ', reviews)#supprimer tout espace de plus qui peut exister à la fin de traitement
    #print(reviews)
    return reviews

In [49]:
str = 'bre <br><span style="font-size:10.5pt"> CHAMBRE, ?! Nombre bre de chutebre le mois dernier&nbsp;: 0</span>'

preprocess_clean(str)

' e cham e, ?! nom e e de chute e le mois dernier&nbsp;: 0 '

In [46]:
path_test = "data/test/data-tester-nouvelles-transmissions.csv"

In [8]:
df = pd.read_csv(path_test, encoding='utf-8', sep=";")
df.head()

Unnamed: 0.1,Unnamed: 0,libelle2,CHUTES,prediction
0,0,DATE : 03/02/2020 À 17H35TÉMOIN : SANS TÉMOINL...,True,CHUTE
1,1,LES CULOTTES DE MME P SONT TOUTE DÉCHIRÉES ET ...,True,CHUTE
2,2,DATE : 05/02/2020 À 09H30TÉMOIN : SANS TÉMOINL...,True,CHUTE
3,3,DATE : 05/02/2020 À 20H30TÉMOIN : SANS TÉMOINL...,True,CHUTE
4,4,LE RÉSIDENT A CHUTÉ 0 FOIS SUR LES 30 JOURS PR...,True,CHUTE


In [22]:
output = df.drop_duplicates()
print('CHUTES : ', output.groupby('CHUTES').size())
print('prediction : ', output.groupby('prediction').size())
len(df)

CHUTES :  CHUTES
False     621
True     2670
dtype: int64
prediction :  prediction
CHUTE    3240
RIEN       51
dtype: int64


3291

In [19]:
tab_predict = []
for _, libelle2, CHUTES, prediction in df.values.tolist():
    if CHUTES == True and prediction == "RIEN":
        tab_predict.append((libelle2, CHUTES, prediction))


In [20]:
df_predict = pd.DataFrame(tab_predict, columns =['libelle2', 'CHUTES', 'prediction'])
print(len(df_predict))
df_predict.head()

51


Unnamed: 0,libelle2,CHUTES,prediction
0,AU TOUR DE NURSING DE 4H30 ÉTAIS DEBOUT PRÊTE ...,True,RIEN
1,MÉDICALCHUTE MÉCANIQUE EN CHAMBRE CET APRÈS MI...,True,RIEN
2,OBSERVATIONS : CONSULTATIONFAITES LE : 06/02/2...,True,RIEN
3,MR D ESSAI DE SE LEVER SON FAUTEUIL RISQUE ...,True,RIEN
4,OBSERVATIONS : CONSULTATIONFAITES LE : 08/02/2...,True,RIEN


In [21]:
df_predict.to_csv('data/test/data-tester-chuteXTrue-predictionXFalse.csv', sep=';', encoding='utf-8')

In [8]:
path_train = "data/test/exportNETSOINS_TRANSMISSIONS__semaine319.csv"
path_expo = "data/test/exportNETSOINS_CHUTES_SEMAINE319.csv"

In [9]:
df_train = pd.read_csv(path_train, encoding='utf-8', sep=";")
df_train.head()

Unnamed: 0,id_resident,id_etablissement,date_T,id_type_parametrage,libelle2,GRIPPE_IRA,GEA_DIARRHEES,SUSPICION_TIAC,CHUTES,APPEL_SAMU,VACCINATION,type_info2
0,1186,428,1580814420,2,PERTE VAGINALE SANGUINOLANTE,False,False,False,False,False,False,T
1,1276,428,1581255999,2,- DENTAIRE? EN ATTENTE D'UNE CONSULTATION DENT...,False,False,False,False,False,False,T
2,1309,428,1580749437,2,BON COMPORTEMENT CE JOUR MAIS SEMBLE PARFOIS A...,False,False,False,False,False,False,T
3,1815,435,1581104286,2,"LUNETTES RÉPARÉS PAR MME P, FAMILLE EST AU COU...",False,False,False,False,False,False,T
4,1979,442,1580919434,2,HÉMATOME SUR LES BRAS ET LES JAMBES,False,False,False,False,False,False,T


In [10]:
len(df_train)

65534

In [11]:
df_expo = pd.read_csv(path_expo, encoding='latin-1', sep=",")
df_expo.head()

Unnamed: 0,id_resident_chute,date_chute,hospitalisation,id_resident,id_transmission,lunette,medecin_prevenu,pieds,analyse_cause,analyse_action,...,type,aide_visuelle_utilisee,appareil_auditif,has_contention,id_ide_prevenu,id_levee_materiel,id_type_lieu,ide_prevenue,levee_tiers,mobilite
0,530964,1580684400,1,47640,20257681,1,0,2,,,...,Non concerné,1.0,0,0,,0,5,0,1,1.0
1,530956,1580684400,0,158779,20257516,1,0,2,,,...,Non concerné,0.0,0,0,,0,1,0,1,
2,531533,1580684400,0,321420,20266433,1,0,4,,,...,De son lit avec demi-barrière,0.0,1,0,,0,1,0,1,0.0
3,530917,1580685000,1,92606,20256432,0,0,2,,,...,Non concerné,,0,0,,0,1,0,1,1.0
4,530953,1580685000,0,270224,20257452,0,0,4,Désorientée,,...,Non concerné,,0,0,,0,1,0,1,


In [12]:
table_id = []
for id_train in df_train.values.tolist():
    for id_expo in df_expo.values.tolist():
        if id_train[0] == id_expo[3]:
            table_id.append(id_train + id_expo)

In [13]:
table_id[:1]

[[2125,
  432,
  1580903023,
  2,
  "EN ATTENTE D'ANALYSE",
  False,
  False,
  False,
  False,
  False,
  False,
  'T',
  532396,
  1580884200,
  0,
  2125,
  20281129,
  0,
  0,
  4,
  'troubles cognitifs et moteurs',
  'installation lit au plus bas et coussin demi-lune à poursuivre<br>attente de cales-tronc pour lit',
  nan,
  '["Normal"]',
  '["Aucune"]',
  '["Habillage inad\\u00e9quat","Sans cause"]',
  'Couché',
  'De son lit sans barrières',
  nan,
  0,
  1,
  2212.0,
  0,
  1,
  1,
  1,
  1.0]]

In [14]:
 list(df_train.columns.values) + list(df_expo.columns.values) 

['id_resident',
 'id_etablissement',
 'date_T',
 'id_type_parametrage',
 'libelle2',
 'GRIPPE_IRA',
 'GEA_DIARRHEES',
 'SUSPICION_TIAC',
 'CHUTES',
 'APPEL_SAMU',
 'VACCINATION',
 'type_info2',
 'id_resident_chute',
 'date_chute',
 'hospitalisation',
 'id_resident',
 'id_transmission',
 'lunette',
 'medecin_prevenu',
 'pieds',
 'analyse_cause',
 'analyse_action',
 'autre_remarque',
 'cause',
 'consequence',
 'danger_json',
 'position',
 'type',
 'aide_visuelle_utilisee',
 'appareil_auditif',
 'has_contention',
 'id_ide_prevenu',
 'id_levee_materiel',
 'id_type_lieu',
 'ide_prevenue',
 'levee_tiers',
 'mobilite']

In [19]:
df_predict = pd.DataFrame(table_id, columns = list(df_train.columns.values) + list(df_expo.columns.values) ) 
print(len(df_predict))
df_predict = df_predict.dropna()
#df_predict.analyse_cause = df_predict.analyse_cause.apply(lambda x: preprocess_clean(x))
#df_predict.analyse_action = df_predict.analyse_action.apply(lambda x: preprocess_clean(x))
#df_predict.autre_remarque = df_predict.autre_remarque.apply(lambda x: preprocess_clean(x))
df_predict.head()

15041


Unnamed: 0,id_resident,id_etablissement,date_T,id_type_parametrage,libelle2,GRIPPE_IRA,GEA_DIARRHEES,SUSPICION_TIAC,CHUTES,APPEL_SAMU,...,type,aide_visuelle_utilisee,appareil_auditif,has_contention,id_ide_prevenu,id_levee_materiel,id_type_lieu,ide_prevenue,levee_tiers,mobilite
4,6223,467,1580895709,2,PLAN DE SOINS + HIS MIS À JOUR.,False,False,False,False,False,...,Non concerné,1.0,0,0,345348.0,0,1,1,1,1.0
16,67497,652,1581099710,2,"MORAL EN BERNE DEPUIS SA DERNIÈRE CHUTE, A TEN...",False,False,False,False,False,...,Non concerné,1.0,0,0,168196.0,0,1,1,0,1.0
52,127372,1232,1580996573,2,EN ATTENTE D'ANALYSE,False,False,False,False,False,...,Non concerné,1.0,0,0,148713.0,0,5,1,1,1.0
53,127372,1232,1580996573,2,EN ATTENTE D'ANALYSE,False,False,False,False,False,...,Non concerné,1.0,0,0,318605.0,0,5,1,1,1.0
82,143421,1628,1581070920,2,REFUS DE FAIRE SA TOILETTE SE MATIN,False,False,False,False,False,...,De son lit sans barrières,0.0,0,0,197305.0,0,1,1,1,0.0


In [20]:
df_predict.to_csv('data/test/marge-data.csv', sep=';', encoding='utf-8')

In [30]:
1580891400 : '05/02/2020 à 09:30:00'
1580931000 : '05/02/2020 à 20:30:00'
1581003900 : '06/02/2020 à 16:45:00'

1580905611 : '05/02/2020 à 13:26:51'
1580944633 : '06/02/2020 à 00:17:13'
1581013399 : '06/02/2020 à 19:23:19'

SyntaxError: illegal target for annotation (<ipython-input-30-ec7d55e8e8dd>, line 1)

In [None]:
"1580812200" correspond à la date : "04/02/2020 à 11:30:00"
"1580895709" correspond à la date : "05/02/2020 à 10:41:49"