In [1]:
import numpy as np
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.utils import np_utils
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import text_to_word_sequence
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder


Using TensorFlow backend.


In [2]:
################## DATA PROCESS
# les données ont été saisies sous excel et sauvegardées en csv utf-8 bizarement avec l'option séparateur virgules de microsoft
def getDataset():
	dataset = pd.read_csv("RuleCout2.csv", delimiter=";", encoding='utf-8')
	#print ( 'dataset loaded with shape',dataset.shape)
	X = dataset['text']
	Y = dataset['class']
	dataset.set_index('text') #pour avoir les classes dans un ordre quelconque
	return dataset, X, Y

# utile pour les colonnes sur une ligne et afficher toutes les lignes
pd.set_option('display.width', 200)
pd.set_option('display.max_rows', 1000)

# on ajoutera peu à peu de nouvelles colonns au dataset 
dataset, X, Y = getDataset()
print(dataset)

                         text  class
0     aucun problème d'argent   cher
1                         bon   cher
2                       cher    cher
3              gastronomique    cher
4              haut de gamme    cher
5            j’ai les moyens    cher
6              je m’en fiche    cher
7               je m’en fous    cher
8              je suis riche    cher
9   le meilleur des meilleurs   cher
10                      luxe    cher
11                   luxueux    cher
12      ma bourse est pleine    cher
13       moins de cent euros    cher
14             plus de vingt    cher
15                plutôt bien   cher
16                plutôt cher   cher
17                plutôt cher   cher
18             plutôt pas mal   cher
19                    qualité   cher
20                  standing    cher
21            super standing    cher
22         très haut de gamme   cher
23         très haut de gamme   cher
24              un bon repas    cher
25           un plat à vingt    cher
2

In [3]:
# le travail sur les ensembles impacte fortement le taux de réussite
eco = ['modique','économique','ténu','japonais', 'chinois','kebab', 'self','pourri','avantageux','marché','bas']
troquet = ['troquet','bistrot','cantine','self']
negation = ['pas','ni','peu']
cher = ['cher','bon','haut','luxe','luxueux','fiche','fous','moyens', 'gastronomique', 'classe','riche','michelin','etoile','étoiles',
'standing','haut','chicos','onéreux','onereux','super''meilleur','meilleurs','grattin','gratin']
monnaie = ['gamme', 'euro', 'prix', 'euros','problème','pb','qualité']
ambigu = ['milieu','moyen']
nombreEco = ['0','5','10','15','zéro','cinq','dix','quinze']
nombreCher= ['20','30','40','50','80','100','cent','vingt','trente','quarante','cinquante','quatre-vingt','cent']

# le choix de l'entier n'importe pas sauf pour le zéro qui est la valeur complémentée par pad_sequences
def score(word):
	if word in eco: 
		return 2
	elif word in nombreEco:
		return 3
	elif word in troquet: 
		return 4
	elif word in negation:
		return 5
	elif word in monnaie:
		return 6
	elif word in ambigu:
		return 7
	elif word in nombreCher:
		return 9
	elif word in cher:
		return 10
	else: 
		return 0
	
print ( 'score modique', score('modique'))
print ( 'score troquet', score('troquet'))
print ( 'score inconnu', score('inconnu'))


score modique 2
score troquet 4
score inconnu 0


In [7]:
#ai préféré utiliser le tokenizer de keras plutôt que celui de nltk car les valeurs filtrées par défaut comprennent l'apostrophe
def tokenize(sentence):
	tokens = text_to_word_sequence(sentence)
	return tokens
	
dataset['tokens']= dataset['text'].map(tokenize)
dataset['tokens']
dataset

Unnamed: 0,text,class,tokens,Xcodes
0,aucun problème d'argent,cher,"[aucun, problème, d'argent]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,bon,cher,[bon],"[0, 0, 0]"
2,cher,cher,[cher],"[0, 0, 0, 0, 0]"
3,gastronomique,cher,[gastronomique],"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
4,haut de gamme,cher,"[haut, de, gamme]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
5,j’ai les moyens,cher,"[j’ai, les, moyens]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
6,je m’en fiche,cher,"[je, m’en, fiche]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
7,je m’en fous,cher,"[je, m’en, fous]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
8,je suis riche,cher,"[je, suis, riche]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
9,le meilleur des meilleurs,cher,"[le, meilleur, des, meilleurs]","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [8]:
def token2code(tokens):
	return list(map(score,tokens))

#dataset['Xcodes'] = list (map(token2code,dataset['tokens']))
def encode(data):
	data['Xcodes']= data['tokens'].map(token2code)
	return data
		
dataset = encode(dataset)
dataset
XEncoded = pad_sequences(dataset['Xcodes'])
dataset

Unnamed: 0,text,class,tokens,Xcodes
0,aucun problème d'argent,cher,"[aucun, problème, d'argent]","[0, 6, 0]"
1,bon,cher,[bon],[10]
2,cher,cher,[cher],[10]
3,gastronomique,cher,[gastronomique],[10]
4,haut de gamme,cher,"[haut, de, gamme]","[10, 0, 6]"
5,j’ai les moyens,cher,"[j’ai, les, moyens]","[0, 0, 10]"
6,je m’en fiche,cher,"[je, m’en, fiche]","[0, 0, 10]"
7,je m’en fous,cher,"[je, m’en, fous]","[0, 0, 10]"
8,je suis riche,cher,"[je, suis, riche]","[0, 0, 10]"
9,le meilleur des meilleurs,cher,"[le, meilleur, des, meilleurs]","[0, 0, 0, 10]"


In [10]:
########################### MODEL DEFINITION
def sequential_model():
	# create model
	model = Sequential()
	model.add(Dense(11, input_dim=5, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	# Compile model
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	return model
########################## MODEL TRAINING	
model = sequential_model()
estimator = KerasClassifier(build_fn=sequential_model, epochs=200, batch_size=5, verbose=0)
	
seed = 7
np.random.seed(seed)
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)

dataset['predicted'] = list(model.predict(XEncoded)) 
dataset

ValueError: Error when checking : expected dense_1_input to have shape (5,) but got array with shape (25,)

In [9]:
# encode class values as integers
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)
# convert integers to dummy variables (i.e. one hot encoded)
dummy_y = np_utils.to_categorical(encoded_Y)
dataset['Ycodes'] = pd.Series(list(dummy_y))
dataset


Unnamed: 0,text,class,tokens,Xcodes,Ycodes
0,aucun problème d'argent,cher,"[aucun, problème, d'argent]","[0, 6, 0]","[1.0, 0.0, 0.0]"
1,bon,cher,[bon],[10],"[1.0, 0.0, 0.0]"
2,cher,cher,[cher],[10],"[1.0, 0.0, 0.0]"
3,gastronomique,cher,[gastronomique],[10],"[1.0, 0.0, 0.0]"
4,haut de gamme,cher,"[haut, de, gamme]","[10, 0, 6]","[1.0, 0.0, 0.0]"
5,j’ai les moyens,cher,"[j’ai, les, moyens]","[0, 0, 10]","[1.0, 0.0, 0.0]"
6,je m’en fiche,cher,"[je, m’en, fiche]","[0, 0, 10]","[1.0, 0.0, 0.0]"
7,je m’en fous,cher,"[je, m’en, fous]","[0, 0, 10]","[1.0, 0.0, 0.0]"
8,je suis riche,cher,"[je, suis, riche]","[0, 0, 10]","[1.0, 0.0, 0.0]"
9,le meilleur des meilleurs,cher,"[le, meilleur, des, meilleurs]","[0, 0, 0, 10]","[1.0, 0.0, 0.0]"


In [10]:
########################### MODEL DEFINITION
def sequential_model():
	# create model
	model = Sequential()
	model.add(Dense(11, input_dim=5, activation='relu'))
	model.add(Dense(3, activation='softmax'))
	# Compile model
	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	return model



In [12]:
########################## MODEL TRAINING	
model = sequential_model()
estimator = KerasClassifier(build_fn=sequential_model, epochs=200, batch_size=5, verbose=0)
	
seed = 7
np.random.seed(seed)
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)

dataset['predicted'] = list(model.predict(XEncoded)) 

def decodeY(L):
	if L[0]>L[1] and L[0]>L[2]: 
		return "cher"
	elif L[2]>L[1] and L[2]>L[0]:
		return "éco"
	else:
		return "moyen"
	
dataset['resultat']=list(map(decodeY,dataset['predicted']))
dataset

Unnamed: 0,text,class,tokens,Xcodes,Ycodes,predicted,resultat
0,aucun problème d'argent,cher,"[aucun, problème, d'argent]","[0, 6, 0]","[1.0, 0.0, 0.0]","[0.2185826, 0.5963063, 0.18511115]",moyen
1,bon,cher,[bon],[10],"[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
2,cher,cher,[cher],[10],"[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
3,gastronomique,cher,[gastronomique],[10],"[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
4,haut de gamme,cher,"[haut, de, gamme]","[10, 0, 6]","[1.0, 0.0, 0.0]","[0.48312402, 0.3546967, 0.1621793]",cher
5,j’ai les moyens,cher,"[j’ai, les, moyens]","[0, 0, 10]","[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
6,je m’en fiche,cher,"[je, m’en, fiche]","[0, 0, 10]","[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
7,je m’en fous,cher,"[je, m’en, fous]","[0, 0, 10]","[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
8,je suis riche,cher,"[je, suis, riche]","[0, 0, 10]","[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen
9,le meilleur des meilleurs,cher,"[le, meilleur, des, meilleurs]","[0, 0, 0, 10]","[1.0, 0.0, 0.0]","[0.4181428, 0.534515, 0.047342155]",moyen


In [None]:
#################### MODEL EVALUATION
results = cross_val_score(estimator, XEncoded, dummy_y, cv=kfold)
print("Baseline: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))
