# Classification - Article

Ce notebook contient le code permettant de classifier les articles à partir des données pré-traitées et des familles d'articles.

In [1]:
import os
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from tqdm import tqdm
from sklearn.feature_selection import VarianceThreshold
from sklearn.cluster import KMeans
from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA



data_folder = os.path.join(os.getcwd(), '../data_original')
df_correct = pd.read_csv(os.path.join(data_folder, 'correct_data.csv'), sep=',')
df_user = pd.read_csv(os.path.join(data_folder, 'users.csv'), sep=',')

## 1. Clustering 

In [2]:
# On normalise toutes les colonnes sauf l'ID acheteur
X = df_user[df_user.columns[1:]].values

scaler = RobustScaler()
X = scaler.fit_transform(X)

df_user[df_user.columns[1:]] = X

In [3]:
column_names = df_user.columns[1:]

selector = VarianceThreshold(threshold=0.2)
X = selector.fit_transform(X)

In [4]:
model = PCA(n_components=15)
X = model.fit_transform(X)

In [5]:
model = KMeans(n_clusters=3, n_init="auto")
labels = model.fit_predict(X)

In [6]:
df_user['label'] = labels

In [7]:
df_correct.drop(columns=['Date/heure transaction', 'Prix unitaire TTC', 'Total TTC', 'Semestre', 'Automne/Printemps'], inplace=True)

In [8]:
df_correct = df_correct.loc[df_correct.index.repeat(df_correct['Quantité'])]

In [9]:
df_correct.drop(columns=['Quantité'], inplace=True)

In [10]:
for fam in df_correct['Famille d\'article'].unique():
    articles = df_correct[df_correct['Famille d\'article'] == fam]['Article'].value_counts()
    list_article = articles.index
    
    # 80% des articles les plus achetés 
    articles = articles[articles.cumsum() < articles.sum() * 0.8].index
    
    # articles supprimés
    articles_sup = list(set(list_article) - set(articles))
    print(fam, articles_sup)
    
    # suppression des articles en utilisant articles_sup
    df_correct.drop(df_correct[df_correct['Article'].isin(articles_sup)].index, inplace=True)

Softs ['liptonic', 'oasis orange', 'schweppes ginger ale', 'fanta citron', 'cocktail semaine blanche', 'schweppes tonic bouteille', '7up', 'diabolo', 'sprite', 'cacolac', 'petillant pomme', 'oasis pomme-cassis-framboise', 'orangina', 'fanta orange', 'cecemel', 'schweppes agrumes', 'burn']
Snacks Sucrés ['mars', 'skittles', 'granola', 'brioche', 'grany noisettes', 'balisto', 'pop corn', 'mikado', "paille d'or", 'biscuit', 'maltesers', "barre côte d'or", 'malabar', 'mini bn', 'haribo', 'gaufre liegeoise', 'dragibus', 'tetes brulees', 'smarties', 'chouchou miel', 'galette riz choco', 'palmiers', 'barquette framboise lu', 'kitkat ball', 'glace', 'boule 3 choco', 'chewing gum', 'sundy', 'nappe chocolat', 'bounty', 'chupa chups']
Pampryls ['pago jus de la semaine', 'jus ace', 'jus pomme cassis', 'jus tomate', 'jus raisin', 'jus poire', 'jus peche', 'jus exotique', 'jus pamplemousse']
Café & Thé ['cafe', 'the en vrac', 'cappuccino', 'the damann']
Viennoiserie ['roule aux raisins', 'chausson a

In [11]:
df_correct = df_correct.merge(df_user[['ID acheteur', 'label']], on='ID acheteur', how='left')
df_correct.drop(columns=['ID acheteur'], inplace=True)

In [12]:
df_correct.head()

Unnamed: 0,Article,Famille d'article,Periode,Jour semaine,label
0,oasis tropical,Softs,apresmidi,vendredi,1
1,coca,Softs,apresmidi,vendredi,1
2,coca,Softs,apresmidi,vendredi,1
3,coca,Softs,apresmidi,vendredi,1
4,coca,Softs,apresmidi,vendredi,1


## 2. Encodage des données

In [13]:
# One hot encoding sur la periode, le jour de la semaine, le label avec get_dummies
df_correct = pd.get_dummies(df_correct, columns=['Periode', 'Jour semaine', 'label', 'Famille d\'article'])

In [14]:
df_correct.head()

Unnamed: 0,Article,Periode_apresmidi,Periode_matin,Periode_midi,Periode_soir,Jour semaine_jeudi,Jour semaine_lundi,Jour semaine_mardi,Jour semaine_mercredi,Jour semaine_vendredi,...,label_1,label_2,Famille d'article_Bieres,Famille d'article_Fruits & Légumes,Famille d'article_Pampryls,Famille d'article_Repas,Famille d'article_Snacks Salés,Famille d'article_Snacks Sucrés,Famille d'article_Softs,Famille d'article_Viennoiserie
0,oasis tropical,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
1,coca,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
2,coca,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
3,coca,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
4,coca,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False


date heure
famille d'article
ARTICLE = y target
semestre



In [15]:
# labelencoding
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df_correct['Article'] = le.fit_transform(df_correct['Article'])

df_correct.head()

Unnamed: 0,Article,Periode_apresmidi,Periode_matin,Periode_midi,Periode_soir,Jour semaine_jeudi,Jour semaine_lundi,Jour semaine_mardi,Jour semaine_mercredi,Jour semaine_vendredi,...,label_1,label_2,Famille d'article_Bieres,Famille d'article_Fruits & Légumes,Famille d'article_Pampryls,Famille d'article_Repas,Famille d'article_Snacks Salés,Famille d'article_Snacks Sucrés,Famille d'article_Softs,Famille d'article_Viennoiserie
0,33,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
1,8,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
2,8,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
3,8,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False
4,8,True,False,False,False,False,False,False,False,True,...,True,False,False,False,False,False,False,False,True,False


## 3. Classification

In [16]:
# modeling
from sklearn.model_selection import train_test_split

X = df_correct[df_correct.columns[1:]]
y = df_correct[df_correct.columns[0]]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [17]:
# SGDClassifier
from sklearn.linear_model import SGDClassifier
model = SGDClassifier(n_jobs=-1)


model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [18]:
from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred))

0.20775092936802975


In [19]:
from sklearn.model_selection import GridSearchCV

params_grid_sgd = {
    'penalty': ['l2', 'l1'],
    'alpha': [0.01, 0.1, 10],
    'fit_intercept': [True, False],
    'max_iter': [250, 500, 1000],
    'n_jobs': [-1],
}


grid = GridSearchCV(model, params_grid_sgd, cv=5, scoring='accuracy', verbose=1, n_jobs=-1)
grid.fit(X_train, y_train)

print(grid.best_params_)
print(grid.best_score_)


Fitting 5 folds for each of 36 candidates, totalling 180 fits
{'alpha': 0.1, 'fit_intercept': True, 'max_iter': 1000, 'n_jobs': -1, 'penalty': 'l2'}
0.220215298808498


In [None]:
# Résultat du gridsearch : 
# {'alpha': 0.1, 'fit_intercept': True, 'max_iter': 1000, 'n_jobs': -1, 'penalty': 'l2'}
# Permet de passer de 0.207 à 0.220
final_model = grid.best_estimator_
final_model.fit(X_train, y_train)
y_pred = final_model.predict(X_test)
print(accuracy_score(y_test, y_pred))