In [3]:
import pandas as pd

# Text vectorization :
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

# Le modèle que l'on va entraîner :
from sklearn.svm import LinearSVC

# manipulation des données :
from sklearn.model_selection import train_test_split

import pickle
from scipy.sparse import hstack

In [2]:
df = pd.read_excel('DATA.xlsx')
df.rename(columns={'created':'Date',
                   'adresse_mail_expediteur':'Expéditeur',
                   'nom_projet':'Projet',
                   'doc_mail_destinataire':'Destinataire'},
         inplace=True)
df = df[['Objet','Expéditeur','Destinataire','Projet']]
df.head()

Unnamed: 0,Objet,Expéditeur,Destinataire,Projet
0,"Merci d avoir modifié TEAMBER, Logiciel gestio...",noreply-maps-issues@google.com,alexis.cavaroc@teamber.fr,AGENCE DE COMMUNICATION
1,"Vielen Dank, dass Sie Änderungen für TEAMBER, ...",noreply-maps-issues@google.com,alexis.cavaroc@teamber.fr,AGENCE DE COMMUNICATION
2,[TEAMBER] Notes réunion 08 Janvier,b.croquin@labsoft.fr,l.bancel@labsoft.fr,DEVELOPPEMENT
3,[TEAMBER] Notes réunion 08 Janvier,b.croquin@labsoft.fr,teamber@teamber.fr,DEVELOPPEMENT
4,[TEAMBER] Notes réunion 08 Janvier,b.croquin@labsoft.fr,teamber@labsoft.fr,DEVELOPPEMENT


In [4]:
def fit_vectorize(X, col):
    count_vect = CountVectorizer()
    tfidf_transformer = TfidfTransformer()
    X_count = count_vect.fit_transform(X)
    X_tfidf = tfidf_transformer.fit_transform(X_count)
    pickle.dump(count_vect,       open("CountVectorizer" + col,'wb'))
    pickle.dump(tfidf_transformer,open("TfidfTransformer" + col,'wb'))
    return X_tfidf

def vectorize(X,col):
    count_vect        = pickle.load(open("CountVectorizer"+col,'rb'))
    tfidf_transformer = pickle.load(open("TfidfTransformer"+col,'rb'))
    X_count = count_vect.transform(X)
    X_tfidf = tfidf_transformer.transform(X_count)
    return X_tfidf

def fit_transform_textcolumns(X, textcolumns):
    col = textcolumns[0]
    out = fit_vectorize(X[col],col)
    for i in range(1,len(textcolumns)) :
        col = textcolumns[i]
        out_next = fit_vectorize(X[col],col)
        out = hstack((out, out_next))
    return out

def transform_textcolumns(X, textcolumns):
    col = textcolumns[0]
    out = vectorize(X[col],col)
    for i in range(1,len(textcolumns)) :
        col = textcolumns[i]
        out_next = vectorize(X[col],col)
        out = hstack((out, out_next))
    return out

## Séparation du dataset en deux parties train/test :

In [5]:
df.dropna(inplace=True)
cols_train = ['Objet','Expéditeur','Destinataire']

X_train, X_test, y_train, y_test = train_test_split(df[cols_train], df['Projet'],
                                                    test_size=.3, shuffle = True)

## Vectorisation des colonnes textuelles :

In [6]:
textcolumns = ["Objet",'Expéditeur','Destinataire']

X_train = fit_transform_textcolumns(X_train,textcolumns)
X_test = transform_textcolumns(X_test,textcolumns)
X_train, X_test

(<118830x10455 sparse matrix of type '<class 'numpy.float64'>'
 	with 1436066 stored elements in COOrdinate format>,
 <50928x10455 sparse matrix of type '<class 'numpy.float64'>'
 	with 614672 stored elements in COOrdinate format>)

## Entraînement du modèle :

In [7]:
model = LinearSVC()
model.fit(X_train,y_train)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

## Test :

In [8]:
print("Modèle entrainé sur : ",X_train.shape[0],
      "mails\nPouvant être classés dans ",y_train.factorize()[0].max(),
      'projets différents\nAccuracy : ',model.score(X_test,y_test))

Modèle entrainé sur :  118830 mails
Pouvant être classés dans  130 projets différents
Accuracy :  0.9158616085453974


## Sauvegarde du modèle :

In [11]:
pickle.dump(model,open("MailClassifier",'wb'))