## Utilisation du machine learning pour traiter des données textuelles

Essayons de construire un premier classifieur pour les emails

On utilise scikit-learn et un modèle du type SVM

On va essayer de prédire si un SMS est un spam ou non

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
import pandas as pd
import numpy as np

On récupère les données se trouvant dans SMSSpamCollection

In [2]:
sms=pd.read_table("./Data/SMSSpamCollection",names=["type","message"])

In [3]:
sms.head()

Unnamed: 0,type,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


On divise les données apprentissage / test en utilisant la fonction train_test_split de sklearn

In [4]:
from sklearn.model_selection import train_test_split

In [5]:
y=sms["type"]
x=sms["message"]

In [6]:
x_train,x_test, y_train, y_test = train_test_split(x,y,test_size=0.2)

On utilise une méthode classique de traitement de données textuelles<br>
TF-IDF term frequency-inverse document frequency<br>
Il s'agit d'une méthode de feature extraction qui permet d'extraire des fréquences à partir de textes<br>
TF fréquence du mot dans le texte<br>
IDF importance du mot dans le corpus complet<br>

On crée un objet puis on fait un fit_transform sur les données d'apprentissage et un transform sur les données test

In [7]:
vectorizer=TfidfVectorizer()

In [8]:
x_train_trans=vectorizer.fit_transform(x_train)

In [9]:
x_train_trans

<4457x7832 sparse matrix of type '<class 'numpy.float64'>'
	with 59514 stored elements in Compressed Sparse Row format>

On crée un modèle de classification, ici SVM

In [10]:
modele_svc=LinearSVC()
modele_svc.fit(x_train_trans,y_train)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [11]:
from sklearn.metrics import confusion_matrix

In [12]:
x_test_trans=vectorizer.transform(x_test)

y_test_predict=modele_svc.predict(x_test_trans)

confusion_matrix(y_test,y_test_predict)

array([[962,   1],
       [ 11, 141]], dtype=int64)

On va représenter les différents indices de qualité avec sklearn

In [13]:
def filtre_spam(message):
    return modele_svc.predict(vectorizer.transform(np.array([message])))[0]

In [18]:
filtre_spam("free")

'spam'