# Analyse de données textuelles avec python

Pour toutes ces étapes, nous utiliserons de nombreuses bibliothèques dont principalement :
    - nltk
    - scikit-learn

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Utilisation du machine learning

Essayons de construire un premier classifieur pour les emails

On utilise scikit-learn et un modèle du type SVM

On va essayer de prédire si un SMS est un spam ou non

In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

On récupère les données se trouvant dans SMSSpamCollection

In [3]:
sms = pd.read_csv("./data/SMSSpamCollection",sep = '\t',header=None,names = ["type","message"])

In [4]:
sms.head()

Unnamed: 0,type,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


On utilise une méthode classique de traitement de données textuelles<br>
TF-IDF term frequency-inverse document frequency<br>
Il s'agit d'une méthode de feature extraction qui permet d'extraire des fréquences à partir de textes<br>
TF fréquence du mot dans le texte<br>
IDF importance du mot dans le corpus complet<br>

On crée un objet puis on fait un fit_transform sur les données d'apprentissage et un transform sur les données test

In [5]:
from sklearn.pipeline import make_pipeline

In [6]:
modele_anti_spam = make_pipeline(TfidfVectorizer(),LinearSVC())

In [7]:
modele_anti_spam.fit(sms["message"],sms["type"])

Pipeline(memory=None,
         steps=[('tfidfvectorizer',
                 TfidfVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.float64'>,
                                 encoding='utf-8', input='content',
                                 lowercase=True, max_df=1.0, max_features=None,
                                 min_df=1, ngram_range=(1, 1), norm='l2',
                                 preprocessor=None, smooth_idf=True,
                                 stop_words=None, strip_accents=None,
                                 sublinear_tf=False,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, use_idf=True,
                                 vocabulary=None)),
                ('linearsvc',
                 LinearSVC(C=1.0, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,

In [8]:
def filtre_spam():
    message = input("Entrez votre message :")
    return modele_anti_spam.predict([message])

In [9]:
filtre_spam()

Entrez votre message : win win


array(['spam'], dtype=object)