Classification des mails spams/hams

About The Project

Le but de ce projet est de réaliser une classification de documents, il consiste à classifier des mails en spams/hams en utilisant plusieurs techniques de Machine Learning, les étapes sont :

Récolte des données
Nettoyage et préparation des données
- Supprimer la ponctuation
- tokenizer les données
- Elimination des stop words (mots sans valeurs sémantiquement)
- réduction de la taille du document en réduissant le nombre de type de mot présent dans le doc (stemming ou lemmatization)
vectorisation (transformer le text en chiffres)
- vectorisation contextuelle N grams
- vectorisation tf-idf
- Feature Engineering : enrichir les données avec de nouvelles variables ou transformer les variables excitantes
Construire des jeux de données pour l'entrainement et le test
- Cross-Validation et méthode K-fold
- matrice de confusion
Modèles
- SVM
- SVM_CrossValidation
Évaluation des modèles
- Métriques de performance : precision, recall et accuracy.
sélection du meilleur modèle

Keywords

Machin Learning, NLP, tokenizer, stemming, lemmatization, vectorisation, N_grams, tf-idf, Feature Engineering, Cross-Validation, k-fold, SVM,

Built With

Python
Pandas
re
nltk

Packages & Library

import pandas as pd
import re
import string
import nltk
from nltk.corpus import stopwords

Dataset

Le Dataset SMSSpamCollection.txt peut être téléchargé ici
Ce jeu de données contient deux informations principales : le contenu d'un mail, et le label qui définit si le mail est spam/ham

source du Dataset :

[1] Almeida, T.A., Gómez Hidalgo, J.M., Yamakami, A. Contributions to the Study of SMS Spam Filtering: New Collection and Results. Proceedings of the 2011 ACM Symposium on Document Engineering (DOCENG'11), Mountain View, CA, USA, 2011.

[2] Gómez Hidalgo, J.M., Almeida, T.A., Yamakami, A. On the Validity of a New SMS Spam Collection. Proceedings of the 11th IEEE International Conference on Machine Learning and Applications (ICMLA'12), Boca Raton, FL, USA, 2012.

[3] Almeida, T.A., Gómez Hidalgo, J.M., Silva, T.P. Towards SMS Spam Filtering: Results under a New Dataset. International Journal of Information Security Science (IJISS), 2(1), 1-18, 2013.

Result

Métriques de performance utilisé : precision, recall et accuracy.

Résultats pour le model SVM
- precision = 0.966, recall = 0.929, accuracy = 0.986
Résultat pour le model SVM_CrossValidation
- accuracy pour chaque batch = [0.97774587 0.9856425 0.9798995 0.98420675]
- accuracy totale = 0.9818736539842067
Résultat pour le model SVM_TF-IDF
- precision = 0.993, recall = 0.905, accuracy = 0.987

License

GPL-3.0

Contact

📫 How to reach me: kebiri.isam.dine@gmail.com

🌐 My Portfolio: https://kebiri-isam-dine.github.io/

🔗 Project Link: https://github.com/Kebiri-isam-dine/Classification_des_mails_spams-hams

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.vscode		.vscode
Data		Data
LICENSE		LICENSE
README.md		README.md
RandomForest_model.ipynb		RandomForest_model.ipynb
SVM_model.ipynb		SVM_model.ipynb
cleaning_data.ipynb		cleaning_data.ipynb
vectorize_data.ipynb		vectorize_data.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Classification des mails spams/hams

About The Project

Keywords

Built With

Packages & Library

Dataset

Result

License

Contact

About

Releases

Packages

Languages

License

kebiri-isam-dine/Classification_des_mails_spams-hams

Folders and files

Latest commit

History

Repository files navigation

Classification des mails spams/hams

About The Project

Keywords

Built With

Packages & Library

Dataset

Result

License

Contact

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages