Skip to content

cug-sun/IF29_projet

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

65 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IF29 - Détection des profils ‘influenceurs’ sur Twitter

Contexte du projet

Ce rapport présente le travail effectué par le groupe 5 pour le projet de l’UE IF29 - Traitement de données (Data Analytics). L’objectif de ce projet est d’implémenter sur un même dataset et pour une même problématique une approche non supervisée et une approche supervisée et d’en faire le comparatif de Machine learning.

Objectif du projet

Le dataset en question est un ensemble de tweets et toutes leurs métadonnées ayant été posté entre le 14 juin 2018 et le 17 juin 2018 (les quatres premiers jours de la dernière coupe du monde de football). Mais que faire avec tous ces tweets ? Le but du projet est d’implémenter deux algorithmes de Machines Learning permettant la détection des profils profils twitter “atypique”. Ici pour le sens du mot “atypique” il faut comprendre “qui ne répond pas au type habituel” et non “que l'on peut difficilement classer”, le but du projet étant de déterminer cette classe grâce à des algorithmes de Machine Learning.

Notre approche

“Qui ne répond pas au type habituel”, est une définition qui peut englober beaucoup de profils twitter et cela pour un grand nombre de raisons. Pour ne pas nous disperser et pouvoir identifier ces profils “atypiques” rapidement et sans ambiguïtés, nous avons décidé de préciser quelque peu ce “atypique” en “influenceur”. Il sera donc question de détecter les leaders d’opinion de twitter, d’identifier les profils qui ont une influence sur les internautes qui le suivent et sur leurs décisions (d’achat entre autres). On pourrait par exemple imaginer être une agence de publicité cherchant à obtenir un échantillon des meilleurs profils pouvant permettre de promouvoir un produit.

Voici donc nos attributs dérivés des attributs primitifs :

  • Visibilité (pour chaque tweet de chaque utilisateur) cf.fichier “SPOT”
  • Ratio entre nombre de friends et followers
  • nombre moyen de favourites obtenus de chaque tweet
  • fréquence de tweets publiés depuis la création du compte avec t0=01/01/2019

Approches non-supervisés

Notre première approche de ML fût une approche non-supervisée. Cette approche désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées. Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Approches supervisés

Après la préparation des données, nous labélisons des données sur les quatre attributs dérivés en utilisant la méthode d’entropie(Shannon entropy method), ensuite nous comptons la fréquence de ‘Note’ et calculons son pourcentage cumulé(basé sur Principe de Pareto) Et puis nous extrayons un cinquième des données données comme le dataset pour l’approche supervisée. Nous choisissons la machine à vecteurs de support vue en cours comme classificateur. Après avoir formé le modèle, nous évaluons les résultats et améliorons les paramètres pour obtenir une plus grande précision.

comparer les résultats entre 2 approches

Enfin, nous utilisons le modèle paramétré pour prédire le reste des données et comparons les résultats entre 2 approches.

About

Projet de IF29

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published