

### Prédiction de Clics sur des Publicités: Analyse de Données et Régression Logistique :

Ce notebook reproduit l'analyse de données et la prédiction de clics sur des publicités présentées dans la vidéo de Smart Data Camp. Nous allons créer un modèle de régression logistique qui prédit si un utilisateur cliquera sur une publicité en fonction de ses caractéristiques.

#### Problématique :

Dans ce projet, nous allons travailler sur un ensemble de données indiquant si un internaute a cliqué sur une publicité. 
Nous tenterons de créer un modèle qui prédira si un utilisateur cliquera ou non sur une publicité en fonction de ses caractéristiques.

#### Description des Données
Notre jeu de données contient les colonnes suivantes:

- Daily Time Spent on Site: Temps passé par le consommateur sur le site (en minutes)

- Age: Âge du client (en années)

- Area Income: Revenu moyen de la zone géographique du consommateur

- Daily Internet Usage: Nombre moyen de minutes par jour passées sur internet

- Ad Topic Line: Titre de la publicité

- City: Ville du consommateur

- Male: Indique si le consommateur est un homme

- Country: Pays du consommateur

- Timestamp: Moment où le consommateur a cliqué sur la publicité ou fermé la fenêtre

- Clicked on Ad: Variable cible indiquant si l'utilisateur a cliqué sur la publicité (0 ou 1)

#### 1. Chargement des Données (le fichier "advertisement.csv" aura été préalablement déposé sous /user/share/advertisement.csv)
##### Voir ici ci-besoin : https://github.com/crystalloide/Big_Data/blob/master/advertisement.csv  

In [2]:
%spark
// Chargement du fichier CSV
val csv = spark.read.option("header", "true").option("inferSchema", "true").csv("/user/share/advertisement.csv")

// Affichage des 10 premières lignes
csv.show(10)

// Affichage du schéma (structure des données)
csv.printSchema()

// Statistiques descriptives sur toutes les colonnes
csv.describe().show()


// Statistiques sur certaines colonnes spécifiques
csv.select("Age", "Daily Time Spent on Site", "Area Income", "Daily Internet Usage").describe().show(false)

#### 2. Visualisation des Données

In [4]:
%spark
// Création d'une vue temporaire pour effectuer des requêtes SQL
csv.createOrReplaceTempView("ads_data")

// Requête SQL simple pour vérifier les données
spark.sql("SELECT * FROM ads_data LIMIT 10").show()

// Visualisation du nombre d'âge différent :
val ageDataDiff = spark.sql("SELECT COUNT(DISTINCT Age) AS DistinctAgeCount FROM ads_data")

ageDataDiff.show()

In [5]:
%spark

val ageData = spark.sql("SELECT Age FROM ads_data") // Histogramme des âges

ageData.show()
z.show(ageData) // Pour les visualisations avancées

// Graphique de dispersion âge/revenu
val incomeByAge = spark.sql("SELECT `Age`, `Area Income` FROM ads_data")
z.show(incomeByAge)

// Graphique âge/temps passé sur le site
val timeByAge = spark.sql("SELECT Age, `Daily Time Spent on Site` FROM ads_data")
z.show(timeByAge)

#### 3. Préparation des Données pour le Machine Learning

In [7]:
%spark
// Définition des colonnes de type string à convertir
val stringFeatureCols = Array("Ad Topic Line", "City", "Country")

// Importation des bibliothèques nécessaires
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.ml.Pipeline

// Démonstration du fonctionnement de StringIndexer sur un exemple simple
val df = spark.createDataFrame(Seq(
  (0, "a"),
  (1, "b"),
  (2, "c"),
  (3, "a"),
  (4, "a"),
  (5, "c")
)).toDF("id", "category")

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("categoryIndex")

val indexed = indexer.fit(df).transform(df)
// Remplacer display() par show() pour afficher les résultats dans Zeppelin
indexed.show()

// Application de StringIndexer à nos colonnes textuelles
import org.apache.spark.ml.attribute.Attribute
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.PipelineModel

val indexers = stringFeatureCols.map { colName =>
  new StringIndexer()
    .setInputCol(colName)
    .setHandleInvalid("skip")
    .setOutputCol(colName + "_index")
}

val pipeline = new Pipeline().setStages(indexers)
val adsFinalDF = pipeline.fit(csv).transform(csv)

// Affichage du nouveau schéma incluant les colonnes indexées
adsFinalDF.printSchema()

// Affichage des données avec les nouvelles colonnes indexées
adsFinalDF.show()

// Nombre total d'enregistrements
println(s"Nombre total d'enregistrements: ${adsFinalDF.count()}")

#### 4. Division des Données en Ensembles d'Entraînement et de Test


In [9]:
%spark
// Division des données: 70% pour l'entraînement, 30% pour le test
val splits = adsFinalDF.randomSplit(Array(0.7, 0.3))
val train = splits(0)
val test = splits(1)

// Affichage du nombre d'enregistrements dans chaque ensemble
println(s"Ensemble d'entraînement: ${train.count()} enregistrements")
println(s"Ensemble de test: ${test.count()} enregistrements")


#### 5. Création du Modèle de Régression Logistique


In [11]:
%spark
// Importation des bibliothèques
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.classification.LogisticRegression

// Préparation des données avec VectorAssembler pour regrouper toutes les features dans une seule colonne
val assembler = new VectorAssembler()
  .setInputCols(Array("Daily Time Spent on Site", "Age", "Area Income", "Daily Internet Usage", 
                     "Ad Topic Line_index", "City_index", "Male", "Country_index"))
  .setOutputCol("features")

// Transformation de l'ensemble d'entraînement
val training = assembler.transform(train)
  .select($"features", $"Clicked on Ad".as("label"))

// Affichage des données préparées
training.show(false)

// Création du modèle de régression logistique
val lr = new LogisticRegression()
  .setLabelCol("label")
  .setFeaturesCol("features")
  .setMaxIter(10)
  .setRegParam(0.3)

// Entraînement du modèle
val model = lr.fit(training)

// Transformation de l'ensemble de test
val testing = assembler.transform(test)
  .select($"features", $"Clicked on Ad".as("trueLabel"))

// Prédiction sur l'ensemble de test
val prediction = model.transform(testing)
  .select($"features", $"prediction", $"trueLabel")

// Affichage des prédictions
prediction.show(10)



#### 6. Évaluation du Modèle

In [13]:
%spark
// Importation des bibliothèques nécessaires pour l'évaluation
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

// Création de l'évaluateur
val evaluator = new MulticlassClassificationEvaluator()
  .setLabelCol("trueLabel")
  .setPredictionCol("prediction")
  .setMetricName("accuracy")

// Calcul de l'exactitude (accuracy)
val accuracy = evaluator.evaluate(prediction)
println(s"Exactitude du modèle: ${accuracy * 100}%")

// Calcul de la matrice de confusion
val tp = prediction.filter($"prediction" === 1.0 && $"trueLabel" === 1.0).count() // Vrais positifs
val fp = prediction.filter($"prediction" === 1.0 && $"trueLabel" === 0.0).count() // Faux positifs
val tn = prediction.filter($"prediction" === 0.0 && $"trueLabel" === 0.0).count() // Vrais négatifs
val fn = prediction.filter($"prediction" === 0.0 && $"trueLabel" === 1.0).count() // Faux négatifs

println("Matrice de confusion:")
println(s"Vrais positifs (TP): $tp")
println(s"Faux positifs (FP): $fp")
println(s"Vrais négatifs (TN): $tn")
println(s"Faux négatifs (FN): $fn")

// Calcul de la précision et du rappel
val precision = tp.toDouble / (tp + fp)
val recall = tp.toDouble / (tp + fn)
val f1Score = 2 * precision * recall / (precision + recall)

println(s"Précision: ${precision * 100}%")
println(s"Rappel: ${recall * 100}%")
println(s"Score F1: ${f1Score * 100}%")



## Conclusion

### Dans ce notebook, nous avons développé un modèle de régression logistique pour prédire si un utilisateur cliquera sur une publicité en fonction de ses caractéristiques. 

#### Notre modèle a atteint une précision > 90%, ce qui est excellent pour ce type de problème.

#### Cette analyse peut aider les entreprises à optimiser leurs campagnes publicitaires en ciblant les utilisateurs les plus susceptibles de cliquer sur leurs annonces, 
améliorant ainsi le retour sur investissement de leurs efforts marketing.

#### Pour améliorer davantage ce modèle, nous pourrions:

- Explorer d'autres algorithmes de classification

- Effectuer une sélection de caractéristiques plus approfondie

- Ajuster les hyperparamètres du modèle

- Collecter plus de données pour l'entraînement
