🎓 FICHE DE SYNTHÈSE – INTRODUCTION AU MACHINE LEARNING
🧠 Objectifs de la leçon

    Comprendre ce qu’est le Machine Learning (ML) de manière intuitive.

    Savoir pourquoi c’est utile pour un data analyst.

    Découvrir les principaux cas d’usage du ML dans différents secteurs.

📌 1. Prérequis

Avant de te lancer dans le Machine Learning, tu dois maîtriser :

    ✅ Les bases de la programmation Python (structures, boucles, fonctions, pandas, etc.)

    ✅ Les notions de statistiques descriptives (moyenne, médiane, écart-type, corrélations)

    ✅ Avoir une curiosité active pour comprendre et tester par toi-même

🧠 2. Définition intuitive du Machine Learning

    Définition simple :
    Le Machine Learning est une technique qui permet à un ordinateur d’apprendre à partir de données pour faire des prédictions ou prendre des décisions, sans être programmé explicitement pour chaque tâche.

🔍 Exemple concret :

    C’est comme apprendre à un enfant à reconnaître des fruits :
    Tu lui montres une pomme, une banane, une poire... et tu lui dis leurs noms.
    Petit à petit, il apprend à les identifier seul.
    Un algorithme de ML fait pareil, mais avec des données numériques.

✅ Caractéristiques essentielles :

    Il s’améliore avec plus de données (comme un humain qui s’exerce).

    Il peut s’adapter à des données inconnues après l’entraînement.

    Il commet des erreurs si les données sont biaisées ou mal représentatives.

📚 Termes à retenir :

    Apprentissage supervisé : l’algorithme apprend à partir de données étiquetées (avec la bonne réponse).

    Apprentissage non supervisé : il apprend à détecter des schémas dans des données sans réponse donnée.

    Modèle : c’est la structure que l’algorithme construit pour faire ses prédictions.

    Entraînement : phase où l’algorithme apprend à partir des données.

    Prédiction : phase où il applique ce qu’il a appris à de nouvelles données.

📊 3. Pourquoi c’est important pour un(e) Data Analyst ?

Même si le cœur de métier du data analyst, c’est :

    Nettoyage de données (data cleaning)

    Visualisation (data viz)

    Analyse statistique

👉 Le ML devient un super-pouvoir quand il faut :

    Créer des modèles prédictifs pour anticiper des ventes, churns, fraudes...

    Analyser des jeux de données massifs, complexes et dynamiques

    Passer d’une analyse descriptive à une analyse prédictive ou prescriptive

💼 Bonus carrière : Savoir manier le ML peut te distinguer d’autres profils sur le marché, surtout dans les grandes entreprises tech.
🌐 4. Cas d’usage concrets du Machine Learning
Domaine	Utilisations courantes
Finance	Prévision boursière, détection de fraude, scoring de crédit
Marketing	Recommandations produits, segmentation client, pub ciblée
Santé	Diagnostic médical, détection de maladies, médecine personnalisée
NLP (langage)	Chatbots, analyse de sentiment, traduction automatique
Transport	Véhicules autonomes, optimisation de trajets, maintenance prédictive
Industrie	Prédiction de pannes, contrôle qualité, optimisation de production
Agriculture	Prévision de récoltes, détection de maladies sur plantes
Environnement	Prévision de catastrophes naturelles, suivi de pollution, surveillance satellite
Éducation	Personnalisation des apprentissages, corrections automatiques
Jeux vidéo	NPC intelligents, génération procédurale, ajustement de difficulté
RH / recrutement	Tri de CV, prédiction du succès des candidats
🧑‍💻 Astuce de senior analyst :

    “Machine Learning ne veut pas dire magie. Il faut comprendre les données avant de modéliser, sinon on fait de belles prédictions sur de mauvaises bases.”

📌 À venir dans la prochaine fiche :

➡️ Les types d’apprentissage en ML (supervisé, non supervisé, renforcement)
➡️ Les types de données (qualitatives, quantitatives, temporelles…)
➡️ Notions fondamentales : features, labels, modèle, entraînement, overfitting…
✅ Que faire maintenant ?

    📒 Reprends les définitions importantes (entraînement, prédiction, modèle…).

    🤖 Repère autour de toi des cas d’usage du ML.

    🧠 Prépare-toi à manipuler ton premier dataset pour une prédiction simple (ex : prédire un prix ou une catégorie).

🧠 FICHE DE SYNTHÈSE – TYPES DE MACHINE LEARNING
🎯 Objectifs pédagogiques

    Savoir distinguer les 3 grandes catégories de Machine Learning :
    🔹 Supervisé – 🔸 Non supervisé – ⚙️ Renforcement

    Comprendre comment les reconnaître dans un projet réel

🔑 1. Rappel : Qu’est-ce qui différencie ces 3 types ?
Type	Les données sont-elles étiquetées ?	Apprend-il à partir de récompenses ?	Objectif principal
Supervised	✅ Oui	❌ Non	Prédire une valeur ou une classe
Unsupervised	❌ Non	❌ Non	Détecter des structures cachées (clustering, association)
Reinforcement	❌ Non (au départ)	✅ Oui	Apprendre à agir pour maximiser une récompense
📘 2. Supervised Learning (Apprentissage supervisé)
🔍 Définition :

L’algorithme apprend à partir de données étiquetées : chaque entrée est associée à une sortie connue.
🧪 Exemples :

    Prédire si une image contient un chat ou non ✅

    Prédire le prix d’une maison 🏠

    Détecter une fraude à la carte bancaire 💳

📌 Types :

    Classification : prédire une catégorie (ex : spam / pas spam)

    Régression : prédire une valeur numérique (ex : prix d’un bien)

📌 Indices pour reconnaître :

    Jeu de données avec colonnes “entrée” + “sortie” (label)

    On peut évaluer les performances avec précision, car on connaît les réponses

📙 3. Unsupervised Learning (Apprentissage non supervisé)
🔍 Définition :

Aucune étiquette fournie. L’algorithme cherche des structures cachées dans les données (groupes, similitudes…).
🧪 Exemples :

    Segmentation client selon leurs achats 🛍️

    Détection de communautés dans un réseau social 🌐

    Compression ou réduction de dimensions 📉

📌 Techniques courantes :

    Clustering (ex : K-Means, DBSCAN)

    Réduction de dimensions (ex : PCA)

📌 Indices pour reconnaître :

    Pas de “bonne réponse” connue

    L’objectif est souvent de regrouper ou simplifier les données

⚙️ 4. Reinforcement Learning (Apprentissage par renforcement)
🔍 Définition :

Un agent interagit avec un environnement, prend des actions, et reçoit une récompense ou pénalité en retour.
🧪 Exemples :

    Apprentissage d’un robot à marcher 🤖

    Jeu vidéo avec IA qui apprend à gagner 🎮

    Système d’email qui apprend via retour utilisateur 📬

📌 Concepts clés :

    Agent : celui qui agit

    Environnement : contexte dans lequel il agit

    Politique : stratégie que l’agent apprend

    Récompense : score pour guider l’apprentissage

📌 Indices pour reconnaître :

    Présence d’interactions dans le temps

    Le système s’améliore en testant et ajustant ses choix

🧩 5. Comment reconnaître le type d’apprentissage ?
Situation / Données	Type d’apprentissage
Données avec réponses connues	Supervisé
Données sans réponses, recherche de groupes	Non supervisé
Système qui agit et reçoit un score	Renforcement
🧠 6. EXERCICE – Détecte le type de Machine Learning

Scénarios :

    Email Filtering System : système de classification spam/pas spam avec données étiquetées.
    ➤ Supervised Learning
    💬 Raisonnement : les mails sont préalablement étiquetés → apprentissage supervisé de classification.

    Customer Segmentation : segmentation basée sur le comportement sans labels.
    ➤ Unsupervised Learning
    💬 Raisonnement : pas de catégories données → l’algorithme découvre seul les groupes.

    Real Estate Price Prediction : prédiction du prix avec historique.
    ➤ Supervised Learning
    💬 Raisonnement : chaque maison a un prix connu → problème de régression supervisée.

    Social Network Analysis : découverte de communautés sans info préalable.
    ➤ Unsupervised Learning
    💬 Raisonnement : détection automatique de structures → clustering sans labels.

    Credit Card Fraud Detection : transactions étiquetées comme frauduleuses ou légitimes.
    ➤ Supervised Learning
    💬 Raisonnement : présence de labels → apprentissage supervisé de classification binaire.

📌 Autres types (à explorer plus tard)
Type	Description rapide
Self-supervised	Génère ses propres labels à partir des données (ex : ChatGPT)
Active learning	L’algorithme choisit quelles données il veut apprendre
Inductive / Transductive	Dépend du contexte de généralisation à de nouvelles données
Multi-task	Un seul modèle apprend plusieurs tâches différentes
✅ À faire maintenant :

    Revoir les définitions (classification, régression, clustering, agent, reward…)

    Retenir les indicateurs pour reconnaître le type de ML

    T’entraîner avec un mini-exercice : veux-tu que je t’aide à coder un exemple simple de classification (supervised) ou de clustering (unsupervised) dans un notebook Python ou dans VS Code ?

🔍 FICHE COMPLÉMENTAIRE – TYPES DE MACHINE LEARNING (Étendus)
📌 Rappel – Les 3 principaux types :

    Supervised Learning 🧑‍🏫

    Unsupervised Learning 🧩

    Reinforcement Learning 🎮

Mais il en existe d'autres variantes, souvent hybrides ou spécialisées. Voici un aperçu simplifié de chacun :
🌱 4. Active Learning

🔹 Idée : le modèle choisit les exemples qu’il veut apprendre.
🔹 Utilisé quand l’annotation des données est coûteuse.
🔹 Ex : Un modèle d’analyse d’image demande à un humain d’étiqueter les images les plus incertaines.

🧠 Avantage : permet d’optimiser l’étiquetage humain (moins d'effort, plus de performance).
🧠 5. Self-Supervised Learning

🔹 Type hybride entre supervisé et non supervisé.
🔹 Le modèle génère ses propres labels à partir des données.
🔹 Très utilisé en NLP (traitement du langage) et vision par ordinateur (ex : pré-entraînement de GPT, BERT, DINO...).

🧠 Ex : prédire le mot manquant dans une phrase, ou prédire une partie d'image à partir du reste.
🧪 6. Inductive Learning

🔹 Le modèle apprend sur un ensemble d'exemples et généralise à des cas inconnus.
🔹 Ex : entraîner sur un dataset et tester sur un jeu différent (mais du même domaine).

🧠 C’est la forme la plus répandue en ML classique (et ce que fait scikit-learn par défaut).
🧠 7. Transductive Learning

🔹 Contraire d’inductif : on ne cherche pas à généraliser, mais à faire des prédictions uniquement sur les cas connus.
🔹 Ex : en réseaux sociaux, on veut classer les utilisateurs déjà présents — pas des futurs utilisateurs.

🧠 Utilisé dans semi-supervised learning ou graph-based learning.
🧪 8. Deductive Learning

🔹 Moins utilisé en ML moderne. Basé sur des règles logiques et des inférences, comme en IA symbolique.
🔹 Ex : “Si A est un oiseau et que tous les oiseaux volent, alors A vole.”

🧠 Ce type s’oppose à l’apprentissage basé sur les données (très peu d'exemples modernes).
🧠 9. Semi-Supervised Learning

🔹 Mélange de données étiquetées et non étiquetées.
🔹 Très utile quand on a peu de labels et beaucoup de données.
🔹 Ex : 10 000 images, dont seulement 200 sont annotées → on utilise les deux pour entraîner un modèle robuste.

🧠 Utilisé en vision, médecine, et NLP (moins de besoin humain).
🧠 10. Multi-task Learning

🔹 Un modèle unique apprend plusieurs tâches en parallèle.
🔹 Ex : prédire à la fois la catégorie d’un produit et son prix.

🧠 Avantages : meilleure généralisation, partage d’information entre tâches, moins d’overfitting.
🧠 Résumé visuel (basé sur ton image)
🆔	Type	Résumé
01	Supervised Learning	Apprentissage avec labels
02	Unsupervised Learning	Découverte de structures sans labels
03	Transductive Learning	Prédiction sur données connues seulement
04	Active Learning	Le modèle choisit ce qu’il veut apprendre
05	Reinforcement Learning	Apprentissage par essai-erreur avec récompenses
06	Self-supervised Learning	Génère ses propres labels
07	Inductive Learning	Apprentissage généralisable à des cas inconnus
08	Deductive Learning	Raisonnement basé sur la logique
09	Semi-supervised Learning	Mélange de données étiquetées et non étiquetées
10	Multi-task Learning	Un modèle pour plusieurs tâches simultanées
📌 Ce que tu dois retenir (niveau pro) :
Si tu veux…	Utilise…
Prédire à partir de labels	Supervised Learning
Découvrir des groupes cachés	Unsupervised Learning
Apprendre par actions et récompenses	Reinforcement Learning
Gagner en performance avec peu de données	Semi- ou Self-Supervised
Prioriser les données à annoter	Active Learning
Apprendre plusieurs choses en même temps	Multi-task Learning

🔁 FICHE DE SYNTHÈSE – Le Processus d’un Modèle de Machine Learning
🎯 Objectif

Comprendre toutes les étapes d’un projet ML, depuis la définition du problème jusqu’à l’optimisation du modèle.
🍲 1. Comprendre le Problème (Understanding the Problem)

    🎯 But : bien formuler la question qu’on souhaite résoudre avec le ML.
    Exemples :

    Classification : "Ce client va-t-il rembourser son prêt ?"

    Régression : "Quel sera le montant d’un loyer dans cette zone ?"

🔍 Réfléchis à :

    Type de sortie attendue ? (valeur ou classe)

    Impact métier / objectif opérationnel

    Données disponibles ?

📦 2. Collecte des Données (Data Collection)

    📊 Tu rassembles les données utiles : historiques, fichiers clients, logs, APIs, etc.

Tu dois séparer tes données :

    Training set (ex : 70–80%) → pour entraîner le modèle

    Test set (ex : 20–30%) → pour vérifier sa capacité à généraliser

🎯 3. Sélection des Variables (Feature Selection)

    🔍 Comme un chef choisit les bons ingrédients, tu sélectionnes les variables les plus pertinentes.

Techniques utiles :

    Analyse de corrélation

    Analyse de variance

    Élimination des variables redondantes

    Importance des features (avec RandomForest, XGBoost, etc.)

⚠️ Attention aux variables trop liées ou peu fiables.
📚 4. Choix du Modèle (Model Selection)

    🔧 Le choix du modèle dépend du type de problème et des ressources disponibles.

Type de problème	Modèles adaptés
Classification	Logistic Regression, RandomForest, SVM
Régression	Linear Regression, Ridge, Lasso
Séries temporelles	ARIMA, Prophet, LSTM
Complexité visuelle	CNN (Deep Learning)

Tu n’es pas obligé d'utiliser un modèle complexe au départ : commence simple.
🧠 5. Entraînement du Modèle (Model Training)

    📈 C’est ici que le modèle “apprend” à partir des données.

Il ajuste ses paramètres internes pour minimiser l’erreur entre les prédictions et les valeurs réelles sur le training set.
📏 6. Évaluation du Modèle (Model Evaluation)

    🔍 Tu vérifies si le modèle généralise bien sur des données qu’il n’a jamais vues.

📌 Métriques de classification :
Nom	Utilité principale
Accuracy	Cas équilibrés (globalement correct)
Precision	Éviter les faux positifs (ex : spam, faux cancer)
Recall	Éviter les faux négatifs (ex : diagnostic médical)
F1-score	Équilibre entre précision et rappel (utile pour classes déséquilibrées)
📌 Outils supplémentaires :

    Confusion Matrix : voir TP, TN, FP, FN

    K-Fold Cross Validation : validation sur plusieurs sous-groupes

    Learning Curves : surveiller underfitting / overfitting

Situation	Signe
Training score bas	➤ Underfitting
Training haut / test bas	➤ Overfitting
Scores proches et élevés	✅ Bon compromis
⚙️ 7. Optimisation du Modèle (Model Optimization)

    🔧 Si le modèle est trop faible ou surajusté, on améliore via :

    Hyperparameter Tuning (Grid Search, Random Search, Optuna…)

    Ajout de données

    Nouveau modèle ou features

    Régularisation (L1, L2)

✅ CHALLENGE – Projet "Prédiction de défaut de prêt"

    Contexte : Tu as un dataset de profils emprunteurs (âge, revenus, montant prêté, historique de crédit, etc.), et tu dois prédire s'ils vont rembourser ou faire défaut.

📌 Étapes du processus appliquées :
1. Compréhension du problème

    Problème de classification binaire : défaut (oui/non)

    Impact direct sur le risque de l’établissement

2. Collecte des données

    Données historiques bancaires, statut remboursement, crédit score…

    Séparation : 80% entraînement / 20% test

3. Sélection des features

    Variables utiles : revenu, taux d’endettement, ancienneté, score de crédit

    Suppression des doublons (ex : revenu total & revenu net si redondants)

    Gestion des valeurs manquantes et des outliers

4. Choix du modèle

    Début simple : LogisticRegression

    Alternatives à tester : RandomForest, XGBoost

5. Entraînement

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

6. Évaluation

from sklearn.metrics import classification_report

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

    Étude de la confusion matrix

    Calcul de précision, recall, F1-score

7. Optimisation

    GridSearchCV pour les hyperparamètres

    Rééquilibrage si classes déséquilibrées (ex : SMOTE, class_weight='balanced')

    Ajout de variables comportementales

In [4]:
import numpy as np
import pandas as pd

# Génération de X (features)
np.random.seed(42)
n_samples = 100
X = pd.DataFrame({
    "age": np.random.randint(21, 65, n_samples),
    "revenu_annuel": np.random.randint(20000, 120000, n_samples),
    "montant_pret": np.random.randint(1000, 50000, n_samples),
    "score_credit": np.random.randint(300, 850, n_samples)
})

# Génération de y (target)
# Plus le score de crédit est bas, plus le risque de défaut est élevé
y = (X["score_credit"] < 600).astype(int)


In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)


scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model = LogisticRegression(max_iter=500)
model.fit(X_train_scaled, y_train)

y_pred = model.predict(X_test_scaled)
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       1.00      0.92      0.96        12
           1       0.89      1.00      0.94         8

    accuracy                           0.95        20
   macro avg       0.94      0.96      0.95        20
weighted avg       0.96      0.95      0.95        20



Voici la FICHE DE SYNTHÈSE – Pourquoi le Machine Learning est important pour les Data Analysts, structurée pour t’aider à faire le lien entre ton métier de data analyst et tes futures compétences en ML.
🔎 FICHE DE SYNTHÈSE – Pourquoi le Machine Learning est utile aux Data Analysts
🎯 Objectifs de la leçon

    Comprendre pourquoi le ML complète parfaitement l’analyse de données

    Identifier des cas d’usage concrets

    Préparer son évolution vers un rôle plus avancé (data scientist, ML engineer…)

👩‍💻 Pourquoi c’est important pour un Data Analyst ?

Le ML te permet de dépasser l’analyse descriptive/statistique classique :
Capacité traditionnelle	Apport du Machine Learning
Trouver des corrélations	Identifier des relations complexes et cachées
Résumer les données	Prédire les comportements futurs
Analyser à la main	Automatiser les tâches répétitives
Visualiser des tendances	Prendre des décisions stratégiques avec des modèles
📌 Exemples concrets par cas d’usage
🚀 Objectif	💡 ML utilisé	🧠 Exemple
Trouver des groupes naturels	Clustering (K-Means, Hierarchical…)	Segmenter les clients d’un site e-commerce
Prédire un résultat futur	Régression, Classification	Prédire le churn ou les ventes du trimestre suivant
Détecter des anomalies	Isolation Forest, One-Class SVM	Repérer une fraude bancaire ou une panne système
Comprendre du texte	NLP (Sentiment analysis, LDA…)	Classer automatiquement les tickets clients
Recommander des produits	Collaborative filtering	Suggérer des films, musiques ou produits e-commerce
🛠️ Intégrer le ML dans ton workflow

Un Data Analyst peut :

    Préparer les données pour entraîner un modèle (nettoyage, encodage…)

    Choisir un algorithme simple (régression, arbre de décision…)

    Évaluer les performances (accuracy, recall, F1…)

    Automatiser une analyse ou un scoring dans un dashboard

🧠 Tu ne deviens pas un data scientist immédiatement, mais tu passes un cap décisif dans ta compréhension des données.
🚀 CHALLENGE – Appliquer le ML à un de tes datasets
🧩 Exemple d’approche

    Dataset : données utilisateurs d’un site web (clics, temps passé, historique achats)

    3 usages possibles :

        Clustering des visiteurs selon leur comportement (K-Means)

        Prédiction du taux de conversion ou d’abandon panier (régression logistique)

        Détection d’anomalies (clics suspects, bots – Isolation Forest)

    Paragraphe d’intégration (exemple rédigé) :

    En analysant les données d’un site e-commerce, le ML me permettrait d’aller au-delà de simples moyennes. Par exemple, un modèle de clustering pourrait automatiquement identifier des profils de clients (acheteurs réguliers, visiteurs curieux, acheteurs occasionnels), ce qui aiderait à adapter les campagnes marketing. Un modèle de classification permettrait de prédire quels visiteurs sont susceptibles d’abandonner leur panier, pour déclencher des relances personnalisées. Cela transformerait mon travail d’analyse en outil stratégique prédictif.

📊 CHALLENGE 2 – Cas d’usage réel : prédiction en entreprise

    Lien proposé : ML & fraude bancaire - Nomentia

✍️ Exemple de paragraphe-réponse

    Le problème à résoudre était la détection de transactions bancaires frauduleuses. L’entreprise a utilisé des techniques d’anomaly detection, comme les Isolation Forests, pour identifier des comportements anormaux (ex : achats soudains à l’étranger ou montants inhabituels). L’impact a été majeur : réduction des pertes financières, détection en temps réel, et amélioration de la satisfaction client grâce à moins de faux positifs.

Souhaites-tu que je t’aide à écrire ton propre paragraphe basé sur tes données personnelles ou professionnelles ? Je peux t’assister pour formuler quelque chose de propre et percutant.
✅ MINI QUIZ – Réponses & explications
❓ Question	✅ Réponse correcte	✍️ Explication rapide
Q1. B	✅ Trouver des patterns cachés	Le ML va plus loin que les stats classiques
Q2. B	✅ Prévoir les ventes	C’est une tâche typique de régression
Q3. B	✅ Suggérer des produits	Recommandation = Collaborative Filtering
Q4. C	✅ Rapidité & précision	Le ML améliore, mais ne remplace pas le raisonnement humain
📌 Conclusion

Le Machine Learning est un levier d’évolution naturel pour tout Data Analyst :

    Il te rend plus autonome et stratégique

    Il élargit ta boîte à outils

    Il te rapproche des métiers d’IA, de Data Science et d’architecture data