# Machine learning 101

# I. Les bases de python 

#### 1. Variables et types de données

In [None]:
# Déclaration de variables
titre = "Machine Learning"
age = 101
pi = 3.14159

print(f"Bienvenue dans le workshop {titre}")
print(f"Pi vaut {pi}")

#### 2. Structure de données

In [None]:
#Listes
fruits = ["Pomme", "Banane", "Orange"]
print(fruits)

In [None]:
#Dictionnaires
notes = {"Alice": 85, "Bob": 90, "Charlie": 78}
print(notes)

#### 3. Boucles et conditions

In [None]:
#Boucles et conditions
for fruit in fruits:
    if fruit == "Orange":
        print(f"{fruit} est délicieux !")
    else:
        print(f"{fruit} est aussi bon.")

#### 4. Fonctions

In [2]:
#Fonctions
def carre(x):
    return x ** 2

print(carre(5))

#### 5. Classes et instances

In [None]:
#Classes
# Définition d'une classe
class Voiture:
    def __init__(self, marque, modele):
        self.marque = marque  # Attribut
        self.modele = modele  # Attribut
    
    def demarrer(self):  # Méthode
        print(f"La voiture {self.marque} {self.modele} démarre.")




# Instanciation d'un objet
ma_voiture = Voiture(marque = "Tesla", modele = "Model 3")
print(ma_voiture.marque)  # Accéder à un attribut
ma_voiture.demarrer()  # Appeler une méthode

#### 6. Importation des modules

In [None]:
#Importation des modules
import math
print(math.sqrt(16))  # Calcul de la racine carrée

In [None]:
# Importation avec alias
import numpy as np
array = np.array([1, 2, 3])
print(array)

# II. C'est quoi le machine learning ?

#### 1. Définition

Le machine learning est une branche de l’intelligence artificielle qui consiste à donner à une machine la capacité d’apprendre plutôt que de la programmer de façon explicite.

#### 2. Domaines d'application

- **IA générative** : Cela inclut des modèles comme ChatGPT qui peuvent créer du texte, des images, de la musique, etc.
- **Vision par ordinateur** : Permet la reconnaissance d'images, la détection d'objets et la segmentation d'images, utilisé dans des domaines tels que la sécurité, l'automobile (voitures autonomes) et la santé (diagnostic médical).
- **Finance** : Utilisé pour le scoring de crédit, la détection de fraudes, et la prévision des tendances du marché.
- **Santé** : Aide au diagnostic médical, à la découverte de médicaments et à la personnalisation des traitements.
- **Systèmes de recommandation** : Les services comme Netflix et Spotify utilisent des recommandations pour suggérer des films, des émissions et de la musique. Amazon et eBay recommandent des produits en se basant sur les achats précédents et les comportements de navigation. Des plateformes comme Facebook et Instagram suggèrent des amis ou des contenus en fonction des interactions passées.

#### 3. Types

![type machine learning](img/ml.png)

- **Apprentissage supervisé** : Comme son nom l’indique, il consiste à superviser l’apprentissage de la machine, de la même manière qu’un professeur supervise l’apprentissage de ses élèves en leur montrant des exemples de questions / réponses qu’ils doivent apprendre.

- **Apprentissage non supervisé** : Contrairement à la méthode précédente, celle-ci consiste à laisser la machine apprendre par elle-même certaines structures présentes dans les données, sans la contraindre à apprendre une simple relation d’entrée / sortie X → y. Par exemple, nous pouvons lui présenter les groupes d’animaux vus précédemment, sans préciser s’il s’agit de chats ou de chiens, et lui demander simplement de les regrouper selon leur ressemblance. Autrement dit, nous fournissons uniquement les attributs X, sans indiquer la sortie y attendue.

- **Apprentissage par renforcement** : L’idée est de créer un agent, libre d’entreprendre des actions au sein d’un environnement, et de récompenser cet agent lorsque les actions qu’il choisit de prendre le mènent au résultat souhaité.

# III. La régression linéaire

#### 1. Les bases

**- on cherche à prédire une quantité**

**- Exemple :Imaginez que vous souhaitiez prédire le prix d’une maison en fonction de sa surface habitable.
Pour ce faire, on montre des exemples de maisons à notre machine.**

![](img/reg1.png)

![](img/reg2.png)

#### 2. Exemple pratique

### Problème
## Contexte

Vous êtes un analyste de données travaillant pour une agence immobilière en Californie. Votre entreprise souhaite mieux comprendre le marché immobilier local afin de fixer des prix compétitifs pour les maisons à vendre. Pour ce faire, vous décidez d'utiliser un modèle de régression linéaire pour prédire le prix des maisons en fonction de diverses caractéristiques.

---

**Objectif** : Prédire le prix médian des maisons dans une région donnée de Californie en utilisant les caractéristiques suivantes :

- **MedInc** : Revenu médian en dollars par an (USD).
- **HouseAge** : Âge médian des maisons en années.
- **AveRooms** : Nombre moyen de pièces par ménage.
- **AveBedrms** : Nombre moyen de chambres par ménage.
- **Population** : Nombre total d'habitants dans le groupe de blocs.
- **AveOccup** : Nombre moyen de membres par ménage.
- **Latitude** : Latitude en degrés.
- **Longitude** : Longitude en degrés.

-**Target** :  prix prédit en unités de 100,000 USD.

---

**Données**

Vous disposez d'un dataset contenant les informations suivantes :

- **X** : Un tableau contenant les caractéristiques des maisons (nombre de chambres, superficie, etc.).
- **y** : Un tableau contenant le prix médian des maisons dans la région.


![](img/example1.png)

In [1]:
#Les importations
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing

In [2]:
#Le dataset -> X : les features ; y : le target
boston = fetch_california_housing()

X = boston.data
y = boston.target

In [3]:
#Le choix du modèle
model = LinearRegression()
model.fit(X, y)

In [4]:
#Prédiction
y_pred = model.predict(X)

#### Fonction de prédiction

In [5]:
def prédire(details) :
    features = np.array(details).reshape(-1,8)
    return model.predict(features)

In [6]:
## details = [MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude]
details=[9, 10, 7, 1, 500, 2, 38, -122]
prix = prédire(details)

print(f"Le prix estimé pour une maison ayant ces détails est de {prix*100000} USD")

Le prix estimé pour une maison ayant ces détails est de [396765.90594112] USD


# IV. La classification

#### 1. Les bases

**- on cherche à prédire une classe**

**- Exemple :La logique est similaire pour prédire une classe. Imaginez que vous souhaitiez apprendre à reconnaître un chien ou un chat en vous basant sur sa taille et son poids. Pour cela, il est nécessaire de fournir à la machine un jeu de données (X, y) afin qu’elle s’entraîne dessus.**

![](img/class1.png)

#### 2. Exemple pratique

# Problème  

## Contexte  
Vous êtes un analyste de données travaillant pour une institution financière spécialisée dans l'octroi de prêts. Votre entreprise souhaite mieux comprendre les caractéristiques des emprunteurs afin de prédire si un prêt sera approuvé ou non. Vous décidez d'utiliser un modèle de classification pour prédire le statut du prêt en fonction des différentes caractéristiques des emprunteurs et des informations financières.

---

## Objectif  
Prédire si un prêt sera **approuvé** (1) ou **rejeté** (0) en fonction des caractéristiques suivantes :

- **no_of_dependents** : Nombre de personnes à charge.
- **education** : Niveau d'éducation de l'emprunteur (Graduate/Not Graduate).
- **self_employed** : Si l'emprunteur est travailleur indépendant (Yes/No).
- **income_annum** : Revenu annuel de l'emprunteur en dollars (USD).  
- **loan_amount** : Montant total du prêt demandé en milliers de dollars (USD).  
- **loan_term** : Durée du prêt en mois.  
- **cibil_score** : Score de crédit (CIBIL).  
- **residential_assets_value** : Valeur totale des biens résidentiels détenus (en dollars).  
- **commercial_assets_value** : Valeur totale des biens commerciaux détenus (en dollars).  
- **luxury_assets_value** : Valeur totale des biens de luxe détenus (en dollars).  
- **bank_asset_value** : Valeur totale des actifs bancaires détenus (en dollars).  

---

## Données  
Vous disposez d’un dataset contenant les informations suivantes :  

- **X** : Un tableau contenant les caractéristiques des emprunteurs (ex. : nombre de personnes à charge, score de crédit, montant du prêt, etc.).  
- **y** : Une variable binaire indiquant si le prêt a été approuvé (**1**) ou rejeté (**0**).  

---

## Modèle et Approche  
Vous devez :  
1. Préparer les données, en encodant les variables catégorielles comme **education** et **self_employed**.  
2. Normaliser les données numériques pour améliorer les performances du modèle.  
3. Utiliser un modèle de classification, tel que **K-Nearest Neighbors (KNN)**, pour prédire le statut du prêt.  
4. Évaluer les performances du modèle en utilisant des métriques telles que **accuracy**, **precision**, **recall**, et **F1-score**.



In [7]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [8]:
# Importer les données
data = pd.read_csv("data/loan_approval_dataset.csv")

In [9]:
# Définir les caractéristiques et la cible
X = data.drop(columns=['loan_id', ' loan_status'])
y = data[' loan_status']

In [10]:
#Encoder
encoder = LabelEncoder()
# Identifier les colonnes catégorielles
categorical_columns = [' education', ' self_employed']

for column in categorical_columns : 
    X[column] = encoder.fit_transform(X[column])

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [12]:
model = RandomForestClassifier()

In [13]:
# Entraîner le modèle
model.fit(X_train, y_train)

# Prédire sur l'ensemble de test
y_pred = model.predict(X_test)

In [14]:
# Évaluer les performances
print("Accuracy:", accuracy_score(y_test, y_pred))

Accuracy: 0.9871194379391101


In [15]:
#Test du modèle
new_loan_data = pd.DataFrame([{
    ' no_of_dependents': 1,
    ' education': 0,
    ' self_employed': 1,
    ' income_annum': 55000,
    ' loan_amount': 110,
    ' loan_term': 300,
    ' cibil_score': 680,
    ' residential_assets_value': 90000,
    ' commercial_assets_value': 40000,
    ' luxury_assets_value': 25000,
    ' bank_asset_value': 120000
}])


# Prédiction
loan_status_prediction = model.predict(new_loan_data)


print("Statut du prêt prédit :", "Approuvé" if loan_status_prediction[0] == 1 else "Rejeté")

Statut du prêt prédit : Rejeté


# Pour mieux se documenter et approfondir : 

#### Tuto vidéos : 
- https://www.youtube.com/watch?v=EUD07IiviJg&list=PLO_fdPEVlfKqUF5BPKjGSh7aV9aBshrpY
  

#### Documentation : 
- https://scikit-learn.org/stable/
  