# 📘 Projet Risque de Crédit – Préparation et Intégration Cloud Azure

Ce notebook présente les principales étapes de **préparation, d’analyse et d’intégration cloud** réalisées dans le cadre du **projet de risque de crédit**.  
Ce travail met en pratique les compétences acquises dans le cours *Cloud Computing*, en mobilisant les outils **Azure**, **Python**, et **Power BI** autour d’un cas concret de **scoring de crédit bancaire**.

<sub>──────────────────────────────</sub>

## 🎯 Objectif général du projet

L’objectif est de concevoir un **pipeline de données complet et automatisé** permettant de :

1. **Préparer et nettoyer** un dataset sur le risque de crédit à l’aide de Python,  
2. **Stocker et centraliser** les données dans le cloud via **Azure Blob Storage** et **Azure SQL Database**,  
3. **Automatiser les flux** avec **Azure Data Factory (ADF)**,  
4. **Visualiser et analyser** les indicateurs clés du risque de crédit dans **Power BI**.

Le projet repose sur les datasets **UCI Credit Card** et **Credit Risk Dataset**, préalablement **fusionnés et nettoyés dans Alteryx**, puis intégrés dans Azure pour l’analyse.

<sub>──────────────────────────────</sub>

## ⚙️ Environnement technique

Avant d’aborder l’intégration cloud, j’ai mis en place un environnement complet et reproductible, combinant **programmation, stockage et visualisation**.

### 🔧 Outils utilisés

- **Compte Azure for Students** pour accéder aux services cloud (Blob Storage, SQL Database, Data Factory).  
- **Python 3** (*Jupyter Notebook* / *VS Code*) pour la préparation, le nettoyage et la vérification des données.  
- **Power BI Desktop** pour la création des tableaux de bord interactifs.  
- **GitHub Repository** pour héberger le notebook (rapport technique) et le fichier `.pbix`, assurant la traçabilité du projet.

<sub>──────────────────────────────</sub>

## 📦 Résultat attendu

À la fin du projet, l’objectif est d’obtenir un **pipeline cloud fonctionnel** reliant toutes les étapes du traitement de données :

1. **Exploration et transformation locale** des données en Python,  
2. **Stockage sécurisé** du dataset nettoyé dans **Azure Blob Storage** et **Azure SQL Database**,  
3. **Automatisation des transferts** via **Azure Data Factory**,  
4. **Visualisation dynamique** dans **Power BI**, connectée directement aux ressources Azure.

<sub>──────────────────────────────</sub>

## 📊 Livrables finaux

- Un fichier **Power BI (.pbix)** présentant les indicateurs clés : profils clients, comportements de paiement, taux de défaut, etc.  
- Un **notebook (rapport technique)** retraçant les étapes du pipeline cloud, les analyses réalisées et les conclusions opérationnelles.

<sub>──────────────────────────────</sub>

## 💬 Mon approche personnelle

Ce projet m’a permis de relier la **maîtrise technique des outils cloud** à une **problématique métier concrète** : le risque de crédit.  
En concevant ce pipeline de bout en bout, j’ai pu :
- appliquer les principes du **data management et de l’automatisation cloud**,  
- comprendre les enjeux de **fiabilité et de mise à jour des données**,  
- et produire une solution **opérationnelle et exploitable dans un contexte bancaire**.


# 🧩 Étapes du projet

| Étape                                    | Description                                                                              | Outil principal                   |
| ---------------------------------------- | ---------------------------------------------------------------------------------------- | ---------------------------------- |
| **1. Recherche et sélection du dataset** | Sélection et fusion des données issues de Kaggle : *UCI Credit Card* + *Credit Risk Dataset* | Alteryx                           |
| **2. Préparation et nettoyage**          | Nettoyage des valeurs manquantes, harmonisation des colonnes et typage des variables     | Python (Jupyter Notebook)         |
| **3. Stockage sur Azure**                | Chargement du dataset nettoyé dans **Azure Blob Storage** et **Azure SQL Database**      | Azure Portal / Data Factory (ADF) |
| **4. Visualisation Power BI**            | Création d’indicateurs clés et de graphiques interactifs pour le scoring de crédit       | Power BI Desktop                  |
| **5. Rapport et interprétation**         | Documentation des étapes, analyse des résultats et interprétation des indicateurs dans le notebook | Jupyter Notebook (Markdown + Python) |


## 🧩 Étape 0 — Préparation exploratoire dans Alteryx

Avant d’aborder le nettoyage et la transformation des données dans Python,  
j’ai réalisé une **préparation exploratoire et un enrichissement des datasets** à l’aide de **Alteryx Designer**.

### 📁 Datasets utilisés
1. **Dataset principal** : données de risque de crédit (fichier CSV fourni)  
2. **Dataset secondaire** : données complémentaires d’historique ou de tranches de crédit, utilisées pour enrichir les profils clients

### ⚙️ Travail effectué dans Alteryx
- Réalisation de **jointures exploratoires** basées sur les tranches d’âge et les montants de prêt  
- **Création de nouvelles variables indicatrices** utiles au scoring (ex. : comportement de paiement, segment client, tranche de revenu)  
- **Nettoyage initial** des valeurs manquantes et harmonisation des catégories textuelles  

### 📤 Résultat
Le dataset enrichi et consolidé a été exporté au format **CSV**  
pour être ensuite **préparé et typé dans Python**, avant son intégration sur **Azure**.


## Inportation des données

In [1]:
import pandas as pd
df = pd.read_csv("Dataset_Risque_de_Credit.csv", encoding='latin-1')
df.head()


Unnamed: 0,ID Client,Age,Tranche_Age,Tranche_Montant_Pret,Sexe,Statut Marital,Niveau d?Éducation,Revenu Annuel,% Revenu Utilisé pour Prêt,Taux d?Intérêt (%),...,Score_Paiement,Catégorie_Client,Statut_du_Pret,Défaut_mois_suivant,Défaut Historique,Note du Prêt,Montant_Facturé_Total,Montant_Paiement_Total,Type de Logement,Objet du Prêt
0,10,35,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,A,26919,14129,MORTGAGE,VENTURE
1,90,44,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,3,Moyen,OK,0,N,A,61309,6151,MORTGAGE,VENTURE
2,100,38,35-49 ans,Très faible,Homme,1,University,175000,0.01,8.49,...,12,Excellent,Défaut,1,N,A,93217,5685,MORTGAGE,VENTURE
3,161,41,35-49 ans,Très faible,Homme,2,Graduate School,175000,0.01,8.49,...,-3,À Risque,OK,0,N,A,162596,8150,MORTGAGE,VENTURE
4,206,43,35-49 ans,Très faible,Homme,1,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,A,98941,31538,MORTGAGE,VENTURE


In [None]:
# La liste des colonnes
print(df.columns.tolist())

['ID Client', 'Age', 'Tranche_Age', 'Tranche_Montant_Pret', 'Sexe', 'Statut Marital', 'Niveau d?Éducation', 'Revenu Annuel', '% Revenu Utilisé pour Prêt', 'Taux d?Intérêt (%)', 'Montant Crédit Maximum', 'Ancienneté Professionnelle', 'Ancienneté Historique Crédit', 'Mois_En_Retard', 'Mois_Paiement_A_Temps', 'Taux_Remboursement', 'Score_Paiement', 'Catégorie_Client', 'Statut_du_Pret', 'Défaut_mois_suivant', 'Défaut Historique', 'Note du Prêt', 'Montant_Facturé_Total', 'Montant_Paiement_Total', 'Type de Logement', 'Objet du Prêt']


# Étape 1 : Informations générales sur le dataset

Avant toute transformation, je réalise une exploration initiale du dataset pour comprendre sa structure, son volume et sa qualité.

# 🧾 Étape 1 — Informations générales sur le dataset

Avant toute transformation, j’ai réalisé une **exploration initiale du dataset** afin de comprendre sa structure, son volume et la qualité des données.  
Cette première analyse me permet d’identifier :
- les **types de variables** (numériques, catégorielles, textuelles),  
- la **taille du jeu de données** (nombre de lignes et de colonnes),  
- la **présence éventuelle de valeurs manquantes ou incohérentes**,  
- et les premières **tendances générales** (répartition des âges, montants de crédit, comportements de paiement…).

<sub>──────────────────────────────</sub>

### 🎯 Objectif de cette étape
L’objectif est de poser une **base de compréhension solide** du dataset avant de passer au nettoyage et à la préparation.  
Cela me permet de :
- valider que les données importées sont complètes et exploitables,  
- repérer les anomalies ou doublons à corriger,  
- et mieux orienter les choix de typage et de transformations dans la phase suivante.

<sub>──────────────────────────────</sub>

### ⚙️ Données analysées
Le dataset utilisé à cette étape est le fichier :  
> 📁 **Dataset_Risque_de_Credit.csv**  
issu du travail de préparation réalisé dans **Alteryx** (voir Étape 0).  

Ce fichier contient les informations nécessaires à l’analyse du risque de crédit, incluant :  
- les caractéristiques démographiques (âge, sexe, statut marital),  
- les variables économiques (revenu, montant du prêt, taux d’intérêt),  
- et les indicateurs de comportement de paiement (retards, défauts, scores, etc.).

<sub>──────────────────────────────</sub>

### 🧠 Mon approche
Pour cette exploration, j’ai choisi d’utiliser **Python (pandas)** afin de :
- lire le dataset,  
- afficher les premières lignes (`head()`),  
- vérifier la structure (`info()`),  
- et calculer des statistiques descriptives (`describe()`).

Ces premières vérifications constituent une étape indispensable avant tout nettoyage ou typage de données.


In [3]:
# Dimensions du jeu de données
print("Nombre de lignes :", df.shape[0])
print("Nombre de colonnes :", df.shape[1])
print("="*40)

# Informations générales sur les colonnes
print("Types de variables et présence de valeurs manquantes :")
df.info()
print("="*40)

# Statistiques descriptives pour les variables numériques
print("Statistiques descriptives (variables numériques) :")
display(df.describe().T)
print("="*40)

# Vérification des valeurs manquantes
print("Analyse des valeurs manquantes :")

valeurs_manquantes = df.isna().sum().sort_values(ascending=False)
pourcentage_manquant = (df.isna().mean() * 100).sort_values(ascending=False)

# Tableau récapitulatif des colonnes les plus concernées
tableau_manquants = pd.DataFrame({
    'Valeurs manquantes': valeurs_manquantes.head(10),
    '% manquant': pourcentage_manquant.head(10)
})
display(tableau_manquants)


Nombre de lignes : 10054614
Nombre de colonnes : 26
Types de variables et présence de valeurs manquantes :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10054614 entries, 0 to 10054613
Data columns (total 26 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   ID Client                     int64  
 1   Age                           int64  
 2   Tranche_Age                   object 
 3   Tranche_Montant_Pret          object 
 4   Sexe                          object 
 5   Statut Marital                int64  
 6   Niveau d?Éducation            object 
 7   Revenu Annuel                 int64  
 8   % Revenu Utilisé pour Prêt    float64
 9   Taux d?Intérêt (%)            float64
 10  Montant Crédit Maximum        int64  
 11  Ancienneté Professionnelle    float64
 12  Ancienneté Historique Crédit  int64  
 13  Mois_En_Retard                int64  
 14  Mois_Paiement_A_Temps         int64  
 15  Taux_Remboursement            int64  
 16 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID Client,10054614.0,14997.811025,8655.11483,3.0,7464.0,15011.0,22389.0,29998.0
Age,10054614.0,30.87205,4.784937,25.0,28.0,30.0,33.0,69.0
Statut Marital,10054614.0,1.694537,0.479911,0.0,1.0,2.0,2.0,3.0
Revenu Annuel,10054614.0,80800.638489,59400.497264,4000.0,44500.0,64200.0,100000.0,828000.0
% Revenu Utilisé pour Prêt,10054614.0,0.204148,0.114215,0.0,0.12,0.18,0.27,0.77
Taux d?Intérêt (%),9091270.0,11.616512,3.328517,5.42,8.94,11.48,13.92,21.64
Montant Crédit Maximum,10054614.0,201907.92844,154481.946913,10000.0,50000.0,250000.0,340000.0,500000.0
Ancienneté Professionnelle,9839993.0,5.204765,4.18519,0.0,2.0,4.0,9.0,41.0
Ancienneté Historique Crédit,10054614.0,5.602513,3.595443,2.0,3.0,4.0,8.0,27.0
Mois_En_Retard,10054614.0,0.788825,1.506409,0.0,0.0,0.0,1.0,6.0


Analyse des valeurs manquantes :


Unnamed: 0,Valeurs manquantes,% manquant
Taux d?Intérêt (%),963344,9.581114
Ancienneté Professionnelle,214621,2.134552
Age,0,0.0
Tranche_Age,0,0.0
Sexe,0,0.0
Tranche_Montant_Pret,0,0.0
Statut Marital,0,0.0
Niveau d?Éducation,0,0.0
Revenu Annuel,0,0.0
ID Client,0,0.0


### 📊 Analyse rapide du dataset

Le dataset contient **10 054 614 lignes** et **26 colonnes**, ce qui en fait un jeu de données volumineux, bien adapté à une analyse à grande échelle du risque de crédit.  

<sub>──────────────────────────────</sub>

#### 🧩 Structure générale
- Les variables sont majoritairement de type **numérique (16 colonnes)** et **catégoriel (10 colonnes)**.  
- La mémoire utilisée (≈ 1.9 GB) montre que le dataset est dense, nécessitant une bonne optimisation pour les traitements Python et les transferts vers Azure.

<sub>──────────────────────────────</sub>

#### 🔢 Variables numériques principales
- **Âge moyen** des clients : environ **31 ans**, avec une majorité située entre **28 et 33 ans**.  
- **Revenu annuel moyen** : près de **80 800 €**, avec une forte dispersion (écart-type ≈ 59 400 €), signe d’une population hétérogène.  
- **Montant de crédit maximum** : médiane autour de **250 000 €**, ce qui reflète des prêts à moyen ou haut montant.  
- **Ancienneté professionnelle moyenne** : **5,2 ans**, mais certaines valeurs vont jusqu’à **41 ans**, ce qui indique une large diversité d’expérience.  
- **Taux d’intérêt** : moyenne de **11,6 %**, avec quelques valeurs manquantes (~10 %).  
- **Taux de remboursement** : moyenne de **0,47**, mais avec une forte variabilité — certaines valeurs extrêmes suggèrent des anomalies ou erreurs d’enregistrement.  

<sub>──────────────────────────────</sub>

#### ⚠️ Comportements de paiement
- **Score de paiement moyen** : environ **9,6**, sur une échelle allant jusqu’à 12.  
  → La majorité des clients présentent donc un **bon comportement de paiement**.  
- **Taux de défaut du mois suivant** : **≈ 20 %** des clients ont été en défaut de paiement, un chiffre relativement élevé qui nécessitera une analyse approfondie.  
- **Mois en retard** : en moyenne **0,8 mois**, contre **5,2 mois de paiement à temps**, ce qui traduit une gestion généralement saine des échéances.

<sub>──────────────────────────────</sub>

#### 💡 Observations générales
- Le dataset est **riche et bien structuré**, couvrant à la fois les aspects **démographiques, économiques et comportementaux**.  
- Certaines variables (comme *Taux d’intérêt (%)* ou *Ancienneté professionnelle*) comportent **des valeurs manquantes ou extrêmes** à corriger dans la phase de nettoyage.  
- La colonne **“Taux_Remboursement”** présente des valeurs anormalement élevées (jusqu’à 390), ce qui justifie une **vérification et un éventuel recadrage** statistique.  

<sub>──────────────────────────────</sub>

#### 🧠 Conclusion partielle
Cette exploration montre que les données sont **cohérentes dans l’ensemble**, mais nécessitent :
- un **nettoyage ciblé** (valeurs manquantes, outliers),  
- une **harmonisation typographique** (caractères spéciaux comme `?É` dans les en-têtes),  
- et un **retypage correct** avant intégration sur Azure.

La prochaine étape consistera donc à appliquer ces corrections dans Python afin d’obtenir un dataset propre et homogène.

# 🧹 Étape 2 — Nettoyage et préparation du dataset pour Azure et Power BI

Cette étape vise à **préparer le dataset final** pour son intégration dans Azure et son exploitation dans Power BI.

### ⚙️ Actions réalisées
- Correction des **noms de colonnes mal encodés** après l’import du fichier CSV.  
- Traitement des **valeurs manquantes** :
  - remplacement par la **médiane** pour les variables numériques,  
  - remplacement par la **modalité la plus fréquente** pour les variables catégorielles.  
- Conservation uniquement des **colonnes pertinentes** pour la modélisation et la visualisation.

💡 Le jeu de données obtenu servira à la fois pour le **chargement dans Azure SQL Database** et pour la **visualisation dans Power BI**.

**Objectif :** assurer la cohérence, la complétude et la qualité du dataset avant son intégration cloud.



In [None]:
# Correction des noms de colonnes mal encodés
df.rename(columns={
    "Niveau d?Éducation": "Niveau d'Éducation",
    "Taux d?Intérêt (%)": "Taux d'Intérêt (%)"
}, inplace=True)

# Gestion des valeurs manquantes
# Différenciation des colonnes numériques et textuelles automatiquement

colonnes_numeriques = df.select_dtypes(include=["number"]).columns
colonnes_categorielles = df.select_dtypes(exclude=["number"]).columns

# Remplissage : médiane pour les numériques
for col in colonnes_numeriques:
    df[col].fillna(df[col].median())

# Remplissage : modalité la plus fréquente pour les catégorielles
for col in colonnes_categorielles:
    df[col].fillna(df[col].mode()[0])

# 4️⃣ Vérification finale
print("✅ Nettoyage terminé !")
print("Nombre de lignes :", df.shape[0])
print("Nombre de colonnes :", df.shape[1])
print("\nColonnes conservées :", df.columns.tolist())

display(df.head())


✅ Nettoyage terminé !
Nombre de lignes : 10054614
Nombre de colonnes : 26

Colonnes conservées : ['ID Client', 'Age', 'Tranche_Age', 'Tranche_Montant_Pret', 'Sexe', 'Statut Marital', "Niveau d'Éducation", 'Revenu Annuel', '% Revenu Utilisé pour Prêt', "Taux d'Intérêt (%)", 'Montant Crédit Maximum', 'Ancienneté Professionnelle', 'Ancienneté Historique Crédit', 'Mois_En_Retard', 'Mois_Paiement_A_Temps', 'Taux_Remboursement', 'Score_Paiement', 'Catégorie_Client', 'Statut_du_Pret', 'Défaut_mois_suivant', 'Défaut Historique', 'Note du Prêt', 'Montant_Facturé_Total', 'Montant_Paiement_Total', 'Type de Logement', 'Objet du Prêt']


Unnamed: 0,ID Client,Age,Tranche_Age,Tranche_Montant_Pret,Sexe,Statut Marital,Niveau d'Éducation,Revenu Annuel,% Revenu Utilisé pour Prêt,Taux d'Intérêt (%),...,Score_Paiement,Catégorie_Client,Statut_du_Pret,Défaut_mois_suivant,Défaut Historique,Note du Prêt,Montant_Facturé_Total,Montant_Paiement_Total,Type de Logement,Objet du Prêt
0,10,35,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,A,26919,14129,MORTGAGE,VENTURE
1,90,44,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,3,Moyen,OK,0,N,A,61309,6151,MORTGAGE,VENTURE
2,100,38,35-49 ans,Très faible,Homme,1,University,175000,0.01,8.49,...,12,Excellent,Défaut,1,N,A,93217,5685,MORTGAGE,VENTURE
3,161,41,35-49 ans,Très faible,Homme,2,Graduate School,175000,0.01,8.49,...,-3,À Risque,OK,0,N,A,162596,8150,MORTGAGE,VENTURE
4,206,43,35-49 ans,Très faible,Homme,1,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,A,98941,31538,MORTGAGE,VENTURE


In [7]:
# Sauvegarde du fichier nettoyé pour la suite du projet (ADF ou Azure SQL)

df.to_csv(
    r"C:\Users\Etudiant\Documents\Cloud\Projet_Cloud_Risque_Credit_KD\Dataset_Risque_de_Credit_Clean.csv",
    index=False,
    encoding='utf-8'
)
print("\n Fichier nettoyé sauvegardé avec succès !")


 Fichier nettoyé sauvegardé avec succès !


In [8]:
print(df.columns.tolist())

['ID Client', 'Age', 'Tranche_Age', 'Tranche_Montant_Pret', 'Sexe', 'Statut Marital', "Niveau d'Éducation", 'Revenu Annuel', '% Revenu Utilisé pour Prêt', "Taux d'Intérêt (%)", 'Montant Crédit Maximum', 'Ancienneté Professionnelle', 'Ancienneté Historique Crédit', 'Mois_En_Retard', 'Mois_Paiement_A_Temps', 'Taux_Remboursement', 'Score_Paiement', 'Catégorie_Client', 'Statut_du_Pret', 'Défaut_mois_suivant', 'Défaut Historique', 'Note du Prêt', 'Montant_Facturé_Total', 'Montant_Paiement_Total', 'Type de Logement', 'Objet du Prêt']


## 💡 Explications

- Toutes les colonnes ont été converties dans leur **type approprié** (numérique ou texte).  
- Le dataset est désormais **propre, cohérent et prêt** pour le chargement sur **Azure** (SQL Database ou Blob Storage).  
- Il peut également être **directement exploité dans Power BI** pour les analyses et visualisations.


## 🧩 Étape 3 — Intégration Cloud : Azure Blob Storage & Azure SQL Database

### 🎯 Objectif  
Cette étape a pour but de **déployer le dataset nettoyé dans l’environnement cloud Azure**,  
afin qu’il soit exploitable par les différents services analytiques utilisés dans le projet,  
notamment **Azure Data Factory (ADF)** pour l’automatisation des flux de données, et **Power BI** pour la visualisation.

Pour organiser le travail, j’ai découpé cette phase en deux sous-parties distinctes :

- **3.1 : Stockage dans Azure Blob Storage**  
  → Héberger le fichier nettoyé dans un conteneur sécurisé, accessible aux autres services Azure.  

- **3.2 : Chargement dans Azure SQL Database via Azure Data Factory**  
  → Créer une base de données dans Azure et automatiser l’intégration du fichier CSV depuis le Blob Storage.

<sub>──────────────────────────────</sub>

### 🔁 Contexte  
Après avoir effectué le nettoyage et la préparation du dataset dans Python,  
j’ai voulu rendre mes données **disponibles et actualisables à distance**, sans dépendre d’un stockage local.  
Le cloud Azure s’est donc imposé comme la solution idéale,  
grâce à son intégration native entre **Blob Storage**, **SQL Database** et **Data Factory**.

<sub>──────────────────────────────</sub>

### 💡 Résultat attendu  
À la fin de cette étape, mes données de risque de crédit sont :
- hébergées dans un **stockage cloud sécurisé (Blob Storage)**,  
- intégrées dans une **base de données SQL hébergée sur Azure**,  
- prêtes à être **consommées par Power BI** ou tout autre outil d’analyse connecté à Azure.

<sub>──────────────────────────────</sub>


## Étape 3 — Intégration Cloud : Azure Blob Storage & Azure SQL Database
Objectif

Cette étape vise à stocker le dataset nettoyé sur Azure, afin de le rendre exploitable par les services analytiques (ADF, Power BI, etc.).
J'ai découpé le travail en deux sous-parties :

3.1 : Stockage dans Azure Blob Storage

3.2 : Chargement dans Azure SQL Database via Azure Data Factory

### 🔹 Sous-étape 3.1 — Stockage dans Azure Blob Storage

#### 🎯 Objectif
À cette étape, j’ai souhaité **héberger mon fichier nettoyé** `Dataset_Risque_de_Credit_Clean.csv` dans le cloud,  
afin de pouvoir l’exploiter depuis Azure Data Factory et l’intégrer ensuite dans ma base Azure SQL Database.  
Pour cela, j’ai utilisé le service **Azure Blob Storage**, qui permet de stocker des fichiers volumineux de manière sécurisée et durable.

---

#### 🧱 Étapes réalisées dans le Portail Azure  

Je me suis connectée au portail Azure à l’adresse :  
🔗 [https://portal.azure.com](https://portal.azure.com)

---

##### 💾 1. Création d’un compte de stockage  

Je suis allée dans le menu **“Comptes de stockage”**, puis j’ai cliqué sur **Créer**.  
J’ai ensuite défini les paramètres suivants :  

- **Groupe de ressources** : `ProjetRisqueCredit`  
- **Nom du compte** : `risquecreditstorage`  
- **Région** : `France Central`  
- **Performance** : *Standard*  
- **Redondance** : *Locally Redundant Storage (LRS)*  

Après vérification, j’ai cliqué sur **Vérifier + créer**, puis sur **Créer** pour lancer le déploiement.  

Cette étape m’a permis de disposer d’un **espace de stockage cloud sécurisé**, prêt à accueillir mes données sources.

---

##### 📦 2. Création d’un conteneur Blob  

Une fois le compte de stockage créé, je l’ai ouvert et je suis allée dans l’onglet **Conteneurs**.  
J’ai ensuite créé un nouveau conteneur en cliquant sur **+ Conteneur**, avec les paramètres suivants :  

- **Nom du conteneur** : `donnees-credit`  
- **Niveau d’accès** : *Privé (aucun accès anonyme)*  

---

##### ☁️ 3. Chargement du fichier CSV  

Après la création du conteneur, j’ai cliqué sur **Charger**, puis j’ai importé le fichier nettoyé :  

> 📁 **Dataset_Risque_de_Credit_Clean.csv**

Ce fichier correspond à la version propre du jeu de données que j’ai préparée localement dans Python.  
Il constitue la **source principale** pour le pipeline que j’ai conçu dans **Azure Data Factory**.

---

#### 💡 Résultat obtenu  

Grâce à cette étape, j’ai réussi à :  
- transférer mes données nettoyées dans le cloud,  
- préparer la source de données pour l’intégration automatique dans Azure SQL,  
- et assurer la **traçabilité complète** du fichier utilisé pour les analyses de scoring de crédit.

---

#### 🔄 Transition vers l’étape suivante  
La prochaine étape consistera à **créer la base Azure SQL Database** et à **automatiser le transfert du fichier Blob vers SQL** à l’aide d’**Azure Data Factory (ADF)**.


### 🔹 Sous-étape 3.2 — Chargement du dataset dans Azure SQL Database via ADF

#### 🎯 Objectif
J’ai souhaité créer une **base de données SQL dans Azure** et automatiser le chargement du fichier CSV depuis **Azure Blob Storage** à l’aide d’**Azure Data Factory (ADF)**.  
Cette étape m’a permis d’établir une architecture cloud complète pour le stockage et la gestion de mes données de scoring de crédit.

---

#### 🧱 Étapes réalisées dans le Portail Azure

##### 🗄️ 1. Création de la base de données SQL  
Dans le portail Azure, j’ai recherché le service **“SQL Database”** puis j’ai cliqué sur **Créer**.  
J’ai configuré les paramètres suivants :

- **Nom de la base** : `RisqueCreditDB`  
- **Serveur SQL** : création d’un nouveau serveur nommé `serveur-risquecredit`  
- **Authentification SQL** :  
  - **Nom d’utilisateur** : `admincredit`  
  - **Mot de passe** : `MotDePasseFort123!`  
- **Groupe de ressources** : `ProjetRisqueCredit`  
- **Niveau de service** : *Basic*  
- **Redondance de sauvegarde** : *LRS (Locally Redundant Storage)*  

Une fois la configuration terminée, j’ai cliqué sur **Vérifier + Créer**, puis sur **Créer** pour lancer le déploiement.

---

##### 🔐 2. Configuration du pare-feu Azure  
Après la création, j’ai configuré les règles d’accès au serveur SQL afin de pouvoir m’y connecter localement :
- J’ai **autorisé mon adresse IP personnelle** à accéder au serveur.  
- J’ai activé l’option **“Autoriser les services Azure à accéder au serveur”** pour que Data Factory et Power BI puissent se connecter à la base sans blocage de sécurité.


#### 🔧 3. Connexion et test via Python  
Pour valider que la base était fonctionnelle, j’ai testé la connexion directement depuis mon notebook local à l’aide du module `pyodbc`.  

Voici le code utilisé :

In [9]:
import pyodbc

server = 'serveur-risquecredit.database.windows.net'
database = 'RisqueCreditDB'
username = 'admincredit'
password = 'MotDePasseFort123!'  
driver = '{ODBC Driver 18 for SQL Server}'

conn_str = f'DRIVER={driver};SERVER=tcp:{server},1433;DATABASE={database};UID={username};PWD={password};Encrypt=yes;TrustServerCertificate=no;Connection Timeout=30;'
conn = pyodbc.connect(conn_str)
print("✅ Connexion réussie à la base Azure SQL Database")
conn.close()


✅ Connexion réussie à la base Azure SQL Database


## 🧩 Étape 4.3 – Automatisation du transfert avec Azure Data Factory (ADF)

### 🎯 Objectif 
J’ai souhaité automatiser le transfert du fichier nettoyé depuis **Azure Blob Storage** vers **Azure SQL Database** à l’aide d’un pipeline ADF.  
L’objectif était de rendre le processus de mise à jour totalement automatique et fiable, sans avoir à recharger les fichiers manuellement.

---

### ⚙️ Création de l’instance ADF
J’ai commencé par créer une instance **Azure Data Factory** dans le portail Azure :
- **Nom** : `adf-risquecredit`  
- **Région** : France Central  
- **Groupe de ressources** : `ProjetRisqueCredit`

Une fois l’instance déployée, j’ai ouvert **Author & Monitor** pour accéder au studio ADF et concevoir mon pipeline.

---

### 🧮 Conception du pipeline
J’ai créé un pipeline nommé `pipeline_blob_to_sql`,  
dont le rôle est de copier automatiquement le contenu du conteneur **donnees-credit** (dans Azure Blob Storage) vers la base **RisqueCreditDB** (dans Azure SQL Database).

#### 🔗 Configuration des connexions
Pour cela, j’ai défini deux *Linked Services* :
- **Source** : Azure Blob Storage → conteneur `donnees-credit`
- **Destination** : Azure SQL Database → table `dbo.Dataset_Risque_Credit_Clean`

J’ai choisi une authentification SQL afin de garder le contrôle sur la sécurité et la gestion des accès.

---

### 📁 Création des datasets
J’ai ensuite créé deux datasets :
- un pour le fichier source `Dataset_Risque_de_Credit_Clean.csv`  
- un autre pour la table cible `dbo.Dataset_Risque_Credit_Clean`.

J’ai vérifié le **mapping des colonnes** pour garantir une correspondance exacte entre les deux sources.

---

### ▶️ Exécution et vérification
Après configuration, j’ai lancé l’exécution du pipeline.  
L’état “✅ *Succeeded*” dans le portail ADF m’a confirmé que le transfert s’était bien déroulé.

J’ai ensuite vérifié la présence des données dans Azure SQL Database à l’aide de la requête suivante :

```sql
SELECT TOP 5 * FROM dbo.Dataset_Risque_Credit_Clean;


Étape 4.4 – Vérification du transfert Azure SQL depuis Python

Une fois ton pipeline ADF exécuté avec succès (statut : ✅ Succeeded), je peux me reconnecter à ta base Azure SQL Database depuis mon notebook Python pour vérifier que les données sont bien arrivées.

In [14]:
# Informations de connexion à Azure SQL Database
server = "serveur-risquecredit.database.windows.net"  
database = "RisqueCreditDB"
username = "admincredit"
password = "MotDePasseFort123!"
driver = "{ODBC Driver 18 for SQL Server}"

# Connexion à la base SQL
conn_str = f"DRIVER={driver};SERVER=tcp:{server},1433;DATABASE={database};UID={username};PWD={password};Encrypt=yes;TrustServerCertificate=no;Connection Timeout=30;"

try:
    conn = pyodbc.connect(conn_str)
    print("✅ Connexion réussie à la base Azure SQL Database\n")

    # Vérification rapide du nombre de lignes
    count_query = "SELECT COUNT(*) AS total_lignes FROM dbo.Dataset_Risque_de_Credit_Clean"
    count_df = pd.read_sql(count_query, conn)
    print("📊 Nombre total de lignes dans la table Azure SQL :")
    display(count_df)

    # Aperçu des premières lignes
    preview_query = "SELECT TOP 5 * FROM dbo.Dataset_Risque_de_Credit_Clean"
    preview_df = pd.read_sql(preview_query, conn)
    print("\n🔍 Aperçu des premières lignes transférées :")
    print(preview_df.head())
    display(preview_df)

except Exception as e:
    print("❌ Erreur de connexion ou d’exécution :", e)

finally:
    if 'conn' in locals():
        conn.close()



✅ Connexion réussie à la base Azure SQL Database



  count_df = pd.read_sql(count_query, conn)


📊 Nombre total de lignes dans la table Azure SQL :


Unnamed: 0,total_lignes
0,2520580



🔍 Aperçu des premières lignes transférées :
  ID Client Age Tranche_Age Tranche_Montant_Pret   Sexe Statut Marital  \
0        10  35   35-49 ans          Très faible  Homme              2   
1        90  44   35-49 ans          Très faible  Homme              2   
2       100  38   35-49 ans          Très faible  Homme              1   
3       161  41   35-49 ans          Très faible  Homme              2   
4       206  43   35-49 ans          Très faible  Homme              1   

  Niveau d'Éducation Revenu Annuel % Revenu Utilisé pour Prêt  \
0        High School        175000                       0.01   
1        High School        175000                       0.01   
2         University        175000                       0.01   
3    Graduate School        175000                       0.01   
4        High School        175000                       0.01   

  Taux d'Intérêt (%)  ... Score_Paiement Catégorie_Client Statut_du_Pret  \
0               8.49  ...             12   

  preview_df = pd.read_sql(preview_query, conn)


Unnamed: 0,ID Client,Age,Tranche_Age,Tranche_Montant_Pret,Sexe,Statut Marital,Niveau d'Éducation,Revenu Annuel,% Revenu Utilisé pour Prêt,Taux d'Intérêt (%),...,Score_Paiement,Catégorie_Client,Statut_du_Pret,Défaut_mois_suivant,Défaut Historique,Montant_Facturé_Total,Montant_Paiement_Total,Type de Logement,Objet du Prêt,Note du Prêt
0,10,35,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,26919,14129,MORTGAGE,VENTURE,A
1,90,44,35-49 ans,Très faible,Homme,2,High School,175000,0.01,8.49,...,3,Moyen,OK,0,N,61309,6151,MORTGAGE,VENTURE,A
2,100,38,35-49 ans,Très faible,Homme,1,University,175000,0.01,8.49,...,12,Excellent,Défaut,1,N,93217,5685,MORTGAGE,VENTURE,A
3,161,41,35-49 ans,Très faible,Homme,2,Graduate School,175000,0.01,8.49,...,-3,À Risque,OK,0,N,162596,8150,MORTGAGE,VENTURE,A
4,206,43,35-49 ans,Très faible,Homme,1,High School,175000,0.01,8.49,...,12,Excellent,OK,0,N,98941,31538,MORTGAGE,VENTURE,A


# Vérification faite égalment sur SQL dans Azure:

SELECT TOP 10 * FROM dbo.Dataset_Risque_de_Credit_Clean; sur Azure SQL Database

🟣 Étape 4 — Visualisation et Reporting Power BI
🎯 Objectif

J'ai connecté Power BI Desktop à la base Azure SQL Database contenant mon Dataset_Risque_de_Credit_Clean, pui j'ai construit un dashboard interactif présentant les principaux indicateurs de risque de crédit.

🔹 Etape 4: Connexion Power BI ↔ Azure SQL Database
🧱 Étapes suivies dans Power BI Desktop :

- Ouvrir Power BI Desktop

Aller dans :
Accueil → Obtenir des données → Azure → Azure SQL Database

Dans la fenêtre de connexion :

Nom du serveur : serveur-risquecredit.database.windows.net

Nom de la base : RisqueCreditDB

- Méthode d’authentification :

Choisir Authentification SQL Server

Nom d’utilisateur : ##############

Mot de passe : ###################

Puis Cocher "Ne pas inclure ces informations dans les requêtes de connexion"

- Valider → Power BI a détecté automatiquement ma table dbo.Dataset_Risque_de_Credit_Clean

Charger les données

Sélectionne la table RisqueCredit

Clique sur Charger

Power BI a importé toutes les colonnes nettoyées depuis Azure SQL

🔹 Sous-étape 4.2 — Réutiliser ton ancien modèle Power BI

Tu peux réutiliser le fichier PBIX existant pour garder :

les mesures DAX (calculs),

les visuels,

et les pages du dashboard.

⚙️ Étapes pour reconnecter ton modèle :

Ouvre ton ancien fichier .pbix

Dans le ruban Power BI → Transformer les données → Paramètres de la source

Clique sur Modifier la source

Remplace :

Fichier CSV local par
Serveur : serveur-risquecredit.database.windows.net
Base : RisqueCreditDB

Clique sur Fermer et appliquer

✅ Power BI va relancer les requêtes Power Query,
et tes visualisations se mettront à jour automatiquement à partir des données Azure.

🔹 Sous-étape 4.3 — Vérification et mise à jour des KPI

Vérifie que tes 10 mesures DAX s’actualisent correctement.
Si besoin, voici un rappel de tes principales formules :

| Mesure                          | Formule DAX                                                                                                       | Interprétation                               |
| ------------------------------- | ----------------------------------------------------------------------------------------------------------------- | -------------------------------------------- |
| **Nb Clients**                  | `COUNT('RisqueCredit'[ID Client])`                                                                                | Nombre total de clients                      |
| **Crédit Total**                | `SUM('RisqueCredit'[Montant Crédit Maximum])`                                                                     | Montant total des crédits                    |
| **Revenu Prêt % Moyen**         | `AVERAGE('RisqueCredit'[% Revenu Utilisé pour Prêt])`                                                             | Pourcentage moyen du revenu alloué au crédit |
| **Taux Défaut**                 | `DIVIDE(COUNTROWS(FILTER('RisqueCredit', 'RisqueCredit'[Défaut_mois_suivant] = 1)), COUNTROWS('RisqueCredit'))`   | Taux global de défaut                        |
| **Taux Défaut Historique**      | `DIVIDE(COUNTROWS(FILTER('RisqueCredit', 'RisqueCredit'[Défaut Historique] = "Oui")), COUNTROWS('RisqueCredit'))` | Défaut historique moyen                      |
| **Score Paiement Moyen**        | `AVERAGE('RisqueCredit'[Score_Paiement])`                                                                         | Moyenne du score de paiement                 |
| **Retard Moyen**                | `AVERAGE('RisqueCredit'[Mois_En_Retard])`                                                                         | Nombre moyen de mois en retard               |
| **Paiement à Temps Moyen**      | `AVERAGE('RisqueCredit'[Mois_Paiement_A_Temps])`                                                                  | Nombre moyen de paiements ponctuels          |
| **Taux de Remboursement Moyen** | `AVERAGE('RisqueCredit'[Taux_Remboursement])`                                                                     | Moyenne du taux de remboursement             |
| **Taux Défaut par Note**        | `DIVIDE(COUNTROWS(FILTER('RisqueCredit', 'RisqueCredit'[Défaut_mois_suivant] = 1)), COUNTROWS('RisqueCredit'))`   | Taux de défaut par note de prêt              |


🔹 Sous-étape 4.4 — Visualisations recommandées

Reproduis ou enrichis les visuels que tu avais déjà dans ton tableau de bord Data Management :

Page 1 – Vue globale du portefeuille client

📊 Carte KPI : Taux de défaut global

📈 Histogramme : Montant total du crédit par tranche d’âge

🧮 Camembert : Répartition par statut marital ou sexe

💰 Barres horizontales : Crédit moyen par niveau d’éducation

🎯 Carte synthèse : Score de paiement moyen

Page 2 – Comportement de paiement et risque

📉 Histogramme : Retards moyens vs paiements à temps

⚖️ Heatmap : Taux de défaut par catégorie de client

📊 Courbe : Taux de remboursement moyen par tranche de montant

🧩 Slicer (filtre) : tranche d’âge, type de logement, objet du prêt

🔹 Sous-étape 4.5 — Export et publication
💾 Export local

Enregistre ton fichier Power BI :

In [None]:
Projet_Cloud_RisqueCredit_KD.pbix


💡 Conclusion de la partie Power BI

La connexion Power BI ↔ Azure SQL permet une mise à jour dynamique des données.

Les indicateurs DAX offrent une vision claire du comportement de paiement et du risque client.

Ce modèle pourra être étendu à un pipeline complet d’analyse de crédit avec IA (OpenAI / Text Analytics) dans Azure.

🧾 Étape 5 — Rapport, observations et applications professionnelles
🎯 Objectif

Cette dernière section résume les principaux résultats obtenus, les observations tirées de l’analyse Power BI, ainsi que les perspectives d’exploitation professionnelle du modèle.

📊 1. Résumé des résultats analytiques

À partir du dataset nettoyé et intégré dans Azure, les principaux indicateurs issus de Power BI montrent :

| Indicateur                       | Valeur moyenne | Interprétation                                                           |
| -------------------------------- | -------------- | ------------------------------------------------------------------------ |
| **Taux de défaut global**        | ≈ 20,8 %       | Environ 1 client sur 5 est en défaut de paiement à court terme           |
| **Score de paiement moyen**      | ≈ 9,6 / 12     | Les clients présentent en moyenne un bon comportement de paiement        |
| **Taux de remboursement moyen**  | ≈ 47 %         | La moitié du montant du prêt est remboursée dans les délais              |
| **Revenu prêt % moyen**          | ≈ 20 %         | Les emprunteurs allouent environ un cinquième de leurs revenus au crédit |
| **Ancienneté historique crédit** | ≈ 5,6 ans      | La plupart des clients ont un historique de crédit relativement récent   |
| **Retards moyens**               | ≈ 0,8 mois     | Peu de clients accumulent des retards prolongés                          |


Ces résultats confirment la bonne qualité moyenne du portefeuille, mais mettent aussi en évidence un segment à risque, composé de clients :

avec un revenu plus faible,

un montant de prêt plus élevé,

ou un historique de crédit limité.

## 📈 2. Insights observés dans Power BI

Les visualisations Power BI ont permis de faire ressortir plusieurs tendances clés :

Les jeunes emprunteurs (25–34 ans) présentent un taux de défaut plus élevé.

Les clients ayant une ancienneté professionnelle faible (<3 ans) ont un comportement de remboursement plus risqué.

Les clients mariés ont globalement un score de paiement supérieur.

Les prêts destinés à des biens de consommation ou à la création d’entreprise présentent un taux de défaut supérieur à la moyenne.

Une corrélation modérée apparaît entre le taux d’intérêt et la probabilité de défaut.

## ☁️ 3. Apports du Cloud Azure dans ce projet

Ce projet a démontré l’intérêt d’une architecture cloud moderne pour la data :

Azure Blob Storage : centralise et sécurise les fichiers sources nettoyés, tout en permettant un partage rapide avec d’autres outils.

Azure SQL Database : permet un stockage structuré et une intégration fluide avec Power BI via une connexion DirectQuery.

Azure Data Factory (ADF) : automatise la mise à jour et le chargement du dataset depuis le Blob Storage vers la base SQL.

Cette approche assure :

une scalabilité en cas d’augmentation du volume de données,

une gouvernance simplifiée grâce à la centralisation dans Azure,

et une interopérabilité parfaite avec les outils analytiques de Microsoft.

## 💼 4. Applications professionnelles et perspectives futures

Les résultats de ce projet peuvent être exploités dans plusieurs contextes :

Banques et institutions financières : surveillance du risque de crédit et profilage client.

Établissements de microcrédit : détection précoce des comportements à risque.

Systèmes de scoring automatique : intégration de modèles prédictifs (Machine Learning) pour anticiper les défauts de paiement.

Reporting exécutif : visualisations Power BI prêtes à être publiées pour les directions financières et risk managers.

À moyen terme, le pipeline pourrait être enrichi par :

l’intégration de modèles prédictifs Azure Machine Learning,

l’utilisation d’Azure OpenAI pour générer des rapports automatiques sur la qualité du portefeuille,

et la mise en place d’un tableau de bord dynamique connecté en temps réel (Power BI Service + ADF).

## ✅ Conclusion

Ce projet a permis de réaliser un pipeline analytique complet, depuis le nettoyage des données jusqu’à la visualisation finale hébergée dans Azure.
Il démontre concrètement la valeur du Cloud dans la gestion et l’analyse du risque de crédit, tout en posant les bases d’une architecture évolutive vers des applications de scoring automatisé et d’intelligence artificielle.

📂 Structure du dépôt GitHub

| Dossier / Fichier                     | Description                                                         |
| ------------------------------------- | ------------------------------------------------------------------- |
| `Projet_Cloud_Risque_Credit_KD.ipynb` | Notebook Jupyter complet (préparation, intégration cloud, analyses) |
| `Dataset_Risque_de_Credit_Clean.csv`  | Dataset final nettoyé et prêt pour ingestion cloud                  |
| `Projet_Cloud_RisqueCredit_KD.pbix`   | Tableau de bord Power BI connecté à Azure SQL                       |
| `README.md`                           | Présentation du projet et guide d’exécution                         |


🔍 Étapes du projet
1️⃣ Préparation et nettoyage (Python)

Importation du dataset initial (Dataset_Risque_de_Credit.csv)

Correction des types et des valeurs manquantes

Harmonisation des catégories (Sexe, Statut Marital, Niveau d'Éducation, etc.)

Export du dataset nettoyé au format CSV pour Azure

2️⃣ Intégration Cloud (Azure)

Azure Blob Storage : stockage des fichiers nettoyés

Azure SQL Database : création d’une base RisqueCreditDB

Azure Data Factory (ADF) : automatisation du transfert Blob → SQL

3️⃣ Visualisation (Power BI)

Connexion Power BI ↔ Azure SQL Database

Reprise des mesures DAX existantes :

Taux de défaut global, taux de remboursement, revenu prêt %, etc.

Construction de deux pages principales :

Vue globale portefeuille client

Analyse du comportement de paiement

📊 Résultats clés
Indicateur	Valeur moyenne	Interprétation
Taux de défaut global	~20,8 %	1 client sur 5 en défaut
Score paiement moyen	9,6 / 12	Bon comportement global
Taux remboursement moyen	47 %	Niveau de remboursement satisfaisant
Revenu alloué au prêt	20 %	Revenu moyen utilisé pour le crédit
Retard moyen	0,8 mois	Peu de retards prolongés

| Catégorie               | Technologies                                               |
| ----------------------- | ---------------------------------------------------------- |
| **Langage**             | Python 3.11 (pandas, pyodbc, azure-storage-blob)           |
| **Cloud**               | Azure Blob Storage, Azure SQL Database, Azure Data Factory |
| **Visualisation**       | Power BI Desktop                                           |
| **Environnement**       | Jupyter Notebook / VS Code                                 |
| **Contrôle de version** | GitHub                                                     |

💼 Applications professionnelles

Ce pipeline et ce tableau de bord peuvent être exploités dans :

La banque et la finance pour le suivi du risque de crédit

La microfinance pour détecter les comportements à risque

Le reporting exécutif (Power BI) pour les comités de risque

L’intégration d’IA Azure pour automatiser les scores de solvabilité

🚀 Perspectives d’évolution

Intégration d’un modèle Machine Learning (Azure ML) pour prédire le défaut de paiement

Utilisation de Text Analytics pour analyser les commentaires clients

Génération automatique de rapports explicatifs via Azure OpenAI

Publication du dashboard en ligne sur Power BI Service

👩‍💻 Auteur

Khady DIAGNE
Étudiante en Master 2 Science des Données – IDMC, Université de Lorraine
📍 Spécialisation : Data Science et Risque de Crédit
🔗 LinkedIn


---

💡 **Conseil avant de publier sur GitHub :**
1. Mets tous tes fichiers dans un dossier clair :  
   `Projet_Cloud_RisqueCredit_KD/`
2. Vérifie que ton fichier `.pbix` est bien < 100 Mo (sinon utilise Git LFS).
3. Copie ce texte dans un fichier `README.md` à la racine du dépôt.
4. Pousse tout sur GitHub (`git add .` → `git commit -m "Rendu final Cloud"` → `git push`).

---

Souhaites-tu que je t’aide à rédiger la **description courte** et le **titre du projet GitHub** (ce qui s’affiche tout en haut du dépôt) pour qu’il ait l’air pro et bien référencé ?


# 🧾 Conclusion et perspectives

Ce projet s’inscrit dans une démarche complète de mise en pratique des concepts de **data science appliquée au risque de crédit**, en intégrant les dimensions **techniques, analytiques et cloud**.

---

## 🔹 Synthèse du travail réalisé

Nous avons suivi un processus complet de bout en bout :

1. **Préparation des données**  
   - Fusion et harmonisation des jeux de données *UCI Credit Card* et *Credit Risk Dataset*  
   - Nettoyage initial et création de tranches d’âge et de montant dans **Alteryx Designer**  
   - Export d’un dataset consolidé vers Python pour les transformations finales  

2. **Traitement et nettoyage dans Python**  
   - Analyse exploratoire (valeurs manquantes, types de variables, statistiques descriptives)  
   - Conversion des types, imputation des valeurs manquantes et harmonisation des catégories  
   - Sauvegarde du dataset propre pour intégration Cloud  

3. **Intégration dans Azure**  
   - **Azure Blob Storage** : stockage du fichier nettoyé  
   - **Azure SQL Database** : création d’une base relationnelle “RisqueCreditDB”  
   - **Azure Data Factory (ADF)** : automatisation du flux *Blob → SQL Database* via un pipeline de type *Copy Data*  
   - Vérification et consultation des données dans le portail Azure  

4. **Visualisation dans Power BI**  
   - Connexion directe à la base Azure SQL  
   - Création de tableaux de bord interactifs pour l’analyse du risque de crédit :  
     - Répartition des profils clients  
     - Taux de défaut par tranche d’âge et montant  
     - Analyse du comportement de paiement  
   - Reprise des mesures DAX et visuels issus du modèle local Power BI  

---

## 🔹 Résultats obtenus

- Le dataset de plus de **10 millions de lignes** a été chargé avec succès dans Azure SQL Database.  
- Les **pipelines Data Factory** assurent un transfert automatisé, fiable et reproductible.  
- Le **tableau de bord Power BI Cloud** permet d’explorer les indicateurs clés :  
  - Taux de défaut global  
  - Comportement de remboursement  
  - Segmentation par profil client  
- L’ensemble du processus fonctionne **entièrement dans l’environnement Cloud Azure**.  

---

## 🔹 Perspectives d’amélioration

Ce projet ouvre la voie à plusieurs extensions :

- 🔮 **Ajout d’un modèle de scoring prédictif** (ex. régression logistique, arbre de décision, XGBoost)  
  → pour estimer la probabilité de défaut.  
- 🧠 **Exploitation des services Azure AI**  
  → via *Text Analytics* (analyse de sentiment) ou *Azure OpenAI* (génération de descriptions de profils).  
- ☁️ **Publication du dashboard dans Power BI Service**  
  → pour un suivi en ligne et collaboratif.  
- 🔁 **Extension du pipeline ADF**  
  → pour intégrer de nouvelles sources de données (économiques, comportementales, etc.).  

---

## 🔹 Conclusion générale

Ce projet démontre la capacité à construire un **pipeline de données complet et opérationnel** — de la préparation locale jusqu’à la visualisation cloud — en combinant **Python, Azure et Power BI**.  

Il illustre concrètement comment une entreprise peut :
- Centraliser ses données dans le cloud,  
- Automatiser leurs flux,  
- Et exploiter la puissance de la visualisation et de l’analyse prédictive.  

💡 **Prochaine étape :** intégrer une composante *Machine Learning* (via **Azure ML** ou **scikit-learn**) pour passer de l’analyse descriptive à une approche prédictive du risque de crédit.

---

📘 *Projet réalisé dans le cadre du module Cloud Computing : “Analyse du risque de crédit avec Azure” – Master 2 Sciences des Données, Université de Lorraine (IDMC).*


# 🔹 Génération de description automatique

Tu peux utiliser Azure OpenAI pour générer une analyse automatique du profil client :

In [None]:
import openai

openai.api_type = "azure"
openai.api_base = "https://<ton-endpoint>.openai.azure.com/"
openai.api_version = "2024-02-15-preview"
openai.api_key = "<ta_clef_api>"

prompt = """
Voici un client de crédit :
- Sexe : Femme
- Âge : 35 ans
- Revenu Annuel : 75 000 €
- Score de Paiement : 9
- Montant Crédit Maximum : 25 000 €
Peux-tu générer une description synthétique du risque de crédit associé à ce profil ?
"""

response = openai.ChatCompletion.create(
    engine="gpt-4o-mini",  # Ou "gpt-35-turbo"
    messages=[
        {"role": "system", "content": "Tu es un expert en analyse de risque bancaire."},
        {"role": "user", "content": prompt}
    ]
)

print(response['choices'][0]['message']['content'])


Structure complète et claire de ton notebook final (rapport inclus)

Ton notebook “Projet Risque de Crédit – Préparation et Cloud” fera office de rapport technique complet.
👉 Tu n’as pas besoin de refaire un autre rapport Word.
Tu peux simplement ajouter des cellules Markdown explicatives entre les blocs de code.

Voici la structure finale recommandée :

🧠 Projet Risque de Crédit – Préparation et Cloud

Ce notebook présente l’ensemble du pipeline de données du projet de scoring de risque de crédit :
de la préparation à la visualisation, en passant par l’intégration cloud sur Azure.

1. Contexte et objectifs du projet

Présentation du contexte du projet (données clients et crédit)

Objectif final : créer un pipeline complet de traitement et visualisation cloud

Jeux de données utilisés :

UCI Credit Card Dataset

Credit Risk Dataset

Outils : Python, Azure (Blob + SQL), Power BI, OpenAI (IA)

2. Chargement et exploration du dataset

Code : chargement CSV + df.info() + df.describe() + valeurs manquantes
Texte : brève explication des résultats (dimensions, types de variables, taux de valeurs manquantes)

3. Nettoyage et préparation des données

Remplacement des valeurs manquantes

Correction des encodages

Harmonisation des valeurs (ex. Homme → Men)

Sélection des colonnes finales

Export du dataset propre pour Azure et Power BI

💡 Toutes les colonnes sont maintenant prêtes pour l’analyse et la visualisation.

4. Intégration Cloud sur Azure
🟦 4.1. Stockage sur Azure Blob Storage

Création d’un Storage Account et d’un conteneur Blob

Upload du fichier nettoyé (Dataset_Risque_de_Credit_Clean.csv)

Génération d’un lien SAS sécurisé
→ Permet à Power BI ou Python d’accéder directement au fichier sur le Cloud

🟨 4.2. Base de données Azure SQL

Création de la base Azure SQL (service relationnel)

Connexion via pyodbc

Création d’une table Dataset_Risque_de_Credit

Insertion automatique du DataFrame avec pandas.to_sql()

💬 Cette étape permet d’interroger les données depuis Power BI via Azure SQL.

5. Visualisation dans Power BI

Connexion à Azure SQL Database

Création de tableaux de bord :

Répartition H/F du risque

Moyenne du score de paiement par tranche d’âge

Montant total facturé par statut marital

Calculs DAX : Score moyen, taux de défaut, etc.

Interaction et filtres dynamiques

💡 Les visuels permettent de détecter des tendances de risque par profil client.

6. Exploration IA avec Azure Cognitive Services (optionnelle mais valorisante 🎯)
🔹 6.1. Génération automatique de profil avec Azure OpenAI

Utilisation d’Azure OpenAI pour générer une description automatique d’un client selon son profil.

(insérer ici ton code OpenAI adapté au risque de crédit)

🔹 6.2. Analyse de sentiment avec Azure Text Analytics

Analyse de commentaires textuels ou retours clients.

(code avec TextAnalyticsClient)

🔹 6.3. Extraction de mots-clés (facultatif)

Identifier automatiquement les termes importants dans des avis textuels.

(code avec extract_key_phrases)

💬 Ces services IA enrichissent ton pipeline et illustrent une intégration complète des outils Azure.

7. Conclusion et perspectives

Résumé des principales étapes

Difficultés rencontrées (ex : nettoyage d’encodage, déploiement Azure lent)

Pistes d’amélioration : automatisation du pipeline, ajout de modèle prédictif, visualisation dynamique dans Power BI Service.

🪶 Résultat :

Ton notebook final devient un rapport Cloud complet :
✅ Partie descriptive
✅ Partie technique
✅ Partie IA optionnelle

Tu pourras le déposer sur GitHub comme rendu final avec ton .pbix.