# Module Data Science - Formation Complète

## Plateforme IA-Solution RDC

**Niveau :** Débutant  
**Durée :** 6 semaines  
**Prérequis :** Aucun

---

### 🎯 Objectifs

- Maîtriser Python pour la Data Science
- Manipuler des données avec Pandas
- Visualiser avec Matplotlib et Seaborn
- Comprendre les statistiques descriptives
- Préparer des données pour le Machine Learning

In [None]:
# Installation des bibliothèques
!pip install numpy pandas matplotlib seaborn scikit-learn -q

print("✅ Bibliothèques installées !")

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Imports terminés !")

---

# Chapitre 1 : Python de base

## 1.1 Variables et types

In [None]:
# Variables
nom = "Jean"
age = 25
taille = 1.75
etudiant = True

print(f"Nom: {nom}, Type: {type(nom)}")
print(f"Age: {age}, Type: {type(age)}")
print(f"Taille: {taille}, Type: {type(taille)}")
print(f"Étudiant: {etudiant}, Type: {type(etudiant)}")

## 1.2 Listes

In [None]:
# Listes
villes = ["Kinshasa", "Lubumbashi", "Goma", "Kisangani"]
temperatures = [28, 25, 22, 27]

print("Villes:", villes)
print("Première ville:", villes[0])
print("Dernière ville:", villes[-1])
print("Nombre de villes:", len(villes))

## 1.3 Boucles

In [None]:
# Boucle for
for ville, temp in zip(villes, temperatures):
    print(f"Température à {ville}: {temp}°C")

## 1.4 Fonctions

In [None]:
# Fonction
def calculer_moyenne(notes):
    """Calcule la moyenne d'une liste de notes"""
    return sum(notes) / len(notes)

notes = [15, 12, 18, 14, 16]
moyenne = calculer_moyenne(notes)
print(f"Moyenne: {moyenne:.2f}/20")

### 🎯 Exercice 1 : Python de base

Créez une fonction qui calcule le prix total avec réduction :
- Prix unitaire : 1000 FC
- Quantité : variable
- Réduction : 10% si quantité > 5

In [None]:
# Exercice 1 : À vous de jouer !

def calculer_prix_total(quantite, prix_unitaire=1000):
    # TODO: Implémenter la fonction
    pass

# Test
# print(calculer_prix_total(3))   # 3000 FC
# print(calculer_prix_total(10))  # 9000 FC (avec réduction)

In [None]:
# Solution Exercice 1

def calculer_prix_total(quantite, prix_unitaire=1000):
    """Calcule le prix total avec réduction si quantité > 5"""
    total = quantite * prix_unitaire
    
    if quantite > 5:
        total = total * 0.9  # 10% de réduction
    
    return total

# Tests
print(f"3 articles: {calculer_prix_total(3)} FC")
print(f"10 articles: {calculer_prix_total(10)} FC")

---

# Chapitre 2 : Pandas

## 2.1 Créer un DataFrame

In [None]:
# Créer un DataFrame
data = {
    'Ville': ['Kinshasa', 'Lubumbashi', 'Goma', 'Kisangani', 'Bukavu'],
    'Population': [15000000, 2500000, 1500000, 1300000, 1100000],
    'Temperature': [28, 25, 22, 27, 23]
}

df = pd.DataFrame(data)
print(df)

## 2.2 Exploration des données

In [None]:
# Informations sur le DataFrame
print("Shape:", df.shape)
print("\nColonnes:", df.columns.tolist())
print("\nTypes:")
print(df.dtypes)
print("\nPremières lignes:")
print(df.head())

## 2.3 Sélection de données

In [None]:
# Sélectionner une colonne
print("Villes:")
print(df['Ville'])

# Filtrer les données
print("\nVilles avec population > 2M:")
print(df[df['Population'] > 2000000])

### 🎯 Exercice 2 : Pandas

Créez un DataFrame avec des données de ventes :
- Produit : Manioc, Maïs, Riz
- Prix : 500, 800, 1200 FC
- Quantité : 100, 50, 30

Calculez le chiffre d'affaires total

In [None]:
# Exercice 2 : À vous de jouer !

# TODO: Créer le DataFrame et calculer le CA


In [None]:
# Solution Exercice 2

ventes = pd.DataFrame({
    'Produit': ['Manioc', 'Maïs', 'Riz'],
    'Prix': [500, 800, 1200],
    'Quantite': [100, 50, 30]
})

ventes['CA'] = ventes['Prix'] * ventes['Quantite']
print(ventes)
print(f"\nCA Total: {ventes['CA'].sum()} FC")

---

# Chapitre 3 : Visualisation

## 3.1 Graphiques avec Matplotlib

In [None]:
# Graphique en barres
plt.figure(figsize=(10, 6))
plt.bar(df['Ville'], df['Population'] / 1000000)
plt.xlabel('Ville')
plt.ylabel('Population (millions)')
plt.title('Population des principales villes de RDC')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 3.2 Graphiques avec Seaborn

In [None]:
# Scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Population', y='Temperature', s=200)
plt.xlabel('Population')
plt.ylabel('Température (°C)')
plt.title('Température vs Population')
plt.show()

### 🎯 Exercice 3 : Visualisation

Créez un graphique en ligne montrant l'évolution des ventes par mois

In [None]:
# Exercice 3 : À vous de jouer !

mois = ['Jan', 'Fev', 'Mar', 'Avr', 'Mai', 'Jun']
ventes_mois = [1000, 1200, 1500, 1300, 1800, 2000]

# TODO: Créer le graphique


In [None]:
# Solution Exercice 3

mois = ['Jan', 'Fev', 'Mar', 'Avr', 'Mai', 'Jun']
ventes_mois = [1000, 1200, 1500, 1300, 1800, 2000]

plt.figure(figsize=(10, 6))
plt.plot(mois, ventes_mois, marker='o', linewidth=2, markersize=8)
plt.xlabel('Mois')
plt.ylabel('Ventes (unités)')
plt.title('Évolution des ventes mensuelles')
plt.grid(True, alpha=0.3)
plt.show()

---

# Chapitre 4 : Statistiques

## 4.1 Statistiques descriptives

In [None]:
# Statistiques sur le DataFrame
print(df.describe())

## 4.2 Corrélation

In [None]:
# Matrice de corrélation
correlation = df[['Population', 'Temperature']].corr()
print(correlation)

# Heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0)
plt.title('Matrice de corrélation')
plt.show()

### 🎯 Exercice 4 : Statistiques

Calculez la moyenne, médiane et écart-type des notes

In [None]:
# Exercice 4 : À vous de jouer !

notes = [12, 15, 18, 10, 14, 16, 13, 17, 11, 15]

# TODO: Calculer les statistiques


In [None]:
# Solution Exercice 4

notes = [12, 15, 18, 10, 14, 16, 13, 17, 11, 15]

moyenne = np.mean(notes)
mediane = np.median(notes)
ecart_type = np.std(notes)

print(f"Moyenne: {moyenne:.2f}")
print(f"Médiane: {mediane:.2f}")
print(f"Écart-type: {ecart_type:.2f}")

### 🎯 Exercice 5 : Projet complet

Analysez les données de production agricole en RDC

In [None]:
# Exercice 5 : Projet complet

# Données de production (tonnes)
production = pd.DataFrame({
    'Province': ['Kinshasa', 'Bas-Congo', 'Bandundu', 'Équateur', 'Kasai'],
    'Manioc': [50000, 80000, 120000, 100000, 90000],
    'Maïs': [30000, 40000, 60000, 50000, 45000],
    'Riz': [10000, 15000, 20000, 18000, 12000]
})

# TODO:
# 1. Afficher les statistiques
# 2. Calculer la production totale par province
# 3. Créer un graphique en barres empilées
# 4. Identifier la province la plus productive


In [None]:
# Solution Exercice 5

production = pd.DataFrame({
    'Province': ['Kinshasa', 'Bas-Congo', 'Bandundu', 'Équateur', 'Kasai'],
    'Manioc': [50000, 80000, 120000, 100000, 90000],
    'Maïs': [30000, 40000, 60000, 50000, 45000],
    'Riz': [10000, 15000, 20000, 18000, 12000]
})

# 1. Statistiques
print("Statistiques de production:")
print(production.describe())

# 2. Production totale
production['Total'] = production[['Manioc', 'Maïs', 'Riz']].sum(axis=1)
print("\nProduction totale par province:")
print(production[['Province', 'Total']])

# 3. Graphique
plt.figure(figsize=(12, 6))
production.set_index('Province')[['Manioc', 'Maïs', 'Riz']].plot(kind='bar', stacked=True)
plt.xlabel('Province')
plt.ylabel('Production (tonnes)')
plt.title('Production agricole par province')
plt.legend(title='Culture')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 4. Province la plus productive
max_prod = production.loc[production['Total'].idxmax()]
print(f"\nProvince la plus productive: {max_prod['Province']} ({max_prod['Total']} tonnes)")

---

## 🎓 Résumé

### Compétences acquises

- ✅ Python de base
- ✅ Manipulation de données (Pandas)
- ✅ Visualisation (Matplotlib, Seaborn)
- ✅ Statistiques descriptives
- ✅ Analyse de données réelles

**Félicitations ! Module Data Science terminé ! 🎉**