In [1]:
import numpy as np

print("--- 1.1 Statistiques de base ---")

# Mean (Moyenne)
data = np.array([1, 2, 3, 4])
mean_value = data.mean()
print(f"Moyenne : {mean_value}")

# Sum (Somme)
data = np.array([1, 2, 3, 4])
total = data.sum()
print(f"Somme : {total}")

# Std (Écart type)
data = np.array([1, 2, 3, 4])
std_dev = data.std()
print(f"Écart type : {std_dev}")

# Var (Variance)
data = np.array([1, 2, 3, 4])
variance = data.var()
print(f"Variance : {variance}")

--- 1.1 Statistiques de base ---
Moyenne : 2.5
Somme : 10
Écart type : 1.118033988749895
Variance : 1.25


In [2]:
print("--- 1.2 Manipulation de forme ---")

# Reshape (Changer la forme)
data = np.array([1, 2, 3, 4, 5, 6])
reshaped = data.reshape(2, 3)
print("Reshape (2x3) :")
print(reshaped)

# Flatten (Aplatir)
data = np.array([[1, 2], [3, 4]])
flattened = data.flatten()
print(f"\nFlatten : {flattened}")

# Transpose (Transposer)
data = np.array([[1, 2], [3, 4]])
transposed = data.transpose()
print("\nTranspose :")
print(transposed)

--- 1.2 Manipulation de forme ---
Reshape (2x3) :
[[1 2 3]
 [4 5 6]]

Flatten : [1 2 3 4]

Transpose :
[[1 3]
 [2 4]]


In [3]:
print("--- Combinaison et Slicing ---")

# hstack et vstack
data1 = np.array([1, 2])
data2 = np.array([3, 4])

h_combined = np.hstack([data1, data2])
print(f"Horizontal stack : {h_combined}")

v_combined = np.vstack([data1, data2])
print("Vertical stack :")
print(v_combined)

# Accès au dernier élément (-1)
data = np.array([10, 20, 30, 40])
last_element = data[-1]
print(f"\nDernier élément : {last_element}")

# Slicing (::) - Pas de 2
data = np.array([10, 20, 30, 40, 50])
slice_data = data[::2] # Sélectionne tous les deux éléments
print(f"Slicing [::2] : {slice_data}")

--- Combinaison et Slicing ---
Horizontal stack : [1 2 3 4]
Vertical stack :
[[1 2]
 [3 4]]

Dernier élément : 40
Slicing [::2] : [10 30 50]


In [4]:
print("--- Gestion de la mémoire (Copy) ---")

# Sans copy (Modification par référence - Risque d'erreur)
data = np.array([1, 2, 3, 4])
ref_data = data # Pas de copy()
ref_data[0] = 99
print(f"Original modifié (sans copy) : {data}") # L'original est touché !

# Avec copy (Indépendant)
data = np.array([1, 2, 3, 4])
copied_data = data.copy()
copied_data[0] = 99

print(f"Original intact : {data}")
print(f"Copié modifié   : {copied_data}")

--- Gestion de la mémoire (Copy) ---
Original modifié (sans copy) : [99  2  3  4]
Original intact : [1 2 3 4]
Copié modifié   : [99  2  3  4]


In [5]:
import pandas as pd
import numpy as np

def challenge_finance():
    print("--- Challenge 1 : Analyse Financière ---")
    
    # 1. Création du MultiIndex [Entreprise, Annee, Trimestre]
    entreprises = ['TechCorp', 'FoodInc', 'AutoMoto']
    annees = ['2023', '2024']
    trimestres = ['Q1', 'Q2', 'Q3', 'Q4']
    
    index = pd.MultiIndex.from_product(
        [entreprises, annees, trimestres], 
        names=['Entreprise', 'Annee', 'Trimestre']
    )
    
    # Génération des données
    n = len(index)
    df = pd.DataFrame({
        'CA': np.random.randint(10000, 50000, size=n),
        'benefice': np.random.randint(1000, 10000, size=n),
        'depenses': np.random.randint(5000, 40000, size=n)
    }, index=index)
    
    # --- Analyse 1 : Croissance trimestrielle du CA par entreprise ---
    # On groupe par entreprise pour que le calcul ne saute pas d'une boite à l'autre
    df['croissance_ca'] = df.groupby('Entreprise')['CA'].pct_change() * 100
    
    print("\n1. Croissance CA (extrait) :")
    print(df['croissance_ca'].dropna().head())

    # --- Analyse 2 : Marges par année ---
    # Agrégation par Entreprise et Année
    df_annuel = df.groupby(['Entreprise', 'Annee']).sum()
    df_annuel['marge_beneficiaire'] = (df_annuel['benefice'] / df_annuel['CA']) * 100
    
    print("\n2. Marges annuelles (%) :")
    print(df_annuel['marge_beneficiaire'])

    # --- Analyse 3 : Performance relative ---
    # Comparaison du bénéfice de chaque ligne par rapport à la moyenne du secteur cette année-là
    moyenne_secteur = df.groupby(['Annee', 'Trimestre'])['benefice'].transform('mean')
    df['perf_relative'] = df['benefice'] / moyenne_secteur
    
    print("\n3. Performance relative (vs moyenne secteur) :")
    print(df[['benefice', 'perf_relative']].head())

challenge_finance()

--- Challenge 1 : Analyse Financière ---

1. Croissance CA (extrait) :
Entreprise  Annee  Trimestre
TechCorp    2023   Q2           -67.512018
                   Q3           185.065339
                   Q4           -19.413520
            2024   Q1            28.397291
                   Q2           -15.616503
Name: croissance_ca, dtype: float64

2. Marges annuelles (%) :
Entreprise  Annee
AutoMoto    2023     15.995455
            2024     13.076347
FoodInc     2023     14.332974
            2024     19.726203
TechCorp    2023     14.966838
            2024     16.882928
Name: marge_beneficiaire, dtype: float64

3. Performance relative (vs moyenne secteur) :
                            benefice  perf_relative
Entreprise Annee Trimestre                         
TechCorp   2023  Q1             4975       1.147724
                 Q2             9182       1.575588
                 Q3             4535       0.796033
                 Q4             1279       0.185982
           2024  

In [6]:
def challenge_monitoring():
    print("\n--- Challenge 2 : Monitoring Temporel ---")
    
    # Création de la série temporelle (1 point par minute sur 3 jours)
    dates = pd.date_range(start='2024-01-01', periods=4320, freq='T')
    
    df = pd.DataFrame({
        'cpu': np.random.normal(30, 10, size=len(dates)), # Moyenne 30%, écart 10
        'memoire': np.random.normal(50, 5, size=len(dates))
    }, index=dates)
    
    # Injection d'anomalies artificielles (pics CPU)
    indices_anomalies = np.random.choice(df.index, size=10)
    df.loc[indices_anomalies, 'cpu'] += 60  # On ajoute un gros pic
    
    # --- Analyse 1 : Détection d'anomalies (Rolling stats) ---
    window_size = 60 # Fenêtre de 1 heure
    rolling_mean = df['cpu'].rolling(window=window_size).mean()
    rolling_std = df['cpu'].rolling(window=window_size).std()
    
    # Condition : Si valeur > Moyenne + 3 * Ecart-type -> Anomalie
    seuil_haut = rolling_mean + 3 * rolling_std
    anomalies = df[df['cpu'] > seuil_haut]
    
    print(f"\n1. Nombre d'anomalies détectées : {len(anomalies)}")
    print(anomalies[['cpu']].head(3))
    
    # --- Analyse 2 : Resampling (Rapport Horaire) ---
    # On calcule le max du CPU et la moyenne de la mémoire par heure
    rapport_horaire = df.resample('H').agg({
        'cpu': 'max',
        'memoire': 'mean'
    })
    print("\n2. Rapport Horaire (extrait) :")
    print(rapport_horaire.head())
    
    # --- Analyse 3 : Features Engineering pour ML ---
    # Création de features de décalage (lag) et différence
    df['cpu_lag_1h'] = df['cpu'].shift(60) # Valeur il y a 1h
    df['cpu_diff'] = df['cpu'].diff()      # Variation instantanée
    
    print("\n3. Features générées :")
    print(df[['cpu', 'cpu_lag_1h', 'cpu_diff']].iloc[60:65]) # On regarde après le lag

challenge_monitoring()


--- Challenge 2 : Monitoring Temporel ---

1. Nombre d'anomalies détectées : 15
                           cpu
2024-01-01 14:42:00  72.168468
2024-01-01 20:01:00  88.991799
2024-01-02 09:12:00  90.251629

2. Rapport Horaire (extrait) :
                           cpu    memoire
2024-01-01 00:00:00  54.318111  50.807109
2024-01-01 01:00:00  50.291085  50.905478
2024-01-01 02:00:00  59.130285  49.040441
2024-01-01 03:00:00  54.797649  48.846148
2024-01-01 04:00:00  51.973986  50.034268

3. Features générées :
                           cpu  cpu_lag_1h   cpu_diff
2024-01-01 01:00:00  41.197856   24.892136   5.164420
2024-01-01 01:01:00  20.618455   12.012161 -20.579401
2024-01-01 01:02:00  27.794297   23.224806   7.175842
2024-01-01 01:03:00  38.964598   32.955489  11.170301
2024-01-01 01:04:00  43.191811   27.892027   4.227214


  dates = pd.date_range(start='2024-01-01', periods=4320, freq='T')
  rapport_horaire = df.resample('H').agg({


In [7]:
from numba import jit
import time

def challenge_optimisation():
    print("\n--- Challenge 3 : Optimisation ---")
    
    # 1 million de lignes
    N = 1_000_000
    df = pd.DataFrame({
        'A': np.random.rand(N),
        'B': np.random.rand(N),
        'categorie': np.random.choice(['X', 'Y', 'Z'], N)
    })
    
    print(f"Dataset créé : {N} lignes")
    
    # --- Optimisation 1 : Mémoire (Types et Catégories) ---
    mem_init = df.memory_usage(deep=True).sum() / 1024**2
    
    df['categorie'] = df['categorie'].astype('category')
    df['A'] = df['A'].astype('float32')
    df['B'] = df['B'].astype('float32')
    
    mem_opt = df.memory_usage(deep=True).sum() / 1024**2
    print(f"1. Mémoire : {mem_init:.2f} MB -> {mem_opt:.2f} MB")
    
    # --- Optimisation 2 : Calcul (Vectorisation vs Numba) ---
    
    # Fonction complexe à calculer : (A * B) + sqrt(A)
    # Approche Vectorisée (Pandas/Numpy standard)
    start = time.time()
    res_vec = (df['A'] * df['B']) + np.sqrt(df['A'])
    t_vec = time.time() - start
    print(f"2. Temps Vectorisé : {t_vec:.4f} s")
    
    # Approche Numba
    @jit(nopython=True)
    def calcul_numba(a, b):
        return (a * b) + np.sqrt(a)
    
    a_vals, b_vals = df['A'].values, df['B'].values
    
    start = time.time()
    res_numba = calcul_numba(a_vals, b_vals) # Premier appel compile
    t_numba = time.time() - start
    print(f"   Temps Numba     : {t_numba:.4f} s (inclut compilation si 1er appel)")

    # --- Optimisation 3 : Requêtes (.query vs masque booléen standard) ---
    # .query est souvent plus lisible et parfois plus optimisé mémoire pour les gros graphes d'expression
    start = time.time()
    res_query = df.query("A > 0.5 and B < 0.5")
    t_query = time.time() - start
    print(f"3. Temps Query     : {t_query:.4f} s")

challenge_optimisation()


--- Challenge 3 : Optimisation ---
Dataset créé : 1000000 lignes
1. Mémoire : 70.57 MB -> 8.58 MB
2. Temps Vectorisé : 0.0124 s
   Temps Numba     : 1.0244 s (inclut compilation si 1er appel)
3. Temps Query     : 0.0286 s
