# Atelier pratique‚ÄØ: Comprendre l‚ÄôIA par la pratique
*Version mise √† jour ‚Äì 20 Mai 2025*

Ce notebook a √©t√© pens√© pour des **d√©butants complets**‚ÄØ: chaque cellule de code est abondamment comment√©e et peut √™tre ex√©cut√©e pas¬†√†¬†pas.  
S‚Äôil s‚Äôagit de votre **premier contact avec Python**, suivez simplement ces trois r√®gles¬†:

1. Cliquez sur la cellule (elle est entour√©e d‚Äôun cadre bleu).  
2. Appuyez sur le bouton ‚ñ∂Ô∏è (*Run*) ou sur **Shift‚ÄØ+‚ÄØEnter** pour l‚Äôex√©cuter.  
3. Observez le r√©sultat qui appara√Æt juste en dessous.

> **Important¬†:** si vous ex√©cutez ce notebook **localement** (VS¬†Code, Jupyter‚Ä¶), assurez‚Äëvous d‚Äôabord d‚Äôinstaller les librairies n√©cessaires¬†:  
> `pip install scikit-learn matplotlib numpy tensorflow-cpu transformers`

---


## 1Ô∏è‚É£ Classification supervis√©e ‚Äì jeu de donn√©es *Iris*

### ‚û°Ô∏è √Ä tester  
1. Changez `test_size` √† **0.4** ou **0.1** pour observer l‚Äôimpact sur la pr√©cision.  
2. Remplacez `LogisticRegression` par `DecisionTreeClassifier` (√† importer depuis `sklearn.tree`) puis r√©‚Äëex√©cutez.  
3. Modifiez `random_state` (graine al√©atoire)¬†: le d√©coupage change, la pr√©cision aussi.  


## 2Ô∏è‚É£ R√©seau de neurones de base avec Keras/TensorFlow

In [None]:
# üß† Importations
import tensorflow as tf
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt

# üß† D√©finition de l'architecture du r√©seau
# - input_shape=(4,) car chaque fleur = 4 chiffres
# - 1 couche cach√©e de 16 neurones (Dense) avec fonction d'activation ReLU
# - sortie Dense(3) car 3 esp√®ces, activation softmax -> probas qui se somment √† 1
model = models.Sequential([
    layers.Dense(16, activation='relu', input_shape=(4,)),
    layers.Dense(3, activation='softmax')
])

# üß† Compilation¬†: on choisit comment apprendre
model.compile(
    optimizer='adam',                          # m√©thode de descente de gradient
    loss='sparse_categorical_crossentropy',    # ad√©quat pour plusieurs classes
    metrics=['accuracy']                       # on suit l'accuracy
)

# üß† Apprentissage
history = model.fit(
    X_train, y_train,
    epochs=50,             # 50 passes sur les donn√©es
    batch_size=16,         # nombre d'exemples vus avant mise √† jour des poids
    verbose=0,             # 0 = silencieux, 1 = barre de progression
    validation_split=0.2   # 20¬†% du train sert √† valider (d√©tecter overfitting)
)

# üß† Visualisation de la courbe d'apprentissage
plt.plot(history.history['accuracy'], label='Train acc')
plt.plot(history.history['val_accuracy'], label='Validation acc')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Apprentissage du r√©seau de neurones')
plt.show()

# üß† √âvaluation finale sur le jeu de test
test_loss, test_acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Pr√©cision sur le test¬†: {test_acc:.2f}")


### ‚û°Ô∏è √Ä tester  
* **Complexit√© du r√©seau¬†:** ajoutez une seconde couche Dense, ou augmentez le nombre d‚Äôunit√©s (ex¬†: 32).  
* **Fonction d‚Äôactivation¬†:** essayez `tanh` ou `elu` √† la place de `relu`.  
* **Nombre d‚Äôepochs¬†:** mettez 200 et observez si le mod√®le **sur‚Äëapprend** (la courbe validation diverge).  


## 3Ô∏è‚É£ G√©n√©ration de texte (LLM open source GPT‚Äë2)

In [None]:
# ‚úçÔ∏è Importer un pipeline de g√©n√©ration depuis HuggingFace Transformers
from transformers import pipeline

# Le mod√®le GPT‚Äë2 (124¬†M param√®tres) tient dans 500‚ÄØMB ‚Äì raisonnable pour un atelier
generator = pipeline('text-generation', model='gpt2')

prompt = "Dans le futur,"  # phrase de d√©part
resultats = generator(prompt, max_length=40, num_return_sequences=1)

print("\n--- Texte g√©n√©r√© ---\n")
print(resultats[0]['generated_text'])


> **Note s√©curit√©/√©thique¬†:** GPT‚Äë2 est open‚Äësource et non filtr√©‚ÄØ; il peut produire du contenu inexact ou inappropri√©. N‚Äôutilisez jamais les sorties sans relecture humaine.  


## 4Ô∏è‚É£ (Bonus) Biais et √©quit√© ‚Äì mini‚Äësimulation

In [None]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import balanced_accuracy_score

# üé≤ G√©n√©rons un jeu de donn√©es *biais√©*
np.random.seed(0)
n = 200

# sensitive_attribute = appartenance √† un groupe (0 ou 1)
sensitive_attribute = np.random.randint(0, 2, size=n)

# feature = caract√©ristique 'm√©ritocratique'
feature = np.random.randn(n)

# label = d√©cision d'embauche (1) ou refus (0); 
# le groupe 1 a +0.5 point d'avantage -> biais dans la *r√©alit√©*
label = (feature + sensitive_attribute * 0.5 > 0).astype(int)

X = feature.reshape(-1, 1)
y = label

# ‚öñÔ∏è Mod√®le na√Øf qui ignore la variable sensible
clf = LogisticRegression().fit(X, y)
pred = clf.predict(X)

# ‚öñÔ∏è √âquit√©¬†: comparons la balanced_accuracy par groupe
for group in [0, 1]:
    idx = sensitive_attribute == group
    acc = balanced_accuracy_score(y[idx], pred[idx])
    print(f"Groupe {group} ‚Äì balanced accuracy¬†: {acc:.2f}")


Vous devriez constater que le mod√®le **n‚Äôefface pas** le biais d‚Äôorigine¬†; au contraire il peut le renforcer.  
üëâ Conclusion‚ÄØ: √©valuer un mod√®le seulement sur une m√©trique globale peut masquer des discriminations.  
