**Importation des donn√©es**

In [6]:
from google.colab import files

# Cette commande va ouvrir un bouton pour uploader un fichier
uploaded = files.upload()

Saving colon_cancer.csv to colon_cancer.csv


**Importation**

In [3]:
# --- Imports ---
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import joblib

print("‚úîÔ∏è Imports termin√©s")


‚úîÔ∏è Imports termin√©s


**Chargement et pr√©traitement des donn√©es**

In [7]:
# Chargement et pr√©traitement des donn√©es

# Chargement
data = pd.read_csv("colon_cancer.csv", sep=";")
data["tissue_status"] = data["tissue_status"].map({"normal": 0, "tumoral": 1})

# Gestion des valeurs manquantes
if data.isnull().sum().sum() > 0:
    data = data.dropna()

# S√©paration features / cible
X = data.drop(columns=["id_sample", "tissue_status"])
y = data["tissue_status"]

print(f"‚úîÔ∏è Donn√©es charg√©es et pr√©trait√©es ({data.shape[0]} √©chantillons)")


‚úîÔ∏è Donn√©es charg√©es et pr√©trait√©es (804 √©chantillons)


**S√©lection du meilleur g√®ne par p-value**

In [8]:
## üîç S√©lection du meilleur g√®ne bas√© sur la p-value

p_values = {}

for gene in X.columns:
    normal = X[gene][y == 0]
    tumoral = X[gene][y == 1]
    t_stat, p_val = ttest_ind(normal, tumoral, equal_var=False)
    p_values[gene] = p_val

# G√®ne avec la p-value minimale
best_gene = min(p_values, key=p_values.get)

print(f"üèÜ Meilleur g√®ne s√©lectionn√© : {best_gene} (p-value : {p_values[best_gene]:.6f})")


üèÜ Meilleur g√®ne s√©lectionn√© : UGP2 (p-value : 0.000000)


**Pr√©paration des donn√©es pour la mod√©lisation**

In [11]:
## ‚öôÔ∏è Pr√©paration des donn√©es pour la mod√©lisation

# S√©lection du meilleur g√®ne
X_best = X[[best_gene]]

# Normalisation
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_best)

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

print(f"‚úîÔ∏è Donn√©es pr√™tes pour l'entra√Ænement (train: {X_train.shape[0]}, test: {X_test.shape[0]})")


‚úîÔ∏è Donn√©es pr√™tes pour l'entra√Ænement (train: 643, test: 161)


**Entra√Ænement et √©valuation des mod√®les**

In [12]:
## üèãÔ∏è‚Äç‚ôÇÔ∏è Entra√Ænement et √©valuation des mod√®les

models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(random_state=42),
    "Logistic Regression": LogisticRegression(random_state=42),
    "SVM": SVC(random_state=42),
    "KNN": KNeighborsClassifier(),
}

model_scores = {}

for name, model in models.items():
    scores = cross_val_score(model, X_train, y_train, cv=5, scoring="accuracy")
    mean_score = scores.mean()
    model_scores[name] = mean_score
    print(f"{name} - Pr√©cision moyenne : {mean_score:.4f}")

# Meilleur mod√®le
best_model_name = max(model_scores, key=model_scores.get)
best_score = model_scores[best_model_name]

print(f"üèÜ Meilleur mod√®le : {best_model_name} avec une pr√©cision de {best_score:.4f}")


Decision Tree - Pr√©cision moyenne : 0.9564
Random Forest - Pr√©cision moyenne : 0.9564
Logistic Regression - Pr√©cision moyenne : 0.9735
SVM - Pr√©cision moyenne : 0.9720
KNN - Pr√©cision moyenne : 0.9688
üèÜ Meilleur mod√®le : Logistic Regression avec une pr√©cision de 0.9735


**Entra√Ænement final et exportation du mod√®le**

In [14]:
## üèÅ Entra√Ænement final et exportation du mod√®le

# Entra√Æner sur train
best_model = models[best_model_name]
best_model.fit(X_train, y_train)

# √âvaluer sur test
test_score = best_model.score(X_test, y_test)
print(f"‚úÖ Pr√©cision sur l'ensemble de test : {test_score:.4f}")

# Sauvegarde du mod√®le et du scaler
joblib.dump(best_model, "colon_cancer_model.pkl")
joblib.dump(scaler, "scaler.pkl")

print("üì¶ Mod√®le et scaler sauvegard√©s sous 'colon_cancer_model.pkl' et 'scaler.pkl'")


‚úÖ Pr√©cision sur l'ensemble de test : 1.0000
üì¶ Mod√®le et scaler sauvegard√©s sous 'colon_cancer_model.pkl' et 'scaler.pkl'


**T√©l√©charger le modele**

In [16]:
from google.colab import files

files.download('colon_cancer_model.pkl')
files.download('scaler.pkl')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>