In [None]:
!R --version


R version 4.4.3 (2025-02-28) -- "Trophy Case"
Copyright (C) 2025 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under the terms of the
GNU General Public License versions 2 or 3.
For more information about these matters see
https://www.gnu.org/licenses/.



In [7]:
%%R
# Installer et charger les packages nécessaires
install.packages("mlbench")  # Package contenant des jeux de données pour l'apprentissage machine
install.packages("caret")    # Package pour l'apprentissage supervisé et la validation croisée
library(mlbench)
library(caret)

# Charger les données sur le cancer du sein
data(BreastCancer, package="mlbench")

# Garder uniquement les lignes complètes (supprimer celles contenant des valeurs manquantes)
bc <- BreastCancer[complete.cases(BreastCancer), ]

# Supprimer la colonne ID qui est inutile pour l'analyse
bc <- bc[,-1]

# Convertir les colonnes (1 à 9) en valeurs numériques
for(i in 1:9) {
  bc[, i] <- as.numeric(as.character(bc[, i]))
}

# Convertir la variable cible "Class" en format binaire (1 pour "malignant", 0 pour "benign")
bc$Class <- ifelse(bc$Class == "malignant", 1, 0)
bc$Class <- factor(bc$Class, levels = c(0, 1))  # Transformer en facteur

# Définir un opérateur "not in" personnalisé
'%ni%' <- Negate('%in%')

# Désactiver l'affichage en notation scientifique
options(scipen = 999)

# Fixer le générateur aléatoire pour la reproductibilité
set.seed(100)

# Séparer les données en ensemble d'entraînement (70%) et de test (30%)
trainDataIndex <- createDataPartition(bc$Class, p = 0.7, list = FALSE)
trainData <- bc[trainDataIndex, ]  # Données d'entraînement
testData <- bc[-trainDataIndex, ]  # Données de test

# Afficher la distribution des classes dans l'ensemble d'entraînement
table(trainData$Class)

# **Sous-échantillonnage (Down Sampling)**
set.seed(100)
down_train <- downSample(x = trainData[, colnames(trainData) %ni% "Class"],
                         y = trainData$Class)

# **Sur-échantillonnage (Up Sampling)**
set.seed(100)
up_train <- upSample(x = trainData[, colnames(trainData) %ni% "Class"],
                     y = trainData$Class)

# Vérifier la distribution des classes après sur-échantillonnage
table(up_train$Class)

# **Construction du modèle de régression logistique**
logitmod <- glm(Class ~ Cl.thickness + Cell.size + Cell.shape, family = "binomial",
                data = down_train)

# Afficher un résumé du modèle
summary(logitmod)

# **Faire des prédictions sur les données de test**
pred <- predict(logitmod, newdata = testData, type = "response")

# Convertir les probabilités en classes binaires (seuil de 0.5)
y_pred_num <- ifelse(pred > 0.5, 1, 0)
y_pred <- factor(y_pred_num, levels = c(0, 1))  # Convertir en facteur

# Extraire les vraies étiquettes des données de test
y_act <- testData$Class

# **Calculer l'exactitude du modèle**
mean(y_pred == y_act)  # Résultat ~94%





[1] 0.9558824


Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/src/contrib/mlbench_2.1-6.tar.gz'
Content type 'application/x-gzip' length 921024 bytes (899 KB)
downloaded 899 KB


The downloaded source packages are in
	‘/tmp/RtmpOsSTkJ/downloaded_packages’
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/src/contrib/caret_7.0-1.tar.gz'
Content type 'application/x-gzip' length 2273919 bytes (2.2 MB)
downloaded 2.2 MB


The downloaded source packages are in
	‘/tmp/RtmpOsSTkJ/downloaded_packages’


Ce code entraîne un modèle de régression logistique pour classer les cas de cancer du sein en bénins ou malins.

Il utilise une partition des données (70% entraînement, 30% test).
Il applique une technique de rééquilibrage des classes : sous-échantillonnage (downSample) et sur-échantillonnage (upSample).

L'entraînement du modèle se fait sur l'ensemble sous-échantillonné (down_train).
L'évaluation du modèle se fait en comparant les prédictions aux vraies étiquettes.

In [None]:
%%R
install.packages("mlbench")
install.packages("caret")

library(mlbench)
library(caret)



Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/src/contrib/mlbench_2.1-6.tar.gz'
Content type 'application/x-gzip' length 921024 bytes (899 KB)
downloaded 899 KB


The downloaded source packages are in
	‘/tmp/RtmpOsSTkJ/downloaded_packages’
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)
also installing the dependencies ‘listenv’, ‘parallelly’, ‘future’, ‘globals’, ‘shape’, ‘future.apply’, ‘numDeriv’, ‘progressr’, ‘SQUAREM’, ‘diagram’, ‘lava’, ‘prodlim’, ‘proxy’, ‘iterators’, ‘clock’, ‘gower’, ‘hardhat’, ‘ipred’, ‘sparsevctrs’, ‘timeDate’, ‘e1071’, ‘foreach’, ‘ModelMetrics’, ‘plyr’, ‘pROC’, ‘recipes’, ‘reshape2’

trying URL 'https://cran.rstudio.com/src/contrib/listenv_0.9.1.tar.gz'
Content type 'application/x-gzip' length 36600 bytes (35 KB)
downloaded 35 KB

trying URL 'https://cran.rstudio.com/src/contrib/parallelly_1.42.0.tar.gz'
Content type 'application/x-gzip' length 304689 

In [6]:
%%R
library(mlbench)
library(caret)


In [None]:
!apt-get install -y r-base
!pip install rpy2


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
r-base is already the newest version (4.4.3-1.2204.0).
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.


In [None]:
%load_ext rpy2.ipython
