In [None]:
%%R
# Charger les données
data <- read.table("MCV.txt", header = TRUE)

# Vérifier les premières lignes du dataset
head(data)

# Regrouper et afficher les données par classe d'âge
library(dplyr)
data_grouped <- data %>%
  group_by(AGRP) %>%
  summarise(Count = n(), CHD_Rate = mean(CHD))

print(data_grouped)
library(ggplot2)

# Nuage de points CHD en fonction de l'âge
ggplot(data, aes(x = AGE, y = CHD)) +
  geom_jitter(width = 0.5, height = 0.05, alpha = 0.6) +
  labs(title = "Relation entre l'âge et la maladie cardiovasculaire",
       x = "Âge", y = "Présence de CHD (1=oui, 0=non)") +
  theme_minimal()
# Calculer la proportion des malades par classe d'âge
data_grouped <- data %>%
  group_by(AGRP) %>%
  summarise(Count = n(), CHD_Rate = mean(CHD))

# Définir les centres des classes d'âge
centres <- as.numeric(levels(factor(data$AGRP)))

# Tracer le nuage de points
ggplot(data_grouped, aes(x = centres, y = CHD_Rate)) +
  geom_point(size = 3, color = "red") +
  labs(title = "Proportion de malades par classe d'âge",
       x = "Classe d'âge", y = "Proportion de malades") +
  theme_minimal()
# Ajuster le modèle logistique
logit_model <- glm(CHD ~ AGE, data = data, family = binomial)

# Résumé du modèle
summary(logit_model)
# Prédire les probabilités selon l'âge
data$logit_pred <- predict(logit_model, type = "response")

# Tracer la courbe logistique ajustée
ggplot(data, aes(x = AGE, y = CHD)) +
  geom_jitter(width = 0.5, height = 0.05, alpha = 0.6) +
  geom_smooth(method = "glm", method.args = list(family = binomial), color = "blue") +
  labs(title = "Régression Logistique : CHD ~ AGE",
       x = "Âge", y = "Probabilité de maladie cardiovasculaire") +
  theme_minimal()
# Ajuster le modèle probit
probit_model <- glm(CHD ~ AGE, data = data, family = binomial(link = "probit"))

# Résumé des modèles
summary(logit_model)
summary(probit_model)
# Calculer la cote pour un âge donné
age_30 <- data.frame(AGE = 30)

logit_odds_30 <- predict(logit_model, newdata = age_30, type = "response")
probit_odds_30 <- predict(probit_model, newdata = age_30, type = "response")

print(paste("Cote prédite pour un individu de 30 ans (logit) :", logit_odds_30))
print(paste("Cote prédite pour un individu de 30 ans (probit) :", probit_odds_30))

# Calculer le rapport de cotes (Odds Ratio)
odds_ratio <- exp(coef(logit_model)["AGE"])
print(paste("Odds Ratio pour AGE :", odds_ratio))


# A tibble: 8 × 3
   AGRP Count CHD_Rate
  <int> <int>    <dbl>
1     1    10    0.1  
2     2    15    0.133
3     3    12    0.25 
4     4    15    0.333
5     5    13    0.462
6     6     8    0.625
7     7    17    0.765
8     8    10    0.8  
[1] "Cote prédite pour un individu de 30 ans (logit) : 0.121125053503589"
[1] "Cote prédite pour un individu de 30 ans (probit) : 0.120678603974014"
[1] "Odds Ratio pour AGE : 1.11730679503212"



Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



Rapport : Analyse de l'Âge et des Maladies Cardiovasculaires
Objectif : Étudier l'effet de l'âge sur la présence de maladies cardiovasculaires (CHD) avec des modèles de régression.

Méthodes :

Chargement des données.
Visualisation des données (nuage de points, proportion par classe d'âge).
Ajustement des modèles logistique et probit.
Prédiction du risque pour un individu de 30 ans.
Calcul du rapport de cotes (Odds Ratio) pour mesurer l'effet de l'âge.
Résultats :

L'âge influence la probabilité de maladie.
Les modèles logistique et probit donnent des résultats similaires.
Le risque augmente avec l'âge.

In [None]:
!apt-get install -y r-base
!pip install rpy2
%load_ext rpy2.ipython

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
r-base is already the newest version (4.4.3-1.2204.0).
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.
