# Préparation des variables pour les variables d'activités 

In [2]:
library(tidyverse)
library(factoextra)

# Charger les données
DataApp <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/01_app_2025.rds")

# Charger le fichier des variables
source("01-1_variables.R")

# Préparation du jeu de données pour les variables d'activités
df_act <- DataApp %>%
  select(all_of(variables_act))

In [3]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}


Table pour la variable: lifestyle_exerciseGym 

    0     1 
37554  5522 


Table pour la variable: lifestyle_exerciseTeamSport 

    0     1 
41337  1739 


Table pour la variable: lifestyle_exerciseWalk 

    0     1 
21937 21139 


Table pour la variable: lifestyle_exerciseRun 

    0     1 
40933  2143 


Table pour la variable: lifestyle_exerciseYoga 

    0     1 
41162  1914 


Table pour la variable: lifestyle_exerciseSwim 

    0     1 
41842  1234 


Table pour la variable: lifestyle_exerciseOther 

    0     1 
39165  3911 


Table pour la variable: lifestyle_exerciseNone 

    0     1 
37602  5474 


Table pour la variable: lifestyle_goFishingFreq_numeric 

    0  0.25   0.5  0.75 
29204  6293  5654  1410 


Table pour la variable: lifestyle_goHuntingFreq_numeric 

    0  0.25   0.5  0.75     1 
38763  1712  1627   641   333 


Table pour la variable: lifestyle_goMuseumsFreq_numeric 

    0  0.25   0.5  0.75     1 
11249 13884 15341  2173   429 


Table pour la variable: li

### Transformations

Transformer les variables ordinales pour un regroupement avec des sous-groupes de cardinalité plus adéquate pour
la représentativité de la population.

Les variables ordinales dénotent une intensité d'opinion (0, 0.25, 0.5, 0.75, 1)

Comme les 1 sont peu nombreux, il semble avantageux de transformer les variables en 0, 0.5 et 1 où

- 0.25 est intégré à 0.5
- 0.75 est intégré à 1

In [4]:
# S'assurer que les variables ont le bon type
df_act$lifestyle_exerciseGym <- as.numeric(df_act$lifestyle_exerciseGym)
df_act$lifestyle_exerciseTeamSport <- as.numeric(df_act$lifestyle_exerciseTeamSport)
df_act$lifestyle_exerciseWalk <- as.numeric(df_act$lifestyle_exerciseWalk)
df_act$lifestyle_exerciseRun <- as.numeric(df_act$lifestyle_exerciseRun)
df_act$lifestyle_exerciseYoga <- as.numeric(df_act$lifestyle_exerciseYoga)
df_act$lifestyle_exerciseSwim <- as.numeric(df_act$lifestyle_exerciseSwim)
df_act$lifestyle_exerciseOther <- as.numeric(df_act$lifestyle_exerciseOther)
df_act$lifestyle_exerciseNone <- as.numeric(df_act$lifestyle_exerciseNone)


In [5]:
df_act$lifestyle_goFishingFreq_numeric <- ifelse(df_act$lifestyle_goFishingFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goFishingFreq_numeric == 0.75, 1, df_act$lifestyle_goFishingFreq_numeric))
df_act$lifestyle_goHuntingFreq_numeric <- ifelse(df_act$lifestyle_goHuntingFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goHuntingFreq_numeric == 0.75, 1, df_act$lifestyle_goHuntingFreq_numeric))
df_act$lifestyle_goMuseumsFreq_numeric <- ifelse(df_act$lifestyle_goMuseumsFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goMuseumsFreq_numeric == 0.75, 1, df_act$lifestyle_goMuseumsFreq_numeric))
df_act$lifestyle_motorizedActFreq_numeric <- ifelse(df_act$lifestyle_motorizedActFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_motorizedActFreq_numeric == 0.75, 1, df_act$lifestyle_motorizedActFreq_numeric))
df_act$lifestyle_volunteeringFreq_numeric <- ifelse(df_act$lifestyle_volunteeringFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_volunteeringFreq_numeric == 0.75, 1, df_act$lifestyle_volunteeringFreq_numeric))


In [6]:
str(df_act)

'data.frame':	43076 obs. of  14 variables:
 $ id                                : int  1 2 3 4 5 6 7 8 9 10 ...
 $ lifestyle_exerciseGym             : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseTeamSport       : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseWalk            : num  1 1 0 0 0 0 0 0 1 0 ...
 $ lifestyle_exerciseRun             : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseYoga            : num  0 0 1 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseSwim            : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseOther           : num  0 0 0 1 0 0 1 0 0 0 ...
 $ lifestyle_exerciseNone            : num  0 0 0 0 1 1 0 1 0 1 ...
 $ lifestyle_goFishingFreq_numeric   : num  0.5 0.5 0 0 0.5 0 0 0.5 0 0 ...
 $ lifestyle_goHuntingFreq_numeric   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_goMuseumsFreq_numeric   : num  0.5 0.5 0.5 0.5 0.5 0.5 1 0 0 0.5 ...
 $ lifestyle_motorizedActFreq_numeric: num  0.5 0.5 0 0 0.5 0 1 0.5 0 0 ...
 $ lifestyle_volunteeringFreq_numeric: num

In [7]:
variables_act_clust <- c(
  "id",
  "lifestyle_exerciseGym",
  "lifestyle_exerciseTeamSport",
  "lifestyle_exerciseWalk",
  "lifestyle_exerciseRun",
  "lifestyle_exerciseYoga",
  "lifestyle_exerciseSwim",
  "lifestyle_exerciseOther",
  "lifestyle_exerciseNone",
  "lifestyle_goFishingFreq_numeric",
  "lifestyle_goHuntingFreq_numeric",
  "lifestyle_goMuseumsFreq_numeric",
  "lifestyle_motorizedActFreq_numeric",
  "lifestyle_volunteeringFreq_numeric"
)

In [8]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}

Table pour la variable: lifestyle_exerciseGym 

    0     1 
37554  5522 


Table pour la variable: lifestyle_exerciseTeamSport 

    0     1 
41337  1739 


Table pour la variable: lifestyle_exerciseWalk 

    0     1 
21937 21139 


Table pour la variable: lifestyle_exerciseRun 

    0     1 
40933  2143 


Table pour la variable: lifestyle_exerciseYoga 

    0     1 
41162  1914 


Table pour la variable: lifestyle_exerciseSwim 

    0     1 
41842  1234 


Table pour la variable: lifestyle_exerciseOther 

    0     1 
39165  3911 


Table pour la variable: lifestyle_exerciseNone 

    0     1 
37602  5474 


Table pour la variable: lifestyle_goFishingFreq_numeric 

    0   0.5     1 
29204 11947  1410 


Table pour la variable: lifestyle_goHuntingFreq_numeric 

    0   0.5     1 
38763  3339   974 


Table pour la variable: lifestyle_goMuseumsFreq_numeric 

    0   0.5     1 
11249 29225  2602 


Table pour la variable: lifestyle_motorizedActFreq_numeric 

    0   0.5     1 
29114 

In [9]:
# Sauvegarder les données préparées
saveRDS(df_act, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/02_app_2025_act.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.