# Préparation des variables pour les variables d'activités 

In [2]:
library(tidyverse)
library(factoextra)

# Charger les données
DataPilot <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/01_pilot_2025.rds")

# Charger le fichier des variables
source("01-1_variables.R")

# Préparation du jeu de données pour les variables d'activités
df_act <- DataPilot %>%
  select(all_of(variables_act))

-- [1mAttaching core tidyverse packages[22m ------------------------ tidyverse 2.0.0 --
[32mv[39m [34mdplyr    [39m 1.1.4     [32mv[39m [34mreadr    [39m 2.1.5
[32mv[39m [34mforcats  [39m 1.0.0     [32mv[39m [34mstringr  [39m 1.5.1
[32mv[39m [34mggplot2  [39m 3.5.1     [32mv[39m [34mtibble   [39m 3.2.1
[32mv[39m [34mlubridate[39m 1.9.3     [32mv[39m [34mtidyr    [39m 1.3.1
[32mv[39m [34mpurrr    [39m 1.0.2     
-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mi[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors
Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa



In [3]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}


Table pour la variable: lifestyle_exerciseGym 

  0   1 
860 172 


Table pour la variable: lifestyle_exerciseTeamSport 

  0   1 
973  59 


Table pour la variable: lifestyle_exerciseWalk 

  0   1 
509 523 


Table pour la variable: lifestyle_exerciseRun 

  0   1 
986  46 


Table pour la variable: lifestyle_exerciseYoga 

   0    1 
1010   22 


Table pour la variable: lifestyle_exerciseSwim 

   0    1 
1010   22 


Table pour la variable: lifestyle_exerciseOther 

  0   1 
935  97 


Table pour la variable: lifestyle_exerciseNone 

  0   1 
941  91 


Table pour la variable: lifestyle_goFishingFreq 

  1   2   3   4   5 
596 196 175  47  18 


Table pour la variable: lifestyle_goHuntingFreq 

  1   2   3   4   5 
854  90  51  27  10 


Table pour la variable: lifestyle_goMuseumsFreq 

  1   2   3   4   5 
206 262 445  96  23 


Table pour la variable: lifestyle_motorizedActFreq 

  1   2   3   4   5 
613 205 132  60  22 


Table pour la variable: lifestyle_volunteeringFreq 

  1 

### Transformations

Transformer les variables ordinales pour un regroupement avec des sous-groupes de cardinalité plus adéquate pour
la représentativité de la population.

Les variables ordinales dénotent une intensité d'opinion (0, 0.25, 0.5, 0.75, 1)

Comme les 1 sont peu nombreux, il semble avantageux de transformer les variables en 0, 0.5 et 1 où

- 0.25 est intégré à 0.5
- 0.75 est intégré à 1

In [4]:
# S'assurer que les variables ont le bon type
df_act$lifestyle_exerciseGym <- as.numeric(df_act$lifestyle_exerciseGym)
df_act$lifestyle_exerciseTeamSport <- as.numeric(df_act$lifestyle_exerciseTeamSport)
df_act$lifestyle_exerciseWalk <- as.numeric(df_act$lifestyle_exerciseWalk)
df_act$lifestyle_exerciseRun <- as.numeric(df_act$lifestyle_exerciseRun)
df_act$lifestyle_exerciseYoga <- as.numeric(df_act$lifestyle_exerciseYoga)
df_act$lifestyle_exerciseSwim <- as.numeric(df_act$lifestyle_exerciseSwim)
df_act$lifestyle_exerciseOther <- as.numeric(df_act$lifestyle_exerciseOther)
df_act$lifestyle_exerciseNone <- as.numeric(df_act$lifestyle_exerciseNone)


In [13]:
df_act$lifestyle_goFishingFreq <- ifelse(df_act$lifestyle_goFishingFreq == 0.25, 0.5,
  ifelse(df_act$lifestyle_goFishingFreq == 0.75, 1, df_act$lifestyle_goFishingFreq))
df_act$lifestyle_goHuntingFreq <- ifelse(df_act$lifestyle_goHuntingFreq == 0.25, 0.5,
  ifelse(df_act$lifestyle_goHuntingFreq == 0.75, 1, df_act$lifestyle_goHuntingFreq))
df_act$lifestyle_goMuseumsFreq <- ifelse(df_act$lifestyle_goMuseumsFreq == 0.25, 0.5,
  ifelse(df_act$lifestyle_goMuseumsFreq == 0.75, 1, df_act$lifestyle_goMuseumsFreq))
df_act$lifestyle_motorizedActFreq <- ifelse(df_act$lifestyle_motorizedActFreq == 0.25, 0.5,
  ifelse(df_act$lifestyle_motorizedActFreq == 0.75, 1, df_act$lifestyle_motorizedActFreq))
df_act$lifestyle_volunteeringFreq <- ifelse(df_act$lifestyle_volunteeringFreq == 0.25, 0.5,
  ifelse(df_act$lifestyle_volunteeringFreq == 0.75, 1, df_act$lifestyle_volunteeringFreq))


In [6]:
str(df_act)

'data.frame':	1032 obs. of  14 variables:
 $ id                         : int  1 2 3 4 5 6 7 8 9 11 ...
 $ lifestyle_exerciseGym      : num  0 0 0 1 0 0 0 0 1 0 ...
 $ lifestyle_exerciseTeamSport: num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseWalk     : num  1 1 0 0 0 0 1 1 0 0 ...
 $ lifestyle_exerciseRun      : num  0 0 1 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseYoga     : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseSwim     : num  0 0 0 0 0 0 0 0 0 0 ...
 $ lifestyle_exerciseOther    : num  0 0 0 0 0 0 0 0 0 1 ...
 $ lifestyle_exerciseNone     : num  0 0 0 0 1 1 0 0 0 0 ...
 $ lifestyle_goFishingFreq    : num  2 1 2 1 1 1 1 3 2 2 ...
 $ lifestyle_goHuntingFreq    : num  1 1 2 1 1 1 1 1 1 2 ...
 $ lifestyle_goMuseumsFreq    : num  2 3 1 3 1 1 2 3 3 2 ...
 $ lifestyle_motorizedActFreq : num  1 1 5 2 2 1 1 3 1 1 ...
 $ lifestyle_volunteeringFreq : num  3 2 2 2 1 1 2 2 1 2 ...


In [11]:
variables_act_clust <- c(
  "id",
  "lifestyle_exerciseGym",
  "lifestyle_exerciseTeamSport",
  "lifestyle_exerciseWalk",
  "lifestyle_exerciseRun",
  "lifestyle_exerciseYoga",
  "lifestyle_exerciseSwim",
  "lifestyle_exerciseOther",
  "lifestyle_exerciseNone",
  "lifestyle_goFishingFreq",
  "lifestyle_goHuntingFreq",
  "lifestyle_goMuseumsFreq",
  "lifestyle_motorizedActFreq",
  "lifestyle_volunteeringFreq"
)

In [12]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}

Table pour la variable: lifestyle_exerciseGym 

  0   1 
860 172 


Table pour la variable: lifestyle_exerciseTeamSport 

  0   1 
973  59 


Table pour la variable: lifestyle_exerciseWalk 

  0   1 
509 523 


Table pour la variable: lifestyle_exerciseRun 

  0   1 
986  46 


Table pour la variable: lifestyle_exerciseYoga 

   0    1 
1010   22 


Table pour la variable: lifestyle_exerciseSwim 

   0    1 
1010   22 


Table pour la variable: lifestyle_exerciseOther 

  0   1 
935  97 


Table pour la variable: lifestyle_exerciseNone 

  0   1 
941  91 


Table pour la variable: lifestyle_goFishingFreq 

  1   2   3   4   5 
596 196 175  47  18 


Table pour la variable: lifestyle_goHuntingFreq 

  1   2   3   4   5 
854  90  51  27  10 


Table pour la variable: lifestyle_goMuseumsFreq 

  1   2   3   4   5 
206 262 445  96  23 


Table pour la variable: lifestyle_motorizedActFreq 

  1   2   3   4   5 
613 205 132  60  22 


Table pour la variable: lifestyle_volunteeringFreq 

  1 

In [9]:
# Sauvegarder les données préparées
saveRDS(df_act, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/02_pilot_2025_act.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.