# Préparation des variables pour les variables d'activités 

In [None]:
library(tidyverse)
library(factoextra)

# Charger les données
DataPilot <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/01_pilot_2025.rds")

# Charger le fichier des variables
source("01-1_variables.R")

# Préparation du jeu de données pour les variables d'activités
df_act <- DataPilot %>%
  select(all_of(variables_act))

In [None]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}


### Transformations

Transformer les variables ordinales pour un regroupement avec des sous-groupes de cardinalité plus adéquate pour
la représentativité de la population.

Les variables ordinales dénotent une intensité d'opinion (0, 0.25, 0.5, 0.75, 1)

Comme les 1 sont peu nombreux, il semble avantageux de transformer les variables en 0, 0.5 et 1 où

- 0.25 est intégré à 0.5
- 0.75 est intégré à 1

In [None]:
# S'assurer que les variables ont le bon type
df_act$lifestyle_exerciseGym <- as.numeric(df_act$lifestyle_exerciseGym)
df_act$lifestyle_exerciseTeamSport <- as.numeric(df_act$lifestyle_exerciseTeamSport)
df_act$lifestyle_exerciseWalk <- as.numeric(df_act$lifestyle_exerciseWalk)
df_act$lifestyle_exerciseRun <- as.numeric(df_act$lifestyle_exerciseRun)
df_act$lifestyle_exerciseYoga <- as.numeric(df_act$lifestyle_exerciseYoga)
df_act$lifestyle_exerciseSwim <- as.numeric(df_act$lifestyle_exerciseSwim)
df_act$lifestyle_exerciseOther <- as.numeric(df_act$lifestyle_exerciseOther)
df_act$lifestyle_exerciseNone <- as.numeric(df_act$lifestyle_exerciseNone)


In [None]:
df_act$lifestyle_goFishingFreq_numeric <- ifelse(df_act$lifestyle_goFishingFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goFishingFreq_numeric == 0.75, 1, df_act$lifestyle_goFishingFreq_numeric))
df_act$lifestyle_goHuntingFreq_numeric <- ifelse(df_act$lifestyle_goHuntingFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goHuntingFreq_numeric == 0.75, 1, df_act$lifestyle_goHuntingFreq_numeric))
df_act$lifestyle_goMuseumsFreq_numeric <- ifelse(df_act$lifestyle_goMuseumsFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_goMuseumsFreq_numeric == 0.75, 1, df_act$lifestyle_goMuseumsFreq_numeric))
df_act$lifestyle_motorizedActFreq_numeric <- ifelse(df_act$lifestyle_motorizedActFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_motorizedActFreq_numeric == 0.75, 1, df_act$lifestyle_motorizedActFreq_numeric))
df_act$lifestyle_volunteeringFreq_numeric <- ifelse(df_act$lifestyle_volunteeringFreq_numeric == 0.25, 0.5,
  ifelse(df_act$lifestyle_volunteeringFreq_numeric == 0.75, 1, df_act$lifestyle_volunteeringFreq_numeric))


In [None]:
str(df_act)

In [None]:
variables_act_clust <- c(
  "id",
  "lifestyle_exerciseGym",
  "lifestyle_exerciseTeamSport",
  "lifestyle_exerciseWalk",
  "lifestyle_exerciseRun",
  "lifestyle_exerciseYoga",
  "lifestyle_exerciseSwim",
  "lifestyle_exerciseOther",
  "lifestyle_exerciseNone",
  "lifestyle_goFishingFreq_numeric",
  "lifestyle_goHuntingFreq_numeric",
  "lifestyle_goMuseumsFreq_numeric",
  "lifestyle_motorizedActFreq_numeric",
  "lifestyle_volunteeringFreq_numeric"
)

In [None]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}

In [None]:
# Sauvegarder les données préparées
saveRDS(df_act, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/02_pilot_2025_act.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.