# Préparation des variables pour les variables d'activités 

In [None]:
library(tidyverse)
library(factoextra)

# Charger les données
df_pilot1_2022 <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/qc2022/01_pilot1_2022.rds")

# Charger le fichier des variables
source("01-1_variables.R")

# Préparation du jeu de données pour les variables d'activités
df_act <- df_pilot1_2022 %>%
  select(all_of(variables_act))

In [None]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}


### Transformations

Transformer les variables ordinales pour un regroupement avec des sous-groupes de cardinalité plus adéquate pour
la représentativité de la population.

Les variables ordinales dénotent une intensité d'opinion (0, 0.25, 0.5, 0.75, 1)

Comme les 1 sont peu nombreux, il semble avantageux de transformer les variables en 0, 0.5 et 1 où

- 0.25 est intégré à 0.5
- 0.75 est intégré à 1

In [None]:
# S'assurer que les variables ont le bon type
df_act$act_Gym <- as.numeric(df_act$act_Gym)
df_act$act_Walk <- as.numeric(df_act$act_Walk)
df_act$act_Run <- as.numeric(df_act$act_Run)
df_act$act_Yoga <- as.numeric(df_act$act_Yoga)
df_act$act_Other <- as.numeric(df_act$act_Other)
df_act$act_None <- as.numeric(df_act$act_None)

In [None]:
df_act$act_Fishing <- ifelse(df_act$act_Fishing == 0.25, 0.5, ifelse(df_act$act_Fishing == 0.75, 1, df_act$act_Fishing))
df_act$act_Hunting <- ifelse(df_act$act_Hunting == 0.25, 0.5, ifelse(df_act$act_Hunting == 0.75, 1, df_act$act_Hunting))
df_act$act_VisitsMuseumsGaleries <- ifelse(df_act$act_VisitsMuseumsGaleries == 0.25, 0.5, ifelse(df_act$act_VisitsMuseumsGaleries == 0.75, 1, df_act$act_VisitsMuseumsGaleries))
df_act$act_MotorizedOutdoorActivities <- ifelse(df_act$act_MotorizedOutdoorActivities == 0.25, 0.5, ifelse(df_act$act_MotorizedOutdoorActivities == 0.75, 1, df_act$act_MotorizedOutdoorActivities))
df_act$act_Volunteering <- ifelse(df_act$act_Volunteering == 0.25, 0.5, ifelse(df_act$act_Volunteering == 0.75, 1, df_act$act_Volunteering))


In [None]:
str(df_act)

In [None]:
variables_act_clust <- c(
  "id",
  "act_Gym",
  "act_Walk",
  "act_Run",
  "act_Yoga",
  "act_Other",
  "act_None",
  "act_Fishing",
  "act_Hunting",
  "act_VisitsMuseumsGaleries",
  "act_MotorizedOutdoorActivities",
  "act_Volunteering"
)

In [None]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_act_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_act[[v]]))
    cat("\n\n")
  }
}

In [None]:
# Sauvegarder les données préparées
saveRDS(df_act, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/qc2022/02_pilot1_2022_act.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.