# Préparation des variables de mode de vie

In [1]:
library(tidyverse)
library(factoextra)

# Charger les données
df_pilot1_2022 <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/qc2022/01_pilot1_2022.rds")

# Charger le fichier des variables
source("01-1_variables.R")

df_mode_de_vie <- df_pilot1_2022 %>%
  select(all_of(variables_mode_de_vie))

-- [1mAttaching core tidyverse packages[22m ------------------------ tidyverse 2.0.0 --
[32mv[39m [34mdplyr    [39m 1.1.4     [32mv[39m [34mreadr    [39m 2.1.5
[32mv[39m [34mforcats  [39m 1.0.0     [32mv[39m [34mstringr  [39m 1.5.1
[32mv[39m [34mggplot2  [39m 3.5.1     [32mv[39m [34mtibble   [39m 3.2.1
[32mv[39m [34mlubridate[39m 1.9.3     [32mv[39m [34mtidyr    [39m 1.3.1
[32mv[39m [34mpurrr    [39m 1.0.2     
-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mi[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors
Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa



In [2]:
library(dplyr)

df_mode_de_vie %>%
  select(starts_with("vehicule")) %>%
  summarise(across(everything(), \(x) sum(x, na.rm = TRUE)))
#  summarise(across(everything(), sum, na.rm = TRUE))

df_mode_de_vie %>%
  select(starts_with("act_transport")) %>%
  summarise(across(everything(), \(x) sum(x, na.rm = TRUE)))
#  summarise(across(everything(), sum, na.rm = TRUE))

vehicule_4x4,vehicule_Berline,vehicule_Cabriolet,vehicule_PickUp,vehicule_Van,vehicule_luxury,vehicule_sport,vehicule_electric,vehicule_VUS,vehicule_other,vehicule_noCar
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>
64,520,13,43,54,20,28,96,396,66,200


act_transport_Car,act_transport_SUV,act_transport_Moto,act_transport_Walk,act_transport_Bicycle,act_transport_PublicTransportation
<int>,<int>,<int>,<int>,<int>,<int>
913,183,8,188,53,155


In [3]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_mode_de_vie) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_mode_de_vie[[v]]))
    cat("\n\n")
  }
}

Table pour la variable: ses_dwelling_App 

   0    1 
1201  299 


Table pour la variable: ses_dwelling_Loft 

   0    1 
1492    8 


Table pour la variable: ses_dwelling_Condo 

   0    1 
1334  166 


Table pour la variable: ses_dwelling_Tour 

   0    1 
1463   37 


Table pour la variable: ses_dwelling_detachedHouse 

  0   1 
784 716 


Table pour la variable: ses_dwelling_townHouse 

   0    1 
1419   81 


Table pour la variable: ses_dwelling_Coop 

   0    1 
1493    7 


Table pour la variable: ses_dwelling_HLM 

   0    1 
1488   12 


Table pour la variable: ses_dwelling_Mobile 

   0    1 
1491    9 


Table pour la variable: ses_dwelling_Other 

   0    1 
1335  165 


Table pour la variable: act_transport_Car 

  0   1 
587 913 


Table pour la variable: act_transport_SUV 

   0    1 
1317  183 


Table pour la variable: act_transport_Moto 

   0    1 
1492    8 


Table pour la variable: act_transport_Walk 

   0    1 
1312  188 


Table pour la variable: act_transport_

### Transformations

- Regroupement de ses_dwelling
  - ses_dwelling_Condo : ses_dwelling_Condo + ses_dwelling_Loft + ses_dwelling_Tour
  - ses_dwelling_Other : ses_dwelling_Other + ses_dwelling_Coop + ses_dwelling_HLM + ses_dwelling_Mobile

- Regroupement des vehicules
  - vehicule_ToutTerrain : vehicule_4x4	+ vehicule_PickUp
  - vehicle_Voiture : vehicule_Berline + vehicule_Cabriolet + vehicule_luxury + vehicule_sport
  - vehicule_Van
  - vehicule_electric
  - vehicule_VUS
  - vehicule_other
  - vehicule_noCar

- Regroupement des act_transport
  - act_transport_Car : act_transport_Car + act_transport_Moto (parce qu'il y avraiment trop peu de moto, assigner la classe la plus populeuse)
  - Les autres ne sont pas regroupés

In [4]:
# Regroupement de ses_dwelling
#-----------------------------

df_mode_de_vie <- df_mode_de_vie %>%

  mutate(
    ses_dwelling_Condo = if_else(
      ses_dwelling_Loft == 1 | ses_dwelling_Tour == 1,
      1,
      ses_dwelling_Condo
    ),
    ses_dwelling_Other = if_else(
      ses_dwelling_Coop == 1 | ses_dwelling_HLM == 1 | ses_dwelling_Mobile == 1,
      1,
      ses_dwelling_Other
    )
  ) %>%
  select(
    -ses_dwelling_Loft,
    -ses_dwelling_Tour,
    -ses_dwelling_Coop,
    -ses_dwelling_HLM,
    -ses_dwelling_Mobile
  )

In [5]:
# Regroupement de vehicule
#-------------------------

df_mode_de_vie <- df_mode_de_vie %>%

  mutate(
    vehicule_ToutTerrain = if_else(
      vehicule_4x4 == 1 | vehicule_PickUp == 1,
      1,
      0
    ),
    vehicule_Voiture = if_else(
      vehicule_Berline == 1 | vehicule_Cabriolet == 1 | vehicule_luxury == 1 | vehicule_sport,
      1,
      0
    )
  ) %>%
  select(
    -vehicule_4x4,
    -vehicule_PickUp,
    -vehicule_Berline,
    -vehicule_Cabriolet,
    -vehicule_luxury,
    -vehicule_sport
  )

In [6]:
names(df_mode_de_vie)

In [7]:
# Regroupement de act_transport
#------------------------------

df_mode_de_vie <- df_mode_de_vie %>%
  mutate(
    act_transport_Car = if_else(
      act_transport_Car == 1 | act_transport_Moto == 1 | act_transport_SUV == 1,
       1, 0),
    act_transport_activeTransport = if_else(
      act_transport_Bicycle == 1 | act_transport_Walk == 1, 1, 0)) %>%
   select(
    -act_transport_Moto,
    -act_transport_SUV,
    -act_transport_Bicycle,
    -act_transport_Walk
   )


In [9]:
variables_mode_de_vie_clust <- c(
  "id",
  #"postal_code", # À transformer en rural, urbain, région, banlieue
  "ses_dwelling_App",
  "ses_dwelling_Condo",
  "ses_dwelling_detachedHouse",
  "ses_dwelling_townHouse",
  "ses_dwelling_Other",
  "act_transport_Car",
  "act_transport_activeTransport",
  "act_transport_PublicTransportation",
  "vehicule_ToutTerrain",
  "vehicule_Van",
  "vehicule_Voiture",
  "vehicule_electric",
  "vehicule_VUS",
  "vehicule_other",
  "vehicule_noCar"
)

In [10]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_mode_de_vie_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_mode_de_vie[[v]]))
    cat("\n\n")
  }
}

Table pour la variable: ses_dwelling_App 

   0    1 
1201  299 


Table pour la variable: ses_dwelling_Condo 

   0    1 
1289  211 


Table pour la variable: ses_dwelling_detachedHouse 

  0   1 
784 716 


Table pour la variable: ses_dwelling_townHouse 

   0    1 
1419   81 


Table pour la variable: ses_dwelling_Other 

   0    1 
1307  193 


Table pour la variable: act_transport_Car 

   0    1 
 396 1104 


Table pour la variable: act_transport_activeTransport 

   0    1 
1259  241 


Table pour la variable: act_transport_PublicTransportation 

   0    1 
1345  155 


Table pour la variable: vehicule_ToutTerrain 

   0    1 
1393  107 


Table pour la variable: vehicule_Van 

   0    1 
1446   54 


Table pour la variable: vehicule_Voiture 

  0   1 
919 581 


Table pour la variable: vehicule_electric 

   0    1 
1404   96 


Table pour la variable: vehicule_VUS 

   0    1 
1104  396 


Table pour la variable: vehicule_other 

   0    1 
1434   66 


Table pour la variable:

In [11]:
# Sauvegarder les données préparées
saveRDS(df_mode_de_vie, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/qc2022/02_pilot1_2022_mode_de_vie.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.