# Préparation des variables pour les variables de style

In [None]:
library(tidyverse)
library(factoextra)

# Charger les données
DataPilot <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/01_pilot_2025.rds")

# Charger le fichier des variables
source("01-1_variables.R")

# Préparation du jeu de données pour les variables de style
df_style <- DataPilot %>%
  select(all_of(variables_style))

-- [1mAttaching core tidyverse packages[22m ------------------------ tidyverse 2.0.0 --
[32mv[39m [34mdplyr    [39m 1.1.4     [32mv[39m [34mreadr    [39m 2.1.5
[32mv[39m [34mforcats  [39m 1.0.0     [32mv[39m [34mstringr  [39m 1.5.1
[32mv[39m [34mggplot2  [39m 3.5.1     [32mv[39m [34mtibble   [39m 3.2.1
[32mv[39m [34mlubridate[39m 1.9.3     [32mv[39m [34mtidyr    [39m 1.3.1
[32mv[39m [34mpurrr    [39m 1.0.2     
-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mi[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors
Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa



In [1]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_style) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_style[[v]]))
    cat("\n\n")
  }
}

ERROR: Error: objet 'variables_style' introuvable


## Transformations

- app_swag

Les variables app_swag sont telles que certaines catégories sont très peu peuplées. Regrouper les styles pour en faire des styles plus généraux.

- animal

Regrouper certaines classes d'animal pour avoir des catégories plus générales


In [None]:
# Regroupement de app_swag
#-------------------------

df_style <- df_style %>%

  # Regrouper Formel et Chic sous Classique
  mutate(
    lifestyle_clothingStyleClassic = if_else(
      lifestyle_clothingStyleFormal == 1 | lifestyle_clothingStyleElegant == 1,
      1,
      lifestyle_clothingStyleClassic
    )
  ) %>%
  select(-lifestyle_clothingStyleFormal, -lifestyle_clothingStyleElegant) %>%

  # Regrouper HippBoheme, Punk, Rock sous Other
  mutate(
    lifestyle_clothingStyleOther = if_else(
      lifestyle_clothingStyleHippie == 1 | lifestyle_clothingStylePunk == 1 | lifestyle_clothingStyleRock == 1,
      1,
      lifestyle_clothingStyleOther
    )
  ) %>%
  select(-lifestyle_clothingStyleHippie, -lifestyle_clothingStylePunk, -lifestyle_clothingStyleRock)

In [None]:
# Regroupement de animal
#-----------------------

df_style <- df_style %>%
  mutate(lifestyle_ownPetOther = if_else(
   lifestyle_ownPetFarmAnimals == 1,
    1,
    lifestyle_ownPetOther
  )
  ) %>%
  select(-lifestyle_ownPetFarmAnimals)

In [None]:
variables_style_clust <- c(
  "id",
  "lifestyle_clothingStyleClassic",
  "lifestyle_clothingStyleCasual",
  "lifestyle_clothingStyleSport",
  "lifestyle_clothingStyleOther",
  "lifestyle_hasTattoos",
  "lifestyle_ownPetCat",
  "lifestyle_ownPetDog",
  "lifestyle_ownPetOther",
  "lifestyle_ownPetCatAndDog",
  "lifestyle_ownPetNone"
)

In [None]:
# Boucle pour afficher la table pour chaque variable
for (v in variables_style_clust) {
  if (v != "id") {
    cat("Table pour la variable:", v, "\n")
    print(table(df_style[[v]]))
    cat("\n\n")
  }
}

Table pour la variable: lifestyle_clothingStyleClassic 

  0   1 
862 170 


Table pour la variable: lifestyle_clothingStyleCasual 

  0   1 
264 768 


Table pour la variable: lifestyle_clothingStyleSport 

  0   1 
979  53 


Table pour la variable: lifestyle_clothingStyleOther 

  0   1 
991  41 


Table pour la variable: lifestyle_hasTattoos 

  0   1 
729 303 


Table pour la variable: lifestyle_ownPetCat 

  0   1 
824 208 


Table pour la variable: lifestyle_ownPetDog 

  0   1 
821 211 


Table pour la variable: lifestyle_ownPetOther 

   0    1 
1014   18 


Table pour la variable: lifestyle_ownPetCatAndDog 

  0   1 
952  80 


Table pour la variable: lifestyle_ownPetNone 

  0   1 
548 484 




In [None]:
# Sauvegarder les données préparées
saveRDS(df_style, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/02_pilot_2025_style.rds")

---

# SUGGESTION : Activité de Clustering

Si souhaité, effectuer un exercice de clustering avec ce sous-groupe de variables pour mieux saisir les données et leur relation. 

Cet exercice est purement exploratoire et sert à voir si les données peuvent être utilisées pour faire du clustering.