In [5]:
# Library
library(ggplot2)
library(dplyr)

# Load Data and Clustering Results
dfIssues <- readRDS("../../_SharedFolder_datagotchi_federal_2024/data/pilote/dataClean/datagotchi2025_canada_pilotClustering_20250319.rds")
dfUsedForClustering <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_2025.rds")

In [6]:
# Join both datasets to have cluster, issues and id

# Sélectionner les variables issues et politiques de dfIssues
dfIssues_selected <- dfIssues %>%
  select(id, starts_with("issue_"), dv_voteChoice, dv_attitudeLeftvsRight)

# Sélectionner les variables clusters de dfUsedForClustering
dfClusters_selected <- dfUsedForClustering %>%
  select(id, cluster_name, starts_with("cluster_"))

# Fusionner les deux jeux de données sur id
dfValidation <- dfClusters_selected %>%
  inner_join(dfIssues_selected, by = "id")

# Voir les variables de ce jeu fusionné
names(dfValidation)

In [7]:
generate_graph <- function(data, issue_variable, output_path) {
  
  # Convertir la variable en symbole pour dplyr et ggplot
  issue_sym <- sym(issue_variable)  # Changement ici

  # Calculer proportions et créer le graphique
  data %>%
    group_by(cluster_name, !!issue_sym) %>%
    summarise(nombre_de_repondants = n(), .groups = "drop") %>%
    group_by(cluster_name) %>%
    mutate(
      nombre_total_de_repondants = sum(nombre_de_repondants),
      proportion = nombre_de_repondants / nombre_total_de_repondants
    ) %>%
    ggplot(aes(x = !!issue_sym, y = proportion, fill = factor(cluster_name))) +
    geom_col() +
    facet_wrap(~ cluster_name) +
    labs(
      x = issue_variable,  # Correction pour utiliser le nom en string
      y = "Proportion",
      fill = "Cluster",
      title = paste("Distribution of", issue_variable, "by Cluster")
    ) +
    theme_minimal() -> graph
  
  # Sauvegarder le graphique
  ggsave(
    filename = paste0(output_path, "/validationCluster_", issue_variable, ".pdf"),
    plot = graph,
    width = 16,
    height = 12
  )
}


In [8]:
# Lister toutes les variables d'enjeux

issues_list <- colnames(dfValidation)[grepl("^issue_", colnames(dfValidation))]
issues_list <- c(issues_list, "dv_voteChoice", "dv_attitudeLeftvsRight")


In [9]:
# Lancer une boucle pour générer tous les graphiques

# Spécifier le dossier où enregistrer les graphiques
output_path <- "../../_PrivateFolder_datagotchi_federal_2025/graph/clustering/can_2025/issues"

# Générer un graphique pour chaque enjeu sélectionné
lapply(issues_list, function(issue) {
  generate_graph(dfValidation, issue, output_path)
})


"erreur de conversion de 'Baisse de l<e2><80><99>imp<c3><b4>t personnel' dans 'mbcsToSbcs' : le point est substitu'e pour <e2>"
"erreur de conversion de 'Baisse de l<e2><80><99>imp<c3><b4>t personnel' dans 'mbcsToSbcs' : le point est substitu'e pour <80>"
"erreur de conversion de 'Baisse de l<e2><80><99>imp<c3><b4>t personnel' dans 'mbcsToSbcs' : le point est substitu'e pour <99>"
"erreur de conversion de 'Contrer l<e2><80><99>inflation' dans 'mbcsToSbcs' : le point est substitu'e pour <e2>"
"erreur de conversion de 'Contrer l<e2><80><99>inflation' dans 'mbcsToSbcs' : le point est substitu'e pour <80>"
"erreur de conversion de 'Contrer l<e2><80><99>inflation' dans 'mbcsToSbcs' : le point est substitu'e pour <99>"
"erreur de conversion de 'Crise de l<e2><80><99>habitation' dans 'mbcsToSbcs' : le point est substitu'e pour <e2>"
"erreur de conversion de 'Crise de l<e2><80><99>habitation' dans 'mbcsToSbcs' : le point est substitu'e pour <80>"
"erreur de conversion de 'Crise de l<e2><80><99