# Création de prompts pour le nommage et la description des clusters

In [2]:
Sys.setlocale("LC_ALL", "fr_CA.UTF-8")

# Library
library(dplyr)
library(tidyr)
library(ggplot2)
library(ggtext)
library(tidytext)
library(ellipsellm)

# Load Data and Clustering Results
kmeans_result <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_kmeans.rds") # nolint
dfUsedForClustering <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_2025.rds")
df_clusters_composition <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_composition.rds")

In [3]:
cluster_names <- unique(dfUsedForClustering$cluster_name)
cluster_names <- cluster_names[order(cluster_names)]

prompts <- list()

for (cluster_value in cluster_names) {
  cluster_data <- dfUsedForClustering %>% filter(cluster_name == cluster_value)
  cluster_vars <- df_clusters_composition %>% filter(cluster_name == cluster_value)

  # Calculer quelques statistiques démographiques pour le cluster
  perc_femmes     <- mean(cluster_data$female, na.rm = TRUE) * 100
  perc_immigrants <- mean(cluster_data$immigrant, na.rm = TRUE) * 100
  perc_langEn     <- mean(cluster_data$langEn, na.rm = TRUE) * 100
  perc_langFr     <- mean(cluster_data$langFr, na.rm = TRUE) * 100
  perc_ses_languageOther <- mean(cluster_data$ses_languageOther, na.rm = TRUE) * 100
  perc_ethn_white <- mean(cluster_data$ses_ethn_White, na.rm = TRUE) * 100
  perc_hetero     <- mean(cluster_data$ses_hetero, na.rm = TRUE) * 100
  educ_mean       <- mean(cluster_data$educ, na.rm = TRUE)
  age_mean        <- mean(cluster_data$age, na.rm = TRUE) * 80
  revenu_moyen    <- mean(cluster_data$ses_income, na.rm = TRUE) * 225000

  # Génération du prompt de suggestion de noms
  prompt_description <- (paste0(
    "Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona ", cluster_value, " :\n",

    "Variables avec une moyenne significativement plus élevée que la moyenne de la population en général :\n",
    if (any(cluster_vars$color == "green")) {
      paste(cluster_vars[cluster_vars$color == "green", "variable"], collapse = "\n")
    } else {
      "Aucune variable n'a une moyenne significativement plus élevée que la moyenne de la population en général."
    },
    "\nVariables avec une moyenne significativement plus basse que la moyenne de la population en général :\n",
    if (any(cluster_vars$color == "red")) {
      paste(cluster_vars[cluster_vars$color == "red", "variable"], collapse = "\n")
    } else {
      "Aucune variable avec une moyenne significativement plus basse que la moyenne de la population en général."
    },
    "\n\nCe cluster est composé de \n", 
    "Femmes: ", round(perc_femmes, 1), "%, 
     Immigrants: ", round(perc_immigrants, 1), "%\n",
    "Âge: ", round(age_mean, 1), " ans, 
     Revenu: ", round(revenu_moyen, 1), " k$\n",
    "Langues: 
     En ", round(perc_langEn, 1), "%, 
     Fr ", round(perc_langFr, 1), "%, 
     Autres: ", round(perc_ses_languageOther, 1), "%\n",
    "Édu: ", round(educ_mean, 1), " (0=bas, 1=élevé), 
     Ethnie (Blanc): ", round(perc_ethn_white, 1), "%\n",
    "Orientation (Hétéro): ", round(perc_hetero, 1), "%\n"
  ))

  # Stocker le prompt dans la liste
  prompts[[cluster_value]] <- prompt_description
}

“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or log

In [3]:
prompts

In [5]:
reponses_openai <- list()
# Afficher ou traiter tous les prompts
for (cluster in names(prompts)) {
  # Par exemple, envoyer chaque prompt à OpenAI (si la fonction est correctement définie)
  conv <- openai_create_conversation(prompts[[cluster]])
  resp <- openai_chat_completion(conv)
  reponses_openai[[cluster]] <- resp$content
}


In [6]:
reponses_openai

In [7]:
description_clusters <- data.frame(prompt = unlist(prompts), description = unlist(reponses_openai))

In [8]:
description_clusters

Unnamed: 0_level_0,prompt,description
Unnamed: 0_level_1,<chr>,<chr>
1,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 1 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""ses_age"", ""ses_languageEnglish"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : Aucune variable avec une moyenne significativement plus basse que la moyenne de la population en général. Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 116452 k$ Langues: En NA%, Fr NA%, Autres: 0% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec, avec un profil tel que décrit, un prénom qui pourrait convenir est ""Chloé"". Voici une brève description du persona : **Nom :** Chloé **Âge :** Plus âgée que la moyenne générale de la population. **Situation économique :** Chloé dispose d'un revenu de 116 452 $ par an, ce qui est relativement élevé. **Langues :** Bien qu'elle vive au Québec, Chloé parle principalement l'anglais, ce qui est significativement plus fréquent que dans la population générale. **Éducation :** Son niveau d'éducation n'est pas spécifié, mais il est supposé être élevé, vu son revenu. **Origine ethnique :** Les données spécifiques ne sont pas disponibles, mais elle pourrait être perçue comme étant d'origine caucasienne. **Orientation sexuelle :** Non spécifiée. **Particularités :** Chloé se distingue par sa maîtrise de l'anglais dans un environnement majoritairement francophone, ce qui suggère qu'elle peut être impliquée dans des secteurs professionnels ou sociaux où l'anglais est prédominant. Chloé pourrait être une professionnelle accomplie, peut-être dans un domaine international ou lié aux affaires, et elle est probablement bien intégrée dans des cercles anglophones tout en vivant au Québec."
2,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 2 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""ses_age"", ""ses_languageFrench"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_goHuntingFreq_numeric"", ""lifestyle_volunteeringFreq_numeric"", ""ses_languageEnglish"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 104135.7 k$ Langues: En NA%, Fr NA%, Autres: 0.4% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec, un prénom approprié pourrait être ""Élise."" Persona 2 : Élise Élise est une femme vivant au Québec, où elle parle principalement le français. Elle est plus âgée que la moyenne de la population générale et son revenu est élevé, à 104 135,7 k$. Élise ne parle pas souvent anglais et a une tendance nettement plus faible à participer à des activités de chasse et de bénévolat. En tant que francophone, elle est bien intégrée dans la culture québécoise, mais elle n'est pas très engagée dans les activités de plein air traditionnelles comme la chasse, ni dans le bénévolat communautaire. Sa présence dans le groupe des immigrants n'est pas précisée, mais elle s'identifie majoritairement à la culture francophone du Québec. Étant donné qu'elle est plus âgée, elle a probablement une stabilité financière et une certaine expérience de vie qui influencent son style de vie."
3,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 3 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : ses_ethnicityOther Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_goFishingFreq_numeric"", ""ses_age"", ""ses_ethnicityWhite"", ""ses_immigrant"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 109883.7 k$ Langues: En NA%, Fr NA%, Autres: 24.4% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour le prénom, je propose ""Kiana"". Ce prénom est à la fois unique et multiculturel, reflétant bien la diversité ethnique suggérée par les données. Voici une brève description pour le persona 3 : **Prénom : Kiana** Kiana est une personne qui se distingue par sa riche diversité culturelle. Elle a des origines ethniques variées, ce qui se reflète dans ses intérêts et son mode de vie. Résidant au Québec, elle appartient à une tranche de revenu relativement élevée, avec une valeur moyenne de 109 883,7 $. Elle parle probablement plusieurs langues, ce qui lui permet de naviguer aisément dans des environnements multiculturels, bien que le français ne soit pas sa langue maternelle. Elle n'est pas particulièrement intéressée par des activités telles que la pêche, et elle est plus jeune que la moyenne de la population générale. Contrairement à la population typique du Québec, Kiana n'est pas d'origine blanche majoritaire et n'est pas immigrante, ce qui suggère qu'elle peut être issue d'une minorité ethnique bien intégrée au Québec. Kiana est sans doute bien éduquée, ce qui pourrait expliquer son revenu élevé. Elle pourrait travailler dans un domaine qui valorise ses compétences linguistiques et sa capacité à naviguer dans des contextes culturels variés, tels que les affaires internationales, la diplomatie, ou les médias. Sa diversité culturelle et son style de vie urbain et sophistiqué font d'elle une citoyenne du monde bien ancrée dans la culture québécoise, tout en apportant sa propre touche unique à la communauté."
4,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 4 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_clothingStyleClassic"", ""lifestyle_goFishingFreq_numeric"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_goMuseumsFreq_numeric"", ""lifestyle_motorizedActFreq_numeric"", ""lifestyle_smokeFreq"", ""lifestyle_volunteeringFreq_numeric"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_clothingStyleCasual"", ""lifestyle_ownPetNone"", ""ses_age"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 122103.7 k$ Langues: En NA%, Fr NA%, Autres: 0.6% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec, je propose le prénom ""Émilie"". Voici une brève description pour le persona correspondant au profil 4 : **Émilie** est une personne active et engagée dans sa communauté. Elle a un style vestimentaire classique et apprécie les activités de plein air, telles que la pêche et la chasse. Émilie aime aussi enrichir sa culture en visitant régulièrement des musées. Elle participe souvent à des activités motorisées, ce qui peut inclure la conduite de véhicules tout-terrain ou la navigation de plaisance. Bien qu'elle fume, elle consacre également une partie de son temps à faire du bénévolat, ce qui montre son engagement social et son désir de contribuer à la société. Émilie préfère un mode de vie accompagné d'animaux de compagnie, ce qui suggère qu'elle a au moins un animal chez elle. Elle est aussi relativement jeune par rapport à la moyenne de la population générale, ce qui pourrait expliquer son dynamisme et son goût pour les activités variées. Avec un revenu assez élevé par rapport à la moyenne, Émilie a les moyens de profiter de nombreuses expériences et de soutenir des causes qui lui tiennent à cœur."


In [10]:
write.csv(description_clusters, "description_clusters.csv", row.names = FALSE)

In [9]:
saveRDS(description_clusters, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_description.rds")