# Création de prompts pour le nommage et la description des clusters

In [3]:
Sys.setlocale("LC_ALL", "fr_CA.UTF-8")

# Library
library(dplyr)
library(tidyr)
library(ggplot2)
library(ggtext)
library(tidytext)
library(ellipsellm)

# Load Data and Clustering Results
kmeans_result <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_kmeans.rds") # nolint
dfUsedForClustering <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_2025.rds")
df_clusters_composition <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_composition.rds")

In [4]:
cluster_names <- unique(dfUsedForClustering$cluster_name)
cluster_names <- cluster_names[order(cluster_names)]

prompts <- list()

for (cluster_value in cluster_names) {
  cluster_data <- dfUsedForClustering %>% filter(cluster_name == cluster_value)
  cluster_vars <- df_clusters_composition %>% filter(cluster_name == cluster_value)

  # Calculer quelques statistiques démographiques pour le cluster
  perc_hommes     <- mean(cluster_data$ses_genderMale, na.rm = TRUE) * 100
  perc_immigrants <- mean(cluster_data$ses_immigrant, na.rm = TRUE) * 100
  perc_langEn     <- mean(cluster_data$ses_languageEnglish, na.rm = TRUE) * 100
  perc_langFr     <- mean(cluster_data$ses_languageFrench, na.rm = TRUE) * 100
  perc_ses_languageOther <- mean(cluster_data$ses_languageOther, na.rm = TRUE) * 100
  perc_ethn_white <- mean(cluster_data$ses_ethnicityWhite, na.rm = TRUE) * 100
  perc_hetero     <- mean(cluster_data$ses_sexOrientationHetero, na.rm = TRUE) * 100
  educ_mean_BHS       <- mean(cluster_data$ses_educBHS, na.rm = TRUE) * 100
  educ_mean_PostHS       <- mean(cluster_data$ses_educPostHS, na.rm = TRUE) * 100
  educ_mean_Univ       <- mean(cluster_data$ses_educUniv, na.rm = TRUE) * 100
  age_mean        <- mean(cluster_data$ses_age, na.rm = TRUE) * 80
  revenu_moyen_Low    <- mean(cluster_data$ses_incomeLow, na.rm = TRUE) * 100
  revenu_moyen_Mid    <- mean(cluster_data$ses_incomeMid, na.rm = TRUE) * 100
  revenu_moyen_High    <- mean(cluster_data$ses_incomeHigh, na.rm = TRUE) * 100

  # Génération du prompt de suggestion de noms
  prompt_description <- (paste0(
  "Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona ", cluster_value, " :\n\n",
  
  "Variables avec une moyenne significativement plus élevée que la moyenne de la population en général :\n",
  if (any(cluster_vars$color == "green")) {
    paste(cluster_vars[cluster_vars$color == "green", "variable"], collapse = "\n")
  } else {
    "Aucune variable n'a une moyenne significativement plus élevée que la moyenne de la population en général."
  },
  
  "\n\nVariables avec une moyenne significativement plus basse que la moyenne de la population en général :\n",
  if (any(cluster_vars$color == "red")) {
    paste(cluster_vars[cluster_vars$color == "red", "variable"], collapse = "\n")
  } else {
    "Aucune variable avec une moyenne significativement plus basse que la moyenne de la population en général."
  },
  
  "\n\nCe cluster est composé de :\n", 
  "Hommes: ", round(perc_hommes, 1), "%, ",
  "Immigrants: ", round(perc_immigrants, 1), "%\n",
  "Âge: ", round(age_mean, 1), " ans\n",
  "Revenus:\n",
  "  Revenu Bas: ", round(revenu_moyen_Low, 1), " %\n",
  "  Revenu Mid: ", round(revenu_moyen_Mid, 1), " %\n",
  "  Revenu High: ", round(revenu_moyen_High, 1), " %\n",
  "Langues:\n",
  "  En: ", round(perc_langEn, 1), "%, ",
  "Fr: ", round(perc_langFr, 1), "%, ",
  "Autres: ", round(perc_ses_languageOther, 1), "%\n",
  "EducBHS: ", round(educ_mean_BHS, 1), "%\n",
  "EducPostHS: ", round(educ_mean_PostHS, 1), "%\n",
  "EducUniv: ", round(educ_mean_Univ, 1), "%\n",
  "Ethnie (Blanc): ", round(perc_ethn_white, 1), "%\n",
  "Orientation (Hétéro): ", round(perc_hetero, 1), "%\n"
))

  prompts[[cluster_value]] <- prompt_description
}


In [5]:
prompts

In [6]:
reponses_openai <- list()
# Afficher ou traiter tous les prompts
for (cluster in names(prompts)) {
  # Par exemple, envoyer chaque prompt à OpenAI (si la fonction est correctement définie)
  conv <- openai_create_conversation(prompts[[cluster]])
  resp <- openai_chat_completion(conv)
  reponses_openai[[cluster]] <- resp$content
}


In [7]:
reponses_openai

In [12]:
description_clusters <- data.frame(prompt = unlist(prompts), description = unlist(reponses_openai))

In [13]:
description_clusters

Unnamed: 0_level_0,prompt,description
Unnamed: 0_level_1,<chr>,<chr>
1,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 1 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_consClothesFrip"", ""lifestyle_consCoffeeIndependent"", ""lifestyle_typeTransportNoCar"", ""ses_educUniv"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_consCoffeeNone"", ""lifestyle_consCoffeeTimHortons"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_smokeFreq"", ""ses_educBHS"") Ce cluster est composé de : Hommes: 52.9%, Immigrants: 14.7% Âge: 42.9 ans Revenus:  Revenu Bas: 11.8 %  Revenu Mid: 69.1 %  Revenu High: 19.1 % Langues:  En: 60.3%, Fr: 38.2%, Autres: 1.5% EducBHS: 4.4% EducPostHS: 20.6% EducUniv: 75% Ethnie (Blanc): 88.2% Orientation (Hétéro): 91.2%","Pour une personne vivant au Canada ayant les caractéristiques décrites, je propose le prénom ""Julien"". Ce prénom est utilisé dans les communautés anglophones et francophones du Canada, ce qui correspond bien au pourcentage de personnes parlant anglais et français dans ce groupe. **Persona 1 - Julien :** Julien est un homme de 43 ans vivant dans une grande ville canadienne. Il a obtenu un diplôme universitaire et appartient à la classe moyenne avec des revenus moyens. Julien préfère un mode de vie durable et responsable. Il aime acheter des vêtements de seconde main et fréquente régulièrement des cafés indépendants pour savourer des cafés de qualité. Il n'utilise pas de voiture, préférant des moyens de transport plus écologiques comme le vélo ou les transports en commun. Ce choix reflète son engagement envers l'environnement et un style de vie urbain. Bien qu'il soit majoritairement anglophone, Julien parle couramment le français, ce qui enrichit ses interactions culturelles. Julien ne fume pas et n'est pas intéressé par la chasse, deux activités peu courantes parmi ceux qui partagent son style de vie. En tant qu'homme blanc hétérosexuel, il s'intègre dans la majorité socio-culturelle du pays, tout en représentant une minorité en termes de consommation et de mode de vie. Julien est un exemple d'équilibre entre engagement social et réussite individuelle, vivant pleinement ses valeurs dans son quotidien."
2,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 2 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_exerciseYoga"", ""ses_dwellingApp"", ""ses_immigrant"", ""ses_incomeHigh"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_exerciseGym"", ""lifestyle_smokeFreq"") Ce cluster est composé de : Hommes: 27.3%, Immigrants: 40.9% Âge: 40 ans Revenus:  Revenu Bas: 4.5 %  Revenu Mid: 59.1 %  Revenu High: 36.4 % Langues:  En: 72.7%, Fr: 27.3%, Autres: 0% EducBHS: 13.6% EducPostHS: 22.7% EducUniv: 63.6% Ethnie (Blanc): 63.6% Orientation (Hétéro): 86.4%","Pour une personne habitant au Canada dans ce profil, je propose le prénom ""Émilie"" pour une femme ou ""Marc"" pour un homme. ### Persona 2 : Marc/Émilie - **Prénom** : Marc (pour un homme) / Émilie (pour une femme) - **Âge** : 40 ans - **Sexe** : Probablement féminin (72.7%) - **Statut d'immigration** : Immigrant (40.9%) - **Langue** : Principalement anglophone (72.7%), avec une part francophone (27.3%) - **Revenus** : Plutôt élevé, avec une proportion significative dans la catégorie de revenu élevé (36.4%) - **Habitation** : Probablement un appartement (ses_dwellingApp) - **Niveau d'éducation** : Principalement universitaire (63.6%) - **Ethnie** : Majoritairement blanc (63.6%) - **Orientation sexuelle** : Hétérosexuel (86.4%) - **Mode de vie** :  - Pratique régulière du yoga (lifestyle_exerciseYoga)  - Moins d'exercice en salle de sport (lifestyle_exerciseGym)  - Ne fume pas ou fume peu fréquemment (lifestyle_smokeFreq) ### Description : Marc/Émilie est une personne bien éduquée vivant au Canada, probablement dans une grande ville où les communautés d'immigrants sont plus importantes. Étant un(e) immigrant(e) ou ayant un bagage culturel diversifié, il/elle intègre facilement des pratiques telles que le yoga dans son quotidien pour maintenir un mode de vie sain. Il/elle privilégie la vie en appartement, peut-être pour sa praticité et son emplacement central. Sa carrière est probablement bien établie, avec des revenus confortables qui lui permettent de profiter de loisirs comme le yoga. Il/elle parle principalement anglais mais peut aussi avoir une certaine connaissance du français, ce qui est un atout dans certains secteurs professionnels au Canada. Marc/Émilie est conscient(e) de sa santé et évite les habitudes nuisibles comme le tabagisme."
3,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 3 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_consCoffeeTimHortons"", ""lifestyle_exerciseGym"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_hasTattoos"", ""lifestyle_ownPetDog"", ""lifestyle_smokeFreq"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_consCoffeeIndependent"", ""lifestyle_consCoffeeNone"", ""lifestyle_favAlcoolDontDrink"", ""lifestyle_ownPetNone"", ""ses_educBHS"", ""ses_languageFrench"") Ce cluster est composé de : Hommes: 71.9%, Immigrants: 16.5% Âge: 26.5 ans Revenus:  Revenu Bas: 12.2 %  Revenu Mid: 73.4 %  Revenu High: 14.4 % Langues:  En: 76.3%, Fr: 20.9%, Autres: 2.9% EducBHS: 12.2% EducPostHS: 44.6% EducUniv: 43.2% Ethnie (Blanc): 67.6% Orientation (Hétéro): 85.6%","Pour une personne habitant au Canada correspondant au persona 3 décrit, je propose le prénom ""Brandon"". Ce prénom est assez courant au Canada et peut convenir à un homme jeune et dynamique. Voici une brève description de Brandon : **Brandon, 26 ans** Brandon est un jeune homme énergique et sociable qui vit au Canada. Il est passionné par le sport et fréquente régulièrement le gymnase pour rester en forme. En plus de sa routine d'exercice, Brandon apprécie les activités en plein air comme la chasse. Il est amateur de café et préfère les chaînes de café bien établies comme Tim Hortons, plutôt que les cafés indépendants. Brandon a un style de vie plutôt décontracté, arborant plusieurs tatouages qui reflètent sa personnalité et ses expériences de vie. Il est propriétaire d’un chien qu'il adore et avec lequel il passe beaucoup de temps. Bien qu'il fume régulièrement, il apprécie également les moments de socialisation autour d'une boisson, même s'il ne consomme pas d'alcool. Il parle principalement anglais, avec une bonne compréhension du français. Brandon a poursuivi ses études au-delà du secondaire et a terminé une formation postsecondaire. Il travaille actuellement dans un emploi qui lui offre un revenu moyen. D'origine caucasienne, Brandon fait partie de la majorité ethnique au Canada. Il est majoritairement hétérosexuel, et bien qu'il ne soit pas lui-même immigrant, il a une ouverture d'esprit qui lui permet de bien s'intégrer et de se lier d'amitié avec des personnes de divers horizons."
4,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 4 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_consCoffeeTimHortons"", ""ses_educUniv"", ""ses_immigrant"", ""ses_incomeHigh"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_consClothesFrip"", ""lifestyle_consCoffeeIndependent"", ""lifestyle_consCoffeeNone"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_smokeFreq"", ""ses_educBHS"", ""ses_languageFrench"") Ce cluster est composé de : Hommes: 52%, Immigrants: 25% Âge: 42.4 ans Revenus:  Revenu Bas: 9.8 %  Revenu Mid: 68.2 %  Revenu High: 22 % Langues:  En: 74.7%, Fr: 19.9%, Autres: 5.4% EducBHS: 0.3% EducPostHS: 36.5% EducUniv: 63.2% Ethnie (Blanc): 73% Orientation (Hétéro): 84.8%","Pour une personne habitant au Canada correspondant au persona 4, je propose le prénom ""Alexandre"", qui est à la fois courant et facilement reconnaissable dans les communautés anglophones et francophones. Voici une brève description de ce persona : **Nom :** Alexandre **Âge :** 42 ans **Profil :** Alexandre est un homme hautement éduqué, titulaire d'un diplôme universitaire. Il fait partie de la classe moyenne supérieure, avec un revenu élevé par rapport à la moyenne de la population. Bien qu'il soit né à l'étranger, il s'est bien intégré à la vie canadienne et préfère s'exprimer en anglais. Il apprécie particulièrement le café de Tim Hortons, un symbole canadien de choix, et ne fréquente pas les cafés indépendants. Il consomme peu de vêtements d'occasion, ce qui peut être lié à ses revenus élevés et à ses préférences de consommation. Alexandre ne fume pas et ne pratique pas la chasse, et il a tendance à adopter un style de vie urbain et moderne. Bien qu'il soit principalement anglophone, il a aussi une bonne compréhension du français, même s'il ne l'utilise pas comme langue principale. Alexandre vit dans un environnement diversifié et est ouvert d'esprit, ce qui est en partie dû à ses expériences en tant qu'immigrant. Il est d'origine ethnique majoritairement blanche et s'identifie comme hétérosexuel. Globalement, Alexandre représente un segment de la population canadienne qui est bien éduqué, financièrement confortable et culturellement intégré."
5,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 5 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_consCoffeeNone"", ""lifestyle_ownPetNone"", ""ses_dwellingDetachedHouse"", ""ses_educUniv"", ""ses_languageFrench"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_consCoffeeIndependent"", ""lifestyle_consCoffeeTimHortons"", ""lifestyle_exerciseGym"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_hasTattoos"", ""lifestyle_ownPetDog"", ""lifestyle_smokeFreq"", ""ses_educBHS"", ""ses_incomeHigh"") Ce cluster est composé de : Hommes: 49.3%, Immigrants: 18.1% Âge: 59.3 ans Revenus:  Revenu Bas: 11.2 %  Revenu Mid: 79 %  Revenu High: 9.8 % Langues:  En: 56.2%, Fr: 38.4%, Autres: 5.4% EducBHS: 0% EducPostHS: 45.3% EducUniv: 54.7% Ethnie (Blanc): 86.6% Orientation (Hétéro): 89.9%","Un prénom qui pourrait convenir à une personne correspondant à ce profil vivant au Canada pourrait être ""Émilie"" pour une femme ou ""Philippe"" pour un homme. Ces prénoms sont courants parmi les francophones au Canada, ce qui s'accorde bien avec le fait que 38.4% des personnes de ce groupe parlent français. ### Description du Persona 5 : **Nom :** Philippe Dubois **Âge :** 59 ans **Sexe :** Homme **État civil :** Marié **Enfants :** Deux enfants adultes **Profession :** Enseignant universitaire à la retraite **Lieu de résidence :** Bungalow dans une banlieue paisible du Québec **Éducation :** Diplômé universitaire **Langue :** Français (bilingue en anglais) **Mode de vie :** - Consomme peu de café, et lorsqu’il en boit, il préfère éviter les grandes chaînes comme Tim Hortons, optant plutôt pour un café à la maison ou parfois un café indépendant. - Pas de tatouages et ne fume pas. - Ne possède pas d’animaux de compagnie. - Pratique peu d’exercices en salle de sport, mais aime les promenades et les activités de plein air modérées comme le jardinage. - N’a pas l’habitude de chasser. **Revenus :** Moyens, vit confortablement mais sans excès. **Culture :** - Apprécie la culture francophone et s'engage dans des activités communautaires locales. - Aime lire, surtout des romans et des essais, et fréquente souvent les bibliothèques locales. - Actif dans des cercles littéraires ou d’anciens collègues de l'université. Philippe est une personne cultivée et posée, attachée à ses racines francophones et à son environnement local. Il mène une vie simple et équilibrée, valorisant l'éducation et la culture."
6,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 6 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_clothingStyleOther"", ""lifestyle_hasTattoos"", ""ses_incomeLow"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""ses_dwellingDetachedHouse"", ""ses_educUniv"", ""ses_immigrant"") Ce cluster est composé de : Hommes: 43.9%, Immigrants: 0% Âge: 45.9 ans Revenus:  Revenu Bas: 24.4 %  Revenu Mid: 65.9 %  Revenu High: 9.8 % Langues:  En: 58.5%, Fr: 39%, Autres: 2.4% EducBHS: 31.7% EducPostHS: 39% EducUniv: 29.3% Ethnie (Blanc): 82.9% Orientation (Hétéro): 80.5%","Pour ce persona, je propose le prénom ""Marc"". ### Description du Persona 6 : Marc **Âge :** 45 ans **Genre :** Majoritairement masculin (43.9%) **Origine :** Natif du Canada, avec aucune proportion d'immigrants dans ce cluster. **Revenus :** Marc a un revenu principalement moyen, mais il y a une proportion notable avec un revenu bas (24.4%). **Habitation :** Il est peu probable que Marc habite dans une maison individuelle (ses_dwellingDetachedHouse), ce qui suggère qu'il pourrait vivre dans un appartement ou une maison mitoyenne. **Education :** Marc a une éducation variée, avec une présence notable de niveaux d'éducation secondaire (31.7%) et postsecondaire (39%), mais il est moins probable qu'il ait un diplôme universitaire (29.3%). **Style de vie :** Marc a un style vestimentaire qui ne correspond pas aux normes traditionnelles (""lifestyle_clothingStyleOther""). Il a également des tatouages (""lifestyle_hasTattoos""), ce qui ajoute à son style personnel distinctif. **Langues :** Marc parle principalement anglais (58.5%) et français (39%), et très peu d'autres langues (2.4%). **Ethnicité :** Majoritairement blanc (82.9%). **Orientation sexuelle :** Principalement hétérosexuel (80.5%). **Caractéristiques et Intérêts :** Marc est quelqu'un qui apprécie l'expression personnelle et individuelle, comme en témoigne son style vestimentaire unique et ses tatouages. Il vit de façon modeste, avec des revenus plutôt faibles à moyens, ce qui pourrait influencer ses choix de consommation et de loisirs. Il est bien intégré dans la culture canadienne, parlant couramment les deux langues officielles, et il a probablement un réseau social local bien établi."
7,"Propose un prénom pour une personne habitant au Canada et donne une brève description pour le persona 7 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_consCoffeeNone"", ""lifestyle_ownPetNone"", ""ses_educBHS"", ""ses_incomeLow"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_consCoffeeIndependent"", ""lifestyle_exerciseGym"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_ownPetDog"", ""ses_educUniv"", ""ses_immigrant"", ""ses_incomeHigh"") Ce cluster est composé de : Hommes: 48.6%, Immigrants: 12.3% Âge: 55.6 ans Revenus:  Revenu Bas: 25.1 %  Revenu Mid: 67 %  Revenu High: 7.8 % Langues:  En: 60.3%, Fr: 35.8%, Autres: 3.9% EducBHS: 99.4% EducPostHS: 0.6% EducUniv: 0% Ethnie (Blanc): 84.9% Orientation (Hétéro): 90.5%","Pour une personne habitant au Canada et correspondant au persona 7, je propose le prénom ""Marc"". Description de ""Marc"" : 1. **Profil Général** : Marc est un homme de 55 ans, d'origine canadienne, et fait partie de la majorité blanche du pays. Il a grandi dans une communauté où l'anglais est majoritairement parlé, mais il est aussi à l'aise en français. 2. **Éducation et Profession** : Ayant terminé ses études secondaires (EducBHS), Marc n'a pas poursuivi d'éducation universitaire. Il a passé la majeure partie de sa carrière dans des emplois impliquant des tâches pratiques ou administratives. 3. **Style de Vie** : Marc ne consomme pas de café, ou du moins très rarement. Il ne fréquente pas les cafés indépendants et préfère passer son temps à la maison ou dans des lieux familiers. Il ne possède pas d'animaux de compagnie, ni chien ni autres animaux, ce qui lui permet une certaine liberté et moins de responsabilités domestiques. 4. **Activités et Loisirs** : Marc ne va pas souvent au gymnase et n'a pas d'intérêt particulier pour la chasse. Il préfère peut-être des activités plus tranquilles ou des passe-temps qui ne nécessitent pas de grands efforts physiques. 5. **Situation Économique** : Avec des revenus se situant principalement dans la tranche moyenne, Marc mène une vie simple et sans extravagance. Il ne fait pas partie des classes les plus aisées. 6. **Valeurs et Orientation** : Il est probablement hétérosexuel et valorise les relations traditionnelles. Venant d'une communauté majoritairement non-immigrante, il a des valeurs et des habitudes bien ancrées dans la culture locale. En somme, Marc est un homme simple, ancré dans sa communauté, menant une vie tranquille et stable, sans recherche de luxe ou d'extravagance."


In [14]:
write.csv(description_clusters, "description_clusters.csv", row.names = FALSE)

In [15]:
saveRDS(description_clusters, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_description.rds")