# Création de prompts pour le nommage et la description des clusters

In [1]:
Sys.setlocale("LC_ALL", "fr_CA.UTF-8")

# Library
library(dplyr)
library(tidyr)
library(ggplot2)
library(ggtext)
library(tidytext)
library(ellipsellm)

# Load Data and Clustering Results
kmeans_result <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_kmeans.rds") # nolint
dfUsedForClustering <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_2025.rds")
df_clusters_composition <- readRDS("../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_composition.rds")


Attachement du package : ‘dplyr’


Les objets suivants sont masqués depuis ‘package:stats’:

    filter, lag


Les objets suivants sont masqués depuis ‘package:base’:

    intersect, setdiff, setequal, union




In [2]:
cluster_names <- unique(dfUsedForClustering$cluster_name)
cluster_names <- cluster_names[order(cluster_names)]

prompts <- list()

for (cluster_value in cluster_names) {
  cluster_data <- dfUsedForClustering %>% filter(cluster_name == cluster_value)
  cluster_vars <- df_clusters_composition %>% filter(cluster_name == cluster_value)

  # Calculer quelques statistiques démographiques pour le cluster
  perc_femmes     <- mean(cluster_data$female, na.rm = TRUE) * 100
  perc_immigrants <- mean(cluster_data$immigrant, na.rm = TRUE) * 100
  perc_langEn     <- mean(cluster_data$langEn, na.rm = TRUE) * 100
  perc_langFr     <- mean(cluster_data$langFr, na.rm = TRUE) * 100
  perc_ses_languageOther <- mean(cluster_data$ses_languageOther, na.rm = TRUE) * 100
  perc_ethn_white <- mean(cluster_data$ses_ethn_White, na.rm = TRUE) * 100
  perc_hetero     <- mean(cluster_data$ses_hetero, na.rm = TRUE) * 100
  educ_mean       <- mean(cluster_data$educ, na.rm = TRUE)
  age_mean        <- mean(cluster_data$age, na.rm = TRUE) * 80
  revenu_moyen    <- mean(cluster_data$ses_income, na.rm = TRUE) * 225000

  # Génération du prompt de suggestion de noms
  prompt_description <- (paste0(
    "Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona ", cluster_value, " :\n",

    "Variables avec une moyenne significativement plus élevée que la moyenne de la population en général :\n",
    if (any(cluster_vars$color == "green")) {
      paste(cluster_vars[cluster_vars$color == "green", "variable"], collapse = "\n")
    } else {
      "Aucune variable n'a une moyenne significativement plus élevée que la moyenne de la population en général."
    },
    "\nVariables avec une moyenne significativement plus basse que la moyenne de la population en général :\n",
    if (any(cluster_vars$color == "red")) {
      paste(cluster_vars[cluster_vars$color == "red", "variable"], collapse = "\n")
    } else {
      "Aucune variable avec une moyenne significativement plus basse que la moyenne de la population en général."
    },
    "\n\nCe cluster est composé de \n", 
    "Femmes: ", round(perc_femmes, 1), "%, 
     Immigrants: ", round(perc_immigrants, 1), "%\n",
    "Âge: ", round(age_mean, 1), " ans, 
     Revenu: ", round(revenu_moyen, 1), " k$\n",
    "Langues: 
     En ", round(perc_langEn, 1), "%, 
     Fr ", round(perc_langFr, 1), "%, 
     Autres: ", round(perc_ses_languageOther, 1), "%\n",
    "Édu: ", round(educ_mean, 1), " (0=bas, 1=élevé), 
     Ethnie (Blanc): ", round(perc_ethn_white, 1), "%\n",
    "Orientation (Hétéro): ", round(perc_hetero, 1), "%\n"
  ))

  # Stocker le prompt dans la liste
  prompts[[cluster_value]] <- prompt_description
}

“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de NA”
“l'argument n'est ni numérique, ni logique : renvoi de N

In [3]:
prompts

In [4]:
reponses_openai <- list()
# Afficher ou traiter tous les prompts
for (cluster in names(prompts)) {
  # Par exemple, envoyer chaque prompt à OpenAI (si la fonction est correctement définie)
  conv <- openai_create_conversation(prompts[[cluster]])
  resp <- openai_chat_completion(conv)
  reponses_openai[[cluster]] <- resp$content
}


In [5]:
reponses_openai

In [6]:
description_clusters <- data.frame(prompt = unlist(prompts), description = unlist(reponses_openai))

In [7]:
description_clusters

Unnamed: 0_level_0,prompt,description
Unnamed: 0_level_1,<chr>,<chr>
1,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 1 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""ses_age"", ""ses_languageEnglish"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : Aucune variable avec une moyenne significativement plus basse que la moyenne de la population en général. Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 116452 k$ Langues: En NA%, Fr NA%, Autres: 0% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec avec les caractéristiques mentionnées, je propose le prénom ""Charlotte"". **Persona 1 : Charlotte** - **Âge et Revenu:** Charlotte appartient à un groupe avec un âge moyen plus élevé que la population générale et a un revenu annuel significativement élevé de 116 452 $.  - **Langue:** Charlotte parle majoritairement l'anglais, ce qui est également une caractéristique notable de ce groupe.  - **Culture et Identité:** Bien que des données comme le pourcentage de femmes, d'immigrants, l'éducation, et l'ethnicité ne soient pas précisées, Charlotte peut être perçue comme une personne ayant probablement un niveau d'éducation élevé vu son revenu, et qui valorise la diversité linguistique grâce à sa maîtrise de l'anglais. - **Vie au Québec:** Habitant au Québec, Charlotte pourrait être impliquée dans des activités qui favorisent l'intégration linguistique et culturelle, participant à des événements où l'anglais est prédominant tout en appréciant l'environnement francophone. - **Profession:** Avec son revenu et ses compétences linguistiques, Charlotte pourrait travailler dans un domaine comme les affaires, la technologie, ou les communications internationales, où l'anglais est souvent utilisé. - **Mode de Vie:** Elle mène une vie confortable, avec des intérêts potentiels pour le voyage, la culture, et des activités sociales qui lui permettent de capitaliser sur ses compétences linguistiques et son réseau professionnel. Avec ces éléments, Charlotte est un persona qui représente une personne bien intégrée au Québec, tout en apportant une perspective anglophone à sa communauté."
2,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 2 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""ses_age"", ""ses_languageFrench"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_goHuntingFreq_numeric"", ""lifestyle_volunteeringFreq_numeric"", ""ses_languageEnglish"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 104135.7 k$ Langues: En NA%, Fr NA%, Autres: 0.4% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec, un prénom qui résonne bien est ""Élise"". **Persona 2 : Élise** - **Âge :** Élise est significativement plus âgée que la moyenne de la population. - **Langue :** Élise parle majoritairement le français, ce qui est beaucoup plus élevé par rapport à la moyenne de la population. Elle parle peu l'anglais. - **Revenu :** Elle gagne un revenu confortable de 104 135,7 k$ par an. - **Style de vie :** Élise participe rarement à des activités de chasse et ne s'engage pas fréquemment dans le bénévolat. - **Diversité linguistique :** Bien qu’elle parle majoritairement français, une infime partie (0,4%) pourrait parler une autre langue que le français et l'anglais. - **Origine et culture :** Les données concernant son statut d'immigrant, son niveau d'éducation, et son appartenance ethnique ne sont pas spécifiées. Élise est donc une femme francophone, relativement plus âgée, avec un revenu élevé, vivant probablement en milieu urbain ou suburbain. Elle est plutôt privée et préfère des activités qui ne sont pas centrées sur la chasse ou le bénévolat."
3,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 3 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : ses_ethnicityOther Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_goFishingFreq_numeric"", ""ses_age"", ""ses_ethnicityWhite"", ""ses_immigrant"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 109883.7 k$ Langues: En NA%, Fr NA%, Autres: 24.4% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne habitant au Québec, un prénom qui pourrait être proposé est ""Amira"". Ce prénom a une connotation multiculturelle, reflétant une diversité ethnique qui semble être une caractéristique notable du persona 3. ### Description du Persona 3 : Amira - **Ethnicité** : Amira appartient à une ethnie autre que blanche, ce qui est significatif dans ce groupe par rapport à la population en général. - **Fréquence de Pêche** : Elle ne va pas souvent à la pêche, contrairement à la moyenne de la population. - **Âge** : Amira est plus jeune que la moyenne de la population générale. - **Immigration** : Elle est moins susceptible d'être une immigrante par rapport à la moyenne. - **Revenu** : Son revenu est de 109,883.7 k$, ce qui suggère une situation économique confortable. - **Langues** : Elle parle d'autres langues (24.4%) en plus du français ou de l'anglais, mais les proportions exactes pour ces dernières ne sont pas disponibles. - **Éducation** : Bien que le niveau d'éducation précis ne soit pas connu, le fait que d'autres aspects du profil indiquent une possible diversité culturelle pourrait suggérer un intérêt pour des environnements multiculturels et éduqués. Amira est donc une jeune femme dynamique, à l'aise économiquement, qui vit au Québec et qui incarne la diversité culturelle de la région."
4,"Propose un prénom pour une personne habitant au Québec et donne une brève description pour le persona 4 : Variables avec une moyenne significativement plus élevée que la moyenne de la population en général : c(""lifestyle_clothingStyleClassic"", ""lifestyle_goFishingFreq_numeric"", ""lifestyle_goHuntingFreq_numeric"", ""lifestyle_goMuseumsFreq_numeric"", ""lifestyle_motorizedActFreq_numeric"", ""lifestyle_smokeFreq"", ""lifestyle_volunteeringFreq_numeric"") Variables avec une moyenne significativement plus basse que la moyenne de la population en général : c(""lifestyle_clothingStyleCasual"", ""lifestyle_ownPetNone"", ""ses_age"") Ce cluster est composé de Femmes: NA%, Immigrants: NA% Âge: NA ans, Revenu: 122103.7 k$ Langues: En NA%, Fr NA%, Autres: 0.6% Édu: NA (0=bas, 1=élevé), Ethnie (Blanc): NA% Orientation (Hétéro): NA%","Pour une personne vivant au Québec correspondant au persona 4, je propose le prénom ""Émilie"". ### Description du persona 4 : Émilie **Profil général :** - **Âge:** Plus jeune que la moyenne de la population générale. - **Revenu:** 122 103,7 $ par an, indiquant une situation financière confortable. - **Langues:** Principalement francophone, avec une très faible proportion parlant d'autres langues. **Caractéristiques de style de vie :** - **Style vestimentaire :** Préférence pour un style classique, évitant le style décontracté. - **Activités de plein air :** Fréquente la pêche et la chasse plus souvent que la moyenne. - **Culture et loisirs :** Visite souvent des musées, indiquant un intérêt marqué pour la culture et l'histoire. - **Activités motorisées :** Participe régulièrement à des activités motorisées, ce qui peut inclure des sports mécaniques. - **Tabagisme :** Fume plus fréquemment que la moyenne. - **Bénévolat :** Implication régulière dans des activités bénévoles, montrant un engagement communautaire fort. **Autres caractéristiques :** - **Animaux de compagnie :** Moins susceptible de vivre sans animaux de compagnie, suggérant une affinité pour les animaux.  Émilie est une personne avec un mode de vie actif qui combine des intérêts pour la nature, la culture et la communauté. Son style vestimentaire classique et son engagement dans diverses activités témoignent d'une personnalité équilibrée et dynamique."


In [8]:
write.csv(description_clusters, "description_clusters.csv", row.names = FALSE)

In [9]:
saveRDS(description_clusters, file = "../../_PrivateFolder_datagotchi_federal_2025/data/clustering/can2025/03_pilot_clusters_description.rds")