![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# L'analyse de sondage : Partie II<br><br>Les perceptions sur la langue et l'appartenance<br><br>

Bievenue au deuxième notebook d'analyse de sondage dans lequel nous transformerons les données.

Pour démarrer le notebook et effectuer le code dans toutes les cellules, cliquez sur `Cell` dans le menu et sélectionnez `Run All`. Retournez en haut da la page après le chargement des cellules.

![instructions](https://github.com/callysto/data-viz-of-the-week/blob/main/images/instructions.png?raw=true)

Veuillez envoyer un courriel à l'adresse contact@callysto.ca si vous rencontrez des problèmes avec le notebook.
<br><br>

## La démarche: les étapes d'analyses des données

Rechargement de la Partie I
1. **Questionner** - Formuler la question de recherche.
2. **Sélectionner** - Trouver les bibliothèques de python et les sources de données pour répondre à la question de recherche.
3. **Organiser** - Mettre en forme les données afin de les préparer pour l'exploration.
<br><br>
Partie II
4. **Explorer** - Analyser les données et les représenter par les visualisations.
5. **Interpréter** - Expliquer les observations obtenues à partir des visualisations.
6. **Communiquer** - Tirer une conclusion à la question, basée sur l'interprétation des données.
<br><br>

## Questionner

**Comment détermine-t'on l'impact des interactions sur les perceptions d'identité?**
<br><br>

## Sélectionner

### Le chargement des bibliothèques

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import warnings
warnings.filterwarnings("ignore")

### La source de données

📕 

**Données ouvertes** [Attribution (CC-BY 4.0)](https://www.donneesquebec.ca/licence/#cc-by)
<br><br>Ville de Montréal. (2020). Sondage Écho sur l'inclusion des personnes immigrantes. [Jeu de données]. Partenariat Données Québec. https://www.donneesquebec.ca/recherche/dataset/vmtl-sondage-inclusion-personnes-immigrantes
<br><br>

### Le chargement des données

In [None]:
data = pd.read_csv("data/2020-sondage-echo-recodage.csv")
data

L'ensemble de données fait 2 421 lignes après la suppression des lignes avec les questions non répondues. Il y a 28 colonnes au lieu de 36 colonnes après la mise en forme, ce qui fait 67 788 points de données.

Nous chargeons également un ensemble de données des langues parlées à Montréal selon le recensement de 2021.

In [None]:
data_langues = pd.read_csv("data/2021-langues-montreal.csv")
data_langues.head()

## Organiser

📕 Revenons à la question de recherche de l'impact des interactions sur les perceptions d'identité, il faut identifier et comprendre les variables liées afin d'organiser les données pour l'exploration.

Pour obtenir plus de renseignements sur la Ville de Montréal, consultez [https://fr.wikipedia.org/wiki/Montréal](https://fr.wikipedia.org/wiki/Montréal).

## Les variables visées après le recodage dans le notebook de la Partie I

|Variable     |Question |Réponse  |
|:-------------|:-------------|:-------------|
|record|identifiant unique du répondant||
|sexe|Vous identifiez-vous comme:|Un homme, Une femme|6 Autre|
|age|Quel âge avez-vous?|Moins de 18 ans, De 18 à 24 ans, De 25 à 34 ans, De 35 à 44 ans, De 45 à 54 ans, De 55 à 64 ans, De 65 à 74 ans, 75 ans ou plus|
|NAISS|NAISSANCE: Êtes-vous né au Canada?|Oui,  Non|
|LANGUE|LANGUE: Quelle est la langue que vous avez apprise en premier lieu à la maison dans votre enfance et que vous comprenez toujours?|Français, Anglais, Autre, Je préfère ne pas répondre|
|MINO|Considérez-vous appartenir à une minorité visible?|Oui, Non, Je préfère ne pas répondre|
|Q2r1|Je comprends le français|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r2|Je parle le français|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r3|Je lis en français|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r4|J’écris en français|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r5|Je comprends l’anglais|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r6|Je parle l’anglais|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r7|Je lis l’anglais|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q2r8|J’écris en anglais|5 Parfaitement, 4 Très bien, 3 Plutôt bien, 2 Pas très bien, 1 Pas du tout|
|Q42|Vous sentez-vous Montréalais.e?|5 Oui, je me sens tout à fait Montréalais.e, 4 Oui, je me sens plutôt Montréalais.e, 3 Je ne sais pas, 2 Je ne me sens pas vraiment, 1 Je ne me sens pas du tout Montréalais.eMontréalais.e|
|Q46|Vous sentez-vous isolé à Montréal?|Codée à l'envers: 1 Beaucoup, 2 Assez, 3 Je ne sais pas, 4 Peu, 5 Pas du tout|
|Q47|Parmi tous vos amis, combien d’entre eux/elles ont la même langue maternelle que vous?|5 Tous/Toutes, 4 La majorité, 3 À peu près la moitié, 2 Quelques-uns / Quelques-unes, 1 Aucun(e)|
|Q52r1|Votre sexe? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r2|Votre appartenance ethnique ou nationale? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r3|La couleur de votre peau? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r4|Votre condition sociale? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r5|Votre religion? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r6|Votre orientation sexuelle? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r7|Votre âge? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r8|Une limitation fonctionnelle? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|
|Q52r9|Votre langue ou votre accent? - Au cours des cinq dernières années, ou depuis votre arrivée à Montréal, croyez-vous avoir été victime de discrimination ou traité injustement par d’autres personnes, à Montréal, à cause de...|Oui, Non, Je ne sais pas, Je préfère ne pas répondre|

🔎 Quelles sont les variables sociodémographiques?

🔎 Quelles sont les variables linguistiques?

🔎 Quelles variables représentent les interactions?

🔎 Quelles variables représentent les sentiments?

🔎 Quelles variables représentent l'identité?

🔎 Comment est-ce que l'intersectionnalité est représentée?

🔎 Quelles sont les variables ordinales (exhibent un ordre)? et nominales (décrivent des noms sans ordre)? Pouvez-vous commencer à voir comment vous pouvez analyser ces types de variables?

🔎 Les variables seront-elles toutes utiles pour répondre à la question de recherche? 

🔎 Quels sont les impacts potentiels de la représentation des données de ces questions?

✏️

## Explorer

Vous trouverez les notes sur le code dans la cellule en italique vert après le `#`.

### L'échantillon

In [None]:
premiere_langue__echantillon_bandes = px.histogram(data, x="LANGUE",color="LANGUE", 
                                      color_discrete_sequence=px.colors.diverging.Portland, 
                                      title="Montréal en 2020: La(les) première(s) langue(s) parlée(s) par les répondant.e.s du sondage")
premiere_langue__echantillon_bandes.update_layout(xaxis={"categoryorder":"total descending"})
premiere_langue__echantillon_bandes.update_layout(autosize=True, height=800)

🔎 Quelle est la langue majoritaire de l'échantillon?

🔎 Quelles sont les cinq autres premières langues parlées plus fréquemment?

🔎 Examinez comment les répondants eux-mêmes ont rapporté leurs langues. Que remarquez-vous?

In [None]:
df_langue_maternelle = data_langues.loc[data_langues["QUESTION"] == "Langue maternelle"]
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

langues_maternelles_recensement_bandes = px.histogram(df_langue_maternelle, x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", 
                                      color_discrete_sequence=px.colors.diverging.Portland, 
                                      title="Montréal en 2021: La(les) langue(s) maternelle(s) selon le recensement")
langues_maternelles_recensement_bandes.update_layout(xaxis={"categoryorder":"total descending"})
langues_maternelles_recensement_bandes.update_layout(autosize=True, height=800)

🔎 Quelle est la langue majoritaire à Montréal selon le recensement?

🔎 Quelles sont les cinq autres langues maternelles plus fréquentes?

🔎 Examinez comment Statistique Canada a rapporté les langues. Que remarquez-vous?

💻 Calculez le pourcentage de l'échantillon de la population de Montréal. Ensuite, calculez les pourcentages des langues plus fréquentes afin de comparer l'échantillon et le recensement. Selon [le recensement de 2021](https://census.gc.ca/census-recensement/2021/dp-pd/prof/details/page.cfm?LANG=F&GENDERlist=1,2,3&STATISTIClist=1,4&DGUIDlist=2021S0503462&HEADERlist=22,,54,53,14,,21,19&SearchText=montreal), la population à Montréal est 4 246 060.

In [None]:
# L'échantillon: le nombre de répondants qui ont répondu au sondage divisé par `/` la population de Montréal multiplié par `*` 100 pour le pourcentage

2421 / 4246060 * 100

In [None]:
# Le nombre de répondants qui ont rapporté le français comme première langue parlée divisé par le nombre de répondants qui ont participé dans le sondage nous donne le pourcentage des répondants avec le français comme première langue

1488 / 2421 *100

In [None]:
# Le nombre de la population de Montréal qui ont rapporté le français comme langue maternelle divisé par la population de Montréal nous donne le pourcentage des Montréalais.e.s avec le français comme langue maternelle

2543265 / 4246060 * 100

## Interpréter

🔎 De côté linguistique, l'échantillon est-il représentatif de la population?

✏️

### L'exploration des variables ordinales sur les compétences langagières et le sentiment d'appartenance

Formatons un dataframe du court au long pour générer les fréquences des sélections.

In [None]:
df_court_long = pd.melt(data, id_vars =["record"], value_vars =(data.loc[:, "Q2r1" : "Q47"]), var_name="Question", value_name="Réponse")
df_ascendant = df_court_long.sort_values(["record","Réponse"])
df_questions = df_ascendant.rename(columns={"record": "Participant"})
df_questions.head()

Nous vérifions les sélections dans la colonne `Réponse` avec leurs fréquences.

In [None]:
df_valeurs = df_questions["Réponse"]
df_valeurs.value_counts()

📕 Nous créons une visualisation pour afficher toutes les données des variables ordinales. Notons les espaces vides dans le diagramme à lignes brisées ci-dessous. Il y a 2 451 lignes, une ligne pour chaque participant qui a répondu à ces questions du sondage. 

Nous voyons que la majorité des sélections des quatre premières questions sur les compétences en français (Q2r1-Q2r4) sont entre 3 et 5. 

In [None]:
sondage_participant = px.line(df_questions, y="Réponse", x="Question", 
                              color="Participant", color_discrete_sequence=px.colors.diverging.Portland, 
                              title="Le français et l'anglais:<br>les sélections des participants sur les compétences langagières et le sentiment d'appartenance")
sondage_participant.update_layout(showlegend=False, hovermode=False)
sondage_participant.update_xaxes(categoryorder="array", categoryarray= ["Q2r1", "Q2r2", "Q2r3", "Q2r4", "Q2r5", "Q2r6", "Q2r7", "Q2r8", "Q42", "Q46", "Q47"])
sondage_participant.update_layout(autosize=True, height=450)
sondage_participant.show()

🔎 Pouvez-vous voir d'autres tendances?

✏️

📕 Nous générons un tableau croisé pour calculer les fréquences de chaque sélection de chaque question. Notons les totaux pour chaque sélection de 1 à 5.

In [None]:
tableau_croise = pd.crosstab(df_questions["Question"], df_questions["Réponse"], colnames=["Question"], rownames=["Réponse"], margins=True, margins_name="Total") # normalize="all" pour les pourcentages
tableau_croise

🔎 Notez-vous d'autres tendances sur les totaux des sélections des questions?

✏️

📕 Nous examinons plus précisement les huit questions sur les compétences linguistiques (Q2r1 - Q2r8).

Commençons par les mesures de tendances centrales.

In [None]:
df_competences = df_questions.loc[lambda df: (df["Réponse"]!= "Q42") &(df["Réponse"]!= "Q46")];
df_competences[["Réponse"]].describe()

📕 Pour voir la distribution des sélections, nous générons une carte thermique avec un histogramme. La distribution est décalée à droite. La médiane est 5, ce qui représente *Parfaitement*.

In [None]:
carte_questions = px.density_heatmap(df_questions, x="Réponse", y="Question", marginal_x="histogram", 
                                     color_continuous_scale=px.colors.diverging.Portland,
                                     title="Les fréquences des sélections sur les compétences langagières et le sentiment d'appartenance")
carte_questions.update_yaxes(categoryorder="category descending")
carte_questions.update_layout(autosize=True, height=500)
carte_questions.show()

💻 Lorsque les participants sont nombreux, nous pouvons comparer les distributions par la Naissance au Canada pour chaque compétence. Modifiez l'histogramme ci-dessous pour explorer les données.

Modifiez d'autres variables dans l'histogramme ci-dessous pour explorer les données. Comparez les nouvelles distributions à celle de toutes les questions dans la carte thermique en haut.

In [None]:
premiere_langue_bandes = px.histogram(data, x="Q2r8", #Changez la variable avec "Q2r1" Je comprends le français, "Q2r2" Je parle le français, "Q2r3" Je lis en français, "Q2r4" J’écris en français, "Q2r5" Je comprends l’anglais, "Q2r6" Je parle l’anglais, "Q2r7" Je lis l’anglais, "Q2r8" J’écris en anglais
                                      color="LANGUE", #Changez la variable couleur "LANGUE" avec "NAISS", ou "MINO" pour la minorité visible
                                      labels={"LANGUE": "Langue", "NAISS": "Naissance au Canada", "MINO": "Minorité visible", "Q47": "Amis avec la même langue maternelle"}, color_discrete_sequence=px.colors.diverging.Portland, 
                                      title="La perception de la compétence langagière") #Mettez à jour le titre si vous modifiez la variable x ou la variable y
premiere_langue_bandes.update_layout(xaxis={"categoryorder":"total descending"})
premiere_langue_bandes

✏️ Notez les combinaisons explorées ici

💻 Pour aider avec la compréhension des histogrammes, vous pouvez également explorer des fréquences de différentes combinaisons de variables.

🔎 Avez-vous trouvé une distribution normale? Pouvez-vous offrir une raison pour laquelle cette distribution est normale?

🔎 Quelles distributions sont similaires?

🔎 Comment diffèrent les distributions? Que veut dire ces différences?

In [None]:
heatmap_items_satisfaction = px.density_heatmap(data, x="LANGUE", # Changez la variable x "LANGUE" avec "NAISS", ou "MINO" pour la minorité visible
                                                y="Q2r8", # Changez la variable y avec "Q2r1" Je comprends le français, "Q2r2" Je parle le français, "Q2r3" Je lis en français, "Q2r4" J’écris en français, "Q2r5" Je comprends l’anglais, "Q2r6" Je parle l’anglais, "Q2r7" Je lis l’anglais, "Q2r8" J’écris en anglais 
                                                color_continuous_scale=px.colors.diverging.Portland,
                                                title="La perception de la compétence langagière") # Mettez à jour le titre si vous modifiez la variable x ou la variable y
heatmap_items_satisfaction.update_yaxes(categoryorder="category descending")
heatmap_items_satisfaction.update_layout(autosize=True, height=600)
heatmap_items_satisfaction.show()

🔎 Comment changent le diagramme selon les différentes variables nominales de l'axe des x?

✏️ 

## Interpréter

🔎 Quelles sont les tendances similaires et différentes?

🔎 Quels pourraient être les impacts à court et à long terme de ces relations?

🔎 Comment pouvons-nous considérer les responsabilités individuelles et collectives?

## Explorer

📕 Après avoir exploré les questions et quelques variables nominales sur les démographies, nous voulons examiner la Q46 (le sentiment d'isolement) selon les variables nominales.

### L'exploration des variables nominales

#### L'identité 

In [None]:
heatmap_items_satisfaction = px.density_heatmap(data, x="LANGUE", 
                                                y="NAISS", # Changez la variable y avec "MINO" pour la minorité visible
                                                labels={"LANGUE": "Langue", "NAISS": "Naissance au Canada", "MINO": "Minorité visible", "Q47": "Amis avec la même langue maternelle"}, text_auto=True, color_continuous_scale=px.colors.diverging.Portland,
                                                title="La(les) première(s) langue(s) parlée(s) selon les fréquences de la naissance au Canada") # Mettez à jour le titre si vous modifiez la variable y
heatmap_items_satisfaction.update_layout(autosize=True, height=600)
heatmap_items_satisfaction.show()

#### L'interaction et le sentiment d'isolement

📕 `Q46` Vous sentez-vous isolé à Montréal? Codée à l'envers: 1 Beaucoup, 2 Assez, 3 Je ne sais pas, 4 Peu, 5 Pas du tout

In [None]:
data.loc[:, "Q46"].median()

In [None]:
Q46 = px.histogram(data, x="Q46", color_discrete_sequence=px.colors.diverging.Portland, title="Amis avec la même langue maternelle")
Q46

💻 Entrez le(s) sous-groupe(s) 

`Q47` Parmi tous vos amis, combien d’entre eux/elles ont la même langue maternelle que vous? 1 Aucun(e), 2 Quelques-uns / Quelques-unes, 3 À peu près la moitié, 4 La majorité, 5 Tous/Toutes
 
`Q2r2` Je parle le français 1 Pas du tout, 2 Pas très bien, 3 Plutôt bien, 4 Très bien, 5 Parfaitement

`Q2r6` Je parle l’anglais 1 Pas du tout, 2 Pas très bien, 3 Plutôt bien, 4 Très bien, 5 Parfaitement

In [None]:
profile_dispersion_Q47 = px.box(data, x="Q47", # Changez la variable x avec `Q47`, `Q2r2`, et `Q2r6`
                                y="Q46", 
                                color="Q47", # Mettez la variable x comme la couleur
                                points="all", 
                                labels={"Q46": "Isolement"}, 
                                hover_data=["NAISS","MINO","Q52r9","LANGUE"],
                                color_discrete_sequence=px.colors.diverging.Portland,
                                title="Le sentiment d'isolement (1 beacoup à 5 un peu)") # Modifiez le titre
profile_dispersion_Q47.update_layout(showlegend=False)
profile_dispersion_Q47.show()

🔎 Quels sous-groupes se situent au-dessous de la médiane?

✏️

💻 Entrez le(s) sous-groupe(s) dans la cellule de code ci-dessous.

In [None]:
df_matrices = data.loc[lambda df: (df["MINO"]!= "Je préfère ne pas répondre")];
df_matrices = data.loc[lambda df: (df["Q52r9"]!= "Je préfère ne pas répondre")];

reco_Q46 = {
    1:"Beaucoup", 
    2:"Assez",
    3:"Je ne sais pas",
    4:"Peu",
    5:"Pas du tout"
   
}

df_matrices["Q46"] = df_matrices["Q46"].replace(reco_Q46)

matrice_bandes = px.bar(df_matrices, 
                        x="MINO", # Changez la variable x avec `'MINO`, `NAISS`, `Q52r9`,
                        color = "Q46", 
                        facet_col="Q47", # Changez la variable avec `Q47`, `Q2r2`, et `Q2r6`
                        labels={"Q46": "Isolement", "Q47": "Amis avec la même langue", "Q2r2": "Je parle le français", "Q2r6": "Je parle l'anglais", "Q52r9": "Discrimination contre la langue"},
                        color_discrete_sequence=px.colors.diverging.Portland,
                        title=" ") # Mettez le titre

matrice_bandes.update_layout(autosize=True, height=600)
matrice_bandes.update_xaxes(categoryorder='array', categoryarray= ['Non','Oui'])
matrice_bandes.show()

🔎 Quelles sont les similarités et les différences?

✏️

## Interpréter

🔎 Comment est-ce que les identités (ethno)linguistiques sont représentées par les données?

🔎 Ajouteriez-vous une autre variable à l'ensemble des données?

🔎 Avez-vous d'autres questions à poser?

✏️

## Communiquer

🔎 Comment est-ce que l'exploration des données du sondage vous a aidé à déterminer l'impact des interactions sur les perceptions d'identité? 

🔎 Selon vous, quels sont les résultats qui ont le plus d'impact? Expliquez. Si vous n'avez pas trouvé les résultats concluants, expliquez cette importance.

🔎 Avez-vous toujours des questions sur le sentiment d'appartenance? Quelles sont vos questions? Quels types de données pourraient aborder vos questions?

✏️

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)