![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les langues parlées au Canada : Partie 2<br><br>Appréciation de la diversité du (bi)multilinguisme<br><br>

Bienvenue à ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des données dans les salles de classe de la 5e à la 12e année.

Dans ce notebook, nous utiliserons le python pour réaliser les différentes étapes d'analyse des données afin d'interpréter les données et de les représenter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diffère considérablement.

Pour démarrer le notebook et effectuer le code dans toutes les cellules, cliquez sur `Cell` dans le menu et sélectionnez `Run All`. Retournez en haut da la page après le chargement des cellules.

![instructions](https://github.com/callysto/data-viz-of-the-week/blob/main/images/instructions.png?raw=true)

Veuillez envoyer un courriel à l'adresse contact@callysto.ca si vous rencontrez des problèmes avec le notebook.
<br><br>

## La démarche: les étapes d'analyses des données
Rechargement de la Partie I
1. **Questionner** - Formuler la question de recherche.
2. **Sélectionner** - Trouver les bibliothèques de python et les sources de données pour répondre à la question de recherche.
3. **Organiser** - Mettre en forme les données afin de les préparer pour l'exploration.

Partie II<br>
4. **Explorer** - Analyser les données et les représenter par les visualisations.<br>
5. **Interpréter** - Expliquer les observations obtenues à partir des visualisations.<br>
6. **Communiquer** - Tirer une conclusion à la question, basée sur l'interprétation des données.
<br><br>

## Questionner

🔎 **Comment découvert-on ce que le (bi)multilinguisme veut dire?**
<br><br>

## Sélectionner

### Le chargement des bibliothèques

Les bibliothèques sont les outils qui permettent à manipuler plus facilement le langage de programmation python.

In [None]:
# Pour la manipulation de tableaux, importez la bibliothèque pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la bibliothèque numpy sous l'alias np
import numpy as np

# Pour les visualisations, importez la bibliothèque plotly express sous l'alias px et la bibliothèque matplotlib sous l'alias plt
import plotly.express as px
import matplotlib.pyplot as plt

# Pour les nuage de mots
from wordcloud import WordCloud

### Les sources de données

📕 

[Licence du gouvernement ouvert – Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Profil du recensement. Recensement de la population de 2021. [Jeu de données 98-316-X2021001]. 
https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/index.cfm?Lang=F

Document connexe du recensement: https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/about-apropos/about-apropos.cfm?Lang=F

Statistique Canada. (2023). Population selon la connaissance des langues officielles et la géographie, 1951 à 2021. [Jeu de données 15100004].  https://ouvert.canada.ca/data/fr/dataset/ca075a79-5962-4fc0-9a51-7439f659ea62 
<br><br>

### Le chargement des données

Il y a deux sources de données. 

Le premier fichier `2021-langues-canada.csv` dans le dossier `data` rapporte les chiffres des langues maternelles, des langues parlées le plus souvent à la maison, et des langues utilisées au travail au Canada en 2021.

Nous chargeons l'ensemble de données dans la variable `data_langues`.

In [None]:
data_langues = pd.read_csv("data/2021-langues-canada.csv")
data_langues

L'ensemble de données `data_langues` fait 803 lignes et 5 colonnes, ce qui fait 4 015 points de données.
<br><br>

<br><br>
Le deuxième fichier `1951-2021-langue-maternelle.csv` dans le dossier `data ` donne les chiffres des langues maternelles au Canada, dans les provinces, et aux territoires entre 1951 et 2021.

Nous chargeons l'ensemble de données dans la variable `data_langue_maternelle_periode`.

In [None]:
data_langue_maternelle_periode = pd.read_csv("data/1951-2021-langue-maternelle.csv")
data_langue_maternelle_periode

L'ensemble de données `data_langue_maternelle_periode` fait 2 920 lignes et 17 colonnes, ce qui fait moins de 49 000 points de données car `NaN` remplit plusieurs cellules et colonnes. `NaN` veut dire *Not a Number* et indique que la cellule est vide. Il faut mettre en forme cet ensemble de données dans l'étape d'Organiser.
<br><br>

## Organiser

Revenons à la question de recherche de ce que veut dire le (bi)multilinguisme, il faut identifier et comprendre les variables liées afin d'organiser les données pour l'exploration.

Pour obtenir plus de renseignements sur les variables relatives à la langue, consultons le [Guide de référence sur les langues, Recensement de la population de 2021](https://www12.statcan.gc.ca/census-recensement/2021/ref/98-500/003/98-500-x2021003-fra.cfm).

### Note sur les données de langue des ensembles de données

Voici les questions liées à notre question de recherche et à la langue qui ont été posées aux Canadien.ne.s pendant le recensement de 2021 :

>La question sur la langue **maternelle** était le suivant:
>
>Quelle est la langue que cette personne a apprise en premier lieu à la maison dans son enfance et qu’elle comprend encore?
>
>La question sur les langues parlées **à la maison** était divisée en deux parties:
>
>a) Quelle(s) langue(s) cette personne parle-t-elle régulièrement à la maison?
>b) Parmi ces langues, laquelle cette personne parle-t-elle le plus souvent à la maison?
>
>La question sur les langues **de travail** était divisée en deux parties:
>
>a) Dans cet emploi, quelle(s) langue(s) cette personne utilisait-elle régulièrement?
>b) Parmi ces langues, laquelle cette personne utilisait-elle le plus souvent dans cet emploi?

### L'ensemble de données `data_langues`

#### Le sous-ensemble `df_langue_maternelle`

In [None]:
df_langue_maternelle = data_langues.loc[data_langues["QUESTION"] == "Langue maternelle"]
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `df_langue_maison`

In [None]:
df_langue_maison = data_langues.loc[lambda df: (df["QUESTION"]=="Langue parlée le plus souvent à la maison")]; 
df_langue_maison = df_langue_maison.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `df_langue_travail`

In [None]:
df_langue_travail = data_langues.loc[lambda df: (df["QUESTION"]=="Langue utilisée le plus souvent au travail")];
df_langue_travail = df_langue_travail.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `langues_tableau`

In [None]:
reorg = data_langues.pivot_table(index=[data_langues.index, "LANGUE"], values="CHIFFRE_TOTAL", columns="QUESTION")
langues_tableau = reorg.groupby(["LANGUE"], as_index=True).first()
langues_tableau.reset_index(inplace=True)

### L'ensemble de données `data_langue_maternelle_periode`

#### Le sous-ensemble `df_langue_maternelle_periode`

In [None]:
df_langue_maternelle_periode = data_langue_maternelle_periode.drop(columns=["DGUID", "Réponses multiples", "UNITÉ DE MESURE", "IDENTIFICATEUR D'UNITÉ DE MESURE", "FACTEUR SCALAIRE", "IDENTIFICATEUR SCALAIRE", "VECTEUR", "COORDONNÉES", "STATUS", "SYMBOLE", "TERMINÉ", "DÉCIMALES"])
df_pourcent_maternelle_periode = df_langue_maternelle_periode.loc[df_langue_maternelle_periode["Statistiques"] == "Pourcentage"]
df_langue_maternelle_reorg = df_pourcent_maternelle_periode[df_pourcent_maternelle_periode["Langue maternelle"].str.contains("Total") == False]

## Explorer

📕 Nous commençons l'exploration en visualisant tous les points de données. Créons un nuage de mots pour représenter les chiffres avec une correspondance entre le chiffre total de chaque langue et la taille du mot de la même langue. Nous transformons les données quantitatives (les chiffres) aux qualitatives (les mots).

In [None]:
# Définir la variable `texte`
texte = df_langue_maternelle.set_index("LANGUE")["CHIFFRE_TOTAL"].to_dict() # Changer le sous-ensemble de données :  df_langue_maternelle, df_langue_maison, ou df_langue_travail

In [None]:
wc = WordCloud(background_color="white", # Définir la couleur du fond d'image
               colormap="RdBu",# Spécifier d'autres couleurs telles que "OrRd","autumn","copper","gist_heat","hot","Reds","rainbow"
              ) 
wc.fit_words(texte) # Afficher les mots de la variable `texte`
plt.imshow(wc) # Mettre les couleurs
plt.axis("off") # Éteindre les axes
plt.title("Les langues maternelles au Canada") # Définir un titre
plt.show() # Afficher le nuage des mots

🔎 Comment est le bilinguisme représenté? Et le multilinguisme? 

📕 Nous choisissons une autre visualisation, le diagramme à bandes, pour voir les fréquences de la variable `LANGUE`. Les nombres sur l'axe des y nous donnent l'échelle pour l'axe des x qui liste les langues du `df_langue_maternelle`.

Des fois, les langues contiennent des abréviations :
n.i.a. = non incluses ailleurs
<br>n.d.a. = non déclaré ailleurs

In [None]:
# Définir la variable langue_maternelle_bandes comme un diagramme à bandes avec l'axe des x LANGUE
langue_maternelle_bandes = px.bar(df_langue_maternelle, x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", title=" ", color_discrete_sequence=px.colors.diverging.Portland)

# Afficher les bandes en ordre décroissant
langue_maternelle_bandes.update_layout(xaxis={"categoryorder":"total descending"})

# Afficher le diagramme à bandes
langue_maternelle_bandes.update_layout(autosize=True, height=800)

🔎 Dans le code de ce diagramme, nous avons indiqué la variable x et la variable y. Que représente la variable y? Examinons une ou deux variables ici?

Examinez les hauteurs des bandes. Enlevez les langues officielles en désélectionnant `Anglais` et `Français` de la légende. Vous pouvez également zoomer en sélectionnant l'outil dans le menu à droite en haut de la visualisation et remettre les axes avec l'icône de maison.

🔎 Pouvez-vous établir des changements notables entre les fréquences? Où se divisent les données? Y-a-t'il des explications pour ces divisions?

🔎 Quel titre donneriez-vous à la visualisation? Que signifie votre titre?

📕 Nous continuons l'exploration avec un diagramme à bandes avec les fréquences de la variable `LANGUE` dans le sous-ensemble `df_langue_maison`.

In [None]:
langue_maison_bandes = px.bar(df_langue_maison, x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", title=" ", color_discrete_sequence=px.colors.diverging.Portland)
langue_maison_bandes.update_layout(xaxis={"categoryorder":"total descending"}) 
langue_maison_bandes.update_layout(autosize=True, height=800)

🔎 Quelle est la différence entre l'anglais comme langue maternelle dans le premier diagramme à bandes que nous avons exploré et l'anglais parlée à la maison dans ce graphique? 

🔎 Quelles sont les différences pour les autres langues? Pourriez-vous constater des raisons pour lesquelles les chiffres pour les langues maternelles et les langues parlées le plus souvent à la maison diffèrent?

🔎 Quel titre donneriez-vous à la visualisation? Que signifie votre titre?

📕 Ensuite, nous explorons le diagramme à bandes avec les fréquences de la variable `LANGUE` dans le sous-ensemble `df_langue_travail`.

In [None]:
langue_travail_bandes = px.bar(df_langue_travail, x="LANGUE", y="CHIFFRE_TOTAL", title=" ", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland)
langue_travail_bandes.update_layout(xaxis={"categoryorder":"total descending"})
langue_travail_bandes.update_layout(autosize=True, height=800)

Comparez l'axe des x de chacun des trois graphiques à barres. Chaque axe liste les fréquences de langues en ordre décroissant.

🔎 Trouvez-vous utile de placer toutes les langues sur l'axe des x? Expliquez. Comment affecte l'interactivité de la visualisation sur l'interprétation?

📕 Après avoir visualisé les fréquences d'une variable de la langue à la fois, nous pouvons explorer les relations entre deux variables de langue. Le diagramme de dispersion ci-dessous présente Langue maternelle sur l'axe des y et Langue parlée le plus souvent à la maison sur l'axe des x. Une liste de toutes les langues est dans la légende interactive.

In [None]:
# Définir la variable langue_maternelle_maison comme un diagramme de dispersion avec l'axe des x Langue parlée le plus souvent à la maison et l'axe des y Lange maternelle
langue_maternelle_maison = px.scatter(langues_tableau, x="Langue parlée le plus souvent à la maison", y="Langue maternelle", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, title=" ")

# Afficher le diagramme de dispersion
langue_maternelle_maison.show()

📕 Examinez la dispersion des données, le nuage de points. Cliquez sur les langues dans la légende pour les (dé)sélectionner. Mettez votre pointeur sur un point de donnée pour voir ses détails. Vous pouvez également zoomer en sélectionnant l'outil dans le menu à droite en haut de la visualisation et remettre les axes avec l'icône de maison.

🔎 Est-ce que la Langue parlée le plus souvent à la maison est fréquemment la Langue maternelle? Y-a-t'il une relation linéaire ou non linéaire? Une relation positive ou négative?

🔎 Quelles trois points de langues ont les valeurs extrêmes? Pouvez-vous offrir une explication potentielle pour ces valeurs? 

🔎 Pourquoi pensez-vous qu'il y a une concentration des autres langues? Quels points de langues ont les valeurs plus hautes pour la Langue maternelle que pour la Langue parlée le plus souvent à la maison? Indice: Zoomer vers les coordonnées (0, 0) et mettre votre pointeur sur les points de données pour leurs détails.

📕 Explorons la dépendance de la Langue maternelle, l'axe des y, sur la Langue utilisée le plus souvent au travail, l'axe des x, dans le nuage des points ci-dessous.

In [None]:
langue_maternelle_travail = px.scatter(langues_tableau, x="Langue utilisée le plus souvent au travail", y="Langue maternelle", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, title=" ")
langue_maternelle_travail.show()

🔎 Est-ce que la Langue utilisée le plus souvent au travail est fréquemment la Langue maternelle? Y-a-t'il une relation linéaire ou non linéaire? Une relation positive ou négative?

🔎 Quelles trois points de langues sont les valeurs extrêmes? Pouvez-vous offrir une explication potentielle pour ces valeurs? 

🔎 Pourquoi pensez-vous qu'il y a une concentration des autres langues? Quels points de langues ont les valeurs plus hautes pour la Langue maternelle que pour la Langue utilisée le plus souvent au travail? Indice: Zoomer vers les coordonnées (0, 0) et mettre votre pointeur sur les points de données pour les détails.

## Interpréter

🔎 Quelles sont les tendances similaires et différentes dans les deux nuages de points?

🔎 Quels pourraient être les impacts à court et à long terme de ces relations?

🔎 Comment pouvons-nous considérer les responsabilités individuelles et collectives?

## Explorer

📕 Les cartes proportionnelles, ou les treemaps, suivantes sont interactives. Cliquer sur les rectangles pour zoomer et explorer. Les cartes représentent hiérarchiquement les catégories et proportionnellement le chiffre total de chaque langue.

In [None]:
# Définir la variable langue_maternelle_classification avec les titres plus précis pour les catégories de langues
langue_maternelle_classification = df_langue_maternelle.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "Réponses multiples"])

# Définir la variable langues_maternelle_treemap comme un treemap avec les voies CLASSIFICATION et LANGUE
langues_maternelle_treemap = px.treemap(langue_maternelle_classification, path=[px.Constant("<b>Langues maternelles au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])

# Afficher le treemap
langues_maternelle_treemap.show()

🔎 Où se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les réponses multiples?

In [None]:
langue_maison_classification = df_langue_maison.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "Réponses multiples"])
langues_maison_treemap = px.treemap(langue_maison_classification, path=[px.Constant("<b>Langues parlées le plus souvent à la maison au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])
langues_maison_treemap.show()

🔎 Où se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les réponses multiples? 

In [None]:
langue_travail_classification = df_langue_travail.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "Réponses multiples"])
langues_travail_treemap = px.treemap(langue_travail_classification, path=[px.Constant("<b>Langues utilisées le plus souvent au travail au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])
langues_travail_treemap.show()

🔎 Où se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les réponses multiples? 

## Interpréter

🔎 Quels changements voyez-vous des représentations des classifications (les langues officielles, les langues non officielles, les langues autochtones, et les réponses multiples) à travers les trois treemaps? Quelles sont vos explications des changements? 

🔎 Y-a-t'il des variables qui ne changent pas?

## Explorer

Nous venons d'établir que l'utilisation des langues dépend du contexte. Nous explorons maintenant le pourcentage des langues maternelles déclarées chaque année entre 1951 et 2021 dans le diagramme à lignes brisées ci-dessous. 

Les classifications sont dans la légende: 
- Français
- Anglais
- Langue non officielle y compris les langues autochtones
- Français et anglais
- Anglais et langue(s) non officielle(s)
- Français et langue(s) non officielle(s)
- Français, anglais et langue(s) non officielle(s)

L'axe des y contient les pourcentages, et l'axe des x comprend l'année.

In [None]:
# Définir le sous-ensemble df_geo pour Canada
df_geo = df_langue_maternelle_reorg.loc[lambda df: (df["GÉO"]=="Canada")];

# Définir la variable langue_maternelle_lignes comme un diagramme à lignes brisées avec l'axe des y VALEUR et la variable color Langue maternelle
langue_maternelle_lignes = px.line(df_geo, x="PÉRIODE DE RÉFÉRENCE", y="VALEUR", color="Langue maternelle", color_discrete_sequence=px.colors.diverging.Portland, title="Langues maternelles au Canada entre 1951 et 2021")

# Afficher le diagramme à lignes brisées
langue_maternelle_lignes.show()

🔎 Quelles langues sont représentées dès 1991 quand un plus grand choix a été ajouté aux questions sur la langue du recensement?

## Interpréter

🔎 Quelle catégorie de langue maternelle connaît une tendance à la hausse même avec l'ajout de réponses multiples en 1991?

## Communiquer

🔎 Comment est-ce que l'exploration des données de recensements vous a aidé à découvrir ce que le (bi)multilinguisme veut dire? 

🔎 Selon vous, quels sont les résultats qui ont le plus d'impact? Expliquez.

🔎 Avez-vous toujours des questions sur le (bi)multilinguisme? Quelles sont vos questions? Quels types de données pourraient aborder vos questions?

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)