![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les langues parl√©es au Canada : Partie 2<br><br>Appr√©ciation de la diversit√© du (bi)multilinguisme<br><br>

Bienvenue √† ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des donn√©es dans les salles de classe de la 5e √† la 12e ann√©e.

Dans ce notebook, nous utiliserons le python pour r√©aliser les diff√©rentes √©tapes d'analyse des donn√©es afin d'interpr√©ter les donn√©es et de les repr√©senter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diff√®re consid√©rablement.

Pour d√©marrer le notebook et effectuer le code dans toutes les cellules, cliquez sur `Cell` dans le menu et s√©lectionnez `Run All`. Retournez en haut da la page apr√®s le chargement des cellules.

![instructions](https://github.com/callysto/data-viz-of-the-week/blob/main/images/instructions.png?raw=true)

Veuillez envoyer un courriel √† l'adresse contact@callysto.ca si vous rencontrez des probl√®mes avec le notebook.
<br><br>

## La d√©marche: les √©tapes d'analyses des donn√©es
Rechargement de la Partie I
1. **Questionner** - Formuler la question de recherche.
2. **S√©lectionner** - Trouver les biblioth√®ques de python et les sources de donn√©es pour r√©pondre √† la question de recherche.
3. **Organiser** - Mettre en forme les donn√©es afin de les pr√©parer pour l'exploration.

Partie II<br>
4. **Explorer** - Analyser les donn√©es et les repr√©senter par les visualisations.<br>
5. **Interpr√©ter** - Expliquer les observations obtenues √† partir des visualisations.<br>
6. **Communiquer** - Tirer une conclusion √† la question, bas√©e sur l'interpr√©tation des donn√©es.
<br><br>

## Questionner

üîé **Comment d√©couvert-on ce que le (bi)multilinguisme veut dire?**
<br><br>

## S√©lectionner

### Le chargement des biblioth√®ques

Les biblioth√®ques sont les outils qui permettent √† manipuler plus facilement le langage de programmation python.

In [None]:
# Pour la manipulation de tableaux, importez la biblioth√®que pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la biblioth√®que numpy sous l'alias np
import numpy as np

# Pour les visualisations, importez la biblioth√®que plotly express sous l'alias px et la biblioth√®que matplotlib sous l'alias plt
import plotly.express as px
import matplotlib.pyplot as plt

# Pour les nuage de mots
from wordcloud import WordCloud

### Les sources de donn√©es

üìï 

[Licence du gouvernement ouvert ‚Äì Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Profil du recensement. Recensement de la population de 2021. [Jeu de donn√©es 98-316-X2021001]. 
https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/index.cfm?Lang=F

Document connexe du recensement: https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/about-apropos/about-apropos.cfm?Lang=F

Statistique Canada. (2023). Population selon la connaissance des langues officielles et la g√©ographie, 1951 √† 2021. [Jeu de donn√©es 15100004].  https://ouvert.canada.ca/data/fr/dataset/ca075a79-5962-4fc0-9a51-7439f659ea62 
<br><br>

### Le chargement des donn√©es

Il y a deux sources de donn√©es. 

Le premier fichier `2021-langues-canada.csv` dans le dossier `data` rapporte les chiffres des langues maternelles, des langues parl√©es le plus souvent √† la maison, et des langues utilis√©es au travail au Canada en 2021.

Nous chargeons l'ensemble de donn√©es dans la variable `data_langues`.

In [None]:
data_langues = pd.read_csv("data/2021-langues-canada.csv")
data_langues

L'ensemble de donn√©es `data_langues` fait 803 lignes et 5 colonnes, ce qui fait 4 015 points de donn√©es.
<br><br>

<br><br>
Le deuxi√®me fichier `1951-2021-langue-maternelle.csv` dans le dossier `data ` donne les chiffres des langues maternelles au Canada, dans les provinces, et aux territoires entre 1951 et 2021.

Nous chargeons l'ensemble de donn√©es dans la variable `data_langue_maternelle_periode`.

In [None]:
data_langue_maternelle_periode = pd.read_csv("data/1951-2021-langue-maternelle.csv")
data_langue_maternelle_periode

L'ensemble de donn√©es `data_langue_maternelle_periode` fait 2 920 lignes et 17 colonnes, ce qui fait moins de 49 000 points de donn√©es car `NaN` remplit plusieurs cellules et colonnes. `NaN` veut dire *Not a Number* et indique que la cellule est vide. Il faut mettre en forme cet ensemble de donn√©es dans l'√©tape d'Organiser.
<br><br>

## Organiser

Revenons √† la question de recherche de ce que veut dire le (bi)multilinguisme, il faut identifier et comprendre les variables li√©es afin d'organiser les donn√©es pour l'exploration.

Pour obtenir plus de renseignements sur les variables relatives √† la langue, consultons le [Guide de r√©f√©rence sur les langues, Recensement de la population de 2021](https://www12.statcan.gc.ca/census-recensement/2021/ref/98-500/003/98-500-x2021003-fra.cfm).

### Note sur les donn√©es de langue des ensembles de donn√©es

Voici les questions li√©es √† notre question de recherche et √† la langue qui ont √©t√© pos√©es aux Canadien.ne.s pendant le recensement de 2021 :

>La question sur la langue **maternelle** √©tait le suivant:
>
>Quelle est la langue que cette personne a apprise en premier lieu √† la maison dans son enfance et qu‚Äôelle comprend encore?
>
>La question sur les langues parl√©es **√† la maison** √©tait divis√©e en deux parties:
>
>a) Quelle(s) langue(s) cette personne parle-t-elle r√©guli√®rement √† la maison?
>b) Parmi ces langues, laquelle cette personne parle-t-elle le plus souvent √† la maison?
>
>La question sur les langues **de travail** √©tait divis√©e en deux parties:
>
>a) Dans cet emploi, quelle(s) langue(s) cette personne utilisait-elle r√©guli√®rement?
>b) Parmi ces langues, laquelle cette personne utilisait-elle le plus souvent dans cet emploi?

### L'ensemble de donn√©es `data_langues`

#### Le sous-ensemble `df_langue_maternelle`

In [None]:
df_langue_maternelle = data_langues.loc[data_langues["QUESTION"] == "Langue maternelle"]
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `df_langue_maison`

In [None]:
df_langue_maison = data_langues.loc[lambda df: (df["QUESTION"]=="Langue parl√©e le plus souvent √† la maison")]; 
df_langue_maison = df_langue_maison.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `df_langue_travail`

In [None]:
df_langue_travail = data_langues.loc[lambda df: (df["QUESTION"]=="Langue utilis√©e le plus souvent au travail")];
df_langue_travail = df_langue_travail.sort_values("LANGUE", ascending=True)

#### Le sous-ensemble `langues_tableau`

In [None]:
reorg = data_langues.pivot_table(index=[data_langues.index, "LANGUE"], values="CHIFFRE_TOTAL", columns="QUESTION")
langues_tableau = reorg.groupby(["LANGUE"], as_index=True).first()
langues_tableau.reset_index(inplace=True)

### L'ensemble de donn√©es `data_langue_maternelle_periode`

#### Le sous-ensemble `df_langue_maternelle_periode`

In [None]:
df_langue_maternelle_periode = data_langue_maternelle_periode.drop(columns=["DGUID", "R√©ponses multiples", "UNIT√â DE MESURE", "IDENTIFICATEUR D'UNIT√â DE MESURE", "FACTEUR SCALAIRE", "IDENTIFICATEUR SCALAIRE", "VECTEUR", "COORDONN√âES", "STATUS", "SYMBOLE", "TERMIN√â", "D√âCIMALES"])
df_pourcent_maternelle_periode = df_langue_maternelle_periode.loc[df_langue_maternelle_periode["Statistiques"] == "Pourcentage"]
df_langue_maternelle_reorg = df_pourcent_maternelle_periode[df_pourcent_maternelle_periode["Langue maternelle"].str.contains("Total") == False]

## Explorer

üìï Nous commen√ßons l'exploration en visualisant tous les points de donn√©es. Cr√©ons un nuage de mots pour repr√©senter les chiffres avec une correspondance entre le chiffre total de chaque langue et la taille du mot de la m√™me langue. Nous transformons les donn√©es quantitatives (les chiffres) aux qualitatives (les mots).

In [None]:
# D√©finir la variable `texte`
texte = df_langue_maternelle.set_index("LANGUE")["CHIFFRE_TOTAL"].to_dict() # Changer le sous-ensemble de donn√©es :  df_langue_maternelle, df_langue_maison, ou df_langue_travail

In [None]:
wc = WordCloud(background_color="white", # D√©finir la couleur du fond d'image
               colormap="RdBu",# Sp√©cifier d'autres couleurs telles que "OrRd","autumn","copper","gist_heat","hot","Reds","rainbow"
              ) 
wc.fit_words(texte) # Afficher les mots de la variable `texte`
plt.imshow(wc) # Mettre les couleurs
plt.axis("off") # √âteindre les axes
plt.title("Les langues maternelles au Canada") # D√©finir un titre
plt.show() # Afficher le nuage des mots

üîé Comment est le bilinguisme repr√©sent√©? Et le multilinguisme? 

üìï Nous choisissons une autre visualisation, le diagramme √† bandes, pour voir les fr√©quences de la variable `LANGUE`. Les nombres sur l'axe des y nous donnent l'√©chelle pour l'axe des x qui liste les langues du `df_langue_maternelle`.

Des fois, les langues contiennent des abr√©viations :
n.i.a. = non incluses ailleurs
<br>n.d.a. = non d√©clar√© ailleurs

In [None]:
# D√©finir la variable langue_maternelle_bandes comme un diagramme √† bandes avec l'axe des x LANGUE
langue_maternelle_bandes = px.bar(df_langue_maternelle, x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", title=" ", color_discrete_sequence=px.colors.diverging.Portland)

# Afficher les bandes en ordre d√©croissant
langue_maternelle_bandes.update_layout(xaxis={"categoryorder":"total descending"})

# Afficher le diagramme √† bandes
langue_maternelle_bandes.update_layout(autosize=True, height=800)

üîé Dans le code de ce diagramme, nous avons indiqu√© la variable x et la variable y. Que repr√©sente la variable y? Examinons une ou deux variables ici?

Examinez les hauteurs des bandes. Enlevez les langues officielles en d√©s√©lectionnant `Anglais` et `Fran√ßais` de la l√©gende. Vous pouvez √©galement zoomer en s√©lectionnant l'outil dans le menu √† droite en haut de la visualisation et remettre les axes avec l'ic√¥ne de maison.

üîé Pouvez-vous √©tablir des changements notables entre les fr√©quences? O√π se divisent les donn√©es? Y-a-t'il des explications pour ces divisions?

üîé Quel titre donneriez-vous √† la visualisation? Que signifie votre titre?

üìï Nous continuons l'exploration avec un diagramme √† bandes avec les fr√©quences de la variable `LANGUE` dans le sous-ensemble `df_langue_maison`.

In [None]:
langue_maison_bandes = px.bar(df_langue_maison, x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", title=" ", color_discrete_sequence=px.colors.diverging.Portland)
langue_maison_bandes.update_layout(xaxis={"categoryorder":"total descending"}) 
langue_maison_bandes.update_layout(autosize=True, height=800)

üîé Quelle est la diff√©rence entre l'anglais comme langue maternelle dans le premier diagramme √† bandes que nous avons explor√© et l'anglais parl√©e √† la maison dans ce graphique? 

üîé Quelles sont les diff√©rences pour les autres langues? Pourriez-vous constater des raisons pour lesquelles les chiffres pour les langues maternelles et les langues parl√©es le plus souvent √† la maison diff√®rent?

üîé Quel titre donneriez-vous √† la visualisation? Que signifie votre titre?

üìï Ensuite, nous explorons le diagramme √† bandes avec les fr√©quences de la variable `LANGUE` dans le sous-ensemble `df_langue_travail`.

In [None]:
langue_travail_bandes = px.bar(df_langue_travail, x="LANGUE", y="CHIFFRE_TOTAL", title=" ", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland)
langue_travail_bandes.update_layout(xaxis={"categoryorder":"total descending"})
langue_travail_bandes.update_layout(autosize=True, height=800)

Comparez l'axe des x de chacun des trois graphiques √† barres. Chaque axe liste les fr√©quences de langues en ordre d√©croissant.

üîé Trouvez-vous utile de placer toutes les langues sur l'axe des x? Expliquez. Comment affecte l'interactivit√© de la visualisation sur l'interpr√©tation?

üìï Apr√®s avoir visualis√© les fr√©quences d'une variable de la langue √† la fois, nous pouvons explorer les relations entre deux variables de langue. Le diagramme de dispersion ci-dessous pr√©sente Langue maternelle sur l'axe des y et Langue parl√©e le plus souvent √† la maison sur l'axe des x. Une liste de toutes les langues est dans la l√©gende interactive.

In [None]:
# D√©finir la variable langue_maternelle_maison comme un diagramme de dispersion avec l'axe des x Langue parl√©e le plus souvent √† la maison et l'axe des y Lange maternelle
langue_maternelle_maison = px.scatter(langues_tableau, x="Langue parl√©e le plus souvent √† la maison", y="Langue maternelle", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, title=" ")

# Afficher le diagramme de dispersion
langue_maternelle_maison.show()

üìï Examinez la dispersion des donn√©es, le nuage de points. Cliquez sur les langues dans la l√©gende pour les (d√©)s√©lectionner. Mettez votre pointeur sur un point de donn√©e pour voir ses d√©tails. Vous pouvez √©galement zoomer en s√©lectionnant l'outil dans le menu √† droite en haut de la visualisation et remettre les axes avec l'ic√¥ne de maison.

üîé Est-ce que la Langue parl√©e le plus souvent √† la maison est fr√©quemment la Langue maternelle? Y-a-t'il une relation lin√©aire ou non lin√©aire? Une relation positive ou n√©gative?

üîé Quelles trois points de langues ont les valeurs extr√™mes? Pouvez-vous offrir une explication potentielle pour ces valeurs? 

üîé Pourquoi pensez-vous qu'il y a une concentration des autres langues? Quels points de langues ont les valeurs plus hautes pour la Langue maternelle que pour la Langue parl√©e le plus souvent √† la maison? Indice: Zoomer vers les coordonn√©es (0, 0) et mettre votre pointeur sur les points de donn√©es pour leurs d√©tails.

üìï Explorons la d√©pendance de la Langue maternelle, l'axe des y, sur la Langue utilis√©e le plus souvent au travail, l'axe des x, dans le nuage des points ci-dessous.

In [None]:
langue_maternelle_travail = px.scatter(langues_tableau, x="Langue utilis√©e le plus souvent au travail", y="Langue maternelle", color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, title=" ")
langue_maternelle_travail.show()

üîé Est-ce que la Langue utilis√©e le plus souvent au travail est fr√©quemment la Langue maternelle? Y-a-t'il une relation lin√©aire ou non lin√©aire? Une relation positive ou n√©gative?

üîé Quelles trois points de langues sont les valeurs extr√™mes? Pouvez-vous offrir une explication potentielle pour ces valeurs? 

üîé Pourquoi pensez-vous qu'il y a une concentration des autres langues? Quels points de langues ont les valeurs plus hautes pour la Langue maternelle que pour la Langue utilis√©e le plus souvent au travail? Indice: Zoomer vers les coordonn√©es (0, 0) et mettre votre pointeur sur les points de donn√©es pour les d√©tails.

## Interpr√©ter

üîé Quelles sont les tendances similaires et diff√©rentes dans les deux nuages de points?

üîé Quels pourraient √™tre les impacts √† court et √† long terme de ces relations?

üîé Comment pouvons-nous consid√©rer les responsabilit√©s individuelles et collectives?

## Explorer

üìï Les cartes proportionnelles, ou les treemaps, suivantes sont interactives. Cliquer sur les rectangles pour zoomer et explorer. Les cartes repr√©sentent hi√©rarchiquement les cat√©gories et proportionnellement le chiffre total de chaque langue.

In [None]:
# D√©finir la variable langue_maternelle_classification avec les titres plus pr√©cis pour les cat√©gories de langues
langue_maternelle_classification = df_langue_maternelle.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "R√©ponses multiples"])

# D√©finir la variable langues_maternelle_treemap comme un treemap avec les voies CLASSIFICATION et LANGUE
langues_maternelle_treemap = px.treemap(langue_maternelle_classification, path=[px.Constant("<b>Langues maternelles au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])

# Afficher le treemap
langues_maternelle_treemap.show()

üîé O√π se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les r√©ponses multiples?

In [None]:
langue_maison_classification = df_langue_maison.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "R√©ponses multiples"])
langues_maison_treemap = px.treemap(langue_maison_classification, path=[px.Constant("<b>Langues parl√©es le plus souvent √† la maison au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])
langues_maison_treemap.show()

üîé O√π se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les r√©ponses multiples? 

In [None]:
langue_travail_classification = df_langue_travail.replace(["officielle", "autochtone", "non officielle", "responses multiples"], ["Langues officielles", "Langues autochtones", "Langues non officielles", "R√©ponses multiples"])
langues_travail_treemap = px.treemap(langue_travail_classification, path=[px.Constant("<b>Langues utilis√©es le plus souvent au travail au Canada</b>"), "CLASSIFICATION", "LANGUE"], values="CHIFFRE_TOTAL",
                  color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, hover_data=["CHIFFRE_TOTAL"])
langues_travail_treemap.show()

üîé O√π se trouvent les quatre classifications: les langues officielles, les langues non officielles, les langues autochtones, et les r√©ponses multiples? 

## Interpr√©ter

üîé Quels changements voyez-vous des repr√©sentations des classifications (les langues officielles, les langues non officielles, les langues autochtones, et les r√©ponses multiples) √† travers les trois treemaps? Quelles sont vos explications des changements? 

üîé Y-a-t'il des variables qui ne changent pas?

## Explorer

Nous venons d'√©tablir que l'utilisation des langues d√©pend du contexte. Nous explorons maintenant le pourcentage des langues maternelles d√©clar√©es chaque ann√©e entre 1951 et 2021 dans le diagramme √† lignes bris√©es ci-dessous. 

Les classifications sont dans la l√©gende: 
- Fran√ßais
- Anglais
- Langue non officielle y compris les langues autochtones
- Fran√ßais et anglais
- Anglais et langue(s) non officielle(s)
- Fran√ßais et langue(s) non officielle(s)
- Fran√ßais, anglais et langue(s) non officielle(s)

L'axe des y contient les pourcentages, et l'axe des x comprend l'ann√©e.

In [None]:
# D√©finir le sous-ensemble df_geo pour Canada
df_geo = df_langue_maternelle_reorg.loc[lambda df: (df["G√âO"]=="Canada")];

# D√©finir la variable langue_maternelle_lignes comme un diagramme √† lignes bris√©es avec l'axe des y VALEUR et la variable color Langue maternelle
langue_maternelle_lignes = px.line(df_geo, x="P√âRIODE DE R√âF√âRENCE", y="VALEUR", color="Langue maternelle", color_discrete_sequence=px.colors.diverging.Portland, title="Langues maternelles au Canada entre 1951 et 2021")

# Afficher le diagramme √† lignes bris√©es
langue_maternelle_lignes.show()

üîé Quelles langues sont repr√©sent√©es d√®s 1991 quand un plus grand choix a √©t√© ajout√© aux questions sur la langue du recensement?

## Interpr√©ter

üîé Quelle cat√©gorie de langue maternelle conna√Æt une tendance √† la hausse m√™me avec l'ajout de r√©ponses multiples en 1991?

## Communiquer

üîé Comment est-ce que l'exploration des donn√©es de recensements vous a aid√© √† d√©couvrir ce que le (bi)multilinguisme veut dire? 

üîé Selon vous, quels sont les r√©sultats qui ont le plus d'impact? Expliquez.

üîé Avez-vous toujours des questions sur le (bi)multilinguisme? Quelles sont vos questions? Quels types de donn√©es pourraient aborder vos questions?

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)