![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les langues parlées au Canada<br><br>Appréciation de la diversité du (bi)multilinguisme<br><br>Pratiquer : le niveau intermédiaire de la programmation en python

Bienvenue à ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des données dans les salles de classe de la 5e à la 12e année.

Dans ce notebook, nous utiliserons le python pour réaliser les différentes étapes d'analyse des données afin d'interpréter les données et de les représenter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diffère considérablement.

Veuillez envoyer un courriel à l'adresse contact@callysto.ca si vous rencontrez des problèmes avec le notebook.
<br><br>

## La démarche: les étapes d'analyses des données
1. **Questionner** - Formuler la question de recherche.
2. **Sélectionner** - Trouver les bibliothèques de python et les sources de données pour répondre à la question de recherche.
3. **Organiser** - Mettre en forme les données afin de les préparer pour l'exploration.
4. **Explorer** - Analyser les données et les représenter par les visualisations.
5. **Interpréter** - Expliquer les observations obtenues à partir des visualisations.
6. **Communiquer** - Tirer une conclusion à la question, basée sur l'interprétation des données.
<br><br>

## Questionner

**Comment découvert-on ce que le (bi)multilinguisme veut dire?**
<br><br>

## Sélectionner

### Le chargement des bibliothèques

Les bibliothèques sont les outils qui permettent à manipuler plus facilement le langage de programmation python.

Vous trouverez les notes sur le code dans la cellule en italique vert après le `#`.

In [None]:
# Pour la manipulation de tableaux, importez la bibliothèque pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la bibliothèque numpy sous l'alias np
import numpy as np

# Pour les visualisations, importez la bibliothèque plotly express sous l'alias px et la bibliothèque matplotlib sous l'alias plt
import plotly.express as px
import matplotlib.pyplot as plt

### Les sources de données

[Licence du gouvernement ouvert – Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Profil du recensement. Recensement de la population de 2021. [Jeu de données 98-316-X2021001]. 
https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/index.cfm?Lang=F

Document connexe du recensement: https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/about-apropos/about-apropos.cfm?Lang=F

### Le chargement des données

Nous accédons aux données en format csv (comma-separated values) et les chargeons avec la bibliothèque pandas en utilisant la fonction `read_csv`.

Le fichier `2021-langues-provinces-territoires.csv` dans le dossier `data` rapporte les chiffres des langues maternelles, des langues parlées le plus souvent à la maison, et des langues utilisées au travail dans les provinces et aux territoires en 2021.

Nous chargeons l'ensemble de données dans la variable `data_prov_terr` et nous utilisons pandas sous l'alias `pd` pour lire à travers la fonction `read_csv`.

In [None]:
# Pour le chargement de données en format csv, un format délimité par des virgules
data = pd.read_csv("data/2021-langues-provinces-territoires.csv")
data

L'ensemble de données `data` fait 10 755 lignes et 5 colonnes, ce qui fait 64 530 points de données.
<br><br>

## Organiser

📕 Revenons à la question de recherche de ce que veut dire le (bi)multilinguisme, il faut identifier et comprendre les variables liées afin d'organiser les données pour l'exploration.

Pour obtenir plus de renseignements sur les variables relatives à la langue, consultons le [Guide de référence sur les langues, Recensement de la population de 2021](https://www12.statcan.gc.ca/census-recensement/2021/ref/98-500/003/98-500-x2021003-fra.cfm).

### Les sous-ensembles de données 

📕 Remarquons que les questions posées identifient la langue maternelle, la langue parlée le plus souvent à la maison, et la langue utilisée le plus souvent au travail. 

Pour découvrir la diversité des langues, nous viserons les langues elles-mêmes.

Définissons les sous-ensembles de données pour chaque type de question. 

Nous utilisons `df` pour désigner le sous-ensemble, ou le **d**ata**f**rame, suivant d'une description. Cette pratique nous aidera à suivre tous les sous-ensembles ; les ensembles de données commencent avec `data`.

In [None]:
# Changer l'ensemble entre `data_prov_terr`
df_langue_maternelle = data.loc[data["QUESTION"] == "Langue maternelle"]

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_maternelle.head()

In [None]:
# Changez l'ensemble entre `data_prov_terr`
df_langue_maison = data.loc[lambda df: (df["QUESTION"]=="Langue parlée le plus souvent à la maison")]; 

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maison = df_langue_maison.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_maison.head()

In [None]:
# Changer l'ensemble entre `data_prov_terr`
df_langue_travail = data.loc[lambda df: (df["QUESTION"]=="Langue utilisée le plus souvent au travail")];

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_travail = df_langue_travail.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_travail.head()

## Explorer

💻 Nous commençons l'exploration en visualisant tous les points de données. 

Vous pouvez changer le sous-ensemble pour afficher les données pour la langue maternelle, la langue parlée plus souvent à la maison, ou la langue utilisée le plus souvent au travail.

In [None]:
# Tapez une province ou un territoire entre les guillemets pour définir un sous-ensemble
# "Île-du-Prince-Édouard", "Québec", "Terre-Neuve-et-Labrador", "Alberta", "Nouveau-Brunswick", "Yukon", "Canada", "Colombie-Britannique", "Nouvelle-Écosse", "Saskatchewan", "Territoires du Nord-Ouest", "Ontario", "Nunavut", "Manitoba"
# Tapez le sous-ensemble df_langue_maternelle, df_langue_maison, ou df_langue_travail avant .loc

df_bandes_prov_terr = df_langue_maternelle.loc[lambda df: (df["GÉO"]=="Alberta")]; 

In [None]:
# Voici le code pour la variable langue_bandes comme un diagramme à bandes avec l'axe des x LANGUE
langue_bandes = px.bar(df_bandes_prov_terr, 
                                  x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", 
                                  title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                  color_discrete_sequence=px.colors.diverging.Portland)

# Voici le code pour l'affichage des bandes en ordre décroissant
langue_bandes.update_layout(xaxis={"categoryorder":"total descending"})

# Voici le code pour l'affichage du diagramme à bandes
langue_bandes.update_layout(autosize=True, height=800)

📕 Examinez les hauteurs des bandes. Enlevez les langues officielles en désélectionnant `Anglais` et `Français` de la légende. Vous pouvez également zoomer en sélectionnant l'outil dans le menu à droite en haut de la visualisation et remettre les axes avec l'icône de maison.

🔎 Pouvez-vous établir des changements notables entre les fréquences? Expliquez. Où se divisent les données? Y-a-t'il des explications pour ces divisions?

Après avoir visualisé les fréquences d'une variable de la langue à la fois, nous pouvons explorer les relations entre deux variables de langue avec un diagramme de dispersion.

💻 D'abord, pour comparer les trois questions sur la langue, nous devons créer un sous-ensemble en utilisant la fonction `pivot` afin de mettre `LANGUE` dans les lignes et les questions dans les colonnes. 

In [None]:
# Tapez une province, un territoire, ou même le Canada entre les guillemets pour définir un sous-ensemble
# "Île-du-Prince-Édouard", "Québec", "Terre-Neuve-et-Labrador", "Alberta", "Nouveau-Brunswick", "Yukon", "Colombie-Britannique", "Nouvelle-Écosse", "Saskatchewan", "Territoires du Nord-Ouest", "Ontario", "Nunavut", "Manitoba", "Canada"
df = data.loc[lambda df: (df["GÉO"]=="Alberta")];

# Voici le code pour pivoter les colonnes et les lignes
reorg = df.pivot_table(index=[df.index, "LANGUE"], values="CHIFFRE_TOTAL", columns="QUESTION")

# Voici le code pour grouper les colonnes par LANGUE
langues_tableau = reorg.groupby(["LANGUE"], as_index=True).first()
langues_tableau.reset_index(inplace=True)

# Voici le code pour l'affichage des premières cinq lignes du tableau
langues_tableau.head()

In [None]:
langue_dispersion = px.scatter(langues_tableau, 
                           x="Langue parlée le plus souvent à la maison", # Changez la question entre "Langue parlée le plus souvent à la maison" et "Langue utilisée le plus souvent au travail"
                           y="Langue maternelle", 
                           color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, 
                           title=" ")
langue_dispersion.show()

🔎 Y-a-t'il une relation linéaire ou non linéaire? Une relation positive ou négative?

🔎 Quelles points de langues sont les valeurs extrêmes? Pouvez-vous offrir une explication plausible pour ces valeurs? 

🔎 Pourquoi pensez-vous qu'il y a une concentration des autres langues?

## Interpréter

🔎 Quelles sont les tendances similaires et différentes dans les nuages de points?

🔎 Quels pourraient être les impacts à court et à long terme de ces relations?

🔎 Comment pouvons-nous considérer les responsabilités individuelles et collectives?

## Communiquer

🔎 Comment est-ce que l'exploration des données de recensement vous a aidé à découvrir ce que le (bi)multilinguisme veut dire? 

🔎 Selon vous, quels sont les résultats qui ont le plus d'impact? Expliquez.

🔎 Avez-vous toujours des questions sur le (bi)multilinguisme? Quelles sont vos questions? Quels types de données pourraient aborder vos questions?

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)