![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les langues parl√©es au Canada<br><br>Appr√©ciation de la diversit√© du (bi)multilinguisme<br><br>Pratiquer : le niveau interm√©diaire de la programmation en python

Bienvenue √† ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des donn√©es dans les salles de classe de la 5e √† la 12e ann√©e.

Dans ce notebook, nous utiliserons le python pour r√©aliser les diff√©rentes √©tapes d'analyse des donn√©es afin d'interpr√©ter les donn√©es et de les repr√©senter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diff√®re consid√©rablement.

Veuillez envoyer un courriel √† l'adresse contact@callysto.ca si vous rencontrez des probl√®mes avec le notebook.
<br><br>

## La d√©marche: les √©tapes d'analyses des donn√©es
1. **Questionner** - Formuler la question de recherche.
2. **S√©lectionner** - Trouver les biblioth√®ques de python et les sources de donn√©es pour r√©pondre √† la question de recherche.
3. **Organiser** - Mettre en forme les donn√©es afin de les pr√©parer pour l'exploration.
4. **Explorer** - Analyser les donn√©es et les repr√©senter par les visualisations.
5. **Interpr√©ter** - Expliquer les observations obtenues √† partir des visualisations.
6. **Communiquer** - Tirer une conclusion √† la question, bas√©e sur l'interpr√©tation des donn√©es.
<br><br>

## Questionner

**Comment d√©couvert-on ce que le (bi)multilinguisme veut dire?**
<br><br>

## S√©lectionner

### Le chargement des biblioth√®ques

Les biblioth√®ques sont les outils qui permettent √† manipuler plus facilement le langage de programmation python.

Vous trouverez les notes sur le code dans la cellule en italique vert apr√®s le `#`.

In [None]:
# Pour la manipulation de tableaux, importez la biblioth√®que pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la biblioth√®que numpy sous l'alias np
import numpy as np

# Pour les visualisations, importez la biblioth√®que plotly express sous l'alias px et la biblioth√®que matplotlib sous l'alias plt
import plotly.express as px
import matplotlib.pyplot as plt

### Les sources de donn√©es

[Licence du gouvernement ouvert ‚Äì Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Profil du recensement. Recensement de la population de 2021. [Jeu de donn√©es 98-316-X2021001]. 
https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/index.cfm?Lang=F

Document connexe du recensement: https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/about-apropos/about-apropos.cfm?Lang=F

### Le chargement des donn√©es

Nous acc√©dons aux donn√©es en format csv (comma-separated values) et les chargeons avec la biblioth√®que pandas en utilisant la fonction `read_csv`.

Le fichier `2021-langues-provinces-territoires.csv` dans le dossier `data` rapporte les chiffres des langues maternelles, des langues parl√©es le plus souvent √† la maison, et des langues utilis√©es au travail dans les provinces et aux territoires en 2021.

Nous chargeons l'ensemble de donn√©es dans la variable `data_prov_terr` et nous utilisons pandas sous l'alias `pd` pour lire √† travers la fonction `read_csv`.

In [None]:
# Pour le chargement de donn√©es en format csv, un format d√©limit√© par des virgules
data = pd.read_csv("data/2021-langues-provinces-territoires.csv")
data

L'ensemble de donn√©es `data` fait 10 755 lignes et 5 colonnes, ce qui fait 64 530 points de donn√©es.
<br><br>

## Organiser

üìï Revenons √† la question de recherche de ce que veut dire le (bi)multilinguisme, il faut identifier et comprendre les variables li√©es afin d'organiser les donn√©es pour l'exploration.

Pour obtenir plus de renseignements sur les variables relatives √† la langue, consultons le [Guide de r√©f√©rence sur les langues, Recensement de la population de 2021](https://www12.statcan.gc.ca/census-recensement/2021/ref/98-500/003/98-500-x2021003-fra.cfm).

### Les sous-ensembles de donn√©es 

üìï Remarquons que les questions pos√©es identifient la langue maternelle, la langue parl√©e le plus souvent √† la maison, et la langue utilis√©e le plus souvent au travail. 

Pour d√©couvrir la diversit√© des langues, nous viserons les langues elles-m√™mes.

D√©finissons les sous-ensembles de donn√©es pour chaque type de question. 

Nous utilisons `df` pour d√©signer le sous-ensemble, ou le **d**ata**f**rame, suivant d'une description. Cette pratique nous aidera √† suivre tous les sous-ensembles ; les ensembles de donn√©es commencent avec `data`.

In [None]:
# Changer l'ensemble entre `data_prov_terr`
df_langue_maternelle = data.loc[data["QUESTION"] == "Langue maternelle"]

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

# Afficher les cinq premi√®res lignes du sous-ensemble avec la fonction head()
df_langue_maternelle.head()

In [None]:
# Changez l'ensemble entre `data_prov_terr`
df_langue_maison = data.loc[lambda df: (df["QUESTION"]=="Langue parl√©e le plus souvent √† la maison")]; 

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maison = df_langue_maison.sort_values("LANGUE", ascending=True)

# Afficher les cinq premi√®res lignes du sous-ensemble avec la fonction head()
df_langue_maison.head()

In [None]:
# Changer l'ensemble entre `data_prov_terr`
df_langue_travail = data.loc[lambda df: (df["QUESTION"]=="Langue utilis√©e le plus souvent au travail")];

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_travail = df_langue_travail.sort_values("LANGUE", ascending=True)

# Afficher les cinq premi√®res lignes du sous-ensemble avec la fonction head()
df_langue_travail.head()

## Explorer

üíª Nous commen√ßons l'exploration en visualisant tous les points de donn√©es. 

Vous pouvez changer le sous-ensemble pour afficher les donn√©es pour la langue maternelle, la langue parl√©e plus souvent √† la maison, ou la langue utilis√©e le plus souvent au travail.

In [None]:
# Tapez une province ou un territoire entre les guillemets pour d√©finir un sous-ensemble
# "√éle-du-Prince-√âdouard", "Qu√©bec", "Terre-Neuve-et-Labrador", "Alberta", "Nouveau-Brunswick", "Yukon", "Canada", "Colombie-Britannique", "Nouvelle-√âcosse", "Saskatchewan", "Territoires du Nord-Ouest", "Ontario", "Nunavut", "Manitoba"
# Tapez le sous-ensemble df_langue_maternelle, df_langue_maison, ou df_langue_travail avant .loc

df_bandes_prov_terr = df_langue_maternelle.loc[lambda df: (df["G√âO"]=="Alberta")]; 

In [None]:
# Voici le code pour la variable langue_bandes comme un diagramme √† bandes avec l'axe des x LANGUE
langue_bandes = px.bar(df_bandes_prov_terr, 
                                  x="LANGUE", y="CHIFFRE_TOTAL", color="LANGUE", 
                                  title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                  color_discrete_sequence=px.colors.diverging.Portland)

# Voici le code pour l'affichage des bandes en ordre d√©croissant
langue_bandes.update_layout(xaxis={"categoryorder":"total descending"})

# Voici le code pour l'affichage du diagramme √† bandes
langue_bandes.update_layout(autosize=True, height=800)

üìï Examinez les hauteurs des bandes. Enlevez les langues officielles en d√©s√©lectionnant `Anglais` et `Fran√ßais` de la l√©gende. Vous pouvez √©galement zoomer en s√©lectionnant l'outil dans le menu √† droite en haut de la visualisation et remettre les axes avec l'ic√¥ne de maison.

üîé Pouvez-vous √©tablir des changements notables entre les fr√©quences? Expliquez. O√π se divisent les donn√©es? Y-a-t'il des explications pour ces divisions?

Apr√®s avoir visualis√© les fr√©quences d'une variable de la langue √† la fois, nous pouvons explorer les relations entre deux variables de langue avec un diagramme de dispersion.

üíª D'abord, pour comparer les trois questions sur la langue, nous devons cr√©er un sous-ensemble en utilisant la fonction `pivot` afin de mettre `LANGUE` dans les lignes et les questions dans les colonnes. 

In [None]:
# Tapez une province, un territoire, ou m√™me le Canada entre les guillemets pour d√©finir un sous-ensemble
# "√éle-du-Prince-√âdouard", "Qu√©bec", "Terre-Neuve-et-Labrador", "Alberta", "Nouveau-Brunswick", "Yukon", "Colombie-Britannique", "Nouvelle-√âcosse", "Saskatchewan", "Territoires du Nord-Ouest", "Ontario", "Nunavut", "Manitoba", "Canada"
df = data.loc[lambda df: (df["G√âO"]=="Alberta")];

# Voici le code pour pivoter les colonnes et les lignes
reorg = df.pivot_table(index=[df.index, "LANGUE"], values="CHIFFRE_TOTAL", columns="QUESTION")

# Voici le code pour grouper les colonnes par LANGUE
langues_tableau = reorg.groupby(["LANGUE"], as_index=True).first()
langues_tableau.reset_index(inplace=True)

# Voici le code pour l'affichage des premi√®res cinq lignes du tableau
langues_tableau.head()

In [None]:
langue_dispersion = px.scatter(langues_tableau, 
                           x="Langue parl√©e le plus souvent √† la maison", # Changez la question entre "Langue parl√©e le plus souvent √† la maison" et "Langue utilis√©e le plus souvent au travail"
                           y="Langue maternelle", 
                           color="LANGUE", color_discrete_sequence=px.colors.diverging.Portland, 
                           title=" ")
langue_dispersion.show()

üîé Y-a-t'il une relation lin√©aire ou non lin√©aire? Une relation positive ou n√©gative?

üîé Quelles points de langues sont les valeurs extr√™mes? Pouvez-vous offrir une explication plausible pour ces valeurs? 

üîé Pourquoi pensez-vous qu'il y a une concentration des autres langues?

## Interpr√©ter

üîé Quelles sont les tendances similaires et diff√©rentes dans les nuages de points?

üîé Quels pourraient √™tre les impacts √† court et √† long terme de ces relations?

üîé Comment pouvons-nous consid√©rer les responsabilit√©s individuelles et collectives?

## Communiquer

üîé Comment est-ce que l'exploration des donn√©es de recensement vous a aid√© √† d√©couvrir ce que le (bi)multilinguisme veut dire? 

üîé Selon vous, quels sont les r√©sultats qui ont le plus d'impact? Expliquez.

üîé Avez-vous toujours des questions sur le (bi)multilinguisme? Quelles sont vos questions? Quels types de donn√©es pourraient aborder vos questions?

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)