![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les langues parlées au Canada : Partie 1<br><br>La mise en forme des données <br><br>

Bienvenue à ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des données dans les salles de classe de la 5e à la 12e année.

Dans ce notebook, nous utiliserons le python pour réaliser les différentes étapes d'analyse des données afin d'interpréter les données et de les représenter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diffère considérablement.

Pour démarrer le notebook et effectuer le code dans toutes les cellules, cliquez sur `Cell` dans le menu et sélectionnez `Run All`. Retournez en haut da la page après le chargement des cellules.

![instructions](https://github.com/callysto/data-viz-of-the-week/blob/main/images/instructions.png?raw=true)

Veuillez envoyer un courriel à l'adresse contact@callysto.ca si vous rencontrez des problèmes avec le notebook.
<br><br>

## La démarche: les étapes d'analyses des données
1. **Questionner** - Formuler la question de recherche.
2. **Sélectionner** - Trouver les bibliothèques de python et les sources de données pour répondre à la question de recherche.
3. **Organiser** - Mettre en forme les données afin de les préparer pour l'exploration.
<br><br>

## Questionner

🔎 **Comment découvert-on ce que le (bi)multilinguisme veut dire?**
<br><br>

## Sélectionner

### Le chargement des bibliothèques

Les bibliothèques sont les outils qui permettent à manipuler plus facilement le langage de progammation python.

Vous trouverez les notes sur le code dans la cellule en italique vert après le `#`.

In [None]:
# Pour la manipulation de tableaux, importez la bibliothèque pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la bibliothèque numpy sous l'alias np
import numpy as np

### Les sources de données

📕

[Licence du gouvernement ouvert – Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Profil du recensement. Recensement de la population de 2021. [Jeu de données 98-316-X2021001].
https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/index.cfm?Lang=F

Document connexe du recensement: https://www12.statcan.gc.ca/census-recensement/2021/dp-pd/prof/about-apropos/about-apropos.cfm?Lang=F

Statistique Canada. (2023). Population selon la connaissance des langues officielles et la géographie, 1951 à 2021. [Jeu de données 15100004].  https://ouvert.canada.ca/data/fr/dataset/ca075a79-5962-4fc0-9a51-7439f659ea62
<br><br>

### Le chargement des données

Il y a deux sources de données.

Nous accédons aux données en format csv (comma-separated values) et les chargeons avec la bibliothèque pandas en utilisant la fonction `read_csv`.

Le premier fichier `2021-langues-canada.csv` dans le dossier `data` rapporte les chiffres des langues maternelles, des langues parlées le plus souvent à la maison, et des langues utilisées au travail au Canada en 2021.

Nous chargeons l'ensemble de données dans la variable `data_langues` et nous utilisons pandas sous l'alias `pd` pour lire à travers la fonction `read_csv`.

In [None]:
# Pour le chargement de données en format csv, un format délimité par des virgules
data_langues = pd.read_csv("data/2021-langues-canada.csv")
data_langues

L'ensemble de données `data_langues` fait 803 lignes et 5 colonnes, ce qui fait 4 015 points de données.
<br><br>

<br><br>
Le deuxième fichier `1951-2021-langue-maternelle.csv` dans le dossier `data ` donne les chiffres des langues maternelles au Canada, dans les provinces, et aux territoires entre 1951 et 2021.

Nous chargeons l'ensemble de données dans la variable `data_langue_maternelle_periode` et nous utilisons pandas sous l'alias `pd` pour lire à travers la fonction `read_csv`.

In [None]:
# Pour le chargement de données en format csv, un format délimité par des virgules
data_langue_maternelle_periode = pd.read_csv("data/1951-2021-langue-maternelle.csv")
data_langue_maternelle_periode

L'ensemble de données `data_langue_maternelle_periode` fait 2 920 lignes et 17 colonnes, ce qui fait moins de 49 000 points de données car `NaN` remplit plusieurs cellules et colonnes. `NaN` veut dire *Not a Number* et indique que la cellule est vide. Il faut mettre en forme cet ensemble de données dans l'étape d'Organiser.
<br><br>

## Organiser

📕 Revenons à la question de recherche de ce que veut dire le (bi)multilinguisme, il faut identifier et comprendre les variables liées afin d'organiser les données pour l'exploration.

Pour obtenir plus de renseignements sur les variables relatives à la langue, consultons le [Guide de référence sur les langues, Recensement de la population de 2021](https://www12.statcan.gc.ca/census-recensement/2021/ref/98-500/003/98-500-x2021003-fra.cfm).

### Note sur les données de langue des ensembles de données

Voici les questions liées à notre question de recherche et à la langue qui ont été posées aux Canadien.ne.s pendant le recensement de 2021:

>La question sur la langue **maternelle** était le suivant:
>
>Quelle est la langue que cette personne a apprise en premier lieu à la maison dans son enfance et qu’elle comprend encore?
>
>La question sur les langues parlées **à la maison** était divisée en deux parties:
>
>a) Quelle(s) langue(s) cette personne parle-t-elle régulièrement à la maison?
>b) Parmi ces langues, laquelle cette personne parle-t-elle le plus souvent à la maison?
>
>La question sur les langues **de travail** était divisée en deux parties:
>
>a) Dans cet emploi, quelle(s) langue(s) cette personne utilisait-elle régulièrement?
>b) Parmi ces langues, laquelle cette personne utilisait-elle le plus souvent dans cet emploi?

« **Langue maternelle** est la première langue apprise à la maison dans l'enfance et encore comprise par la personne au moment où les données sont recueillies. Si la personne ne comprend plus la première langue apprise, la langue maternelle est la deuxième langue apprise. Dans le cas d'une personne qui a appris plus d'une langue en même temps dans la petite enfance, la langue maternelle est la langue que cette personne parlait le plus souvent à la maison avant de commencer l'école. Une personne a plus d'une langue maternelle seulement si elle a appris ces langues en même temps et les comprend toujours. Dans le cas d'un enfant qui n'a pas encore appris à parler, la langue maternelle est la langue parlée le plus souvent à cet enfant à la maison. Un enfant qui n'a pas encore appris à parler a plus d'une langue maternelle seulement si ces langues lui sont parlées aussi souvent, afin qu'il les apprenne en même temps.

**Langue parlée le plus souvent à la maison** désigne la langue que la personne parle le plus souvent à la maison au moment de la collecte des données. Une personne peut déclarer plus d'une langue comme étant parlée le plus souvent à la maison si les langues sont parlées aussi souvent l'une que l'autre.
Dans le cas d'une personne qui vit seule, la langue parlée le plus souvent à la maison est la langue dans laquelle elle se sent le plus à l'aise. Dans le cas d'un enfant qui n'a pas encore appris à parler, il s'agit de la langue parlée le plus souvent a l'enfant à la maison. Lorsque plus d'une langue est parlée à l'enfant, la langue parlée le plus souvent à la maison est celle qui l'est effectivement le plus souvent. Si plus d'une langue est parlées de manière égale à l'enfant ces langues sont incluses ici.

n.i.a. = non incluses ailleurs
<br>n.d.a. = non déclaré ailleurs »

### L'ensemble de données `data_langues`

📕 Visons les questions posées de la langue maternelle, de la langue parlée le plus souvent à la maison, et de la langue utilisée le plus souvent au travail. Les résultats des autres questions ont été organisés différemment, ce qui rend les comparaisons entre les questions plus difficiles.

Les langues dans les questions visées sont en catégories de famille et en classification par statut. Voir le diagramme ci-dessous pour la hiérarchie des langues représentée dans l'ensemble de données.

<br><br>

![Classification des langues](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/f2_4-fra.png)
https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4

| Classifications  |   |   |   |  
|---|---|---|---|
|[Langues autochtones](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4A)||
|Langues non autochtones|[Langues afro-asiatiques](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4B)|
|Langues non autochtones|[Langues austronésiennes](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4C)||
|Langues non autochtones|[Langues créoles](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4D)||
|Langues non autochtones|[Langues indo-européennes](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4E)|- [Langues germaniques](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4J)|- [Langues indo-iraniennes](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4K)|
|Langues non autochtones|[Langues nigéro-congolaises](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4F)|||
|Langues non autochtones|[Langues nilo-sahariennes](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4G)|||
|Langues non autochtones|[Langues sino-tibétaines](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4H)|||
|Langues non autochtones|[Langues turques](https://www12.statcan.gc.ca/census-recensement/2021/ref/dict/fig/index-fra.cfm?ID=F2_4I)|||

🔎 Pensez-vous qu'il y aurait eu plus de perspectives en comparant les langues parlées plus souvent et régulièrement? Comment ou pourquoi pas?

🔎 Pensez-vous que les familles de langues et les classifications puissent aborder la question de recherche? Comment ou pourquoi pas?

🔎 Quels sont les impacts potentiels de la représentation de ces données?

Pour découvrir la diversité des langues, nous viserons les langues elles-mêmes.

Définissons les sous-ensembles de données pour chaque question dans l'ensemble de données.

Nous utilisons `df` pour désigner le sous-ensemble, ou le **d**ata**f**rame, suivant d'une description pour nous donner `df_langue_maternelle`, `df_langue_maison`, et `df_langue_travail` . Cette pratique nous aidera à suivre tous les sous-ensembles ; les ensembles de données commencent avec `data`.

#### Le sous-ensemble `df_langue_maternelle`

In [None]:
# Définir df_langue_maternelle par la colonne "Question" et la sélection "Langue maternelle"
df_langue_maternelle = data_langues.loc[data_langues["QUESTION"] == "Langue maternelle"]

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maternelle = df_langue_maternelle.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_maternelle.head()

#### Le sous-ensemble `df_langue_maison`

In [None]:
# Définir df_langue_maternelle par la colonne "Question" et la sélection "Langue parlée le plus souvent à la maison"
df_langue_maison = data_langues.loc[lambda df: (df["QUESTION"]=="Langue parlée le plus souvent à la maison")];

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_maison = df_langue_maison.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_maison.head()

#### Le sous-ensemble `df_langue_travail`

In [None]:
# Définir df_langue_maternelle par la colonne "Question" et la sélection "Langue utilisée le plus souvent au travail"
df_langue_travail = data_langues.loc[lambda df: (df["QUESTION"]=="Langue utilisée le plus souvent au travail")];

# Mettre les valeurs de la colonne "LANGUE" en ordre croissant
df_langue_travail = df_langue_travail.sort_values("LANGUE", ascending=True)

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_travail.head()

#### Le sous-ensemble `langues_tableau`

Pour comparer les trois questions sur la langue, nous devons utiliser la fonction `pivot` afin de mettre `LANGUE` dans les lignes et les questions dans les colonnes.

In [None]:
# Pivoter les colonnes et les lignes
reorg = data_langues.pivot_table(index=[data_langues.index, "LANGUE"], values="CHIFFRE_TOTAL", columns="QUESTION")

# Grouper les colonnes par LANGUE
langues_tableau = reorg.groupby(["LANGUE"], as_index=True).first()
langues_tableau.reset_index(inplace=True)

# Afficher le tableau
langues_tableau.head()

### L'ensemble de données `data_langue_maternelle_periode`

#### Le sous-ensemble `df_langue_maternelle_periode`

L'ensemble de données `data_langue_maternelle_periode` contient beaucoup de NaNs et plusieurs colonnes inutiles pour la question de recherche. Il faut éliminer ces colonnes.

In [None]:
# Éliminer les colonnes du df_langue_maternelle_periode
df_langue_maternelle_periode = data_langue_maternelle_periode.drop(columns=["DGUID", "Réponses multiples", "UNITÉ DE MESURE", "IDENTIFICATEUR D'UNITÉ DE MESURE", "FACTEUR SCALAIRE", "IDENTIFICATEUR SCALAIRE", "VECTEUR", "COORDONNÉES", "STATUS", "SYMBOLE", "TERMINÉ", "DÉCIMALES"])

# Définir df_langue_maternelle_periode par la colonne "Statistiques" et la sélection "Pourcentage" pour comparer à travers les années
df_pourcent_maternelle_periode = df_langue_maternelle_periode.loc[df_langue_maternelle_periode["Statistiques"] == "Pourcentage"]

# Définir df_langue_maternelle_periode par la colonne "Langue maternelle" et pas la sélection "Total"
df_langue_maternelle_reorg = df_pourcent_maternelle_periode[df_pourcent_maternelle_periode["Langue maternelle"].str.contains("Total") == False]

# Afficher les cinq premières lignes du sous-ensemble avec la fonction head()
df_langue_maternelle_reorg.head()

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)