![Callysto.ca Banner](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-top.jpg?raw=true)

# Les messages d'exclusion<br><br>Les crimes haineux déclarées au Canada en 2020

Bienvenue à ce notebook Jupyter. Ce notebook est gratuit et fait partie de la collection de Callysto, un projet promouvant la science des données dans les salles de classe de la 5e à la 12e année.

Dans ce notebook, nous utiliserons le python pour réaliser les différentes étapes d'analyse des données afin d'interpréter les données et de les représenter par les visualisations. Le python est un langage de programmation qui nous permet de communiquer avec l'ordinateur. Le python contient la langue anglaise, mais la grammaire diffère considérablement.

Pour démarrer le notebook et effectuer le code dans toutes les cellules, cliquez sur `Cell` dans le menu et sélectionnez `Run All`. Retournez en haut da la page après le chargement des cellules.

![instructions](https://github.com/callysto/data-viz-of-the-week/blob/main/images/instructions.png?raw=true)

Veuillez envoyer un courriel à l'adresse contact@callysto.ca si vous rencontrez des problèmes avec le notebook.
<br><br>

## La démarche: les étapes d'analyses des données
1. **Questionner** - Formuler la question de recherche.
2. **Sélectionner** - Trouver les bibliothèques de python et les sources de données pour répondre à la question de recherche.
3. **Organiser** - Mettre en forme les données afin de les préparer pour l'exploration.
4. **Explorer** - Analyser les données et les représenter par les visualisations.
5. **Interpréter** - Expliquer les observations obtenues à partir des visualisations.
6. **Communiquer** - Tirer une conclusion à la question, basée sur l'interprétation des données.
<br><br>

## Questionner

**Comment détermine-t'on l'impact des messages sur les perceptions d'identité?**
<br><br>

## Sélectionner

### Le chargement des bibliothèques

Les bibliothèques sont les outils qui permettent à manipuler plus facilement le langage de programmation python.

Vous trouverez les notes sur le code dans la cellule en italique vert après le `#`.

In [None]:
# Pour la manipulation de tableaux, importez la bibliothèque pandas sous l'alias pd
import pandas as pd

# Pour la manipulation de chiffres, importez la bibliothèque numpy sous l'alias np
import numpy as np

# Pour les visualisations, importez la bibliothèque plotly express sous l'alias px
import plotly.express as px

### La source de données

📕 

[Licence du gouvernement ouvert – Canada](https://ouvert.canada.ca/fr/licence-du-gouvernement-ouvert-canada)

Statistique Canada. (2023). Crimes haineux déclarés par la police, selon le type de motif, Canada (certains services de police). [Jeu de données 35-10-0066-01]. https://www150.statcan.gc.ca/t1/tbl1/fr/tv.action?pid=3510006601

Informations supplémentaires : https://www150.statcan.gc.ca/n1/pub/85-002-x/2022001/article/00005-fra.htm
<br><br>

### Le chargement des données

Nous accédons aux données en format csv (comma-separated values) et les chargeons avec la bibliothèque pandas en utilisant la fonction `read_csv`.

Le fichier `2014-2020-langue-haine.csv` dans le dossier `data` rapporte les nombres et les pourcentages par l'année des crimes haineux rapportées au Canada selon le type de motif entre 2014 et 2020.

Nous chargeons l'ensemble de données dans la variable `data` et nous utilisons pandas sous l'alias `pd` pour lire à travers la fonction `read_csv`.

In [None]:
# Pour le chargement de données en format csv, un format délimité par des virgules
data = pd.read_csv("data/2014-2020-langue-haine.csv")
data

L'ensemble de données `data` fait 414 lignes et 6 colonnes, ce qui fait 2 484 points de données.

## Organiser

📕 Revenons à la question de recherche de l'impact des messages sur l'identité, il faut identifier et comprendre les variables liées afin d'organiser les données pour l'exploration.

Pour examiner l'impact des crimes haineux, nous viserons les types de motif afin de passer les variables représentantes de l'identité par ces motifs.

### La défintion des crimes haineux du jeu de données

« Un crime haineux déclaré par la police est une infraction criminelle commise contre une personne ou un bien et motivée par la haine de la race, de l’origine nationale ou ethnique, de la langue, de la couleur, de la religion, du sexe, de l’âge, de l’incapacité mentale ou physique, de l’orientation sexuelle, ou de l’identité ou expression de genre, ou de tout autre facteur semblable. »

🔎 Quels sont les impacts potentiels de la représentation des données de ces crimes?

Définissons les sous-ensembles de données pour chaque indicateur. 

Nous utilisons `df` pour désigner le sous-ensemble, ou le **d**ata**f**rame, suivant d'une description pour nous donner `df_langue_haine_crimes`, `df_langue_haine_race_2020`, et `df_langue_haine_2020`, `df_langue_haine_langue`, et `df_appartenance_Canada`. Cette pratique nous aiderons à suivre tous les sous-ensembles ; les ensembles de données commencent avec `data`.

Nous définissons les sous-ensembles par les paramètres. Nous définissons les paramètres en limitant les données dans les colonnes avec les opérateurs:

| Opérateurs utilisés |   |
|---|---|
|==|est égal à|
|!=|n'est pas égal à|
|&|et|


#### Le sous-ensemble `df_langue_haine_crimes`

In [None]:
df_langue_haine_crimes = data.loc[lambda df: (df["PÉRIODE DE RÉFÉRENCE"]==2020) &(df["CATÉGORIE"] != "Crimes") &(df["TYPE DE MOTIF"].isin(["Race ou origine ethnique", "Religion", "Orientation sexuelle", "Langue", "Incapacité", "Sex et genre", "Âge" ,"Autre facteur semblable", "Motivation inconnue"]))];
df_langue_haine_crimes.head()

#### Le sous-ensemble `df_langue_haine_race_2020`

In [None]:
df_langue_haine_race_2020 = data.loc[lambda df: (df["PÉRIODE DE RÉFÉRENCE"]==2020) &(df["CATÉGORIE"] == "Race ou origine ethnique") &(df["TYPE DE MOTIF"] != "Race ou origine ethnique")];
df_langue_haine_race_2020.head()

#### Le sous-ensemble `df_langue_haine_2020`

In [None]:
df_langue_haine_2020 = data.loc[lambda df: (df["PÉRIODE DE RÉFÉRENCE"]==2020) &(df["CATÉGORIE"] == "Langue") &(df["TYPE DE MOTIF"] != "Langue")];
df_langue_haine_2020

#### Le sous-ensemble `df_langue_haine_langue`

In [None]:
df_langue_haine_langue = data.loc[lambda df: (df["CATÉGORIE"].isin(["Langue"])) &(df["TYPE DE MOTIF"] != "Langue")];
df_langue_haine_langue.head()

#### Le sous-ensemble `df_langue_haine_langue_race`

In [None]:
df_langue_haine_langue_race = data.loc[lambda df: (df["CATÉGORIE"].isin(["Langue", "Race ou origine ethnique"])) &(df["TYPE DE MOTIF"] != "Langue") &(df["TYPE DE MOTIF"] != "Race ou origine ethnique")];
df_langue_haine_langue_race.head()

## Explorer

### Crimes haineux au Canada en 2020

📕 Nous commençons en situant la catégorie Langue parmi les autres catégories des crimes haineux déclarés par la police au Canada en 2020.

In [None]:
# Voici les mesures de tendances centrales pour le nombre des crimes haineux déclarés par la police au Canada en 2020
df_langue_haine_crimes["NOMBRE"].describe()

🔎 Quelle est la moyenne? Quelle est la médiane?

🔎 Quelles sont les valeurs minimum et maximum? Calculez l'étendue dans la cellule de code ci-dessous. Quel pourrait être l'impact que représente l'étendue?

In [None]:
# Soustrayez la valeur maximum de la valeur minimum
10-4

In [None]:
data_crimes_bandes = px.bar(df_langue_haine_crimes, x="NOMBRE", 
                            y="CATÉGORIE", barmode="group", 
                            title=" ", # Tapez un titre pour le diagramme entre les guillemets
                            color_discrete_sequence=px.colors.diverging.Portland)
data_crimes_bandes.update_layout(autosize=True, height=500)
data_crimes_bandes.update_layout(yaxis={"categoryorder":"total ascending"})
data_crimes_bandes.show()

🔎 Quelles sont les catégories qui sont plus de la médiane? Où se situe la langue?

🔎 Selon les données, comment est-ce les autres reconnaissent nos identités?

🔎 Quel titre donneriez-vous à la visualisation? Que signifie votre titre?

In [None]:
data_crimes_bandes = px.bar(df_langue_haine_race_2020, x="NOMBRE", 
                            y="TYPE DE MOTIF", barmode="group", 
                            title="Crimes haineux au Canada contre la race ou l'origine ethnique en 2020", 
                            color_discrete_sequence=px.colors.diverging.Portland)
data_crimes_bandes.update_layout(autosize=True, height=500)
data_crimes_bandes.update_layout(yaxis={"categoryorder":"total ascending"})
data_crimes_bandes.show()

In [None]:
data_crimes_bandes = px.bar(df_langue_haine_2020, x="NOMBRE", 
                            y="TYPE DE MOTIF", 
                            barmode="group", 
                            title="Crimes haineux contre la langue au Canada en 2020", 
                            color_discrete_sequence=px.colors.diverging.Portland)
data_crimes_bandes.update_layout(autosize=True, height=500)
data_crimes_bandes.update_layout(yaxis={"categoryorder":"total ascending"})
data_crimes_bandes.show()

🔎 Comment est-ce que les identités (ethno)linguistiques sont représentées par les données?

🔎 Comment comparent ces nombres aux mesures de tendances centrales pour le nombre des crimes haineux déclarés par la police au Canada en 2020?

🔎 Comment est-ce que ces diagrammes se comparent à ceux des langues et du sentiment d'appartenance et les minorités visibles?

🔎 Quelle est une raison plausible pour expliquer la fréquence de crimes contre les personnes qui parlent l'anglais?

🔎 Avez-vous d'autres questions à poser?

### Crimes haineux au Canada de 2014 au 2022, selon le type de motif

In [None]:
langue_haine_pourcentage_lignes = px.line(df_langue_haine_langue, x="PÉRIODE DE RÉFÉRENCE", 
                                          y="POURCENTAGE CRIMES", 
                                          color="TYPE DE MOTIF", 
                                          title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                          color_discrete_sequence=px.colors.diverging.Portland)
langue_haine_pourcentage_lignes.show()

In [None]:
langue_haine_nombre_lignes = px.line(df_langue_haine_langue, 
                                     x="PÉRIODE DE RÉFÉRENCE", 
                                     y="NOMBRE", 
                                     color="TYPE DE MOTIF", 
                                     title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                     color_discrete_sequence=px.colors.diverging.Portland)
langue_haine_nombre_lignes.show()

🔎 Comparez les deux diagrammes à lignes brisées pour les mêmes types de motifs. Pourquoi sont-ils différents?

In [None]:
langue_race_haine_pourcentage_lignes = px.line(df_langue_haine_langue_race, 
                                               x="PÉRIODE DE RÉFÉRENCE", 
                                               y="POURCENTAGE CRIMES", 
                                               color="TYPE DE MOTIF", 
                                               title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                               color_discrete_sequence=px.colors.diverging.Portland)
langue_race_haine_pourcentage_lignes.show()

In [None]:
langue_race_haine_nombre_lignes = px.line(df_langue_haine_langue_race, 
                                          x="PÉRIODE DE RÉFÉRENCE", 
                                          y="NOMBRE", 
                                          color="TYPE DE MOTIF", 
                                          title=" ", # Tapez un titre pour le diagramme entre les guillemets
                                          color_discrete_sequence=px.colors.diverging.Portland)
langue_race_haine_nombre_lignes.show()

🔎 Comparez les deux diagrammes à lignes brisées pour les mêmes types de motifs. Pourquoi sont-ils différents? Vous pouvez cliquer sur la légende interactive pour viser les types de motif.

🔎 Quel titres donneriez-vous aux visualisations? Que signifient vos titres?

## Interpréter

🔎 Quelles sont les tendances similaires et différentes?

🔎 Quels messages pourraient symboliser les motifs?

🔎 Quels pourraient être les impacts à court et à long terme de ces relations?

🔎 Comment pouvons-nous considérer les responsabilités individuelles et collectives?

## Communiquer

📕 Lorsque les données sont sensibles, il est utile de les situer plus largement et faire des recommandations.

| Matrice d'interprétation |   |   |
|---|---|---|
||Résultats négatives|Résultats positives|
|Conclusions négatives|Manque d'amélioration<br>Perspective négative|Possibilité d'amélioration<br>Perspective positive|
|Conclusions positives|Possibilité de détérioration<br>Perspective d'action|Manque de détérioration<br>Perspective de stabilisation et/ou d'amélioration|



🔎 Comment est-ce que l'exploration des données vous a aidé à déterminer l'impact des messages sur les perceptions d'identité?

🔎 Selon vous, quels sont les résultats qui ont le plus d'impact? Expliquez les conclusions à partir de la matrice d'interprétation. Si vous avez des recommandations, proposez-les.

🔎 Avez-vous toujours des questions sur les messages sur les perceptions d'identité? Quelles sont vos questions? Quels types de données pourraient aborder vos questions?

# La fin

[![Callysto.ca License](https://github.com/callysto/curriculum-notebooks/blob/master/callysto-notebook-banner-bottom.jpg?raw=true)](https://github.com/callysto/curriculum-notebooks/blob/master/LICENSE.md)