# <center> Data Mining & Machine Learning for analysing misdemeanours and crimes recorded by the french police and gendarmerie since 1996 </center>

**Auteur** : *Gaspard Jeannerot* <br>
**Temps de réalisation** :<br>
Sur temps libre entre Février - Juillet 2020 

**Objectif / Aim** : <br>
Dans un premier temps, exploiter des données gouvernementales afin de montrer des tendances, et/ou des évolutions potentielles concernant les crimes et les délits en France. Dans un second temps, développer plusieurs algorithmes d'apprentissage automatique de manière empirique pour prévoir l'apparition des crimes et délits en France.

## <center>Table des matières</center>
[1. Préparation des données pour l'analyse](#section1)<br>
&emsp; [1.1. Importations des outils](#section1.1) <br>
&emsp; [1.2. Importations du Jeu de donnée](#section1.2) <br>
&emsp; [1.3. Transposition des données](#section1.3) <br>
&emsp; [1.4. Gestion multiple des feuilles](#section1.4) <br>
&emsp; [1.5. Récupération du champ date](#section1.5) <br>
&emsp; [1.6. Fixation des types de données](#section1.6) <br>
&emsp; [1.7. Colonnes inutilisées](#section1.7) <br>
[2. Analyse macro du jeu de données](#section2) <br>
&emsp; [2.1. Description élémentaire](#section2.1) <br>
&emsp; [2.2. Crimes et délit par département](#section2.2) <br>
&emsp; [2.3. Analyse focalisée](#section2.3) <br>

## 0. Préambule
Après avoir visionné plusieurs vidéos ([première](https://youtu.be/RBQ-IoHfimQ "Partie 1 : Attention la vidéo peut choquer"), [deuxième](https://youtu.be/nKDgFCojiT8 "Partie 2 : Attention la vidéo peut choquer")) concernant la crise des migrants en Europe, j'ai pris conscience que le monde dans lequel nous vivions pouvait très rapidement évoluer. Pire, en essayant de chercher à comprendre ce phénomène et de trouver des causes et des raisons, j'ai rapidement compris qu'un individu comme moi était incapable de pouvoir arranger les choses.

Étant une personne appréciant une vie stable, j'ai essayé de déterminer si "cela" pouvait un jour m'arriver. Puis en prenant du recul sur cette situation, une question m'est survenue : **suis je en danger là où j'habite ?** 

Afin d'apporter des éléments de réponses concrètes, j'ai essayé de chercher quels pouvaient être les facteurs pouvant me mener à une situation ou à un environnement dangereux. Mais avant cela, il m'a fallu comprendre et définir comment évaluer des danger. Dans ce travail, je le définis comme tout acte humain volontaire mettant en péril la sureté (ou stabilité) et pouvant entrainer ou exposer mes proches, mon entourage, à des conséquences préjudiciables.

Pour factuellement déterminer ce "danger", j'ai réfléchi à comment mesurer les actes nuisibles à mon échelle et la réponse a été simple : en analysant les crimes et les délits enregistrés dans mon pays. 

<a id='section1'></a>
## 1. Préparation des données pour l'analyse / Preparing the data for analysis
Source : <br>
- [Estimation de la population INSEE](https://www.insee.fr/fr/statistiques/1893198)
([Document source](https://www.insee.fr/fr/statistiques/fichier/1893198/estim-pop-dep-sexe-gca-1975-2020.xls))

- [Crimes et délits enregistrés en France](https://www.data.gouv.fr/fr/datasets/chiffres-departementaux-mensuels-relatifs-aux-crimes-et-delits-enregistres-par-les-services-de-police-et-de-gendarmerie-depuis-janvier-1996/)
([Document source](https://www.data.gouv.fr/fr/datasets/r/fdf5afbf-ed3c-4c54-a4f0-3581c8a1eca4))


<a id='section1.1'></a>
### *1.1. Importation des outils / Tools import*

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(color_codes=True)

<a id='section1.2'></a>
### *1.2. Importation du Jeu de donnée / DataSet import*

In [2]:
### Generique variables definition to import
source = 'source/'
xl_misdemeanours_crimes_path = source + 'tableaux-4001-ts.xlsx'
xl_population_path = source + 'estim-pop-dep-sexe-gca-1975-2020.xls'

### Excel file import
crime_xl_data = pd.ExcelFile(xl_misdemeanours_crimes_path)
population_xl_data = pd.ExcelFile(xl_population_path)

### Get a look on sheet pages in the excel
print(crime_xl_data.sheet_names)

['France_Entière', 'France_Métro', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2A', '2B', '21', '22', '23', '24', '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44', '45', '46', '47', '48', '49', '50', '51', '52', '53', '54', '55', '56', '57', '58', '59', '60', '61', '62', '63', '64', '65', '66', '67', '68', '69', '70', '71', '72', '73', '74', '75', '76', '77', '78', '79', '80', '81', '82', '83', '84', '85', '86', '87', '88', '89', '90', '91', '92', '93', '94', '95', '971', '972', '973', '974', '975', '976', '977', '978', '986', '987', '988']


Le jeu de donnée est composé de plusieurs pages qui peuvent être traitées de manière indépendante. Nous allons nous focaliser sur la feuille "France métropolitaine".

In [3]:
# Define France metropolitaine
current_sheet = crime_xl_data.sheet_names[1]

# Read one sheet to begin ('France_Métro') --> libellée index to write minus two lines
df = pd.read_excel(crime_xl_data, current_sheet, index_col = 'libellé index')

# Examine the head of the DataFrame
df.head(3)

Unnamed: 0_level_0,Index,2020_01,2019_12,2019_11,2019_10,2019_09,2019_08,2019_07,2019_06,2019_05,...,1996_10,1996_09,1996_08,1996_07,1996_06,1996_05,1996_04,1996_03,1996_02,1996_01
libellé index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Règlements de compte entre malfaireurs,1,8,5,5,4,12,6,16,7,5,...,4,7,9,10,7,5,6,8,7,8
Homicides pour voler et à l'occasion de vols,2,1,3,0,0,3,0,3,1,1,...,9,11,7,16,12,6,13,10,11,12
Homicides pour d'autres motifs,3,52,66,70,75,64,57,68,53,53,...,72,56,62,90,99,68,72,75,55,69


Le jeu de donnée possède des données temporelles en tant que dimensions. Afin de rendre les variables plus exploitables, nous allons opérer à une transformation de transposition. De plus afin de pouvoir faciliter la visualisation de nos prochains graphiques, nous allons aussi en profiter pour dissocier le champ date en années et mois et réindexer le jeu de donnée.

<a id='section1.3'></a>
### *1.3. Transposition des données  / Transpose Data and get date values*

In [4]:
# Drop init 'index' columns, and Transpose Data
df = df.drop(columns=['Index'])
df = df.T
df.head()

libellé index,Règlements de compte entre malfaireurs,Homicides pour voler et à l'occasion de vols,Homicides pour d'autres motifs,Tentatives d'homicides pour voler et à l'occasion de vols,Tentatives homicides pour d'autres motifs,Coups et blessures volontaires suivis de mort,Autres coups et blessures volontaires criminels ou correctionnels,Prises d'otages à l'occasion de vols,Prises d'otages dans un autre but,Sequestrations,...,"Banqueroutes, abus de biens sociaux et autres délits de société",Index non utilisé,Index non utilisé.1,"Prix illicittes, publicité fausse et infractions aux règles de la concurrence",Achats et ventes sans factures,Infractions à l'exercice d'une profession règlementée,Infractions au droit de l'urbanisme et de la construction,Fraudes fiscales,Autres délits économiques et financiers,Autres délits
2020_01,8,1,52,12,249,15,23468,12,9,358,...,142,0,0,55,3,108,350,62,1271,12256
2019_12,5,3,66,12,224,9,22783,6,10,357,...,137,0,0,57,8,109,348,63,810,11258
2019_11,5,0,70,3,215,14,23105,4,13,385,...,144,0,0,70,9,145,361,65,1030,11741
2019_10,4,0,75,6,196,14,24187,6,9,378,...,121,0,0,82,11,186,419,72,1410,13025
2019_09,12,3,64,6,237,16,24222,8,7,356,...,122,0,0,55,9,137,364,70,1259,11901


Une fois les données transposées, nous pouvons facilement nous rendre compte que nous avons un problème de typage concernant l'index. Elle n'est pas considérée comme un type datetime. Corrigeons cela. Il va aussi falloir tenir compte du document original et des multiples pages.

<a id='section1.4'></a>
### *1.4. Gestion multiples des feuilles xl crime*

In [5]:
df_all = pd.DataFrame(columns=df.columns.values)
df_all['departement'] = np.nan

all_name_sheet = crime_xl_data.sheet_names
invalid_sheet = ['France_Entière','France_Métro']
all_name_sheet = [e for e in all_name_sheet if e not in invalid_sheet]

for i in all_name_sheet:
    df_tmp = pd.read_excel(crime_xl_data, sheet_name=str(i), index_col = 'libellé index')
    df_tmp = df_tmp.drop(columns=['Index'])
    df_tmp = df_tmp.T
    df_tmp['departement'] = str(i)
    df_all = df_all.append(df_tmp)

df_all.departement = df_all.departement.astype(str)
df_all.head()

libellé index,Règlements de compte entre malfaireurs,Homicides pour voler et à l'occasion de vols,Homicides pour d'autres motifs,Tentatives d'homicides pour voler et à l'occasion de vols,Tentatives homicides pour d'autres motifs,Coups et blessures volontaires suivis de mort,Autres coups et blessures volontaires criminels ou correctionnels,Prises d'otages à l'occasion de vols,Prises d'otages dans un autre but,Sequestrations,...,Index non utilisé,Index non utilisé.1,"Prix illicittes, publicité fausse et infractions aux règles de la concurrence",Achats et ventes sans factures,Infractions à l'exercice d'une profession règlementée,Infractions au droit de l'urbanisme et de la construction,Fraudes fiscales,Autres délits économiques et financiers,Autres délits,departement
2020_01,0,0,0,0,0,0,134,0,0,1,...,0,0,0,0,0,4,0,1,80,1
2019_12,0,0,0,0,2,0,138,0,0,1,...,0,0,0,0,3,6,0,1,62,1
2019_11,0,0,1,0,0,0,135,0,0,4,...,0,0,1,0,1,2,0,2,67,1
2019_10,0,0,0,0,0,1,155,0,0,2,...,0,0,0,0,0,7,0,1,84,1
2019_09,0,0,1,0,0,0,174,0,0,1,...,0,0,0,0,0,8,0,0,86,1


<a id='section1.5'></a>
### *1.5. Récupération du champ date*

Mettons à jour l'index du jeu de donnée pour qu'il puisse correspondre au type Datetime. Cela permettra de faciliter sa visualisation plus tard.

#### *1.5.1. Sur une feuille*

In [6]:
# Sur le jeu de donnée France métropolitaine
# Reset index, Get Year, Get Month
df = df.reset_index()
df['year'] = df['index'].astype(str).str[0:4]
df['month'] = df['index'].astype(str).str[5:7]

# Define new date column
combined = df.year.str.cat(df.month,sep=' ')
df['date'] = pd.to_datetime(combined)

# Drop 'index' column and set new index on date
df = df.drop(columns='index')
df = df.set_index('date')

df.head()

libellé index,Règlements de compte entre malfaireurs,Homicides pour voler et à l'occasion de vols,Homicides pour d'autres motifs,Tentatives d'homicides pour voler et à l'occasion de vols,Tentatives homicides pour d'autres motifs,Coups et blessures volontaires suivis de mort,Autres coups et blessures volontaires criminels ou correctionnels,Prises d'otages à l'occasion de vols,Prises d'otages dans un autre but,Sequestrations,...,Index non utilisé,"Prix illicittes, publicité fausse et infractions aux règles de la concurrence",Achats et ventes sans factures,Infractions à l'exercice d'une profession règlementée,Infractions au droit de l'urbanisme et de la construction,Fraudes fiscales,Autres délits économiques et financiers,Autres délits,year,month
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2020-01-01,8,1,52,12,249,15,23468,12,9,358,...,0,55,3,108,350,62,1271,12256,2020,1
2019-12-01,5,3,66,12,224,9,22783,6,10,357,...,0,57,8,109,348,63,810,11258,2019,12
2019-11-01,5,0,70,3,215,14,23105,4,13,385,...,0,70,9,145,361,65,1030,11741,2019,11
2019-10-01,4,0,75,6,196,14,24187,6,9,378,...,0,82,11,186,419,72,1410,13025,2019,10
2019-09-01,12,3,64,6,237,16,24222,8,7,356,...,0,55,9,137,364,70,1259,11901,2019,9


#### *1.5.2. Sur toutes les feuilles*

In [7]:
# Sur le jeu de donnée complet
# Reset index, Get Year, Get Month
df_all = df_all.reset_index()
df_all['year'] = df_all['index'].astype(str).str[0:4]
df_all['month'] = df_all['index'].astype(str).str[5:7]

# Define new date column
combined = df_all.year.str.cat(df_all.month,sep=' ')
df_all['date'] = pd.to_datetime(combined)

# Drop 'index' column and set new index on date
df_all = df_all.drop(columns='index')
df_all = df_all.set_index('date')

df_all.head()

libellé index,Règlements de compte entre malfaireurs,Homicides pour voler et à l'occasion de vols,Homicides pour d'autres motifs,Tentatives d'homicides pour voler et à l'occasion de vols,Tentatives homicides pour d'autres motifs,Coups et blessures volontaires suivis de mort,Autres coups et blessures volontaires criminels ou correctionnels,Prises d'otages à l'occasion de vols,Prises d'otages dans un autre but,Sequestrations,...,"Prix illicittes, publicité fausse et infractions aux règles de la concurrence",Achats et ventes sans factures,Infractions à l'exercice d'une profession règlementée,Infractions au droit de l'urbanisme et de la construction,Fraudes fiscales,Autres délits économiques et financiers,Autres délits,departement,year,month
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2020-01-01,0,0,0,0,0,0,134,0,0,1,...,0,0,0,4,0,1,80,1,2020,1
2019-12-01,0,0,0,0,2,0,138,0,0,1,...,0,0,3,6,0,1,62,1,2019,12
2019-11-01,0,0,1,0,0,0,135,0,0,4,...,1,0,1,2,0,2,67,1,2019,11
2019-10-01,0,0,0,0,0,1,155,0,0,2,...,0,0,0,7,0,1,84,1,2019,10
2019-09-01,0,0,1,0,0,0,174,0,0,1,...,0,0,0,8,0,0,86,1,2019,9


Le champ date est maintenant l'index. Voyons maintenant les types de données. <br>
<a id='section1.6'></a>
### *1.6. Fixation des types de données / Fixing a data type*

Regardons si plusieurs colonnes ne possèderaient pas un typage non conventionnel ou potentiellement inapproprié pour notre analyse.

In [8]:
df.dtypes.values

array([dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
       dtype('int64'), dtype('int64'), dtype('int64'), dtype('int64'),
      

In [9]:
df.dtypes

libellé index
Règlements de compte entre malfaireurs                                                       int64
Homicides pour voler et à l'occasion de vols                                                 int64
Homicides pour d'autres motifs                                                               int64
Tentatives d'homicides pour voler et à l'occasion de vols                                    int64
Tentatives homicides pour d'autres motifs                                                    int64
Coups et blessures volontaires suivis de mort                                                int64
Autres coups et blessures volontaires criminels ou correctionnels                            int64
Prises d'otages à l'occasion de vols                                                         int64
Prises d'otages dans un autre but                                                            int64
Sequestrations                                                                               in

Fixons les types des champs 'year' et 'month'

In [10]:
df.year = df.year.astype(str).astype(int)
df.month = df.month.astype(str)

En regardant de plus près, nous pouvons constater que plusieurs colonnes se nomment 'index non utilisé', penchons-nous dessus.

<a id='section1.7'></a>
### *1.7. Colonnes inutilisées*

In [11]:
# Define names of index and columns
df.index.names = ['index']
df.columns.names = ['libellé columns']

df['Index non utilisé'].sum()

libellé columns
Index non utilisé    0
Index non utilisé    2
Index non utilisé    0
Index non utilisé    0
dtype: int64

En visualisant ces résultats, nous pouvons constater que ces dimensions nommées 'Index non utilisé' ne représentent pas une grande quantité d'information. Aussi nous n'allons pas en tenir compte.

In [12]:
print(df.shape)
df_all = df_all.drop(columns='Index non utilisé')
df = df.drop(columns='Index non utilisé')
print(df.shape)

(289, 109)
(289, 105)


Les manipulations de bases ont été réalisées, nous pouvons donc démarrer notre analyse.