# Projet 1 : Cycle de vie de la donnée

# 1. PLAN

### Contexte : 


Je suis un étudiant terminant ses etudes à la fin de cette année. Par consequent, je vais bientot commencer à rechercher du travail. L'un de mes criteèes pour le choix de mon future travail est sa localisation. En effet, sachant que je serai possiblement appélé à vivre dans la ville où se trouve l'entreprise pendant quelques années, j'aimerais que celle ci ne presente pas de grands risques d'insécurité. 

C'est la raison pour laquelle j'ai fait appel à moi meme (Expert en analyse de donéne) pour mener une analyse détaillée des données provenant d'une source officielle (Ministère de l'intérieur) relatives aux crimes et aux délits commient dans les principaux departements France, en particuliers ceux recouvrant les villes que je vise qui sont : Paris, Toulouse et Lyon

### Source de la donnée:
C'est une base de données regroupant les crimes et delits enreigistrés à l'echelle departementale par la police et la gendarmerie. Diffisé par le mistère de l'interieur. Ces données s'étendent de 2016 à 2024.
lien : https://www.data.gouv.fr/fr/datasets/bases-statistiques-communale-departementale-et-regionale-de-la-delinquance-enregistree-par-la-police-et-la-gendarmerie-nationales/


### Problématique: 
Comment pourrait on mettre en place une carte de la France dans laquelle chaque departement aura une couleur particulière sur la base de son indice de criminalité?

### Objectifs: 
1. Mettre en place une analyse exploratoire des données afin de comprendre en profondeur sa structure
2. Structurer l'analyse au regard des 5 ...
3. Mise en place d'une application montrant une cartografie de l'indice de criminalité en France en fonction de ses departements et qui permet pour un departement sélectionner d'obtenir des informations pertinente sur niveau d'insécurité

### Comment lancer l'application?
1. Creez un environnement virtuel et installer toute les dependance du fichier requirement.txt
2. Ouvrer votre terminal et executer l'app en utilisant la commande : streamlit run app.py



## 2. OBTAIN

In [None]:
#import libraries
import pandas as pd
import json



In [2]:
#Load the dataset
df = pd.read_csv("dataset/data-dep.csv", sep=";")
df.head()

Unnamed: 0,Code_departement,Code_region,annee,indicateur,unite_de_compte,nombre,taux_pour_mille,insee_pop,insee_pop_millesime,insee_log,insee_log_millesime
0,1,84,2016,Homicides,Victime,5,78318,638425,2016,308491,2016
1,2,32,2016,Homicides,Victime,10,186520,536136,2016,264180,2016
2,3,84,2016,Homicides,Victime,4,117861,339384,2016,206980,2016
3,4,93,2016,Homicides,Victime,2,123028,162565,2016,126760,2016
4,5,93,2016,Homicides,Victime,0,0,141107,2016,134647,2016


# 3. MAINTAIN

In [None]:
# Charger le fichier GeoJSON
with open('./departements.geojson', 'r', encoding='utf-8') as f:
    geojson_data = json.load(f)

# Créer un dictionnaire pour mapper les codes aux noms
code_to_name = {}
code_names = []
for feature in geojson_data['features']:
    code = feature['properties']['code']
    name = feature['properties']['nom']
    code_to_name[code] = name
    code_names.append(code+'-'+name)

# Exemple d'utilisation
code_departement = "49"
nom_departement = code_to_name.get(code_departement, "Inconnu")
print(f"Le département {code_departement} est {nom_departement}.")

Le département 49 est Maine-et-Loire.


In [16]:
code_names

['01-Ain',
 '02-Aisne',
 '03-Allier',
 '04-Alpes-de-Haute-Provence',
 '05-Hautes-Alpes',
 '06-Alpes-Maritimes',
 '2A-Corse-du-Sud',
 '2B-Haute-Corse',
 '07-Ardèche',
 '08-Ardennes',
 '09-Ariège',
 '10-Aube',
 '11-Aude',
 '12-Aveyron',
 '13-Bouches-du-Rhône',
 '14-Calvados',
 '15-Cantal',
 '16-Charente',
 '17-Charente-Maritime',
 '18-Cher',
 '19-Corrèze',
 "21-Côte-d'Or",
 "22-Côtes-d'Armor",
 '23-Creuse',
 '24-Dordogne',
 '25-Doubs',
 '26-Drôme',
 '27-Eure',
 '28-Eure-et-Loir',
 '29-Finistère',
 '30-Gard',
 '31-Haute-Garonne',
 '32-Gers',
 '33-Gironde',
 '34-Hérault',
 '35-Ille-et-Vilaine',
 '36-Indre',
 '37-Indre-et-Loire',
 '38-Isère',
 '39-Jura',
 '40-Landes',
 '41-Loir-et-Cher',
 '42-Loire',
 '43-Haute-Loire',
 '44-Loire-Atlantique',
 '45-Loiret',
 '46-Lot',
 '47-Lot-et-Garonne',
 '48-Lozère',
 '49-Maine-et-Loire',
 '50-Manche',
 '51-Marne',
 '52-Haute-Marne',
 '53-Mayenne',
 '54-Meurthe-et-Moselle',
 '55-Meuse',
 '56-Morbihan',
 '57-Moselle',
 '58-Nièvre',
 '59-Nord',
 '60-Oise',


In [17]:
#Search some info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15453 entries, 0 to 15452
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Code_departement     15453 non-null  object
 1   Code_region          15453 non-null  int64 
 2   annee                15453 non-null  int64 
 3   indicateur           15453 non-null  object
 4   unite_de_compte      15453 non-null  object
 5   nombre               15453 non-null  int64 
 6   taux_pour_mille      15453 non-null  object
 7   insee_pop            15453 non-null  int64 
 8   insee_pop_millesime  15453 non-null  int64 
 9   insee_log            15453 non-null  int64 
 10  insee_log_millesime  15453 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 1.3+ MB


After displaying the basic info about the table, we notice that all columns have the same number of non-null values as the number of rows which means that there's no missing values. Moreover, it appears that each columns has the correct type thus we won't have to improve that later on. The dataset at this point seems to be cleaned but in order to confirm this assumption we'll take a closer look at the numerical and categorical columns

In [18]:
#Correct type of taux_pour_mille.
#We replace the commas by point because
taux_pour_mile = []
for  taux in df['taux_pour_mille']:
    taux = taux.replace(',', '.')
    taux_pour_mile.append(taux)
df['taux_pour_mille'] = taux_pour_mile
#taux_pour_mile


In [19]:
df['taux_pour_mille'] = df['taux_pour_mille'].astype(float)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15453 entries, 0 to 15452
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Code_departement     15453 non-null  object 
 1   Code_region          15453 non-null  int64  
 2   annee                15453 non-null  int64  
 3   indicateur           15453 non-null  object 
 4   unite_de_compte      15453 non-null  object 
 5   nombre               15453 non-null  int64  
 6   taux_pour_mille      15453 non-null  float64
 7   insee_pop            15453 non-null  int64  
 8   insee_pop_millesime  15453 non-null  int64  
 9   insee_log            15453 non-null  int64  
 10  insee_log_millesime  15453 non-null  int64  
dtypes: float64(1), int64(7), object(3)
memory usage: 1.3+ MB


In [20]:
#Display some statistical info
df.describe()

Unnamed: 0,Code_region,annee,nombre,taux_pour_mille,insee_pop,insee_pop_millesime,insee_log,insee_log_millesime
count,15453.0,15453.0,15453.0,15453.0,15453.0,15453.0,15453.0,15453.0
mean,52.653465,2020.0,1882.233741,2.558828,667511.0,2019.640264,363306.8,2019.310231
std,28.196283,2.582072,4345.8746,2.944496,511526.3,2.165751,260379.3,1.831371
min,1.0,2016.0,0.0,0.0,76422.0,2016.0,60395.0,2016.0
25%,27.0,2018.0,187.0,0.502388,283372.0,2018.0,165115.0,2018.0
50%,52.0,2020.0,750.0,1.686208,529374.0,2020.0,295109.0,2020.0
75%,76.0,2022.0,1992.0,3.745532,849583.0,2022.0,481682.0,2021.0
max,94.0,2024.0,162378.0,74.986735,2616909.0,2022.0,1396753.0,2021.0


In [21]:
#Let's display categorical values
df_cat = df.select_dtypes(include='object')
for column in df_cat.columns:
    print(df[column].value_counts())
    print('\n')

Code_departement
01     153
02     153
03     153
04     153
05     153
      ... 
971    153
972    153
973    153
974    153
976    153
Name: count, Length: 101, dtype: int64


indicateur
Homicides                                        909
Tentatives d'homicides                           909
Coups et blessures volontaires                   909
Coups et blessures volontaires intrafamiliaux    909
Autres coups et blessures volontaires            909
Violences sexuelles                              909
Vols avec armes                                  909
Vols violents sans arme                          909
Vols sans violence contre des personnes          909
Cambriolages de logement                         909
Vols de véhicules                                909
Vols dans les véhicules                          909
Vols d'accessoires sur véhicules                 909
Destructions et dégradations volontaires         909
Escroqueries                                     909
Trafic de stupé

# 4. STORE

This step consists in storing our cleaned table into a csv file and then connecting it into a table. In this way we are sure that our table holds cleaned and usable data

In [22]:
#Export the updated table in a csv file
df.to_csv('updated_data.csv', index=False)

In [23]:
#Connection
'''
To install it I had to :
1. create a venv with python 3.10
2. execute : pip install psycopg2==2.9.9
'''

import psycopg2
import csv

# Connexion à la base de données
conn = psycopg2.connect(
    dbname="DelitsDepartement",
    user="postgres",
    password="chrisus",
    host="localhost"
)
cur = conn.cursor()

# Ouvrir le fichier CSV
with open('./dataset/updated_data.csv', 'r') as f:
    reader = csv.reader(f)
    next(reader)  # Ignorer l'en-tête si nécessaire
    for row in reader:
        cur.execute(
            """
            INSERT INTO delits (
                Code_departement, Code_region, annee, indicateur, unite_de_compte,
                nombre, taux_pour_mille, insee_pop, insee_pop_millesime, insee_log, insee_log_millesime
            )
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            """,
            row
        )

# Valider et fermer la connexion
conn.commit()
cur.close()
conn.close()

# 5. APPLY

In this step we are going to create some visualizations

In [24]:
df.head()

Unnamed: 0,Code_departement,Code_region,annee,indicateur,unite_de_compte,nombre,taux_pour_mille,insee_pop,insee_pop_millesime,insee_log,insee_log_millesime
0,1,84,2016,Homicides,Victime,5,0.007832,638425,2016,308491,2016
1,2,32,2016,Homicides,Victime,10,0.018652,536136,2016,264180,2016
2,3,84,2016,Homicides,Victime,4,0.011786,339384,2016,206980,2016
3,4,93,2016,Homicides,Victime,2,0.012303,162565,2016,126760,2016
4,5,93,2016,Homicides,Victime,0,0.0,141107,2016,134647,2016


## Vous pouvez aller sur le fichier app.py pour executer l'application