# Prédiction du Taux de Criminalité à Chicago avec Facebook Prophet

## Projet d'Analyse Prédictive - Séries Temporelles

**Auteur:** Brayan 
**Date:** 2024  
**Technologies:** Python, Facebook Prophet, Pandas, Matplotlib, Seaborn

---

### Objectif du Projet

Ce projet vise à développer un modèle prédictif pour analyser et prédire les tendances de criminalité à Chicago en utilisant l'algorithme **Facebook Prophet** pour l'analyse des séries temporelles.

### Contexte

L'analyse prédictive de la criminalité permet aux forces de l'ordre et aux décideurs politiques de :
- **Anticiper les tendances** de criminalité
- **Allouer les ressources** de manière optimale
- **Développer des stratégies** de prévention ciblées
- **Améliorer la sécurité** des citoyens




## 1. Énoncé du Problème

### Défi de Prédiction

Le projet consiste à analyser les données historiques de criminalité à Chicago (2001-2017) pour développer un modèle prédictif capable de :
- **Prédire les tendances** de criminalité futures
- **Identifier les patterns** saisonniers et cycliques
- **Analyser l'évolution** des différents types de crimes
- **Fournir des insights** pour la planification des ressources

### Vue d'ensemble de Chicago

Chicago, troisième plus grande ville des États-Unis, fait face à des défis complexes en matière de sécurité publique. L'analyse prédictive des données de criminalité permet de mieux comprendre les dynamiques urbaines et d'améliorer les stratégies de prévention.

## 2. Description du Dataset

### Source des Données

Le dataset de criminalité de Chicago contient un résumé des crimes signalés dans la ville de Chicago de **2001 à 2017**. Les données proviennent du système CLEAR (Citizen Law Enforcement Analysis and Reporting) du Département de Police de Chicago.

### Structure du Dataset

Le dataset contient **22 colonnes** avec les informations suivantes :

**Identifiants :**
- **ID** : Identifiant unique du record
- **Case Number** : Numéro RD du Département de Police de Chicago

**Informations Temporelles :**
- **Date** : Date de l'incident
- **Year** : Année de l'incident
- **Updated On** : Date et heure de dernière mise à jour

**Informations Géographiques :**
- **Block** : Adresse où l'incident s'est produit
- **Beat** : Zone de police la plus petite (chaque beat a une voiture de police dédiée)
- **District** : District de police
- **Ward** : Circonscription du conseil municipal
- **Community Area** : Zone communautaire (Chicago a 77 zones communautaires)
- **Latitude/Longitude** : Coordonnées géographiques (décalées pour anonymisation)
- **X/Y Coordinate** : Coordonnées dans le système de projection State Plane Illinois East NAD 1983

**Informations sur le Crime :**
- **IUCR** : Code de rapport uniforme des crimes de l'Illinois
- **Primary Type** : Description principale du code IUCR
- **Description** : Description secondaire (sous-catégorie)
- **Location Description** : Description du lieu de l'incident
- **FBI Code** : Classification selon le système NIBRS du FBI

**Informations Supplémentaires :**
- **Arrest** : Indique si une arrestation a été effectuée
- **Domestic** : Indique si l'incident était lié à la violence domestique

### Source
Dataset disponible sur [Kaggle](https://www.kaggle.com/currie32/crimes-in-chicago)

- You must install fbprophet package as follows: 
     pip install fbprophet
     
- If you encounter an error, try: 
    conda install -c conda-forge fbprophet

- Prophet is open source software released by Facebook’s Core Data Science team.

## 3. Introduction à Facebook Prophet

### Qu'est-ce que Prophet ?

**Facebook Prophet** est un outil open source développé par l'équipe Core Data Science de Facebook pour la prédiction de séries temporelles.

### Caractéristiques Principales

- **Modèle additif** : Combine tendances non-linéaires avec des effets saisonniers
- **Saisonalité multiple** : Annuelle, hebdomadaire et quotidienne
- **Effets de vacances** : Prise en compte des jours fériés
- **Robustesse** : Gère les valeurs manquantes et les points aberrants
- **Facilité d'utilisation** : Interface simple pour les non-experts

### Avantages pour l'Analyse de Criminalité

- **Tendances long terme** : Évolution générale de la criminalité
- **Patterns saisonniers** : Variations mensuelles et hebdomadaires
- **Prédictions fiables** : Basées sur plusieurs années de données historiques
- **Interprétabilité** : Résultats facilement compréhensibles

### Installation

```bash
pip install fbprophet
# ou
conda install -c conda-forge fbprophet
```

### Documentation
- [Prophet: Forecasting at Scale](https://research.fb.com/prophet-forecasting-at-scale/)
- [Documentation officielle](https://facebook.github.io/prophet/)


## 4. Importation des Données et Bibliothèques

In [1]:
import sys
!{sys.executable} -m pip install prophet



In [2]:
from prophet import Prophet

m = Prophet()
print("✅ Prophet fonctionne !")

✅ Prophet fonctionne !


In [3]:
# Importation des bibliothèques essentielles
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import random
from prophet import Prophet
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Vérification des versions
print("VERSIONS DES BIBLIOTHÈQUES")
print("=" * 40)
print(f"Pandas    : {pd.__version__}")
print(f"NumPy     : {np.__version__}")
print(f"Matplotlib: {plt.matplotlib.__version__}")
print(f"Seaborn   : {sns.__version__}")
print("=" * 40)
print("Toutes les bibliothèques sont prêtes!")


VERSIONS DES BIBLIOTHÈQUES
Pandas    : 2.2.3
NumPy     : 1.26.4
Matplotlib: 3.10.3
Seaborn   : 0.13.2
Toutes les bibliothèques sont prêtes!


## 5. Chargement et Exploration des Données

### Chargement du Dataset

Le dataset de criminalité de Chicago sera chargé et analysé pour comprendre sa structure et identifier les patterns temporels.


In [4]:
# Chargement du dataset de criminalité de Chicago
print("CHARGEMENT DU DATASET")
print("=" * 35)

# Chargement des données
chicago_df = pd.read_csv('Chicago_Crimes_2001_to_2004.csv', nrows=100000)

print("Dataset chargé avec succès!")
print(f"Dimensions : {chicago_df.shape[0]} lignes × {chicago_df.shape[1]} colonnes")

# Informations générales
print(f"\nINFORMATIONS SUR LE DATASET")
print("-" * 30)
print(f"Colonnes disponibles : {list(chicago_df.columns)}")
print(f"Types de données :")
print(chicago_df.dtypes.value_counts())

# Vérification des valeurs manquantes
print(f"\nVALEURS MANQUANTES")
print("-" * 20)
missing_values = chicago_df.isnull().sum()
if missing_values.sum() == 0:
    print("Aucune valeur manquante détectée!")
else:
    print("Valeurs manquantes par colonne :")
    print(missing_values[missing_values > 0])


CHARGEMENT DU DATASET
Dataset chargé avec succès!
Dimensions : 100000 lignes × 23 colonnes

INFORMATIONS SUR LE DATASET
------------------------------
Colonnes disponibles : ['Unnamed: 0', 'ID', 'Case Number', 'Date', 'Block', 'IUCR', 'Primary Type', 'Description', 'Location Description', 'Arrest', 'Domestic', 'Beat', 'District', 'Ward', 'Community Area', 'FBI Code', 'X Coordinate', 'Y Coordinate', 'Year', 'Updated On', 'Latitude', 'Longitude', 'Location']
Types de données :
object     10
float64     7
int64       4
bool        2
Name: count, dtype: int64

VALEURS MANQUANTES
--------------------
Valeurs manquantes par colonne :
Location Description        1
Ward                    96053
Community Area          96059
X Coordinate             6727
Y Coordinate             6727
Latitude                 6727
Longitude                6727
Location                 6727
dtype: int64


## 6. Préparation des Données

### Nettoyage et Transformation

Les données doivent être nettoyées et transformées pour être compatibles avec Prophet :
- **Suppression des colonnes inutiles** pour l'analyse temporelle
- **Conversion des dates** au format datetime
- **Agrégation temporelle** des crimes par jour
- **Création de la série temporelle** pour Prophet


In [5]:
# PRÉPARATION DES DONNÉES
print("PRÉPARATION DES DONNÉES")
print("=" * 35)

# 1. Suppression des colonnes inutiles pour l'analyse temporelle
print("1. Suppression des colonnes inutiles...")
colonnes_a_supprimer = ['Unnamed: 0', 'Case Number', 'IUCR', 'X Coordinate', 'Y Coordinate', 
                        'Updated On', 'Year', 'FBI Code', 'Beat', 'Ward', 'Community Area', 
                        'Location', 'District', 'Latitude', 'Longitude']

chicago_df = chicago_df.drop(colonnes_a_supprimer, axis=1)
print(f"   Colonnes restantes : {list(chicago_df.columns)}")

# 2. Conversion de la colonne Date au format datetime
print("\n2. Conversion des dates...")
chicago_df['Date'] = pd.to_datetime(chicago_df['Date'], format='%m/%d/%Y %I:%M:%S %p')
print(f"   Type de la colonne Date : {chicago_df['Date'].dtype}")

# 3. Définition de l'index temporel
print("\n3. Définition de l'index temporel...")
chicago_df.index = pd.DatetimeIndex(chicago_df['Date'])
print(f"   Index défini : {type(chicago_df.index)}")

# 4. Affichage des informations finales
print(f"\n4. INFORMATIONS FINALES")
print("-" * 25)
print(f"   Dimensions : {chicago_df.shape}")
print(f"   Période : {chicago_df['Date'].min()} à {chicago_df['Date'].max()}")
print(f"   Colonnes : {list(chicago_df.columns)}")

print("\nDonnées prêtes pour l'analyse!")


PRÉPARATION DES DONNÉES
1. Suppression des colonnes inutiles...
   Colonnes restantes : ['ID', 'Date', 'Block', 'Primary Type', 'Description', 'Location Description', 'Arrest', 'Domestic']

2. Conversion des dates...
   Type de la colonne Date : datetime64[ns]

3. Définition de l'index temporel...
   Index défini : <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

4. INFORMATIONS FINALES
-------------------------
   Dimensions : (100000, 8)
   Période : 2001-01-01 00:00:00 à 2004-12-31 15:00:00
   Colonnes : ['ID', 'Date', 'Block', 'Primary Type', 'Description', 'Location Description', 'Arrest', 'Domestic']

Données prêtes pour l'analyse!


## 7. Création de la Série Temporelle

### Agrégation des Données

Pour utiliser Prophet, nous devons créer une série temporelle avec :
- **Colonne 'ds'** : Dates (format datetime)
- **Colonne 'y'** : Valeurs à prédire (nombre de crimes par jour)


In [6]:
# CRÉATION DE LA SÉRIE TEMPORELLE
print("CRÉATION DE LA SÉRIE TEMPORELLE")
print("=" * 40)

# 1. Agrégation des crimes par jour
print("1. Agrégation des crimes par jour...")
crimes_par_jour = chicago_df.resample('D').size()
print(f"   Nombre de jours avec des crimes : {len(crimes_par_jour)}")
print(f"   Période : {crimes_par_jour.index.min()} à {crimes_par_jour.index.max()}")

# 2. Création du DataFrame pour Prophet
print("\n2. Création du DataFrame pour Prophet...")
prophet_df = pd.DataFrame({
    'ds': crimes_par_jour.index,
    'y': crimes_par_jour.values
})

print(f"   Dimensions du DataFrame Prophet : {prophet_df.shape}")
print(f"   Colonnes : {list(prophet_df.columns)}")

# 3. Vérification des données
print(f"\n3. VÉRIFICATION DES DONNÉES")
print("-" * 25)
print(f"   Valeurs manquantes : {prophet_df.isnull().sum().sum()}")
print(f"   Crimes minimum par jour : {prophet_df['y'].min()}")
print(f"   Crimes maximum par jour : {prophet_df['y'].max()}")
print(f"   Crimes moyen par jour : {prophet_df['y'].mean():.2f}")

# 4. Affichage des premières lignes
print(f"\n4. APERÇU DES DONNÉES")
print("-" * 20)
print(prophet_df.head(10))

print("\nSérie temporelle créée avec succès!")


CRÉATION DE LA SÉRIE TEMPORELLE
1. Agrégation des crimes par jour...
   Nombre de jours avec des crimes : 1461
   Période : 2001-01-01 00:00:00 à 2004-12-31 00:00:00

2. Création du DataFrame pour Prophet...
   Dimensions du DataFrame Prophet : (1461, 2)
   Colonnes : ['ds', 'y']

3. VÉRIFICATION DES DONNÉES
-------------------------
   Valeurs manquantes : 0
   Crimes minimum par jour : 0
   Crimes maximum par jour : 1435
   Crimes moyen par jour : 68.45

4. APERÇU DES DONNÉES
--------------------
          ds     y
0 2001-01-01  1435
1 2001-01-02  1093
2 2001-01-03  1120
3 2001-01-04  1133
4 2001-01-05  1216
5 2001-01-06  1268
6 2001-01-07  1081
7 2001-01-08  1136
8 2001-01-09  1179
9 2001-01-10  1195

Série temporelle créée avec succès!


## 8. Entraînement du Modèle Prophet

### Configuration du Modèle

Le modèle Prophet sera configuré et entraîné sur les données de criminalité pour identifier les tendances et patterns saisonniers.


In [None]:
# ENTRAÎNEMENT DU MODÈLE PROPHET
print("ENTRAÎNEMENT DU MODÈLE PROPHET")
print("=" * 40)

# 1. Création et configuration du modèle
print("1. Création du modèle Prophet...")
model = Prophet()
print("   Modèle créé avec succès!")

# 2. Entraînement du modèle
print("\n2. Entraînement du modèle...")
print("   Cela peut prendre quelques minutes...")
model.fit(prophet_df)
print("   Entraînement terminé!")

# 3. Création des prédictions futures
print("\n3. Création des prédictions...")
# Prédiction pour les 365 prochains jours
future = model.make_future_dataframe(periods=365)
forecast = model.predict(future)

print(f"   Période de prédiction : {forecast['ds'].min()} à {forecast['ds'].max()}")
print(f"   Nombre de jours prédits : {len(forecast)}")

# 4. Affichage des résultats
print(f"\n4. RÉSULTATS DE L'ENTRAÎNEMENT")
print("-" * 30)
print(f"   Données d'entraînement : {len(prophet_df)} jours")
print(f"   Prédictions générées : {len(forecast)} jours")
print(f"   Période de prédiction : 365 jours dans le futur")

print("\nModèle entraîné avec succès!")


## 9. Visualisation des Résultats

### Analyse des Prédictions

Les graphiques suivants montrent :
- **Tendances générales** de la criminalité
- **Patterns saisonniers** (annuels, hebdomadaires)
- **Prédictions futures** avec intervalles de confiance
- **Composantes** du modèle (tendance, saisonnalité)


In [None]:
# VISUALISATION DES RÉSULTATS
print("VISUALISATION DES RÉSULTATS")
print("=" * 35)

# 1. Graphique principal des prédictions
print("1. Génération du graphique principal...")
fig1 = model.plot(forecast, figsize=(15, 8))
plt.title('Prédiction du Taux de Criminalité à Chicago', fontsize=16, fontweight='bold')
plt.xlabel('Date', fontsize=12)
plt.ylabel('Nombre de Crimes par Jour', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# 2. Composantes du modèle
print("\n2. Génération des composantes du modèle...")
fig2 = model.plot_components(forecast, figsize=(15, 12))
plt.suptitle('Composantes du Modèle Prophet', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# 3. Statistiques des prédictions
print(f"\n3. STATISTIQUES DES PRÉDICTIONS")
print("-" * 30)

# Prédictions pour les 30 prochains jours
future_30_days = forecast.tail(30)
print(f"Prédictions pour les 30 prochains jours :")
print(f"   Crimes minimum prédit : {future_30_days['yhat'].min():.0f}")
print(f"   Crimes maximum prédit : {future_30_days['yhat'].max():.0f}")
print(f"   Crimes moyen prédit : {future_30_days['yhat'].mean():.0f}")

# Comparaison avec les données historiques
print(f"\nComparaison avec les données historiques :")
print(f"   Crimes moyen historique : {prophet_df['y'].mean():.0f}")
print(f"   Crimes moyen prédit (30j) : {future_30_days['yhat'].mean():.0f}")
difference = future_30_days['yhat'].mean() - prophet_df['y'].mean()
print(f"   Différence : {difference:+.0f} crimes/jour")

print("\nVisualisations générées avec succès!")


## 10. Conclusion et Insights

### Résultats du Projet

Ce projet a permis de développer un modèle prédictif pour analyser et prédire les tendances de criminalité à Chicago en utilisant Facebook Prophet.

### Points Clés

1. **Modèle Prophet Efficace** : L'algorithme a identifié les tendances et patterns saisonniers dans les données de criminalité.

2. **Patterns Identifiés** :
   - **Tendances long terme** : Évolution générale de la criminalité
   - **Saisonalité annuelle** : Variations selon les saisons
   - **Saisonalité hebdomadaire** : Patterns selon les jours de la semaine
   - **Effets de vacances** : Impact des jours fériés

3. **Applications Pratiques** :
   - **Planification des ressources** policières
   - **Stratégies de prévention** ciblées
   - **Allocation budgétaire** optimisée
   - **Alertes préventives** basées sur les prédictions

### Insights Business

- **Tendances identifiées** : Le modèle révèle des patterns récurrents dans la criminalité
- **Prédictions fiables** : Les intervalles de confiance permettent d'estimer la fiabilité
- **Actions préventives** : Les prédictions peuvent guider les stratégies de sécurité

### Améliorations Possibles

- **Données supplémentaires** : Intégrer des variables externes (météo, événements)
- **Modèles plus complexes** : Combiner Prophet avec d'autres algorithmes
- **Analyse géographique** : Prédictions par zone géographique
- **Types de crimes** : Modèles spécifiques par catégorie de crime

### Déploiement

Le modèle est prêt pour être intégré dans des systèmes de sécurité publique pour améliorer la planification et la prévention de la criminalité à Chicago.


In [None]:
# dataframes creation for both training and testing datasets 
chicago_df_1 = pd.read_csv('Chicago_Crimes_2005_to_2007.csv', error_bad_lines=False)
chicago_df_2 = pd.read_csv('Chicago_Crimes_2008_to_2011.csv', error_bad_lines=False)
chicago_df_3 = pd.read_csv('Chicago_Crimes_2012_to_2017.csv', error_bad_lines=False)


In [None]:

chicago_df = pd.concat([chicago_df_1, chicago_df_2, chicago_df_3], ignore_index=False, axis=0)


# STEP #2: EXPLORING THE DATASET  

In [None]:
# Let's view the head of the training dataset
chicago_df.head()

In [None]:
# Let's view the last elements in the training dataset
chicago_df.tail(20)

In [None]:
# Let's see how many null elements are contained in the data
plt.figure(figsize=(10,10))
sns.heatmap(chicago_df.isnull(), cbar = False, cmap = 'YlGnBu')

In [None]:
# ID Case Number Date Block IUCR Primary Type Description Location Description Arrest Domestic Beat District Ward Community Area FBI Code X Coordinate Y Coordinate Year Updated On Latitude Longitude Location
chicago_df.drop(['Unnamed: 0', 'Case Number', 'Case Number', 'IUCR', 'X Coordinate', 'Y Coordinate','Updated On','Year', 'FBI Code', 'Beat','Ward','Community Area', 'Location', 'District', 'Latitude' , 'Longitude'], inplace=True, axis=1)

In [None]:
chicago_df

In [None]:
# Assembling a datetime by rearranging the dataframe column "Date". 

chicago_df.Date = pd.to_datetime(chicago_df.Date, format='%m/%d/%Y %I:%M:%S %p')


In [None]:
chicago_df

In [None]:
# setting the index to be the date 
chicago_df.index = pd.DatetimeIndex(chicago_df.Date)


In [None]:
chicago_df

In [None]:
chicago_df['Primary Type'].value_counts()

In [None]:
chicago_df['Primary Type'].value_counts().iloc[:15]

In [None]:
chicago_df['Primary Type'].value_counts().iloc[:15].index

In [None]:
plt.figure(figsize = (15, 10))
sns.countplot(y= 'Primary Type', data = chicago_df, order = chicago_df['Primary Type'].value_counts().iloc[:15].index)

In [None]:
plt.figure(figsize = (15, 10))
sns.countplot(y= 'Location Description', data = chicago_df, order = chicago_df['Location Description'].value_counts().iloc[:15].index)

In [None]:
chicago_df.resample('Y').size()

In [None]:
# Resample is a Convenience method for frequency conversion and resampling of time series.

plt.plot(chicago_df.resample('Y').size())
plt.title('Crimes Count Per Year')
plt.xlabel('Years')
plt.ylabel('Number of Crimes')

In [None]:
chicago_df.resample('M').size()

In [None]:
# Resample is a Convenience method for frequency conversion and resampling of time series.

plt.plot(chicago_df.resample('M').size())
plt.title('Crimes Count Per Month')
plt.xlabel('Months')
plt.ylabel('Number of Crimes')

In [None]:
chicago_df.resample('Q').size()

In [None]:
# Resample is a Convenience method for frequency conversion and resampling of time series.

plt.plot(chicago_df.resample('Q').size())
plt.title('Crimes Count Per Quarter')
plt.xlabel('Quarters')
plt.ylabel('Number of Crimes')

# STEP #3: PREPARING THE DATA

In [None]:
chicago_prophet = chicago_df.resample('M').size().reset_index()

In [None]:
chicago_prophet

In [None]:
chicago_prophet.columns = ['Date', 'Crime Count']

In [None]:
chicago_prophet

In [None]:
chicago_prophet_df = pd.DataFrame(chicago_prophet)

In [None]:
chicago_prophet_df

# STEP #4: MAKE PREDICTIONS

In [None]:
chicago_prophet_df.columns

In [None]:
chicago_prophet_df_final = chicago_prophet_df.rename(columns={'Date':'ds', 'Crime Count':'y'})


In [None]:
chicago_prophet_df_final

In [None]:
m = Prophet()
m.fit(chicago_prophet_df_final)


In [None]:
# Forcasting into the future
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)

In [None]:
forecast

In [None]:
figure = m.plot(forecast, xlabel='Date', ylabel='Crime Rate')

In [None]:
figure3 = m.plot_components(forecast)

# GREAT JOB, KEEP UP THE GREAT WORK!