# Data Analysis and Machine Learning on Crime Data

This notebook performs data analysis and machine learning on crime data. It includes data import, visualization, preprocessing, and model training.

## Install Required Libraries

In [None]:
is_upgrade_pip: bool = False


def upgrade_pip():
    !pip install --upgrade pip > /dev/null
    global is_upgrade_pip
    is_upgrade_pip = True


try:
    import pandas as pd
except Exception as e:
    if not is_upgrade_pip:
        upgrade_pip()
    !pip install pandas > /dev/null
try:
    import plotly
except Exception as e:
    if not is_upgrade_pip:
        upgrade_pip()
    !pip install plotly > /dev/null
try:
    import category_encoders
except Exception as e:
    if not is_upgrade_pip:
        upgrade_pip()
    !pip install category_encoders > /dev/null
try:
    import sklearn
except Exception as e:
    if not is_upgrade_pip:
        upgrade_pip()
    !pip install sklearn > /dev/null
try:
    import matplotlib
except Exception as e:
    if not is_upgrade_pip:
        upgrade_pip()
    !pip install matplotlib > /dev/null

## Import Libraries

In [None]:
import os
import warnings
from collections import Counter

import matplotlib.pyplot as plt
import pandas as pd
import plotly.express as px
from category_encoders import OrdinalEncoder
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

## Define Functions

In [None]:
def import_csv(file_path):
    """Import a CSV file and return a pandas DataFrame."""
    try:
        return pd.read_csv(file_path)
    except FileNotFoundError:
        print(f"Error: File '{file_path}' not found.")
    except pd.errors.EmptyDataError:
        print("Error: File is empty.")
    except pd.errors.ParserError:
        print("Error: Parsing issue in the file.")
    except Exception as e:
        print(f"Unexpected error: {e}")


def create_file_path(*path_segments):
    """Create a file path from path segments."""
    return os.path.join(*path_segments)


def graphpoint(datas, x, y, color):
    """Display a scatter plot."""
    fig = px.scatter(datas, x=x, y=y, color=color)
    fig.show()


def graphbox(datas):
    """Display a box plot."""
    datas.plot.box()


def graphhistogram(datas, x, color):
    """Return a histogram plot."""
    return px.histogram(datas, x=x, color=color)


def datasprint(datas, describe, head):
    """Print data description and head."""
    if describe:
        print(datas.describe())
    if head:
        print(datas.head())

## Load CSV Files

In [None]:
directory = './DataSet'
file_path = create_file_path(directory, "test.csv")
file_path2 = create_file_path(directory, "train.csv")

df_test = import_csv(file_path)
df_train = import_csv(file_path2)

if df_test is None or df_train is None:
    raise Exception("One of the dataframes is empty")


## Display Data

In [None]:
print(f"{file_path} :")
datasprint(df_test, describe=True, head=True)

In [None]:
print(f"{file_path2} :")
datasprint(df_train, describe=True, head=True)

## Étude des données

> Regarder la donnée en fonction de la résolution

Nous allons regarder les données en fonction de la résolution pour voir si nous pouvons trouver des corrélations. Nous allons afficher des histogrammes pour chaque colonne de données en fonction de la résolution. Cela nous permettra de voir si certaines colonnes ont un impact sur la résolution.

Nous avons donc constater le nombre de résolutions par crime et très élévé. Nous avons donc décidé de regrouper les résolutions en 4 catégories:
- Arrestation / Poursuites : ARREST, BOOKED, ARREST, CITED, JUVENILE CITED, JUVENILE BOOKED, PROSECUTED FOR LESSER OFFENSE, PROSECUTED BY OUTSIDE AGENCY
- Absence de poursuites / Refus / Cas particuliers : COMPLAINANT REFUSES TO PROSECUTE, DISTRICT ATTORNEY REFUSES TO PROSECUTE, NOT PROSECUTED, JUVENILE ADMONISHED, JUVENILE DIVERTED, CLEARED-CONTACT JUVENILE FOR MORE INFO, PSYCHOPATHIC CASE, EXCEPTIONAL CLEARANCE
- Localisation / État de la personne : LOCATED, UNFOUNDED
- Indépendant (NONE) : NONE

In [None]:
df_train_columns: list = df_train.columns.tolist()
df_train_columns.remove('Category')
df_train_columns.remove('Descript')
df_train_columns.remove('Resolution')

df_train_columns.remove('Address')  # trop disparate pour être utile

for column in df_train_columns:
    graphhistogram(df_train, column, 'Resolution').show()

## Data Preprocessing

In [None]:
# Categorize 'Resolution' into broader categories
df_train['Categorie'] = ''
df_train.loc[df_train['Resolution'].isin(
    ['ARREST, BOOKED', 'ARREST, CITED', 'JUVENILE CITED', 'JUVENILE BOOKED', 'PROSECUTED FOR LESSER OFFENSE',
     'PROSECUTED BY OUTSIDE AGENCY']), 'Categorie'] = 'Arrestation / Poursuites'
df_train.loc[df_train['Resolution'].isin(
    ['COMPLAINANT REFUSES TO PROSECUTE', 'DISTRICT ATTORNEY REFUSES TO PROSECUTE', 'NOT PROSECUTED',
     'JUVENILE ADMONISHED', 'JUVENILE DIVERTED', 'CLEARED-CONTACT JUVENILE FOR MORE INFO', 'PSYCHOPATHIC CASE',
     'EXCEPTIONAL CLEARANCE']), 'Categorie'] = 'Absence de poursuites / Refus / Cas particuliers'
df_train.loc[df_train['Resolution'].isin(['LOCATED', 'UNFOUNDED']), 'Categorie'] = 'Localisation / État de la personne'
df_train.loc[df_train['Resolution'].isin(['NONE']), 'Categorie'] = 'Indépendant (NONE)'


## Data Visualization

> Nous allons afficher les histogrammes pour chaque colonne de données en fonction de la résolution pour visualiser l'impacte de notre choix de catégorisation.

In [None]:
df_train_columns: list = df_train.columns.tolist()
df_train_columns.remove('Category')
df_train_columns.remove('Descript')
df_train_columns.remove('Resolution')
df_train_columns.remove('Categorie')

df_train_columns.remove('Address')  # trop disparate pour être utile

for column in df_train_columns:
    graphhistogram(df_train, column, 'Categorie').show()

In [None]:
graphhistogram(df_train, 'Categorie', 'Resolution').show()

## Feature Selection and Encoding

> Nous allons sélectionner les colonnes qui nous intéressent pour l'entraînement du modèle. Nous allons également encoder les colonnes catégorielles en valeurs numériques.

In [None]:
df_train_patch = df_train[['Dates', 'Categorie', 'DayOfWeek', 'PdDistrict', 'Address', 'X', 'Y']]
df_test_patch = df_test[['Dates', 'DayOfWeek', 'PdDistrict', 'Address', 'X', 'Y']]

categorical_features = [col for col in df_train_patch.columns if df_train[col].dtype == 'object']
encoder = OrdinalEncoder(cols=categorical_features).fit(df_train_patch)
df_train_patch_2 = encoder.transform(df_train_patch)


## Sampling and Splitting Data

> Nous allons échantillonner les données pour réduire la taille de l'ensemble d'entraînement. Nous allons également diviser les données en ensembles d'entraînement et de test.

Nous avons décidé de prendre 25000 échantillons pour chaque catégorie. Le choix de faire un échantillonage est dû à la taille des données qui est très grande. Nous avons donc décidé de prendre un échantillon pour chaque catégorie pour réduire la taille des données. 25000 est un nombre suffisant pour avoir une bonne précision.

In [None]:
nb = 25000
df_train_patch_sample = pd.concat([
    df_train_patch_2[df_train_patch_2.Categorie == i].sample(
        min(nb, len(df_train_patch_2[df_train_patch_2.Categorie == i])), replace=True)
    for i in range(4)
])

y = df_train_patch_sample.Categorie
X = df_train_patch_sample.drop(['Categorie'], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

## Model Training and Evaluation

> Nous allons entraîner des modèles de classification sur les données d'entraînement et évaluer leur précision sur les données de test.

Nous allons entraîner trois modèles de classification différents : Decision Tree, Random Forest et K-Nearest Neighbors.

Le choix d'utiliser trois modèles différents est dû à la nature des données. Nous avons des données catégorielles et numériques. Nous avons donc décidé d'utiliser des modèles différents pour voir lequel est le plus performant.

Nous ajouter une matrice de confusion pour chaque modèle pour voir les erreurs de classification.

Le modèle Decision Tree a une précision de plus ou moins 55%.

Le modèle fait un bon travail pour reconnaître la classe 3, mais il a du mal à bien distinguer les classes 1 et 2, avec environ 50% de précision. Cela signifie qu'il confond souvent ces deux classes, tandis qu'il est plus fiable pour identifier la classe 3.

In [None]:
# Decision Tree
clf = tree.DecisionTreeClassifier().fit(X_train, y_train)
acctree = clf.score(X_test, y_test) * 100
y_pred_tree = clf.predict(X_test)
print(f'Decision Tree Accuracy: {acctree:.2f}%')
print("Decision Tree Confusion Matrix:")
cm_tree = confusion_matrix(y_test, y_pred_tree)
disp_tree = ConfusionMatrixDisplay(confusion_matrix=cm_tree, display_labels=clf.classes_)
disp_tree.plot(cmap=plt.cm.Blues)
plt.title('Decision Tree Confusion Matrix')
plt.show()

Le modèle Random Forest a une précision de plus ou moins 60%.

Le modèle fait un bon travail pour reconnaître la classe 3, avec des résultats solides, mais il a plus de difficulté à bien distinguer les classes 1 et 2, où il se trompe environ une fois sur deux. Il confond souvent ces deux classes, tandis qu'il est plus précis pour identifier la classe 3.

In [None]:
# Random Forest
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42).fit(X_train, y_train)
accrf = accuracy_score(y_test, rf_classifier.predict(X_test)) * 100
y_pred_rf = rf_classifier.predict(X_test)
print(f'Random Forest Accuracy: {accrf:.2f}%')
print("Random Forest Confusion Matrix:")
cm_rf = confusion_matrix(y_test, y_pred_rf)
disp_rf = ConfusionMatrixDisplay(confusion_matrix=cm_rf, display_labels=rf_classifier.classes_)
disp_rf.plot(cmap=plt.cm.Blues)
plt.title('Random Forest Confusion Matrix')
plt.show()

Le modèle K-Nearest Neighbors a une précision de plus ou moins 45%.

Le modèle a du mal à distinguer les trois classes. Il fait beaucoup d'erreurs en confondant la classe 1 avec la classe 2 et inversement. Les prédictions pour la classe 3 sont également assez imprécises, montrant que le modèle a des difficultés à bien classifier l'ensemble des classes.


In [None]:
# K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=2).fit(X_train, y_train)
accknn = accuracy_score(y_test, knn.predict(X_test)) * 100
y_pred_knn = knn.predict(X_test)
print(f'KNN Accuracy: {accknn:.2f}%')
print("KNN Confusion Matrix:")
cm_knn = confusion_matrix(y_test, y_pred_knn)
disp_knn = ConfusionMatrixDisplay(confusion_matrix=cm_knn, display_labels=knn.classes_)
disp_knn.plot(cmap=plt.cm.Blues)
plt.title('KNN Confusion Matrix')
plt.show()

## KNeighborsClassifier - Choosing the Best K Value

> Nous allons choisir la meilleure valeur de k pour le modèle K-Nearest Neighbors en traçant l'exactitude en fonction de différentes valeurs de k.

Nous avons décidé de choisir la valeur de k qui donne la meilleure précision pour le modèle K-Nearest Neighbors.

On remarque que la précision est maximale pour k=2.

In [None]:
k_values = range(1, 21)
accuracies = []
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracies.append(accuracy_score(y_test, y_pred))
plt.plot(k_values, accuracies)
plt.xlabel('Number of Neighbors (k)')
plt.ylabel('Accuracy')
plt.title('Accuracy for different k values')
plt.show()

## Overall Accuracy

In [None]:
print("Overall Accuracy")
print(f'Decision Tree: {acctree:.2f}%')
print(f'Random Forest: {accrf:.2f}%')
print(f'KNN: {accknn:.2f}%')
glbacc = (acctree + accrf + accknn) / 3
print(f'Global: {glbacc:.2f}%')

## Predict New Data

In [None]:
warnings.filterwarnings("ignore", category=FutureWarning, message=".*Downcasting object dtype arrays on .fillna.*")

new_data = {
    "Dates": ["2015-05-10 23:59:00"],
    "DayOfWeek": ["Sunday"],
    "PdDistrict": ["BAYVIEW"],
    "Address": ["2000 Block of THOMAS AV"],
    "X": [-122.39958770418998],
    "Y": [37.7350510103906],
    "Categorie": [None]
}

new_df = pd.DataFrame(new_data)
new_df_encoded = encoder.transform(new_df).drop(columns=['Categorie'])

tree_prediction = clf.predict(new_df_encoded)
rf_prediction = rf_classifier.predict(new_df_encoded)
knn_prediction = knn.predict(new_df_encoded)

## Final Prediction Using Majority Vote

In [None]:
predictions = [tuple(tree_prediction), tuple(rf_prediction), tuple(knn_prediction)]
prediction_counts = Counter(predictions)
most_common_prediction, count = prediction_counts.most_common(1)[0]

if count == 1:
    accuracies = {'tree': acctree, 'rf': accrf, 'knn': accknn}
    most_accurate_model = max(accuracies, key=accuracies.get)
    final_prediction = eval(f'{most_accurate_model}_prediction')
else:
    final_prediction = most_common_prediction

final_prediction = int(final_prediction[0])
print(f"Final Prediction: {final_prediction}")

## Map Prediction to Category

In [None]:
prediction_mapping = {
    0: 'Arrestation / Poursuites',
    1: 'Absence de poursuites / Refus / Cas particuliers',
    2: 'Localisation / État de la personne',
    3: 'Indépendant (NONE)'
}

final_prediction_text = prediction_mapping.get(final_prediction, "Catégorie inconnue")
print(f"Final Prediction: {final_prediction_text}")

## Aprés avoir fait l'analyse des données

> Non implémenté

Nous avons décidé de spliter la date dans le but de préciser les décisions prises en fonction des Date ou de l'horraire
- création de la colonne 'Date'
- création de la colonne 'Heure'
- création de la colonne 'MonthofYear'

In [None]:
df_train['Date'] = pd.to_datetime(df_train['Dates']).dt.date
df_train['Heure'] = pd.to_datetime(df_train['Dates']).dt.time
df_train['MonthofYear'] = pd.to_datetime(df_train['Date']).dt.month

# print(df_train)

df_test['Date'] = pd.to_datetime(df_test['Dates']).dt.date
df_test['Heure'] = pd.to_datetime(df_test['Dates']).dt.time
df_test['MonthofYear'] = pd.to_datetime(df_test['Date']).dt.month

# print(df_test)

df_train_patch = df_train[
    ['Dates', 'Categorie', 'DayOfWeek', 'PdDistrict', 'Address', 'X', 'Y', 'Date', 'Heure', 'MonthofYear']]
df_test_patch = df_test[['Dates', 'DayOfWeek', 'PdDistrict', 'Address', 'X', 'Y', 'Date', 'Heure', 'MonthofYear']]

categorical_features = [col for col in df_train_patch.columns if df_train[col].dtype == 'object']
encoder = OrdinalEncoder(cols=categorical_features).fit(df_train_patch)
df_train_patch_2 = encoder.transform(df_train_patch)

nb = 25000
df_train_patch_sample = pd.concat([
    df_train_patch_2[df_train_patch_2.Categorie == i].sample(
        min(nb, len(df_train_patch_2[df_train_patch_2.Categorie == i])), replace=True)
    for i in range(4)
])

y = df_train_patch_sample.Categorie
X = df_train_patch_sample.drop(['Categorie'], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

Le modèle Decision Tree a une précision de plus ou moins 55%.

Le modèle est assez performant pour reconnaître la classe 3, avec une bonne précision, mais il rencontre des difficultés à distinguer entre les classes 1 et 2, avec de nombreuses confusions. Cela indique qu'il y a un besoin d'amélioration pour mieux classifier les classes 1 et 2, tandis que la classe 3 est identifiée de manière plus fiable.

In [None]:
# Decision Tree
clf = tree.DecisionTreeClassifier().fit(X_train, y_train)
acctree = clf.score(X_test, y_test) * 100
y_pred_tree = clf.predict(X_test)
print(f'Decision Tree Accuracy: {acctree:.2f}%')
print("Decision Tree Confusion Matrix:")
cm_tree = confusion_matrix(y_test, y_pred_tree)
disp_tree = ConfusionMatrixDisplay(confusion_matrix=cm_tree, display_labels=clf.classes_)
disp_tree.plot(cmap=plt.cm.Blues)
plt.title('Decision Tree Confusion Matrix')
plt.show()

Le modèle Random Forest a une précision de plus ou moins 65%.

Le modèle est très performant, surtout pour la classe 2, qu'il identifie avec une bonne précision. Cependant, il a encore quelques difficultés à distinguer les classes 1 et 3, mais globalement, il fait un bon travail dans la classification des trois classes.


In [None]:
# Random Forest
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42).fit(X_train, y_train)
accrf = accuracy_score(y_test, rf_classifier.predict(X_test)) * 100
y_pred_rf = rf_classifier.predict(X_test)
print(f'Random Forest Accuracy: {accrf:.2f}%')
print("Random Forest Confusion Matrix:")
cm_rf = confusion_matrix(y_test, y_pred_rf)
disp_rf = ConfusionMatrixDisplay(confusion_matrix=cm_rf, display_labels=rf_classifier.classes_)
disp_rf.plot(cmap=plt.cm.Blues)
plt.title('Random Forest Confusion Matrix')
plt.show()

Le modèle K-Nearest Neighbors a une précision de plus ou moins 47%.

Le modèle montre de bonnes performances, particulièrement pour la classe 2, mais il a du mal à distinguer les classes 1 et 3, avec un nombre significatif d'erreurs. Cela suggère qu'il nécessite des améliorations pour mieux classifier les classes 1 et 3 tout en continuant à bien identifier la classe 2.

In [None]:
# K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=2).fit(X_train, y_train)
accknn = accuracy_score(y_test, knn.predict(X_test)) * 100
y_pred_knn = knn.predict(X_test)
print(f'KNN Accuracy: {accknn:.2f}%')
print("KNN Confusion Matrix:")
cm_knn = confusion_matrix(y_test, y_pred_knn)
disp_knn = ConfusionMatrixDisplay(confusion_matrix=cm_knn, display_labels=knn.classes_)
disp_knn.plot(cmap=plt.cm.Blues)
plt.title('KNN Confusion Matrix')
plt.show()

In [None]:
print("Overall Accuracy")
print(f'Decision Tree: {acctree:.2f}%')
print(f'Random Forest: {accrf:.2f}%')
print(f'KNN: {accknn:.2f}%')
glbacc = (acctree + accrf + accknn) / 3
print(f'Global: {glbacc:.2f}%')

In [None]:
warnings.filterwarnings("ignore", category=FutureWarning, message=".*Downcasting object dtype arrays on .fillna.*")

new_data = {
    "Dates": ["2015-05-10 23:59:00"],
    "DayOfWeek": ["Sunday"],
    "PdDistrict": ["BAYVIEW"],
    "Address": ["2000 Block of THOMAS AV"],
    "X": [-122.39958770418998],
    "Y": [37.7350510103906],
    "Categorie": [None],
    "Date": [pd.to_datetime("2015-05-10 23:59:00").date()],
    "Heure": [pd.to_datetime("2015-05-10 23:59:00").time()],
    "MonthofYear": [pd.to_datetime("2015-05-10 23:59:00").month]
}

new_df = pd.DataFrame(new_data)
new_df_encoded = encoder.transform(new_df).drop(columns=['Categorie'])

tree_prediction = clf.predict(new_df_encoded)
rf_prediction = rf_classifier.predict(new_df_encoded)
knn_prediction = knn.predict(new_df_encoded)

predictions = [tuple(tree_prediction), tuple(rf_prediction), tuple(knn_prediction)]
prediction_counts = Counter(predictions)
most_common_prediction, count = prediction_counts.most_common(1)[0]

if count == 1:
    accuracies = {'tree': acctree, 'rf': accrf, 'knn': accknn}
    most_accurate_model = max(accuracies, key=accuracies.get)
    final_prediction = eval(f'{most_accurate_model}_prediction')
else:
    final_prediction = most_common_prediction

final_prediction = int(final_prediction[0])
print(f"Final Prediction: {final_prediction}")

In [None]:
prediction_mapping = {
    0: 'Arrestation / Poursuites',
    1: 'Absence de poursuites / Refus / Cas particuliers',
    2: 'Localisation / État de la personne',
    3: 'Indépendant (NONE)'
}

final_prediction_text = prediction_mapping.get(final_prediction, "Catégorie inconnue")
print(f"Final Prediction: {final_prediction_text}")