<a href="https://colab.research.google.com/github/bigirimanainnocent12/Spark/blob/main/PYSPARK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Description de la base de données***

Cet ensemble de données recense les incidents criminels signalés (à l'exception des homicides pour lesquels des données existent pour chaque victime) survenus dans la ville de Chicago de 2001 à 14/11/2025, moins les sept derniers jours. Les données proviennent du système CLEAR (Citizen Law Enforcement Analysis and Reporting) du département de police de Chicago. Afin de protéger la vie privée des victimes, les adresses sont affichées au niveau du pâté de maisons uniquement et les lieux précis ne sont pas identifiés. Pour toute question concernant cet ensemble de données, veuillez contacter la Division de l'analyse et du traitement des données du département de police de Chicago à l'adresse DFA@ChicagoPolice.org.

[
Lien pour télécharger les données](https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-Present/ijzp-q8t2/about_data)

In [None]:
!pip install pyspark
!pip install findspark

In [3]:
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("Débuter avec Spark").getOrCreate()

# **Importation des données et affichage de 20 premières lignes**

In [4]:
df=spark.read.csv("/content/Crimes.csv",header=True,inferSchema=True)
df.show()

+--------+-----------+--------------------+--------------------+----+--------------------+--------------------+--------------------+------+--------+----+--------+----+--------------+--------+------------+------------+----+--------------------+------------+-------------+--------------------+
|      ID|Case Number|                Date|               Block|IUCR|        Primary Type|         Description|Location Description|Arrest|Domestic|Beat|District|Ward|Community Area|FBI Code|X Coordinate|Y Coordinate|Year|          Updated On|    Latitude|    Longitude|            Location|
+--------+-----------+--------------------+--------------------+----+--------------------+--------------------+--------------------+------+--------+----+--------+----+--------------+--------+------------+------------+----+--------------------+------------+-------------+--------------------+
|13311263|   JG503434|07/29/2022 03:39:...|     023XX S TROY ST|1582|OFFENSE INVOLVING...|   CHILD PORNOGRAPHY|           RE

# **Nombre de lignes**

In [5]:
df.count()

8441730

# Type de df

In [6]:
type(df)

# **Type des variables**

In [8]:
df.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- Case Number: string (nullable = true)
 |-- Date: string (nullable = true)
 |-- Block: string (nullable = true)
 |-- IUCR: string (nullable = true)
 |-- Primary Type: string (nullable = true)
 |-- Description: string (nullable = true)
 |-- Location Description: string (nullable = true)
 |-- Arrest: boolean (nullable = true)
 |-- Domestic: boolean (nullable = true)
 |-- Beat: integer (nullable = true)
 |-- District: integer (nullable = true)
 |-- Ward: integer (nullable = true)
 |-- Community Area: integer (nullable = true)
 |-- FBI Code: string (nullable = true)
 |-- X Coordinate: integer (nullable = true)
 |-- Y Coordinate: integer (nullable = true)
 |-- Year: integer (nullable = true)
 |-- Updated On: string (nullable = true)
 |-- Latitude: double (nullable = true)
 |-- Longitude: double (nullable = true)
 |-- Location: string (nullable = true)



# **Manipulation des données**

In [13]:
from pyspark.sql.functions import col,to_timestamp
df=df.withColumn('Date',to_timestamp(col("Date"),"MM/dd/yyyy hh:mm:ss a")
)
from pyspark.sql.functions import col

# convertir les colonnes "Latitude" et "Location" en Float
df = df.withColumn("Latitude", col("Latitude").cast("float"))
df = df.withColumn("Longitude", col("Longitude").cast("float"))

df.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- Case Number: string (nullable = true)
 |-- Date: timestamp (nullable = true)
 |-- Block: string (nullable = true)
 |-- IUCR: string (nullable = true)
 |-- Primary Type: string (nullable = true)
 |-- Description: string (nullable = true)
 |-- Location Description: string (nullable = true)
 |-- Arrest: boolean (nullable = true)
 |-- Domestic: boolean (nullable = true)
 |-- Beat: integer (nullable = true)
 |-- District: integer (nullable = true)
 |-- Ward: integer (nullable = true)
 |-- Community Area: integer (nullable = true)
 |-- FBI Code: string (nullable = true)
 |-- X Coordinate: integer (nullable = true)
 |-- Y Coordinate: integer (nullable = true)
 |-- Year: integer (nullable = true)
 |-- Updated On: string (nullable = true)
 |-- Latitude: float (nullable = true)
 |-- Longitude: float (nullable = true)
 |-- Location: string (nullable = true)

