
# Roberto Ramirez
## Desarrollo de Proyecto I
### Proyecto de Análisis Exploratorio de Datos (EDA) sobre la Seguridad en Jalisco


El presente proyecto de Análisis Exploratorio de Datos (EDA) tiene como objetivo investigar y comprender en profundidad la dinámica delictiva en el estado de Jalisco, utilizando una base de datos detallada proveniente de la plataforma de seguridad del estado. Esta base de datos proporciona información valiosa sobre diversos delitos reportados, incluyendo la fecha, tipo de delito, ubicación geográfica, hora, bien afectado y otros atributos relevantes.

El análisis se centra en desentrañar patrones, tendencias y relaciones significativas dentro de los datos. A través del uso de técnicas estadísticas y visuales, se pretende identificar áreas geográficas con altos índices delictivos, períodos de tiempo críticos y posibles correlaciones entre ciertos tipos de delitos y variables como ubicación, hora del día o bienes afectados.

La base de datos contiene información detallada sobre una variedad de delitos, desde robos hasta homicidios, ocurridos en diferentes municipios y colonias de Jalisco. Cada entrada en la base de datos incluye información específica, como la fecha del incidente, tipo de delito, ubicación geográfica (coordenadas x y y), colonia, municipio, clave municipal, hora del día, bien afectado y zona geográfica.

Este análisis EDA no solo busca proporcionar una visión clara y comprensiva de la situación delictiva en Jalisco, sino también ofrecer valiosas perspectivas para informar políticas públicas, estrategias de seguridad y toma de decisiones basada en datos. Al examinar detenidamente estos datos, se espera generar conocimientos significativos que contribuyan a la mejora de la seguridad y calidad de vida de los habitantes del estado de Jalisco.

## Descripción de los datos

### Cargamos los datos

In [1]:
import pandas as pd
import datetime as dt
import folium
from folium import plugins
from folium.plugins import HeatMap
import seaborn as sns
import matplotlib.pyplot as plt

data = pd.read_csv("datos_seguridad.csv")

#Guardamos una copia de los datos para graficar por hora. 
data_orig = data


#### Paleta de colores / seaborn
minimal_palette =  [
    "#004c6d", "#0f5071", "#1a5575", "#225979", "#2a5d7d", "#316281",
    "#376685", "#3e6a89", "#446f8d", "#4b748f", "#527991", "#587e93",
    "#5e8395", "#648896", "#6a8e98", "#70939a", "#75989c", "#7b9da0",
    "#81a1a2", "#87a6a4", "#8caaa6", "#92afaa", "#98b4ac", "#9eb8ae"
]

static_palette = ["#1a5575"]

FileNotFoundError: [Errno 2] No such file or directory: 'datos_seguridad.csv'

### Mostramos los primeros y últimos datos
Esto con el objetivo de identificar las características de nuestro set de datos y posiblemente errores que hayan en él. 

In [None]:
#Mostramos las primeras 5 filas
data.head()

In [None]:
#Mostramos las últimas 5 filas
data.tail()

In [None]:
#Mostramos las variables
data.columns

Contamos con 10 columnas en total.

In [None]:
#Mostramos información general
data.info()

In [None]:
#El número de valores únicos para cada columna
data.nunique()

Las columnas de interés para esto último son **delito**, **colonia**, **municipio**, **bien_afectado**, y **zona_geografica**, pues estas muestran, cuantos tipos de delito, en cuantas colonias, municipios, bien afectado y en qué zona se encuentra. Por esto, nos damos a la tarea de mostrar los distintos valores de algunos de estas variables de interés. 

In [None]:
columnas_categoricas = ["delito", "bien_afectado", "zona_geografica","clave_mun"]

for i in columnas_categoricas:
    valores_unicos = data[i].unique()
    cantidad_valores_unicos = len(valores_unicos)
    print(f"Valores únicos en la columna {i}: {valores_unicos}")
    print(f"La cantidad de valores únicos en la columna {i} es de {cantidad_valores_unicos}")
    print("\t")


In [None]:
#Numero de delitos reportados

print("Entre enero de 2017 a septiembre 2023, se han reportado", data.shape[0]+1, "delitos en el estado de Jalisco.")

In [None]:
#Numero de valores nan

data.isnull().sum()

Solo se encontraron valores nulos en las columnas x,y, que corresponden a coordenadas geograficas, es decir que del total de 530190 observaciones, 33153 no tienen coordenadas, aproximadamente el 6.25% del total.

### Más información de los datos
- Rango de datos: Enero 2017 a Septiembre 2023
- Alcance: Estatal
- Granularidad de zona geográfica: colonia

A primera vista, podemos hacer un par de observaciones:
- Valores NaN presentes, especialmente en las coordenadas. 
- Columna 'hora' que pueda no estar en el mismo formato.
- Columna 'fecha' que pueda no estar estandarizada.


## Limpieza de datos

In [None]:
#Devolvemos sus datos a su índice original sin alteraciones. 
data.reset_index(drop=True, inplace=True)

Se tiene planteado hacer un mapa de delitos, por lo que es imprescindible tener las coordenadas. Anteriormente vimos que hay filas que no tienen estos valores, por lo que tenemos dos opciones:

- Usar el municipio, y establecer un punto común para todos aquellos valores que falten de zona geográfica.
- Eliminar los valores con datos nulos, o sin coordenadas. 

Una de las ventajas del primer acercamiento es preservar la mayor cantidad de datos, mientras que una de las desventajas es perder exactitud. Dicho esto, el segundo acercamiento hace prescindir del 6.25% de los datos, pero conservando la exactitud. Este último acercamiento es el que parece el más atractivo, pues nos planteamos hacer un mapa más adelante, lo que requiere la mayor exactitud posible. Entonces se procede a remover los datos nulos.

In [None]:
#Removemos NAs
data = data.dropna().reset_index(drop=True)
#Comprobamos que no haya valores nulos. 
data.isnull().sum()

In [None]:
data.info()

La mayoria de las columnas son del tipo que corresponde, pero tenemos columnas *datetime* que no lo son, por lo que procedemos a transformarlas, estas son las columnas 'fecha' y 'hora'.

In [None]:
# Convertir la columna 'fecha' a formato de fecha
data['fecha'] = pd.to_datetime(data['fecha'])

# Convertir la columna 'hora' a formato de hora (asegúrate de que la columna 'hora' esté en un formato que pandas pueda entender, como '5:30 PM')
# Al tratar de convertir la hora, encontramos que hay otros valores del tipo 'N.D.' 
# que indica que no está disponible la hora.
# Se usó data['hora'] = pd.to_datetime(data['hora']).dt.time para corroborar. 

Tratamos de averiguar cuantos de estos valores cumplen con el criterio de 'N.D.' en la variable 'hora'.

In [None]:
nds = ['N.D.']
print(data.loc[data['hora'].isin(nds)].shape[0], "es el número de filas sin hora disponible.")

Lo anterior nos dice que tenemos una buena parte de nuestros datos sin fecha disponible. Debido a esto, tenemos que tratar estos datos. El acercamiento que haremos con esto es de establecer una hora por defecto para estos valores, para lo que estoy pensando sería justo la media noche, es decir, las 00:00 horas. 

In [None]:
#establecemos la media noche para las horas de las que no se tenga registro
data.loc[data['hora'] == 'N.D.', 'hora'] = '00:00'

In [None]:
#corroboramos el cambio - no encontrar valores N.D. significa que esto fue exitoso. 
data.loc[data['hora'].isin(nds)].head(2)

In [None]:
#Reemplazar punto y coma con dos puntos en la columna 'hora', pues identificamos esto posteriormente
data['hora'] = data['hora'].str.replace(';', ':')
data['hora'] = data['hora'].str.replace('000:0', '00:00')

# Limpiar los datos de la columna 'hora' para contener solo dígitos y dos puntos
data['hora'] = data['hora'].str.extract(r'(\d+:\d+)')

# Asignamos finalmente nuestro formato de hora. 
#data['hora'] = pd.to_datetime(data['hora'], format='%H:%M', errors='coerce').dt.time

Lo anterior nos costó que algunos de los datos de hora vuelvan a ser 'NA', pues tampoco tienen formato ni cumplen la condición de 'tener solo dígitos y dos puntos'

In [None]:
data.isnull().sum()

Se encontró también que estos NAs son menos que los mostrados anteriormente, entonces podemos decir que esta vez sí podemos prescindir de estos. 

In [None]:
#Removemos NAs
data = data.dropna().reset_index(drop=True)
data.isnull().sum()
data['hora'] = pd.to_datetime(data['hora'], format='%H:%M', errors='coerce').dt.time

### Revisamos una segunda vez nuestros datos

In [None]:
data.head()

In [None]:
data.info()

## Visualización de datos

### Heat Map de delitos en el Estado

In [None]:
%%time
df = pd.DataFrame(data)

# crear mapa basado en las coordenadas, y,x.
map_center = [df['y'].mean(), df['x'].mean()]
m = folium.Map(location=map_center, zoom_start=7, tiles='CartoDB Positron')

# Crear una lista de latitudes y longitudes
heat_data = [[row['y'], row['x']] for index, row in df.iterrows()]

# Agregar la capa de mapa de calor basado en la incidencia. 
HeatMap(heat_data, min_opacity=0.2, radius=15, blur=10, 
        gradient={0.1: 'blue', 0.4: 'green', 0.7: 'yellow', 1.0: 'red'}).add_to(m)


m

### Número de delitos por categoría

In [None]:
# Cuenta el numero de delitos por cada uno de ellos
delito_counts = data['delito'].value_counts()


#crear un barplot. 
plt.figure(figsize=(10, 6))
sns.set_palette("Paired")
sns.barplot(x=delito_counts.index, y=delito_counts.values, palette=minimal_palette)
plt.xlabel('Tipo de delitos')
plt.ylabel('Num. Delitos')
plt.title('Num de delitos reportados en el Estado de Jalisco (Enero 2017 a Septiembre 2023)')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()
df.set_index('fecha', inplace=True)  # Set 'fecha' column as the index


### Tendencia de delitos (2017 a 2023)

In [None]:
# Definimos una paleta, para así poder usar un color diferente para cada gráfica
delito_palette = sns.color_palette("husl", len(df['delito'].unique()))

# Creamos un grid de 4x4 para cada tipo de delito 
delito_types = df['delito'].unique()
num_rows, num_cols = 4, 4
fig, axes = plt.subplots(nrows=num_rows, ncols=num_cols, figsize=(20, 20), sharex=False, sharey=False)  # Set sharey to False

#iteramos sobre cada uno de los delitos
for i, delito_type in enumerate(delito_types):
    row = i // num_cols
    col = i % num_cols
    subset = df[df['delito'] == delito_type]
    yearly_counts = subset.resample('A').size()  # Resample data to yearly frequency and calculate counts
    yearly_counts.index = yearly_counts.index.year
    sns.lineplot(x=yearly_counts.index, y=yearly_counts.values, ax=axes[row, col], label=delito_type, color=delito_palette[i], linewidth=2.5)  # Set linewidth to make the lines bolder
    axes[row, col].set_ylabel('Count')
    axes[row, col].set_title(f'Yearly Changes for Delito Type: {delito_type}')
    axes[row, col].tick_params(axis='x', rotation=0)
    axes[row, col].legend()

for i in range(len(delito_types), num_rows * num_cols):
    fig.delaxes(axes.flatten()[i])

plt.tight_layout()
plt.show()

In [None]:
municipio_count = data['municipio'].value_counts()
municipio_count = municipio_count.iloc[:20]
delitos = list(data['delito'].unique())

plt.figure(figsize=(10, 6))
sns.barplot(x=municipio_count.index, y=municipio_count.values, palette=static_palette)
plt.xlabel('Municipio')
plt.ylabel('Num. Delitos')
plt.title('Num de delitos reportados en el Estado de Jalisco (Enero 2017 a Septiembre 2023) por municipio (20 principales)')
plt.xticks(rotation=90)
plt.show()

In [None]:
#tratar los datos, derivado de la copia anteriormente creada. Aplicar el mismo tratamiento,
#excepto la reasignación de N.D. a 00:00
data_orig = data_orig[data_orig['hora'] != 'N.D.']
data_orig['hora'] = data_orig['hora'].str.replace(';', ':')
data_orig['hora'] = data_orig['hora'].str.replace('000:0', '00:00')
data_orig['hora'] = data_orig['hora'].str.extract(r'(\d+:\d+)')
data_orig['hora'] = pd.to_datetime(data_orig['hora'], format='%H:%M', errors='coerce').dt.time
data_orig['hour'] = data_orig['hora'].apply(lambda x: x.hour)
data_orig.reset_index(drop=True, inplace=True)

#graficar
sns.countplot(x='hour', data=data_orig, palette=static_palette)
plt.xlabel('Hora')
plt.ylabel('Delitos')
plt.title('Distribución de delitos por hora')
plt.xticks(rotation=90)
plt.show()

In [None]:
data['mes'] = data['fecha'].apply(lambda x: x.month)

#graficar
sns.countplot(x='mes', data=data, palette=static_palette)
plt.xlabel('Mes')
plt.ylabel('Delitos')
plt.title('Distribución de delitos por mes')
plt.xticks(rotation=90)
plt.show()

In [None]:
data.to_csv("datos_seguridad_limpios.csv")