# **EDA y ETL: Conjunto de datos 2 y 3**

## **Librerías y modulos necesarios**

En este caso las librerías necesarias para el desarrollo son las siguientes:

In [None]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

Dado que en la primera parte del análisis de delitos en Barranquilla se identificó que el delito más frecuente es el **Hurto**, procederemos a analizar los hurtos a nivel nacional en Colombia utilizando conjuntos de datos proporcionados por el portal oficial de **Datos Abiertos Colombia**. Este análisis busca comprender las tendencias, patrones y factores asociados a este delito en el contexto nacional, proporcionando una perspectiva más amplia que complemente el enfoque local inicial.

Inicialmente hacemos el cargue de los conjuntos de datos.

Es importante destacar que estos conjuntos de datos están relacionados con los hurtos en Colombia y proporcionan información detallada sobre este delito en sus diferentes modalidades. Los datos abarcan el periodo desde el 1 de enero del año 2010 hasta el 30 de abril del año 2024, y han sido proporcionados por la **DIJIN - Policía Nacional**.

Los conjuntos de datos se pueden encontrar en los siguientes enlaces:

- [Reporte Hurto por Modalidades - Policía Nacional (Conjunto 1)](https://www.datos.gov.co/Seguridad-y-Defensa/Reporte-Hurto-por-Modalidades-Polic-a-Nacional/6sqw-8cg5/about_data)

- [Reporte Hurto por Modalidades - Policía Nacional (Conjunto 2)](https://www.datos.gov.co/Seguridad-y-Defensa/Reporte-Hurto-por-Modalidades-Polic-a-Nacional/9vha-vh9n/about_data)


In [2]:
data = pd.read_csv(r"C:\Users\kamac\OneDrive\Desktop\DelitosBarranquilla\hurtos_colombia.csv")
data2 = pd.read_csv(r"C:\Users\kamac\OneDrive\Desktop\DelitosBarranquilla\hurtos2_colombia.csv")

Veamos ahora las cinco primeras observaciones de cada conjunto.

In [3]:
data.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
0,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
1,ANTIOQUIA,COPACABANA,5212000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
2,ANTIOQUIA,MEDELLÍN (CT),5001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
3,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
4,VALLE,CALI (CT),76001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1


In [4]:
data.shape

(376433, 9)

Nótese que esta primera base de datos cuenta con **376.433** observaciones y **9** columnas

In [5]:
data2.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
0,CAQUETÁ,SAN VICENTE DEL CAGUÁN,18753000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
1,CAUCA,POPAYÁN (CT),19001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,HURTO RESIDENCIAS,2
2,HUILA,PITALITO,41551000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
3,VALLE,JAMUNDÍ,76364000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
4,AMAZONAS,LETICIA (CT),91001000,CONTUNDENTES,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1


In [6]:
data2.shape

(669316, 9)

Esta segunda base de datos cuenta con **669.316** observaciones y **9** observaciones

Es importante destacar que ambos conjuntos de datos presentan diferentes categorías de hurto. Por esta razón, hemos decidido unificar y generalizar estas categorías bajo una única clasificación denominada **Hurto**. Esto nos permitirá analizar de manera más uniforme y consistente la frecuencia de este delito a lo largo de los años, proporcionando una visión integral de su evolución en el tiempo.

Dado que los datos utilizados para el análisis de Barranquilla corresponden a los últimos cinco años (2019, 2020, 2021, 2022 y 2023), excluyendo el año actual (2024), ambos conjuntos de datos serán filtrados para incluir únicamente este rango temporal. Antes de aplicar este filtro, las fechas en los conjuntos de datos serán convertidas a un formato legible por el sistema de programación, en este caso **Python**, utilizando la función `pd.to_datetime` de **pandas**. Además, para cada base de datos, se seleccionarán únicamente las columnas relevantes: `FECHA HECHO`, `DEPARTAMENTO`, `MUNICIPIO`, `TIPO DE HURTO` y `CANTIDAD`. Esto asegura una manipulación precisa y eficiente de los datos temporales y permite un análisis enfocado en las variables clave.

In [7]:
# Asegurarse de que la columna 'FECHA HECHO' esté en formato datetime
data['FECHA HECHO'] = pd.to_datetime(data['FECHA HECHO'], format='%d/%m/%Y')
data = data[['FECHA HECHO', 'DEPARTAMENTO', 'MUNICIPIO', 'TIPO DE HURTO', 'CANTIDAD']]
# Filtrar los datos por años mayores o iguales a 2019
data_2019 = data[data['FECHA HECHO'].dt.year == 2019]
data_2020 = data[data['FECHA HECHO'].dt.year == 2020]
data_2021 = data[data['FECHA HECHO'].dt.year == 2021]
data_2022 = data[data['FECHA HECHO'].dt.year == 2022]
data_2023 = data[data['FECHA HECHO'].dt.year == 2023]
data_final = pd.concat([data_2019, data_2020, data_2021, data_2022, data_2023], ignore_index=True)

In [8]:
# Asegurarse de que la columna 'FECHA HECHO' esté en formato datetime
data2['FECHA HECHO'] = pd.to_datetime(data2['FECHA HECHO'], format='%d/%m/%Y')
data2 = data2[['FECHA HECHO', 'DEPARTAMENTO', 'MUNICIPIO', 'TIPO DE HURTO', 'CANTIDAD']]
# Filtrar los datos por años mayores o iguales a 2019
data2_2019 = data2[data2['FECHA HECHO'].dt.year == 2019]
data2_2020 = data2[data2['FECHA HECHO'].dt.year == 2020]
data2_2021 = data2[data2['FECHA HECHO'].dt.year == 2021]
data2_2022 = data2[data2['FECHA HECHO'].dt.year == 2022]
data2_2023 = data2[data2['FECHA HECHO'].dt.year == 2023]
data2_final = pd.concat([data2_2019, data2_2020, data2_2021, data2_2022, data2_2023], ignore_index=True)

A continuación, las dos bases de datos previamente filtradas se combinarán en una sola, dado que ambas presentan las mismas columnas, lo que facilita su unión. La base de datos resultante de esta combinación será la utilizada para realizar la visualización de los hurtos en Colombia, asegurando que el análisis sea completo y represente toda la información disponible de manera unificada y consistente.

In [9]:
data_f  = pd.concat([data_final, data2_final], ignore_index = True)

In [10]:
data_f.shape

(474917, 5)

Ahora, la nueva base de datos cuenta con **474.917** observaciones y **5** columnas. 

In [11]:
unique_count = data_f['MUNICIPIO'].nunique()
print(f"Cantidad de valores únicos en 'MUNICIPIO': {unique_count}")


Cantidad de valores únicos en 'MUNICIPIO': 1994


Dado que se identificó la presencia de **1,994 municipios diferentes** en los datos, hemos decidido enfocar el análisis en el nivel de **DEPARTAMENTO**. Esto permitirá generar un análisis más claro y comprensible sobre los hurtos en Colombia, proporcionando una visión general y facilitando la interpretación de las tendencias y patrones de criminalidad a nivel regional.

In [12]:
data_f.drop(columns=['MUNICIPIO'], inplace=True)

Ahora se unifican las diferentes categorías de hurto presentes en los datos bajo una única clasificación denominada **"Hurtos"**. Este proceso simplifica el análisis al agrupar todas las modalidades de hurto en una sola categoría, lo que facilita la identificación de tendencias generales y patrones a lo largo del tiempo y en los distintos departamentos de Colombia.

In [13]:
data_f['TIPO DE HURTO'] = 'Hurtos'

Ahora se agruparán los delitos por meses, es decir, para cada mes desde enero de 2019 hasta diciembre de 2023, teniendo en cuenta las columnas **DEPARTAMENTO**, **TIPO DE HURTO** y las respectivas **CANTIDADES**. Este proceso permite analizar las tendencias temporales de los hurtos en Colombia de manera más detallada y organizada.

In [14]:
# Asegurarse de que la columna 'FECHA HECHO' esté en formato datetime
data_f['FECHA HECHO'] = pd.to_datetime(data_f['FECHA HECHO'])

# Crear una columna de 'Año-Mes' para agrupar por mes y año
data_f['Año-Mes'] = data_f['FECHA HECHO'].dt.to_period('M')

# Agrupar por 'Año-Mes', 'Municipio', y 'Tipo de Hurto' y sumar los 'Cantidad de casos'
data_agrupada = data_f.groupby(['Año-Mes', 'DEPARTAMENTO', 'TIPO DE HURTO'])['CANTIDAD'].sum().reset_index()

# Ver los primeros registros después de agrupar
data_agrupada.head()


Unnamed: 0,Año-Mes,DEPARTAMENTO,TIPO DE HURTO,CANTIDAD
0,2019-01,AMAZONAS,Hurtos,29
1,2019-01,ANTIOQUIA,Hurtos,2094
2,2019-01,ARAUCA,Hurtos,69
3,2019-01,ATLÁNTICO,Hurtos,564
4,2019-01,BOLÍVAR,Hurtos,425


In [15]:
data_agrupada.shape

(1911, 4)

La base de datos actual contiene **1,911 observaciones** y **4 variables**. Este número de registros debería corresponder a **1,920 observaciones**, resultado de multiplicar los **12 meses** por los **5 años** y por el número de departamentos. Sin embargo, faltan datos para **9 meses específicos**, lo que explica la diferencia. Estas ausencias serán evidentes en las visualizaciones, donde se reflejarán las lagunas de información en los meses faltantes.

Ahora se modificará la columna **DEPARTAMENTO** agregando el nombre "COLOMBIA" a cada observación. Esto se realiza con el objetivo de garantizar que los mapas en **Power BI** puedan identificar correctamente las ubicaciones y ejecutar las visualizaciones sin problemas, asegurando así la precisión geográfica en el análisis de los hurtos a nivel nacional.

In [16]:
data_agrupada['DEPARTAMENTO'] = data_agrupada['DEPARTAMENTO'] + ' - COLOMBIA'

Finalmente, la base de datos de **Hurtos en Colombia** está completamente preparada para su visualización, lo que permitirá analizar las tendencias de criminalidad a nivel nacional y proponer posibles soluciones basadas en los hallazgos obtenidos.

In [17]:
data_agrupada.to_csv(r'C:\Users\kamac\OneDrive\Desktop\DelitosBarranquilla\hurto_agrupado.csv', index=False)