# Exprésate Perú con Datos 2024 - GORE CALLAO

## Dataset: [Registros delictivos del Observatorio Regional de Seguridad Ciudadana en la Provincia Constitucional del Callao](https://expresateperu.datosabiertos.gob.pe/dataset/registros-delictivos-del-observatorio-regional-de-seguridad-ciudadana-en-la-provincia)

## Revisado por : [Diego Teccsi Cerda](https://www.linkedin.com/in/diego-teccsi/)

### Carga de Datos

In [1]:
import pandas as pd

file_path = r'..\data\raw\DATASET_SEGURIDAD_CALLAO_FEBRERO2024_0.csv'
df = pd.read_csv(file_path, delimiter=';')

In [2]:
# primeras filas del dataset
df.head()

Unnamed: 0,FECHA_CORTE,FECHA_REGISTRO,ID_DOC_DENUNCIA,UBIGEO,DEPARTAMENTO,PROVINCIA,DISTRITO,TIPO_DE_DENUNCIA,SITUACION_DENUNCIA,TIPO,...,FECHA_NACIMIENTO,EDAD_PERSONA,SEXO,ESTADO_CIVIL,GRADO_INSTRUCCION,OCUPACION,PAIS_NATAL,MES,LONGITUD,LATITUD
0,20240425,20240226,4e35831afdd9aa1958807a7b32ea5b53a26aa74d1556d5...,70101,CALLAO,CALLAO,CALLAO,DENUNCIA,PENDIENTE,LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULN...,...,19900713,33,MASCULINO,SOLTERO(A),NO INDICA,NO INDICA,PERU,202402,-77.115782,-12.005028
1,20240425,20240221,7ccf55ed76f62bc29e46f082caa7e57c289dc59bded9d8...,70101,CALLAO,CALLAO,CALLAO,DENUNCIA,RESUELTA,LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULN...,...,19850129,39,MASCULINO,SOLTERO(A),NO INDICA,NO INDICA,PERU,202402,-77.154571,-11.844027
2,20240425,20240210,fed71611056418d9ebbda0717e8252554c85b3b08f34fa...,70101,CALLAO,CALLAO,CALLAO,DENUNCIA,RESUELTA,LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULN...,...,19931021,30,MASCULINO,SOLTERO(A),NO INDICA,NO INDICA,PERU,202402,-77.126113,-12.051164
3,20240425,20240220,7d920f96de74cf295cbbb4da54057db724c98421ffa0a1...,70101,CALLAO,CALLAO,CALLAO,DENUNCIA,RESUELTA,LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULN...,...,19850606,38,MASCULINO,SOLTERO(A),NO INDICA,VIGILANTE,PERU,202402,-77.129483,-11.951019
4,20240425,20240223,060b191856ee7bf4feb80322d9c04ff36bbc99eaa75075...,70101,CALLAO,CALLAO,CALLAO,ACTA DE INTERVENCION,RESUELTA,PATRIMONIO (DELITO),...,19950926,28,MASCULINO,SOLTERO(A),NO INDICA,NO INDICA,PERU,202402,-77.125383,-12.051164


### Limpieza y Transformación de datos

#### Conversión de datos

In [3]:
# Columnas de fecha a formato datetime
df['FECHA_CORTE'] = pd.to_datetime(df['FECHA_CORTE'], format='%Y%m%d')
df['FECHA_REGISTRO'] = pd.to_datetime(df['FECHA_REGISTRO'], format='%Y%m%d')
df['FECHA_HECHO'] = pd.to_datetime(df['FECHA_HECHO'], format='%Y%m%d')
df['FECHA_NACIMIENTO'] = pd.to_datetime(df['FECHA_NACIMIENTO'], format='%Y%m%d')

In [4]:
print(df[['FECHA_CORTE', 'FECHA_REGISTRO', 'FECHA_HECHO', 'FECHA_NACIMIENTO']].head())

  FECHA_CORTE FECHA_REGISTRO FECHA_HECHO FECHA_NACIMIENTO
0  2024-04-25     2024-02-26  2024-02-26       1990-07-13
1  2024-04-25     2024-02-21  2024-02-21       1985-01-29
2  2024-04-25     2024-02-10  2024-02-10       1993-10-21
3  2024-04-25     2024-02-20  2024-02-20       1985-06-06
4  2024-04-25     2024-02-23  2024-02-23       1995-09-26


#### Quitar filas con datos nulos

In [5]:
# Verificar si existen valores nulos
null_counts = df.isnull().sum()
print(null_counts[null_counts > 0])

LONGITUD    4
LATITUD     4
dtype: int64


In [6]:
# eliminar filas con valores nulos
df = df.dropna(subset=['LONGITUD', 'LATITUD'])

#### Verificar y/o estandarizar valores

In [7]:
# revisar las primeras 12 columnas
df.iloc[:,:12].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2639 entries, 0 to 2642
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   FECHA_CORTE         2639 non-null   datetime64[ns]
 1   FECHA_REGISTRO      2639 non-null   datetime64[ns]
 2   ID_DOC_DENUNCIA     2639 non-null   object        
 3   UBIGEO              2639 non-null   int64         
 4   DEPARTAMENTO        2639 non-null   object        
 5   PROVINCIA           2639 non-null   object        
 6   DISTRITO            2639 non-null   object        
 7   TIPO_DE_DENUNCIA    2639 non-null   object        
 8   SITUACION_DENUNCIA  2639 non-null   object        
 9   TIPO                2639 non-null   object        
 10  SUBTIPO             2639 non-null   object        
 11  MODALIDAD           2639 non-null   object        
dtypes: datetime64[ns](2), int64(1), object(9)
memory usage: 268.0+ KB


In [8]:
# validar si los nombres de los lugares si son correctos
lugares = df[['DEPARTAMENTO','PROVINCIA','DISTRITO']].drop_duplicates()
lugares

Unnamed: 0,DEPARTAMENTO,PROVINCIA,DISTRITO
0,CALLAO,CALLAO,CALLAO
12,CALLAO,CALLAO,VENTANILLA
32,CALLAO,CALLAO,BELLAVISTA
44,CALLAO,CALLAO,LA PERLA
62,CALLAO,CALLAO,CARMEN DE LA LEGUA REYNOSO
198,CALLAO,CALLAO,LA PUNTA
351,CALLAO,CALLAO,MI PERU


In [9]:
# validar los valores de tipo de denuncia
print(df['TIPO_DE_DENUNCIA'].unique())

['DENUNCIA' 'ACTA DE INTERVENCION' 'OCURRENCIA' 'ACTA DE DENUNCIA VERBAL']


In [10]:
# estandarizar valores
df['TIPO_DE_DENUNCIA'] = df['TIPO_DE_DENUNCIA'].replace({
    'ACTA DE INTERVENCION': 'INTERVENCION',
    'ACTA DE DENUNCIA VERBAL': 'DENUNCIA VERBAL'
    })

In [11]:
# validar los valores de situación de denuncia
print(df['SITUACION_DENUNCIA'].unique())

['PENDIENTE' 'RESUELTA']


In [12]:
# validar los valores de tipos de delitos
tipos_delitos = df[['TIPO','SUBTIPO']].drop_duplicates()
tipos_delitos = tipos_delitos.sort_values(by=['TIPO', 'SUBTIPO'])
tipos_delitos

Unnamed: 0,TIPO,SUBTIPO
74,ADMINISTRACION PUBLICA (DELITO),COMETIDOS POR FUNCIONARIOS PUBLICOS
50,ADMINISTRACION PUBLICA (DELITO),COMETIDOS POR PARTICULARES
151,DERECHOS INTELECTUALES (DELITO),PROPIEDAD INDUSTRIAL
112,FAMILIA (DELITO),ATENTADOS CONTRA LA PATRIA POTESTAD
152,FE PUBLICA (DELITO),DISPOSICIONES COMUNES
155,FE PUBLICA (DELITO),FALSIFICACION DE DOCUMENTOS EN GENERAL
732,FE PUBLICA (DELITO),FALSIFICACION DE SELLOS TIMBRES Y MARCAS OFIC...
1179,LEY 30096 DELITOS INFORMATICOS MODIFICADA POR...,CONTRA LA INTIMIDAD Y EL SECRETO DE LAS COMUNI...
29,LEY 30096 DELITOS INFORMATICOS MODIFICADA POR...,DELITOS INFORMATICOS CONTRA EL PATRIMONIO
501,LEY 30096 DELITOS INFORMATICOS MODIFICADA POR...,DELITOS INFORMATICOS CONTRA LA FE PUBLICA


In [13]:
print(df['TIPO'].unique())

['LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULNERABLES'
 'PATRIMONIO (DELITO)'
 'LEY 30096 DELITOS INFORMATICOS  MODIFICADA POR LA LEY 30171'
 'SEGURIDAD PUBLICA (DELITO)' 'LIBERTAD (DELITO)'
 'ADMINISTRACION PUBLICA (DELITO)' 'VIDA  EL CUERPO Y LA SALUD (DELITO)'
 'FAMILIA (DELITO)' 'DERECHOS INTELECTUALES (DELITO)'
 'FE PUBLICA (DELITO)' 'TRANQUILIDAD PUBLICA (DELITO)']


In [14]:
# estandarizar valores de tipo
df['TIPO'] = df['TIPO'].replace({
    'LEY DE VIOLENCIA CONTRA LA MUJER Y GRUPOS VULNERABLES': 'VIOLENCIA A MUJERES Y GGVV',
    'PATRIMONIO (DELITO)': 'PATRIMONIO',
    'LEY 30096 DELITOS INFORMATICOS  MODIFICADA POR LA LEY 30171': 'DELITOS INFORMATICOS',
    'SEGURIDAD PUBLICA (DELITO)': 'SEGURIDAD PUBLICA',
    'LIBERTAD (DELITO)': 'LIBERTAD',
    'ADMINISTRACION PUBLICA (DELITO)': 'ADMINISTRACION PUBLICA',
    'VIDA  EL CUERPO Y LA SALUD (DELITO)': 'VIDA, CUERPO Y SALUD',
    'FAMILIA (DELITO)': 'FAMILIA',
    'DERECHOS INTELECTUALES (DELITO)': 'DERECHOS INTELECTUALES',
    'FE PUBLICA (DELITO)': 'FE PUBLICA',
    'TRANQUILIDAD PUBLICA (DELITO)': 'TRANQUILIDAD PUBLICA'
    })

In [15]:
print(df['SUBTIPO'].unique())

['LEY PARA PREVENIR   SANCIONAR Y ERRADICAR LA VIOLENCIA CONTRA LAS MUJERES Y LOS INTEGRANTES DEL GRUPO FAMILIAR (LEY NRO 30364)'
 'ROBO' 'HURTO' 'DELITOS INFORMATICOS CONTRA EL PATRIMONIO'
 'PELIGRO COMUN' 'VIOLACION DE LA LIBERTAD SEXUAL'
 'ESTAFA Y OTRAS DEFRAUDACIONES' 'COMETIDOS POR PARTICULARES' 'DAÑOS'
 'HOMICIDIO' 'LESIONES' 'COMETIDOS POR FUNCIONARIOS PUBLICOS' 'EXTORSION'
 'SALUD PUBLICA' 'VIOLACION DE LA LIBERTAD PERSONAL'
 'ATENTADOS CONTRA LA PATRIA POTESTAD' 'RECEPTACION'
 'PROPIEDAD INDUSTRIAL' 'DISPOSICIONES COMUNES'
 'FALSIFICACION DE DOCUMENTOS EN GENERAL' 'APROPIACION ILICITA'
 'MEDIOS DE TRANSPORTE  COMUNICACIONES Y OTROS SERVICIOS PUBLICOS'
 'DELITOS INFORMATICOS CONTRA LA FE PUBLICA' 'PAZ PUBLICA'
 'EXPOSICION A PELIGRO O ABANDONO DE PERSONAS EN PELIGRO'
 'VIOLACION DE DOMICILIO' 'VIOLACION DE LA INTIMIDAD' 'USURPACION'
 'FALSIFICACION DE SELLOS  TIMBRES Y MARCAS OFICIALES'
 'CONTRA LA INTIMIDAD Y EL SECRETO DE LAS COMUNICACIONES'
 'CONTRA LA HUMANIDAD' 'ABORTO']


In [16]:
# estandarizar valores de subtipo
df['SUBTIPO'] = df['SUBTIPO'].replace({
    'LEY PARA PREVENIR   SANCIONAR Y ERRADICAR LA VIOLENCIA CONTRA LAS MUJERES Y LOS INTEGRANTES DEL GRUPO FAMILIAR (LEY NRO 30364)': 'VIOLENCIA A MUJERES Y GGVV',
    'VIOLACION DE LA LIBERTAD SEXUAL': 'VIOLACION SEXUAL',
    'ESTAFA Y OTRAS DEFRAUDACIONES': 'ESTAFA',
    'FALSIFICACION DE DOCUMENTOS EN GENERAL': 'FALSIFICACION DE DOCUMENTOS',
    'FALSIFICACION DE SELLOS  TIMBRES Y MARCAS OFICIALES': 'FALSIFICACION DE SELLOS, TIMBRES Y MARCAS',
    'MEDIOS DE TRANSPORTE  COMUNICACIONES Y OTROS SERVICIOS PUBLICOS': 'MEDIOS DE TRANSPORTE Y OTROS',
    'EXPOSICION A PELIGRO O ABANDONO DE PERSONAS EN PELIGRO': 'EXPOSICION AL PELIGRO',
    'CONTRA LA INTIMIDAD Y EL SECRETO DE LAS COMUNICACIONES': 'CONTRA LA PRIVACIDAD'
    })

In [17]:
# revisar las últimas 14 columnas
df.iloc[:,12:26].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2639 entries, 0 to 2642
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   FECHA_HECHO        2639 non-null   datetime64[ns]
 1   HORA_HECHO         2639 non-null   int64         
 2   UBICACION          2639 non-null   object        
 3   DESCRIPCION        2639 non-null   object        
 4   FECHA_NACIMIENTO   2639 non-null   datetime64[ns]
 5   EDAD_PERSONA       2639 non-null   int64         
 6   SEXO               2639 non-null   object        
 7   ESTADO_CIVIL       2639 non-null   object        
 8   GRADO_INSTRUCCION  2639 non-null   object        
 9   OCUPACION          2639 non-null   object        
 10  PAIS_NATAL         2639 non-null   object        
 11  MES                2639 non-null   int64         
 12  LONGITUD           2639 non-null   float64       
 13  LATITUD            2639 non-null   float64       
dtypes: datet

In [18]:
# validar los estados civiles
print(df['ESTADO_CIVIL'].unique())

['SOLTERO(A)' 'NO INDICA' 'CASADO(A)' 'DIVORCIADO(A)' 'VIUDO(A)'
 'CONVIVIENTE']


In [19]:
# estandarizar los estados civiles
df['ESTADO_CIVIL'] = df['ESTADO_CIVIL'].replace({
    'SOLTERO(A)': 'SOLTERO',
    'CASADO(A)': 'CASADO',
    'DIVORCIADO(A)': 'DIVORCIADO',
    'VIUDO(A)': 'VIUDO'
    })

In [20]:
# validar los grados de intrucción
print(df['GRADO_INSTRUCCION'].unique())

['NO INDICA' 'SECUNDARIA' 'PRIMARIA' 'SUPERIOR' 'TECNICA'
 'SIN INSTRUCCION']


In [21]:
# validar las ocupaciones
print(df['OCUPACION'].unique())

['NO INDICA' 'VIGILANTE' 'OBRERO' 'CHOFER' 'EMPLEADO' 'INDEPENDIENTE'
 'ESTUDIANTE' 'TECNICO EN ENFERMERIA' 'DOCENTE' 'AGENTE DE SEGURIDAD'
 'EMPLEADA' 'TAXISTA' 'AUXILIAR INVENTARIO' 'DESEMPLEADO' 'AMA DE CASA'
 'SERVICIO DE CORRETAJ' 'ADMINISTRADOR' 'OPERARIO' 'PESCADOR'
 'POLICIA PNP' 'MECANICO' 'CONDUCTOR' 'ESTIBADOR' 'PINTOR AUTOMOTRIZ'
 'MOTOTAXISTA' 'CARPINTERO' 'TRABAJO INDEPENDIENT' 'MOTORIZADO'
 'ASESORA DE VIAJES' 'DELIVERY' 'SEGURIDAD' 'LIC ENFERMERIA' 'AYUDANTE'
 'SERENAZGO' 'TECNICO MECANICO' 'PINTOR' 'MOZO' 'INGENIERO INDUSTRIAL'
 'EMPRESARIO' 'SECRETARIO' 'RECICLADOR' 'ASESORA' 'COCINERO'
 'MARINO EN RETIRO' 'SOLDADOR' 'COBRADOR TRANSPORTE PUBLICO'
 'AGENTE DE ADUANA' 'OFICIAL PNP' 'TECNICO ELECTRONICO' 'TERAPISTA FISICA'
 'TECNICA EN SALUD OCUPACIONAL' 'ASESOR DE VENTAS' 'COMERCIANTE'
 'DESPACHADOR ADUANAS' 'LUMINOTECNICO' 'FISCALIZADOR DE MUNI' 'PEDICURE'
 'SEGURIDAD PRIVADA' 'PNP EN RETIRO' 'SUBOFICIAL PNP' 'SECRETARIA'
 'TECNICO EN TELEFONIA' 'PNP' 'INGENIERO' 'CAJE

In [22]:
# validar los países natales
print(df['PAIS_NATAL'].unique())

['PERU' 'VENEZUELA' 'COLOMBIA' 'ARGENTINA' 'ECUADOR']


### Exportar datos limpios

In [24]:
df.to_csv(r'..\data\processed\datos_seguridad.csv', encoding='utf-8', index=False)