# Limpieza de Base de Datos de Hechos Delictivos en Argentina (2017-2021)

En este documento Markdown se describirá el proceso de limpieza de una base de datos de hechos delictivos ocurridos en Argentina durante el período comprendido entre los años 2017 y 2021. El objetivo de esta limpieza es obtener información relevante para responder las siguientes preguntas:

- 1. ¿Cuál es la proporción de víctimas masculinas y femeninas en los delitos registrados?

- 2. ¿Cuáles son los departamentos con mayor número de delitos?

- 3. ¿Cuáles son los motivos más comunes que originaron el registro de un delito?

- 4. ¿Existe alguna relación entre el mes del año y la cantidad de delitos?

- 5. ¿Hay alguna relación entre el lugar y el género del inculpado?

- 6. ¿Hay alguna relación entre el lugar y el género de la víctima?

## Recopilación de la base de datos

Se trabaja con una base de datos  sobre los hechos delictivos ocurridos en Argentina entre los años 2017 y 2021.

## Analisis y Limpieza de datos

- Analizar los tipos de datos presentes en el dataframe y realizar una primera visualización para obtener una visión general de los datos.

### Información del dataframe y verificación de datos nulos

- Obtener información detallada sobre el dataframe, incluyendo la cantidad de datos en cada fila y la presencia de valores nulos, se puede utilizar el método `info()`. A continuación se muestra el código necesario:

### Limpieza
- Eliminar registros duplicados: Se eliminarán aquellos registros que sean duplicados para evitar distorsiones en los análisis posteriores.



In [8]:
import pandas as pd
path = '../../datos/brutos/SAT-HD-BU_2017-2021.csv'
df = pd.read_csv(path)

  df = pd.read_csv(path)


### Averiguo el tamaño del dataframe (Filas x Columnas)

Para obtener el tamaño del dataframe y conocer la cantidad de filas y columnas, se puede utilizar la propiedad `shape` del dataframe. A continuación se muestra el código necesario:

```python
data.shape


In [None]:
df.shape ###( Filas x Columnas)

In [None]:
### Que tipos de datos tengo
df.dtypes

### Visualización de las primeras filas del dataframe

Para visualizar las primeras filas del dataframe y tener una idea de los datos que contiene, se puede utilizar el método `head()`. A continuación se muestra el código necesario:

```python
data.head()

In [None]:
df.head(10)

### Información del dataframe y verificación de datos nulos

Para obtener información detallada sobre el dataframe, incluyendo la cantidad de datos en cada fila y la presencia de valores nulos, se puede utilizar el método `info()`. A continuación se muestra el código necesario:

```python
dataframe.info()

In [None]:
df.info()

# Elimino columnas innecesarias
genero un dataframe para limpiar las columnas que no utilizaremos.

In [None]:
df_limpio = df.drop(columns=['federal','Cod_INDEC_Prov','Cod_INDEC','departamento','codigo_localidad','radio_censal','latitud_radio','longitud_radio','otro_tipo_lugar','otro_clase_arma','otro_en_ocasion_otro_delito','otro_motivo_origen_registro','identidad_genero_victima','otro_identidad_genero_victima','otro_clase_victima','situacion_ocupacional_victima','otro_situacion_ocupacional_victi','identidad_genero_inculpado','otro_identidad_genero_inculpado','clase_inculpado','otro_clase_inculpado','cant_inc','clase_arma','en_ocasion_otro_delito','motivo_origen_registro','tipo_hecho_segun_victima','codigo_departamento'])

In [None]:
df_limpio.info()

### Elimino los registros - Al interesarme el aspecto de la victima elijo este registro

Generamos un nuevo dataframe conservando todas las columnas del original, pero solo incluyendo las filas con valores "Víctima" en la columna 'tipo_persona' y 'sexo_victima'. Esto nos permite tener un 

dataframe con información unica en dicha columna.

In [None]:
df_victimas = df[df['tipo_persona'] == 'Víctima'][['Id_hecho', 'tipo_persona','sexo_victima']]

In [None]:
df_victimas

### Guardado del CSV limpio


In [None]:
ruta_destino = "../../datos/procesados/limpieza01_argentina_delitos.csv"  # Ruta y nombre del archivo de destino
df_limpio.to_csv(ruta_destino, index=False)