# Limpieza de Base de Datos de Hechos Delictivos en Argentina (2017-2021)

En este documento Markdown se describirá el proceso de limpieza de una base de datos de hechos delictivos ocurridos en Argentina durante el período comprendido entre los años 2017 y 2021. El objetivo de esta limpieza es obtener información relevante para responder las siguientes preguntas:

- 1. ¿Cuál es la proporción de víctimas masculinas y femeninas en los delitos registrados?

- 2. ¿Cuáles son los departamentos con mayor número de delitos?

- 3. ¿Cuáles son los motivos más comunes que originaron el registro de un delito?

- 4. ¿Existe alguna relación entre el mes del año y la cantidad de delitos?

- 5. ¿Hay alguna relación entre el lugar y el género del inculpado?

- 6. ¿Hay alguna relación entre el lugar y el género de la víctima?

## Recopilación de la base de datos

Se trabaja con una base de datos  sobre los hechos delictivos ocurridos en Argentina entre los años 2017 y 2021.

## Analisis y Limpieza de datos

- Analizar los tipos de datos presentes en el dataframe y realizar una primera visualización para obtener una visión general de los datos.

### Información del dataframe y verificación de datos nulos

- Obtener información detallada sobre el dataframe, incluyendo la cantidad de datos en cada fila y la presencia de valores nulos, se puede utilizar el método `info()`. A continuación se muestra el código necesario:

### Limpieza
- Eliminar registros duplicados: Se eliminarán aquellos registros que sean duplicados para evitar distorsiones en los análisis posteriores.



In [50]:
import pandas as pd

url = 'https://raw.githubusercontent.com/ianCristianAriel/proc_datos_proyecto_final_G3/main/datos/brutos/SAT-HD-BU_2017-2021.csv'
df = pd.read_csv(url)

print(df.head())

   Id_hecho federal  Cod_INDEC_Prov provincia  codigo_departamento  Cod_INDEC  \
0     11535      No              58   NEUQUEN                   35      58035   
1     11535      No              58   NEUQUEN                   35      58035   
2     11535      No              58   NEUQUEN                   35      58035   
3     11535      No              58   NEUQUEN                   35      58035   
4     11536      No              58   NEUQUEN                   35      58035   

  departamento  localidad codigo_localidad  radio_censal  ...  \
0  Confluencia   Plottier              100           NaN  ...   
1  Confluencia   Plottier              100           NaN  ...   
2  Confluencia   Plottier              100           NaN  ...   
3  Confluencia   Plottier              100           NaN  ...   
4  Confluencia  Cutral Có               40           NaN  ...   

   identidad_genero_inculpado  otro_identidad_genero_inculpado  \
0                       Varón                           

  df = pd.read_csv(url)


### Averiguo el tamaño del dataframe (Filas x Columnas)

Para obtener el tamaño del dataframe y conocer la cantidad de filas y columnas, se puede utilizar la propiedad `shape` del dataframe. A continuación se muestra el código necesario:

```python
data.shape


In [70]:
df.shape ###( Filas x Columnas)

(25160, 46)

In [71]:
### Que tipos de datos tengo
df.dtypes

Id_hecho                              int64
federal                              object
Cod_INDEC_Prov                        int64
provincia                            object
codigo_departamento                   int64
Cod_INDEC                             int64
departamento                         object
localidad                            object
codigo_localidad                     object
radio_censal                        float64
latitud_radio                       float64
longitud_radio                      float64
anio                                  int64
mes                                   int64
tipo_lugar                           object
otro_tipo_lugar                      object
tipo_lugar_ampliado                  object
clase_arma                           object
otro_clase_arma                      object
en_ocasion_otro_delito               object
otro_en_ocasion_otro_delito          object
motivo_origen_registro               object
otro_motivo_origen_registro     

### Visualización de las primeras filas del dataframe

Para visualizar las primeras filas del dataframe y tener una idea de los datos que contiene, se puede utilizar el método `head()`. A continuación se muestra el código necesario:

```python
data.head()

In [72]:
df.head(10)

Unnamed: 0,Id_hecho,federal,Cod_INDEC_Prov,provincia,codigo_departamento,Cod_INDEC,departamento,localidad,codigo_localidad,radio_censal,...,identidad_genero_inculpado,otro_identidad_genero_inculpado,tr_edad_inculpado,clase_inculpado,otro_clase_inculpado,relacion_inculpado_victima,relacion_victima_inculpado,tipo_hecho_segun_victima,cant_inc,cant_vic
0,11535,No,58,NEUQUEN,35,58035,Confluencia,Plottier,100,,...,Varón,,Sin determinar,Sin determinación,,Sin relación,No corresponde,HD Varón,3,1
1,11535,No,58,NEUQUEN,35,58035,Confluencia,Plottier,100,,...,Varón,,Sin determinar,Sin determinación,,Sin relación,No corresponde,HD Varón,3,1
2,11535,No,58,NEUQUEN,35,58035,Confluencia,Plottier,100,,...,Varón,,Sin determinar,Sin determinación,,Sin relación,No corresponde,HD Varón,3,1
3,11535,No,58,NEUQUEN,35,58035,Confluencia,Plottier,100,,...,No corresponde,-------,No corresponde,No corresponde,----,No corresponde,Sin relación,HD Varón,3,1
4,11536,No,58,NEUQUEN,35,58035,Confluencia,Cutral Có,40,,...,Varón,,30-34,Civil,,Sin relación,No corresponde,HD Varón,2,1
5,11536,No,58,NEUQUEN,35,58035,Confluencia,Cutral Có,40,,...,Varón,,20-24,Civil,,Sin relación,No corresponde,HD Varón,2,1
6,11536,No,58,NEUQUEN,35,58035,Confluencia,Cutral Có,40,,...,No corresponde,-------,No corresponde,No corresponde,----,No corresponde,Sin relación,HD Varón,2,1
7,11537,No,58,NEUQUEN,35,58035,Confluencia,Neuquén,70,,...,Varón,,25-29,Civil,,Sin relación,No corresponde,HD Varón,1,1
8,11537,No,58,NEUQUEN,35,58035,Confluencia,Neuquén,70,,...,No corresponde,-------,No corresponde,No corresponde,----,No corresponde,Sin relación,HD Varón,1,1
9,11538,No,58,NEUQUEN,91,58091,Pehuenches,Barrancas,10,,...,Varón,,35-39,Civil,,Hijo/a,No corresponde,HD Varón,1,1


### Información del dataframe y verificación de datos nulos

Para obtener información detallada sobre el dataframe, incluyendo la cantidad de datos en cada fila y la presencia de valores nulos, se puede utilizar el método `info()`. A continuación se muestra el código necesario:

```python
dataframe.info()

In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25160 entries, 0 to 25159
Data columns (total 46 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Id_hecho                          25160 non-null  int64  
 1   federal                           25160 non-null  object 
 2   Cod_INDEC_Prov                    25160 non-null  int64  
 3   provincia                         25160 non-null  object 
 4   codigo_departamento               25160 non-null  int64  
 5   Cod_INDEC                         25160 non-null  int64  
 6   departamento                      25160 non-null  object 
 7   localidad                         25160 non-null  object 
 8   codigo_localidad                  25160 non-null  object 
 9   radio_censal                      13990 non-null  float64
 10  latitud_radio                     13990 non-null  float64
 11  longitud_radio                    13990 non-null  float64
 12  anio

# Elimino columnas innecesarias
genero un dataframe para limpiar las columnas que no utilizaremos.

In [74]:
df_limpio = df.drop(columns=['federal','Cod_INDEC_Prov','Cod_INDEC','departamento','codigo_localidad','radio_censal','latitud_radio','longitud_radio','otro_tipo_lugar','otro_clase_arma','otro_en_ocasion_otro_delito','otro_motivo_origen_registro','identidad_genero_victima','otro_identidad_genero_victima','otro_clase_victima','situacion_ocupacional_victima','otro_situacion_ocupacional_victi','identidad_genero_inculpado','otro_identidad_genero_inculpado','clase_inculpado','otro_clase_inculpado','cant_inc','clase_arma','en_ocasion_otro_delito','motivo_origen_registro','tipo_hecho_segun_victima','codigo_departamento'])

In [75]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25160 entries, 0 to 25159
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Id_hecho                    25160 non-null  int64 
 1   provincia                   25160 non-null  object
 2   localidad                   25160 non-null  object
 3   anio                        25160 non-null  int64 
 4   mes                         25160 non-null  int64 
 5   tipo_lugar                  25160 non-null  object
 6   tipo_lugar_ampliado         25160 non-null  object
 7   fecha_hecho                 25160 non-null  object
 8   hora_hecho                  25160 non-null  object
 9   tipo_persona_id             25160 non-null  object
 10  tipo_persona                25160 non-null  object
 11  sexo_victima                25160 non-null  object
 12  tr_edad_victima             25160 non-null  object
 13  clase_victima               25160 non-null  ob

### Elimino los registros - Al interesarme el aspecto de la victima elijo este registro

Generamos un nuevo dataframe conservando todas las columnas del original, pero solo incluyendo las filas con valores "Víctima" en la columna 'tipo_persona' y 'sexo_victima'. Esto nos permite tener un 

dataframe con información unica en dicha columna.

In [59]:
df_victimas = df[df['tipo_persona'] == 'Víctima'][['Id_hecho', 'tipo_persona','sexo_victima']]

In [76]:
df_victimas

Unnamed: 0,Id_hecho,tipo_persona,sexo_victima
3,11535,Víctima,Masculino
6,11536,Víctima,Masculino
8,11537,Víctima,Masculino
10,11538,Víctima,Masculino
12,11539,Víctima,Masculino
...,...,...,...
25150,28124,Víctima,Masculino
25153,28125,Víctima,Masculino
25155,28129,Víctima,Masculino
25157,28253,Víctima,Masculino
