# Victimas: Limpieza de datos

## Ejemplo
Ve el siguiente notebook y escribe que hace cada celda y el porque.

In [1]:
import pandas as pd
from numpy import nan

#### Cargar datos

In [2]:
df_victimas = pd.read_csv('../data-raw/denuncias-victimas-pgj.csv')
print(df_victimas.columns)
print(df_victimas.shape)
df_victimas.head()

Index(['idCarpeta', 'Delito', 'Categoria', 'FechaHecho', 'Año_hecho',
       'Mes_hecho', 'Sexo', 'Edad', 'TipoPersona', 'CalidadJuridica',
       'ClasificacionDelito', 'lon', 'lat', 'geopoint'],
      dtype='object')
(145870, 14)


Unnamed: 0,idCarpeta,Delito,Categoria,FechaHecho,Año_hecho,Mes_hecho,Sexo,Edad,TipoPersona,CalidadJuridica,ClasificacionDelito,lon,lat,geopoint
0,8417090,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.040775,19.328346,"19.3283464986,-99.0407749002"
1,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,Masculino,,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
2,8417092,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,2019.0,Marzo,,,MORAL,VICTIMA,FUERO COMUN,-99.152571,19.402075,"19.4020752972,-99.1525710006"
3,8417096,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,2019.0,Mayo,,,MORAL,VICTIMA,FUERO COMUN,-99.147046,19.434979,"19.4349789028,-99.1470464003"
4,8417097,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 18:30:00,2019.0,Abril,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,FUERO COMUN,-99.081784,19.257187,"19.2571868053,-99.0817841843"


#### pandas_profiling

In [3]:
import pandas_profiling

profile = df_victimas.tail(1000).profile_report(title='Victimas de carpetas de investigación')
profile.to_file(output_file="../profiles/CP-victimas-short.html")

#### Quitar columnas

In [4]:
df_victimas = df_victimas.drop(['idCarpeta', 'Año_hecho', 'Mes_hecho', 'ClasificacionDelito', 'lon', 'lat'], axis=1)
df_victimas.columns = ['delito', 'categoria_delito', 'fecha_hechos', 
                       'Sexo', 'Edad', 'TipoPersona', 'CalidadJuridica', 'Geopoint']
df_victimas.head()

Unnamed: 0,delito,categoria_delito,fecha_hechos,Sexo,Edad,TipoPersona,CalidadJuridica,Geopoint
0,NARCOMENUDEO POSESION SIMPLE,DELITO DE BAJO IMPACTO,2019-05-01 16:30:00,,,MORAL,VICTIMA,"19.3283464986,-99.0407749002"
1,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,Masculino,,FISICA,VICTIMA Y DENUNCIANTE,"19.4020752972,-99.1525710006"
2,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-03-28 10:00:00,,,MORAL,VICTIMA,"19.4020752972,-99.1525710006"
3,ROBO A NEGOCIO SIN VIOLENCIA,DELITO DE BAJO IMPACTO,2019-05-01 13:30:00,,,MORAL,VICTIMA,"19.4349789028,-99.1470464003"
4,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,2019-04-30 18:30:00,Femenino,36.0,FISICA,VICTIMA Y DENUNCIANTE,"19.2571868053,-99.0817841843"


#### Cambiar tipos de datos

In [5]:
df_victimas['fecha_hechos'] = pd.to_datetime(df_victimas['fecha_hechos'])

#### Modificar campos de texto

In [6]:
df_victimas['delito'] = df_victimas['delito'].str.capitalize()
df_victimas['categoria_delito'] = df_victimas['categoria_delito'].str.capitalize()
df_victimas['TipoPersona'] = df_victimas['TipoPersona'].str.capitalize()
df_victimas['CalidadJuridica'] = df_victimas['CalidadJuridica'].str.capitalize()
df_victimas.tail()

Unnamed: 0,delito,categoria_delito,fecha_hechos,Sexo,Edad,TipoPersona,CalidadJuridica,Geopoint
145865,Lesiones culposas por caida de vehículo en mov...,Delito de bajo impacto,2019-09-20 03:30:00,Masculino,42.0,Fisica,Lesionado,"19.3443909603,-99.0279509938"
145866,Robo a transeunte en via publica con violencia,Robo a transeunte en vía pública con y sin vio...,2019-09-20 04:30:00,Masculino,45.0,Fisica,Victima y denunciante,"19.3061992087,-98.9656925188"
145867,Perdida de la vida por suicidio,Hecho no delictivo,2019-09-20 05:00:00,Masculino,33.0,Fisica,Cadaver,"19.4102934856,-99.1622807104"
145868,Homicidio por arma blanca,Homicidio doloso,2019-09-20 04:00:00,Masculino,27.0,Fisica,Cadaver,"19.3223447722,-99.0427655635"
145869,Lesiones culposas,Delito de bajo impacto,2019-09-18 07:20:00,Femenino,5.0,Fisica,Lesionado,


#### Eliminar datos fuera de rango

In [7]:
df_victimas = df_victimas.loc[~df_victimas['categoria_delito'].isin(['Delito de bajo impacto','Hecho no delictivo'])]

In [8]:
df_victimas = df_victimas[df_victimas['fecha_hechos'].dt.year>=2016]

In [9]:
df_victimas.loc[df_victimas['Edad']>=100,'Edad'] = nan

In [10]:
df_victimas['Sexo'] = df_victimas['Sexo'].replace({'No se especifica',nan})

#### Datos faltantes

#### Guardar datos

In [11]:
from joblib import dump

with open('../data-clean/VictimasPgjCdmx-AltoImpacto.pkl', 'wb') as f:
    dump(df_victimas, f)