# Mini_proyecto_EDA

# Ejercicio Práctico: Carga, Exploración, Limpieza y Visualización Básica de un Dataset

## 1. Objetivo del ejercicio
El propósito de este ejercicio es aprender a realizar un flujo completo y ordenado de análisis exploratorio inicial (EDA) sobre un dataset real. El objetivo no es realizar análisis estadísticos avanzados, sino dominar las fases fundamentales que permiten comprender y describir datos antes de cualquier modelado.

Al finalizar el ejercicio, el alumno deberá ser capaz de:

### 1.1 Exploración
- Identificar la estructura del dataset: dimensiones, columnas, tipos de datos.
- Evaluar la calidad del dataset respondiendo preguntas como:
  - ¿Qué tipos de datos tengo? (numéricos, categóricos, fechas, texto libre...)
      - Tenemos datos int, float y object
  - ¿Cuál es el dominio del dataset? ¿Conozco el contexto de las variables?
      - Los datasets proceden de https://archive.ics.uci.edu/ y el significado de las variables está explicado antes de comenzar el análisis
  - ¿La fuente de datos es fiable y completa?
  - ¿Los datos están agregados o son individuales (nivel de granularidad)?
      - Los datos no están agregados
  - ¿Hay valores perdidos? ¿Cuál es su proporción?
      - Hay valores nulos
  - ¿Existen duplicados o registros anómalos?
      - No
  - ¿Las variables tienen una distribución razonable? ¿Existen outliers?
    - Aproximadamente lógica la distribución
  - ¿Los formatos (fechas, categorías) están normalizados?
      - No estaban normalizadas pero yo he generado una columna fecha para generar una columna 'datetime
  - ¿Existen incoherencias entre columnas?
      - No

      https://catalog.data.gov/dataset/crime-data-from-2020-to-present

### 1.2 Limpieza
- Corregir tipos de datos.
- Gestionar valores nulos de forma justificada.
- Eliminar o tratar duplicados.
- Normalizar formatos y categorías.
- Corregir incoherencias detectadas.

### 1.3 Visualización básica
Generar visualizaciones sencillas que ayuden a explicar el dataset, respondiendo a preguntas como:
- ¿Cómo se distribuye una variable numérica relevante?
- ¿Cuáles son las categorías más frecuentes?
- ¿Existen diferencias visuales entre grupos?
- ¿Cómo varían los valores a lo largo del tiempo (si aplica)?
- ¿Qué patrones básicos se detectan tras la limpieza?

### 1.4 Documentación y repositorio
- Explicar con claridad el trabajo realizado.
- Organizar un repositorio en GitHub con estructura ordenada.
- Entregar el enlace a través de **Google Classroom**.

---

## 2. Descripción general del ejercicio
El alumno trabajará con un dataset **elegido libremente** de una fuente fiable (Kaggle, datos públicos, open data, repositorios gubernamentales, etc.).

El trabajo consistirá en cargar los datos, explorarlos, limpiarlos y generar visualizaciones básicas que permitan entender sus características principales.

El foco está en:
- Calidad del proceso.
- Claridad del análisis.
- Documentación.
- Organización del repositorio.

---

## 3. Tareas obligatorias

### 3.1 Carga del dataset
- Importar el dataset.
- Revisar dimensiones y primeras filas.
- Inspeccionar tipos de datos.

### 3.2 Exploración del dataset
- Valores nulos.
- Duplicados.
- Rango de las variables.
- Incoherencias.
- Distribución inicial de columnas.

### 3.3 Limpieza y normalización
- Corrección de tipos.
- Tratamiento de nulos.
- Eliminación o tratamiento de duplicados.
- Normalización de categorías y fechas.
- Justificación de cada decisión.

### 3.4 Visualizaciones básicas
Debe incluir, como mínimo:
- Un histograma.
- Una gráfica de barras.
- Una visualización adicional que aporte información relevante.

### 3.5 Conclusiones exploratorias
- Resumen claro de las características del dataset.
- Principales hallazgos.
- Cambios aplicados durante la limpieza.

---

## 4. Entregables
La entrega se realizará por **Google Classroom**, incluyendo un enlace a un repositorio público de GitHub.

### 4.1 Estructura mínima del repositorio
```
├── data/
│   └── dataset.csv
├── notebooks/
│   └── eda.ipynb
├── README.md
└── requirements.txt (opcional)
```

### 4.2 Contenido obligatorio
- Notebook completo con el proceso.
- Dataset en la carpeta `data/`.
- README con explicación del análisis.

### 4.3 Criterios de evaluación
- Claridad del análisis.
- Coherencia del proceso de limpieza.
- Calidad de las visualizaciones.
- Orden del repositorio.
- Explicaciones adecuadas.

---

## 5. Recomendaciones
- Comentar el código cuando sea necesario.
- Mantener el notebook limpio y sin celdas duplicadas.
- Evitar análisis avanzados no requeridos.
- Asegurar que las visualizaciones sean legibles y útiles.
- Hacer commits frecuentes.

---

## 6. Entrega
La entrega se realizará exclusivamente por **Google Classroom**, adjuntando el enlace público al repositorio de GitHub.

**Fin del enunciado del ejercicio**

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os
%matplotlib inline
%config IPCompleter.greedy = True
import warnings
warnings.filterwarnings('ignore')

Definimos la ruta donde ubicamos los datasets para no tener que estar poniéndola en cada ocasión

In [2]:
ruta_datasets = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/EVOLVE/Data Science/EVOLVE/Fernando_Costa/Practicas/Mini_Proyecto_EDA/001_crime_from_2020/datasets/'

Definimos el dataset que vamos a usar.

A continuación, aplicaremos los cambios de manera individual sobre el df pero, después, generaremos una función que aglutine todos los pasos individuales y la aplicaremos directamente

In [3]:
dataset_df = 'Crime_Data_from_2020_to_Present.csv'

Cargamos el dataset df

In [4]:
ruta_completa = ruta_datasets + dataset_df
df = pd.read_csv(ruta_completa,sep=',')
df

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,211507896,04/11/2021 12:00:00 AM,11/07/2020 12:00:00 AM,845,15,N Hollywood,1502,2,354,THEFT OF IDENTITY,...,IC,Invest Cont,354.0,,,,7800 BEEMAN AV,,34.2124,-118.4092
1,201516622,10/21/2020 12:00:00 AM,10/18/2020 12:00:00 AM,1845,15,N Hollywood,1521,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",...,IC,Invest Cont,230.0,,,,ATOLL AV,N GAULT,34.1993,-118.4203
2,240913563,12/10/2024 12:00:00 AM,10/30/2020 12:00:00 AM,1240,9,Van Nuys,933,2,354,THEFT OF IDENTITY,...,IC,Invest Cont,354.0,,,,14600 SYLVAN ST,,34.1847,-118.4509
3,210704711,12/24/2020 12:00:00 AM,12/24/2020 12:00:00 AM,1310,7,Wilshire,782,1,331,THEFT FROM MOTOR VEHICLE - GRAND ($950.01 AND ...,...,IC,Invest Cont,331.0,,,,6000 COMEY AV,,34.0339,-118.3747
4,201418201,10/03/2020 12:00:00 AM,09/29/2020 12:00:00 AM,1830,14,Pacific,1454,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),...,IC,Invest Cont,420.0,,,,4700 LA VILLA MARINA,,33.9813,-118.4350
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1004986,252104112,02/02/2025 12:00:00 AM,02/02/2025 12:00:00 AM,130,21,Topanga,2103,2,946,OTHER MISCELLANEOUS CRIME,...,IC,Invest Cont,946.0,,,,22100 ROSCOE BL,,34.2259,-118.6126
1004987,250404100,02/18/2025 12:00:00 AM,02/18/2025 12:00:00 AM,1000,4,Hollenbeck,479,2,237,CHILD NEGLECT (SEE 300 W.I.C.),...,IC,Invest Cont,237.0,,,,3500 PERCY ST,,34.0277,-118.1979
1004988,251304095,01/31/2025 12:00:00 AM,01/30/2025 12:00:00 AM,1554,13,Newton,1372,2,850,INDECENT EXPOSURE,...,IC,Invest Cont,850.0,,,,300 E 53RD ST,,33.9942,-118.2701
1004989,251704066,01/17/2025 12:00:00 AM,01/17/2025 12:00:00 AM,1600,17,Devonshire,1774,2,624,BATTERY - SIMPLE ASSAULT,...,IC,Invest Cont,624.0,,,,9600 ZELZAH AV,,34.2450,-118.5233


Comprobamos que el dataset tiene nulos y nos sirve para trabajar

In [5]:
df.isna().sum().sort_values(ascending=False)

Crm Cd 4          1004927
Crm Cd 3          1002677
Crm Cd 2           935831
Cross Street       850755
Weapon Used Cd     677744
Weapon Desc        677744
Mocodes            151619
Vict Descent       144656
Vict Sex           144644
Premis Desc           588
Premis Cd              16
Crm Cd 1               11
Status                  1
Vict Age                0
Crm Cd                  0
Crm Cd Desc             0
AREA NAME               0
Rpt Dist No             0
AREA                    0
TIME OCC                0
Date Rptd               0
DATE OCC                0
DR_NO                   0
Part 1-2                0
Status Desc             0
LOCATION                0
LAT                     0
LON                     0
dtype: int64

Comprobamos las dimensiones de la tabla y los valores únicos de DR_NO ya que sospecho que debe ser el índice

In [6]:
dimensiones_df = df.shape
print(f'Dimensiones df: ', dimensiones_df)

Dimensiones df:  (1004991, 28)


In [7]:
DR_NO = df.DR_NO.nunique()
print(f'Valores únicos de DR_NO: ', DR_NO)

Valores únicos de DR_NO:  1004991


Aplicaciones: 
- Transformamos a minúsculas los nombres de las columnas
- Ponemos 'dr_no' como index ya que es el identificador del reporte 

In [8]:
df.columns = df.columns.str.replace(' ','_').str.lower()
df.columns = df.columns.str.replace('-','_')
df = df.set_index('dr_no')
df

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,...,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
211507896,04/11/2021 12:00:00 AM,11/07/2020 12:00:00 AM,845,15,N Hollywood,1502,2,354,THEFT OF IDENTITY,0377,...,IC,Invest Cont,354.0,,,,7800 BEEMAN AV,,34.2124,-118.4092
201516622,10/21/2020 12:00:00 AM,10/18/2020 12:00:00 AM,1845,15,N Hollywood,1521,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",0416 0334 2004 1822 1414 0305 0319 0400,...,IC,Invest Cont,230.0,,,,ATOLL AV,N GAULT,34.1993,-118.4203
240913563,12/10/2024 12:00:00 AM,10/30/2020 12:00:00 AM,1240,9,Van Nuys,933,2,354,THEFT OF IDENTITY,0377,...,IC,Invest Cont,354.0,,,,14600 SYLVAN ST,,34.1847,-118.4509
210704711,12/24/2020 12:00:00 AM,12/24/2020 12:00:00 AM,1310,7,Wilshire,782,1,331,THEFT FROM MOTOR VEHICLE - GRAND ($950.01 AND ...,0344,...,IC,Invest Cont,331.0,,,,6000 COMEY AV,,34.0339,-118.3747
201418201,10/03/2020 12:00:00 AM,09/29/2020 12:00:00 AM,1830,14,Pacific,1454,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),1300 0344 1606 2032,...,IC,Invest Cont,420.0,,,,4700 LA VILLA MARINA,,33.9813,-118.4350
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
252104112,02/02/2025 12:00:00 AM,02/02/2025 12:00:00 AM,130,21,Topanga,2103,2,946,OTHER MISCELLANEOUS CRIME,,...,IC,Invest Cont,946.0,,,,22100 ROSCOE BL,,34.2259,-118.6126
250404100,02/18/2025 12:00:00 AM,02/18/2025 12:00:00 AM,1000,4,Hollenbeck,479,2,237,CHILD NEGLECT (SEE 300 W.I.C.),1258 0553 0602,...,IC,Invest Cont,237.0,,,,3500 PERCY ST,,34.0277,-118.1979
251304095,01/31/2025 12:00:00 AM,01/30/2025 12:00:00 AM,1554,13,Newton,1372,2,850,INDECENT EXPOSURE,,...,IC,Invest Cont,850.0,,,,300 E 53RD ST,,33.9942,-118.2701
251704066,01/17/2025 12:00:00 AM,01/17/2025 12:00:00 AM,1600,17,Devonshire,1774,2,624,BATTERY - SIMPLE ASSAULT,0400 1259 1822 0356,...,IC,Invest Cont,624.0,,,,9600 ZELZAH AV,,34.2450,-118.5233


Ya sabemos que podemos trabajar con el dataset y lo tenemos cargado con los nombre de las columnas en su formato correto

Significado de las columnas:
- dr_no: Número de expediente oficial compuesto por un año de 2 dígitos, un ID de área y 5 dígitos.
- date_rptd: Fecha de Reporte. Indica el día en que el crimen o incidente fue oficialmente reportado (MM/DD/AAAA)
- date_occ: Fecha de Ocurrencia. Indica el día real en que el crimen tuvo lugar (MM/DD/AAAA)
- time_occ: En horario militar de 24 horas.
- area: Áreas Geográficas o Divisiones de Patrulla numeradas secuencialmente del 1 al 21.
- area_name: Nombre de las áreas Geográficas o Divisiones de Patrulla
- rpt_dist_no: Número de distrito de la patrulla del oficial que informó el incidente.
- part_1_2: Indica si el incidente es un crimen de la Parte 1 (crímenes más graves) o de la Parte 2 (crímenes menos graves).
- crm_cd: Código de delito de 3 dígitos del crimen cometido.
- crm_cd_desc: Descripción del delito del crimen cometido.
- mocodes: Modus Operandi o la manera distintiva o característica en que una persona lleva a cabo una actividad criminal.
- vict_age: Edad de la víctima
- vict_sex: Sexo de la víctima.
- vict_descent: Código de descendencia de la víctima
- premis_cd: El Código de Instalación es un código de 3 dígitos que identifica el tipo de lugar donde ocurrió el incidente
- premis_desc: Descripción de la Instalación.
- weapon_used_cd: El Código de Arma es un código de 3 dígitos que identifica el tipo de arma utilizada en el incidente
- weapon_desc: Descripción del Arma.
- status: Estado del caso. (IC es el valor predeterminado)
- status_desc: Define el Código de Estado proporcionado.
- crm_cd_1: Indica el crimen cometido. El Código de Crimen 1 es el principal y el más grave. Los Códigos de Crimen 2, 3 y 4 son, respectivamente, delitos menos graves. Los números de clase de crimen más bajos son más graves.
- crm_cd_2: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- crm_cd_3: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- crm_cd_4: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- location: Dirección postal del incidente del crimen redondeada al centenar de la cuadra más cercana para mantener el anonimato.
- cross_street: El nombre de la calle que se cruza con la calle principal donde ocurrió el incidente.
- lat: Latitud.
- lon: Longitud.

Códigos de descendencia: 
- A: Otros Asiáticos
- B: Afroamericano
- C: Chino
- D: Camboyano
- F: Filipino
- G: Guamés
- H: Hispano/Latino/Mexicano
- I: Indio Americano/Nativo de Alaska
- J: Japonés
- K: Coreano
- L: Laosiano
- O: Otro
- P: Isleño del Pacífico
- S: Samoano
- U: Hawaiano
- V: Vietnamita
- W: Blanco
- X: Desconocido
- Z: Hindú Asiático

Revisamos los tipos de datos de cada variable observando entre el .info() y la viasualización de la propia tabla y no se requieren cambios 

También observamos en el count que hay nulos en varias columnas que trataremos posteriormente

In [9]:
pd.set_option('display.max_columns', None)
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
200708209,04/12/2020 12:00:00 AM,04/10/2020 12:00:00 AM,2210,7,Wilshire,715,2,901,VIOLATION OF RESTRAINING ORDER,1501 1813 2038,35,F,W,501.0,SINGLE FAMILY DWELLING,,,AO,Adult Other,901.0,,,,7200 ROSEWOOD AV,,34.0803,-118.3474


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1004991 entries, 211507896 to 251904210
Data columns (total 27 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   date_rptd       1004991 non-null  object 
 1   date_occ        1004991 non-null  object 
 2   time_occ        1004991 non-null  int64  
 3   area            1004991 non-null  int64  
 4   area_name       1004991 non-null  object 
 5   rpt_dist_no     1004991 non-null  int64  
 6   part_1_2        1004991 non-null  int64  
 7   crm_cd          1004991 non-null  int64  
 8   crm_cd_desc     1004991 non-null  object 
 9   mocodes         853372 non-null   object 
 10  vict_age        1004991 non-null  int64  
 11  vict_sex        860347 non-null   object 
 12  vict_descent    860335 non-null   object 
 13  premis_cd       1004975 non-null  float64
 14  premis_desc     1004403 non-null  object 
 15  weapon_used_cd  327247 non-null   float64
 16  weapon_desc     327247 non-null

Las columnas 'date_rptd' y 'date_occ' vamos a eliminar la hora porque en todos los registros nos dicen que ha sido a las '12:00:00 AM'. Esta información es errónea según la columna 'time_occ' y además no nos aporta información como variable porque es una constante en todos los registros

In [11]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
231414910,07/27/2023 12:00:00 AM,07/27/2023 12:00:00 AM,1800,14,Pacific,1431,1,341,"THEFT-GRAND ($950.01 & OVER)EXCPT,GUNS,FOWL,LI...",0344 0380 1501,29,M,B,116.0,OTHER/OUTSIDE,,,IC,Invest Cont,341.0,,,,1800 OCEAN FRONT WK,,33.9858,-118.4728


Eliminamos la parte de la hora

In [12]:
df['date_rptd'] = df['date_rptd'].str.split(' ').str[0]
df['date_occ'] = df['date_occ'].str.split(' ').str[0]

Hacemos un datetime de las columnas de fechas

In [13]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
221513593,08/16/2022,08/16/2022,740,15,N Hollywood,1547,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",1402 2004,0,X,X,101.0,STREET,500.0,UNKNOWN WEAPON/OTHER WEAPON,AA,Adult Arrest,230.0,998.0,,,TUJUNGA,CHANDLER,34.1689,-118.379


In [14]:
df['date_rptd'] = pd.to_datetime(df['date_rptd'], format='%m/%d/%Y')
df['date_occ'] = pd.to_datetime(df['date_occ'], format='%m/%d/%Y')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1004991 entries, 211507896 to 251904210
Data columns (total 27 columns):
 #   Column          Non-Null Count    Dtype         
---  ------          --------------    -----         
 0   date_rptd       1004991 non-null  datetime64[ns]
 1   date_occ        1004991 non-null  datetime64[ns]
 2   time_occ        1004991 non-null  int64         
 3   area            1004991 non-null  int64         
 4   area_name       1004991 non-null  object        
 5   rpt_dist_no     1004991 non-null  int64         
 6   part_1_2        1004991 non-null  int64         
 7   crm_cd          1004991 non-null  int64         
 8   crm_cd_desc     1004991 non-null  object        
 9   mocodes         853372 non-null   object        
 10  vict_age        1004991 non-null  int64         
 11  vict_sex        860347 non-null   object        
 12  vict_descent    860335 non-null   object        
 13  premis_cd       1004975 non-null  float64       
 14  premis_desc  

In [15]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
211914983,2021-10-30,2021-10-30,45,19,Mission,1962,2,625,OTHER ASSAULT,447,50,M,O,401.0,MINI-MART,302.0,BLUNT INSTRUMENT,IC,Invest Cont,625.0,,,,9500 N SEPULVEDA BL,,34.2428,-118.4674


Comprobamos los duplicados 

In [16]:
duplicados = df.duplicated().sum()
print(f'Recuento de duplicados en df: ', duplicados)

Recuento de duplicados en df:  2966


Nos salen 2966 duplicados de las 27 columnas y que solamente es diferente el índice. Hacemos unas visualizaciones para comprobar que son realmente duplicados y vemos que es cierto, por lo que borramos todos los duplicados

In [None]:
df.loc[df.duplicated()].head()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
201512986,2020-07-23,2020-07-22,2100,15,N Hollywood,1504,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,7400 LAUREL CANYON BL,,34.2048,-118.3965
201916688,2020-11-08,2020-11-08,155,19,Mission,1935,1,310,BURGLARY,1607 0344 0216 0209,0,M,W,221.0,PUBLIC STORAGE,,,IC,Invest Cont,310.0,,,,15200 BRAND BL,,34.2719,-118.4592
201711318,2020-07-20,2020-07-20,1800,17,Devonshire,1764,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),0325 0378,0,X,X,404.0,DEPARTMENT STORE,,,IC,Invest Cont,442.0,,,,9300 TAMPA AV,,34.244,-118.5583
201615215,2020-11-30,2020-11-27,1700,16,Foothill,1675,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),,0,,,101.0,STREET,,,IC,Invest Cont,420.0,,,,11000 TUXFORD ST,,34.2364,-118.3687
201509694,2020-05-07,2020-05-04,1530,15,N Hollywood,1532,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,IC,Invest Cont,510.0,,,,5800 WHITSETT AV,,34.1758,-118.4052


In [18]:
df.loc[(df.mocodes == '0400 2004 1822 0356 1212')]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
242000716,2024-08-27,2024-08-27,1900,20,Olympic,2069,2,623,BATTERY POLICE (SIMPLE),0400 2004 1822 0356 1212,0,X,X,726.0,POLICE FACILITY,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,623.0,,,,1100 S VERMONT AV,,34.0509,-118.2916
242000713,2024-08-27,2024-08-27,1900,20,Olympic,2069,2,623,BATTERY POLICE (SIMPLE),0400 2004 1822 0356 1212,0,X,X,726.0,POLICE FACILITY,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,623.0,,,,1100 S VERMONT AV,,34.0509,-118.2916


Eliminamos los duplicados

In [19]:
df.drop_duplicates(inplace=True)
df.shape

(1002025, 27)

In [20]:
# Al cargar el df tenia 1004991 filas
1004991 - 1002025

2966

Comprobamos los valores únicos en la tabla para desestimar variables. En este caso, no hay constantes

In [21]:
df.nunique().sort_values(ascending=True)

# Si hubiera alguna columna que eliminar haríamos df.drop(columns = '...', inplace=True)

part_1_2               2
vict_sex               5
status_desc            6
status                 6
crm_cd_4               6
vict_descent          20
area_name             21
area                  21
crm_cd_3              38
weapon_used_cd        79
weapon_desc           79
vict_age             104
crm_cd_2             126
crm_cd               140
crm_cd_desc          140
crm_cd_1             142
premis_desc          306
premis_cd            314
rpt_dist_no         1210
time_occ            1439
date_occ            1879
date_rptd           1896
lon                 4982
lat                 5426
cross_street       10413
location           66566
mocodes           310940
dtype: int64

Comprobamos los nulos que existen según el tipo de columna: Categórica y numérica

Primero haremos las comprobaciones, después expondré las conclusiones y a continuación realizaré los cambios

In [22]:
df.select_dtypes(include='number').isna().sum().sort_values(ascending=False)

crm_cd_4          1001961
crm_cd_3           999713
crm_cd_2           932941
weapon_used_cd     675725
premis_cd              16
crm_cd_1               11
vict_age                0
crm_cd                  0
part_1_2                0
rpt_dist_no             0
area                    0
time_occ                0
lat                     0
lon                     0
dtype: int64

In [23]:
df.select_dtypes(exclude='number').isna().sum().sort_values(ascending=False)

cross_street    848225
weapon_desc     675725
mocodes         150369
vict_descent    143441
vict_sex        143429
premis_desc        587
status               1
date_occ             0
date_rptd            0
crm_cd_desc          0
area_name            0
status_desc          0
location             0
dtype: int64

In [24]:
df.vict_descent.unique()

array(['H', 'W', 'A', 'B', nan, 'X', 'O', 'C', 'J', 'V', 'K', 'F', 'I',
       'Z', 'L', 'G', 'P', 'D', 'U', 'S', '-'], dtype=object)

In [25]:
df.loc[df.vict_descent=='-']

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
230908075,2023-04-12,2023-03-30,1200,9,Van Nuys,952,2,649,DOCUMENT FORGERY / STOLEN FELONY,1822 0924 1501,38,M,-,203.0,OTHER BUSINESS,,,IC,Invest Cont,649.0,,,,15300 MAGNOLIA BL,,34.1684,-118.4586
232012240,2023-06-29,2023-06-29,2115,20,Olympic,2091,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329 1822 2002 0601 1309,0,-,-,408.0,AUTO SUPPLY STORE*,,,IC,Invest Cont,740.0,,,,1900 S WESTERN AV,,34.0385,-118.3135


In [26]:
df.vict_sex.unique()

array(['M', 'F', nan, 'X', 'H', '-'], dtype=object)

In [27]:
df.loc[df.vict_sex=='-']

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
232012240,2023-06-29,2023-06-29,2115,20,Olympic,2091,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329 1822 2002 0601 1309,0,-,-,408.0,AUTO SUPPLY STORE*,,,IC,Invest Cont,740.0,,,,1900 S WESTERN AV,,34.0385,-118.3135


In [28]:
df.loc[(df.premis_cd.notna())&(df.premis_desc.isna())].premis_cd.value_counts()

premis_cd
418.0    371
256.0    164
972.0     15
974.0     11
973.0      7
976.0      2
975.0      1
Name: count, dtype: int64

In [29]:
df.loc[(df.crm_cd_1.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
200112035,2020-05-21,2020-05-21,525,1,Central,163,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329 0910 0447,0,,,801.0,MTA BUS,306.0,ROCK/THROWN OBJECT,IC,Invest Cont,,740.0,,,9TH,SPRING,34.042,-118.2555
200116522,2020-08-17,2020-08-17,545,1,Central,176,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 2004 1601,0,X,X,203.0,OTHER BUSINESS,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,,745.0,,,800 SANTEE ST,,34.0401,-118.2533
211016055,2021-12-26,2021-12-25,2000,10,West Valley,1023,1,520,VEHICLE - ATTEMPT STOLEN,1822 1300,59,M,O,101.0,STREET,,,IC,Invest Cont,,520.0,,,ARCHWOOD ST,WILBUR AV,34.1921,-118.5447
210118616,2021-10-13,2021-10-13,1840,1,Central,162,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),2004 0325,0,X,X,404.0,DEPARTMENT STORE,,,IC,Invest Cont,,442.0,,,700 W 7TH ST,,34.048,-118.2577
221701255,2022-12-08,2022-12-08,2138,17,Devonshire,1799,2,890,FAILURE TO YIELD,1300 1501,0,X,X,101.0,STREET,,,IC,Invest Cont,,890.0,,,AQUEDUCT AV,NORDHOFF ST,34.2249,-118.4792
220509912,2022-06-06,2022-06-06,2000,5,Harbor,526,2,888,TRESPASSING,2004 0561,42,F,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",,,IC,Invest Cont,,888.0,,,900 N FRIES AV,,33.7815,-118.265
220805565,2022-02-09,2022-02-09,245,8,West LA,842,2,888,TRESPASSING,1501,21,F,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",,,IC,Invest Cont,,888.0,,,11700 WILSHIRE BL,,34.0495,-118.4609
230114704,2023-06-22,2023-06-22,1801,1,Central,162,1,442,SHOPLIFTING - PETTY THEFT ($950 & UNDER),0325,25,M,H,404.0,DEPARTMENT STORE,,,IC,Invest Cont,,442.0,,,700 S FLOWER ST,,34.0487,-118.2588
230123939,2023-11-13,2023-11-12,2300,1,Central,162,1,330,BURGLARY FROM VEHICLE,0344 1307,47,M,B,108.0,PARKING LOT,,,IC,Invest Cont,,330.0,,,800 S HILL ST,,34.0462,-118.2585
230106125,2023-02-01,2023-02-01,1855,1,Central,129,1,330,BURGLARY FROM VEHICLE,0344 1609,32,M,B,101.0,STREET,,,IC,Invest Cont,,330.0,,,GAREY,JACKSON,34.0513,-118.2344


In [30]:
df.loc[(df.status.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
241810568,2024-06-08,2024-05-24,1900,18,Southeast,1871,1,510,VEHICLE - STOLEN,,0,,,,,,,,UNK,510.0,,,,13500 S FIGUEROA ST,,33.9092,-118.2827


In [31]:
df.loc[(df.crm_cd_1== 510.0)]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
202113531,2020-09-06,2020-09-05,1500,21,Topanga,2149,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,AA,Adult Arrest,510.0,,,,19700 VANOWEN ST,,34.1938,-118.5631
201811813,2020-05-28,2020-05-25,200,18,Southeast,1851,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,MENLO AV,130TH ST,33.9144,-118.2894
201416348,2020-08-30,2020-08-28,1200,14,Pacific,1453,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,IC,Invest Cont,510.0,,,,4000 GLENCOE AV,,33.9918,-118.4446
201904694,2020-01-16,2020-01-15,2130,19,Mission,1901,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,FOOTHILL,BALBOA,34.3193,-118.4871
201513536,2020-08-05,2020-08-04,730,15,N Hollywood,1557,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,4900 CARTWRIGHT AV,,34.1595,-118.3637
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
250400004,2025-02-26,2025-02-26,915,4,Hollenbeck,477,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,800 EUCLID AV,,34.0322,-118.2117
251204103,2025-01-22,2025-01-21,500,12,77th Street,1259,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,7800 MCKINLEY AV,,33.9685,-118.2608
250300002,2025-02-26,2025-02-25,2315,3,Southwest,358,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,1000 W 34TH ST,,34.0243,-118.2876
2503,2025-03-10,2025-03-06,1700,3,Southwest,358,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,600 CHILDS WY,,34.0189,-118.2819


Observamos lo siguiente sobre las variables categóricas y numéricas:
- En ambos casos hay variables con muchos nulos pero tiene sentido que sean nulos porque son datos que no era necesario rellenarlos por lo que los imputaremos por 'NULO'
    - crm_cd_4, crm_cd_3 y crm_cd_2 son los códigos de los crímenes secundarios. Entiendo que no hubo crímenes secundarios
    - weapon_used_cd y weapon_desc: Habla de las armas usadas. Entiendo que no hubo armas
    - cross_street: Identifica si el crimen se cometió en un cruce. Entiendo que no fue en un cruce
    - mocodes: Habla del modus operandi específico del crimen. Entiendo que no encontraron un patrón identificable

- En el caso de vict_descent vamos a completar los nulos según la distribución de los datos que si están identificados y vamos a borrar los 2 registros que hay con '-'
- En el caso de vict_sex, aparecen registros con ['M', 'F', nan, 'X', 'H', '-']. Vamos a dejar solamente M: Male, F: Female y U: Unknown y borraremos el registro con '-'
- premis_cd y premis_desc contienen información sobre las instalaciones donde se produjo el crimen (código y descripción). Desconocemos el significado de los códigos, pero observamos que los registros de (df.premis_cd.notna())&(df.premis_desc.isna()) se concentran en unos cuantos códigos y habría que investigarlos con una persona de dentro de la organización para obtener mas información. De momento 
    - premis_cd lo imputaremos por la moda
    - premis_desc lo imputaremos como 'NULO'
- En el caso de status, los vamos a borrar porque no hay información en casi ninguna variable y solamente es un caso 
- Por último, crm_cd_1. Este es el código del delito principal que siempre debe ser un código mas bajo (mas bajo = mas grave) que los códigos de crm_cd_1, 2 3 y 4. Así que vamos a ponerles el mismo código por practicar entendiendo que se equivocaron al rellenar el campo y pusieron la información en el crm_cd_2 en vez de el crm_cd_1

Imputaciones por 'NULO'

In [32]:
list(df.columns)

['date_rptd',
 'date_occ',
 'time_occ',
 'area',
 'area_name',
 'rpt_dist_no',
 'part_1_2',
 'crm_cd',
 'crm_cd_desc',
 'mocodes',
 'vict_age',
 'vict_sex',
 'vict_descent',
 'premis_cd',
 'premis_desc',
 'weapon_used_cd',
 'weapon_desc',
 'status',
 'status_desc',
 'crm_cd_1',
 'crm_cd_2',
 'crm_cd_3',
 'crm_cd_4',
 'location',
 'cross_street',
 'lat',
 'lon']

In [33]:
var_imputar_valor = ['crm_cd_2',
                    'crm_cd_3',
                    'crm_cd_4',
                    'weapon_used_cd',
                    'weapon_desc',
                    'cross_street',
                    'premis_desc']
valor = 'NULO'
df[var_imputar_valor] = df[var_imputar_valor].fillna(valor)
df.isna().sum().sort_values(ascending=False)

mocodes           150369
vict_descent      143441
vict_sex          143429
premis_cd             16
crm_cd_1              11
status                 1
rpt_dist_no            0
time_occ               0
area                   0
date_occ               0
date_rptd              0
vict_age               0
crm_cd_desc            0
crm_cd                 0
part_1_2               0
area_name              0
premis_desc            0
weapon_desc            0
weapon_used_cd         0
status_desc            0
crm_cd_2               0
crm_cd_3               0
crm_cd_4               0
location               0
cross_street           0
lat                    0
lon                    0
dtype: int64

Imputamos los nulos de 'mocodes' por 9999 para tenerlos identificados pero que sea un valor numérico de 4 dígitos

In [34]:
var_imputar_numero = ['mocodes']
numero = 9999
df[var_imputar_numero] = df[var_imputar_numero].fillna(numero)
df.isna().sum().sort_values(ascending=False)

vict_descent      143441
vict_sex          143429
premis_cd             16
crm_cd_1              11
status                 1
rpt_dist_no            0
area_name              0
area                   0
date_rptd              0
date_occ               0
time_occ               0
vict_age               0
mocodes                0
crm_cd_desc            0
crm_cd                 0
part_1_2               0
premis_desc            0
weapon_desc            0
weapon_used_cd         0
status_desc            0
crm_cd_2               0
crm_cd_3               0
crm_cd_4               0
location               0
cross_street           0
lat                    0
lon                    0
dtype: int64

Borramos el registro de status

In [35]:
df.loc[(df.status.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
241810568,2024-06-08,2024-05-24,1900,18,Southeast,1871,1,510,VEHICLE - STOLEN,9999,0,,,,NULO,NULO,NULO,,UNK,510.0,NULO,NULO,NULO,13500 S FIGUEROA ST,NULO,33.9092,-118.2827


In [36]:
df = df.loc[df.status.notna()]
df.isna().sum().sort_values(ascending=False)

vict_descent      143440
vict_sex          143428
premis_cd             15
crm_cd_1              11
area_name              0
rpt_dist_no            0
part_1_2               0
area                   0
date_rptd              0
date_occ               0
time_occ               0
vict_age               0
mocodes                0
crm_cd_desc            0
crm_cd                 0
weapon_used_cd         0
weapon_desc            0
status                 0
premis_desc            0
status_desc            0
crm_cd_2               0
crm_cd_3               0
crm_cd_4               0
location               0
cross_street           0
lat                    0
lon                    0
dtype: int64

Borramos los dos registros con '-' e imputamos los registros de vict_descent según la distribución de los datos 

In [54]:
df = df.loc[~(df.vict_descent=='-')]

In [37]:
# Paso 1: calcular la distribución de frecuencias sin contar los nulos
frequencies = df['vict_descent'].value_counts(normalize=True)

# Paso 2: contar cuántos nulos hay
n_nulos = df['vict_descent'].isna().sum()

# Paso 3: calcular cuántos nulos asignar a cada categoría según la frecuencia
nuevos_valores = (frequencies * n_nulos).round().astype(int)

# Ajustar en caso de que no sumen exactamente la cantidad de nulos (por redondeo)
diferencia = n_nulos - nuevos_valores.sum()
if diferencia != 0:
    # Ordenar por residuo de la multiplicación original para decidir a quién sumar/restar
    residuos = (frequencies * n_nulos) - (frequencies * n_nulos).round()
    ajustes = residuos.abs().sort_values(ascending=False).index[:abs(diferencia)]
    
    for i in range(abs(diferencia)):
        categoria = ajustes[i % len(ajustes)]
        nuevos_valores[categoria] += 1 if diferencia > 0 else -1

# Paso 4: crear una lista con los nuevos valores imputados
imputaciones = []
for categoria, cantidad in nuevos_valores.items():
    imputaciones.extend([categoria] * cantidad)

# Mezclar los valores imputados para que no haya sesgo de orden
np.random.shuffle(imputaciones)

# Paso 5: asignar los valores imputados a las filas con NaN
df.loc[df['vict_descent'].isna(), 'vict_descent'] = imputaciones

df.isna().sum().sort_values(ascending=False)

vict_sex          143428
premis_cd             15
crm_cd_1              11
area                   0
area_name              0
rpt_dist_no            0
part_1_2               0
crm_cd                 0
date_rptd              0
date_occ               0
time_occ               0
vict_age               0
mocodes                0
crm_cd_desc            0
vict_descent           0
weapon_used_cd         0
weapon_desc            0
status                 0
premis_desc            0
status_desc            0
crm_cd_2               0
crm_cd_3               0
crm_cd_4               0
location               0
cross_street           0
lat                    0
lon                    0
dtype: int64

Imputamos los valores de crm_cd_1 que son nulos por los de crm_cd_2

In [38]:
df['crm_cd_1'] = df['crm_cd_1'].fillna(df['crm_cd_2'])
df.isna().sum().sort_values(ascending=False)

vict_sex          143428
premis_cd             15
date_rptd              0
area                   0
area_name              0
rpt_dist_no            0
part_1_2               0
crm_cd                 0
crm_cd_desc            0
date_occ               0
time_occ               0
vict_age               0
mocodes                0
vict_descent           0
premis_desc            0
weapon_used_cd         0
weapon_desc            0
status                 0
status_desc            0
crm_cd_1               0
crm_cd_2               0
crm_cd_3               0
crm_cd_4               0
location               0
cross_street           0
lat                    0
lon                    0
dtype: int64

Usaremos el SimpleImputer para aplicar sobre la variable 'vict_sex' que vamos a sustituir los nulos por 'U' y sobre 'premis_cd' imputaremos por la moda

In [39]:
#['M', 'F', nan, 'X', 'H', '-']

#Cargamos e instanciamos SimpleImputer
from sklearn.impute import SimpleImputer

#Reenplaza todos los 'unknown' de df y los hace NaN de Numpy para que después los identifique bien.
#El valor a reemplazar hay que mirarlo en cada caso
df.vict_sex.replace(['nan'], np.nan, inplace = True)

#Instanciamos el nuevo imputer
#Variables CATEGÓRICAS
nulos_var = SimpleImputer(strategy='constant', fill_value='Unknwon') #Reenplazamos por un valor constante
mode_var = SimpleImputer(strategy='most_frequent') #Reenplazamos por la moda

#Entrenamos el imputer
#Es importante que si hacemos una sola variable la pongamos con doble corchete. Si no, nos dará un error de dimensiones
nulos_var.fit(df[['vict_sex']])
mode_var.fit(df[['premis_cd']])

#Ejecutamos el imputer
df[['vict_sex']] = nulos_var.transform(df[['vict_sex']])
df[['premis_cd']] = mode_var.transform(df[['premis_cd']])
df.isna().sum().sort_values(ascending=False)

date_rptd         0
date_occ          0
time_occ          0
area              0
area_name         0
rpt_dist_no       0
part_1_2          0
crm_cd            0
crm_cd_desc       0
mocodes           0
vict_age          0
vict_sex          0
vict_descent      0
premis_cd         0
premis_desc       0
weapon_used_cd    0
weapon_desc       0
status            0
status_desc       0
crm_cd_1          0
crm_cd_2          0
crm_cd_3          0
crm_cd_4          0
location          0
cross_street      0
lat               0
lon               0
dtype: int64

Eliminamos el registro de vict_sex = '-'

In [40]:
df = df.loc[~(df.vict_sex=='-')]

Estandarización de los valores de vict_sex para que solamente haya 'Male', 'Female' y 'Unknown'

In [41]:
df.vict_sex.unique()

array(['M', 'F', 'Unknwon', 'X', 'H'], dtype=object)

In [42]:
df.vict_sex.replace({'M':'Female',
                     'F':'Female',
                     'H':'Male',
                     'X':'Male'}, inplace=True)

In [43]:
df.vict_sex.unique()

array(['Female', 'Unknwon', 'Male'], dtype=object)

Localizamos los valores atípicos

In [56]:
for variable in df:
    print(variable + '\n')
    print(df[variable].value_counts(dropna = False))
    print('\n\n')

date_rptd

date_rptd
2023-02-02    927
2023-02-03    923
2023-01-03    911
2022-05-02    908
2022-04-04    882
             ... 
2025-03-10      1
2025-02-22      1
2025-02-07      1
2025-04-29      1
2025-03-25      1
Name: count, Length: 1896, dtype: int64



date_occ

date_occ
2020-01-01    1159
2023-01-01    1158
2022-12-02    1131
2023-02-01    1091
2022-10-01    1078
              ... 
2025-05-29       1
2025-02-27       1
2025-04-29       1
2025-02-18       1
2025-01-17       1
Name: count, Length: 1879, dtype: int64



time_occ

time_occ
1200    35092
1800    26500
1700    25107
2000    24685
1900    22990
        ...  
741        29
534        26
2332       26
559        23
531        19
Name: count, Length: 1439, dtype: int64



area

area
1     69372
12    61584
14    59261
3     57292
6     52311
15    50999
20    49977
18    49779
13    49014
7     48091
2     46690
8     45635
11    42855
9     42787
10    42072
17    41618
21    41292
5     41208
19    40202
4     36969


In [58]:
# Función de agrupacion de variables raras
def agrupar_cat_raras(variable, criterio = 0.05):
    #Calcula las frecuencias
    frecuencias = variable.value_counts(normalize=True)
    #Identifica las que están por debajo del criterio
    temp = [cada for cada in frecuencias.loc[frecuencias < criterio].index.values]
    #Las recodifica en 'OTROS'
    temp2 = np.where(variable.isin(temp),'OTROS',variable)
    #Devuelve el resultado
    return(temp2)

# Variables a agrupar
var_imputar_cat_raras = ['weapon_used_cd','premis_cd','premis_desc','weapon_used_cd','weapon_desc','crm_cd_1','crm_cd_2','crm_cd_3','crm_cd_4','cross_street','location']

# Aplicación
for variable in var_imputar_cat_raras:
    df[variable] = agrupar_cat_raras(df[variable],criterio = 0.02)

In [59]:
df

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
211507896,2021-04-11,2020-11-07,845,15,N Hollywood,1502,2,354,THEFT OF IDENTITY,0377,31,Female,H,501.0,SINGLE FAMILY DWELLING,NULO,NULO,IC,Invest Cont,354.0,NULO,NULO,NULO,OTROS,NULO,34.2124,-118.4092
201516622,2020-10-21,2020-10-18,1845,15,N Hollywood,1521,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",0416 0334 2004 1822 1414 0305 0319 0400,32,Female,H,102.0,SIDEWALK,OTROS,OTROS,IC,Invest Cont,230.0,NULO,NULO,NULO,OTROS,OTROS,34.1993,-118.4203
240913563,2024-12-10,2020-10-30,1240,9,Van Nuys,933,2,354,THEFT OF IDENTITY,0377,30,Female,W,501.0,SINGLE FAMILY DWELLING,NULO,NULO,IC,Invest Cont,354.0,NULO,NULO,NULO,OTROS,NULO,34.1847,-118.4509
210704711,2020-12-24,2020-12-24,1310,7,Wilshire,782,1,331,THEFT FROM MOTOR VEHICLE - GRAND ($950.01 AND ...,0344,47,Female,A,101.0,STREET,NULO,NULO,IC,Invest Cont,331.0,NULO,NULO,NULO,OTROS,NULO,34.0339,-118.3747
201418201,2020-10-03,2020-09-29,1830,14,Pacific,1454,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),1300 0344 1606 2032,63,Female,H,OTROS,OTROS,NULO,NULO,IC,Invest Cont,420.0,NULO,NULO,NULO,OTROS,NULO,33.9813,-118.4350
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
252104112,2025-02-02,2025-02-02,130,21,Topanga,2103,2,946,OTHER MISCELLANEOUS CRIME,9999,35,Female,X,101.0,STREET,NULO,NULO,IC,Invest Cont,OTROS,NULO,NULO,NULO,OTROS,NULO,34.2259,-118.6126
250404100,2025-02-18,2025-02-18,1000,4,Hollenbeck,479,2,237,CHILD NEGLECT (SEE 300 W.I.C.),1258 0553 0602,11,Female,B,501.0,SINGLE FAMILY DWELLING,NULO,NULO,IC,Invest Cont,OTROS,NULO,NULO,NULO,OTROS,NULO,34.0277,-118.1979
251304095,2025-01-31,2025-01-30,1554,13,Newton,1372,2,850,INDECENT EXPOSURE,9999,16,Female,H,101.0,STREET,NULO,NULO,IC,Invest Cont,OTROS,NULO,NULO,NULO,OTROS,NULO,33.9942,-118.2701
251704066,2025-01-17,2025-01-17,1600,17,Devonshire,1774,2,624,BATTERY - SIMPLE ASSAULT,0400 1259 1822 0356,17,Female,H,OTROS,OTROS,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,624.0,NULO,NULO,NULO,OTROS,NULO,34.2450,-118.5233


Hacemos un describe sobre las variables numéricas a ver que vemos y observamos que, aunque hay varias variabees numéricas, no podríamos hacer ningún estadísticos sobre ellas, exceptopsobre 'vict_age' donde vemos que la media de edad es de 29 años y la mediana está en 22 años pero observamos que el mínimo es -4 y máximo 120 años. Esto lo solucionaremos una media winsorizada (0,100)

In [60]:
df.select_dtypes(include='number').describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
time_occ,1002022.0,1339.985157,650.949821,1.0,900.0,1420.0,1900.0,2359.0
area,1002022.0,10.692805,6.109985,1.0,5.0,11.0,16.0,21.0
rpt_dist_no,1002022.0,1115.737503,611.124789,101.0,587.0,1139.0,1613.0,2199.0
part_1_2,1002022.0,1.400553,0.490011,1.0,1.0,1.0,2.0,2.0
crm_cd,1002022.0,500.072772,205.287494,110.0,331.0,442.0,626.0,956.0
vict_age,1002022.0,28.985425,21.977709,-4.0,0.0,30.0,44.0,120.0
lat,1002022.0,33.998122,1.612007,0.0,34.0148,34.059,34.1649,34.3343
lon,1002022.0,-118.090472,5.586895,-118.6676,-118.4305,-118.3225,-118.2739,0.0


In [None]:
df.vict_age.value_counts().sort_index(ascending=True)

vict_age
0      266990
2         429
3         498
4         518
5         571
        ...  
96         94
97         72
98         71
99        354
100         1
Name: count, Length: 100, dtype: int64

Realizamos una imputacion de los valores de la edad tras realizar una media winsorizada manualmente (0, 100)

In [71]:
variable = 'vict_age'
num[variable].describe().loc[['min','max']]


min     -4.0
max    120.0
Name: vict_age, dtype: float64

In [73]:
minimo = 0
maximo = 100
df[variable] = df[variable].clip(minimo, maximo)
df[variable].describe()

count    1.002022e+06
mean     2.898559e+01
std      2.197739e+01
min      0.000000e+00
25%      0.000000e+00
50%      3.000000e+01
75%      4.400000e+01
max      1.000000e+02
Name: vict_age, dtype: float64