# Mini_proyecto_EDA

# Ejercicio Práctico: Carga, Exploración, Limpieza y Visualización Básica de un Dataset

## 1. Objetivo del ejercicio
El propósito de este ejercicio es aprender a realizar un flujo completo y ordenado de análisis exploratorio inicial (EDA) sobre un dataset real. El objetivo no es realizar análisis estadísticos avanzados, sino dominar las fases fundamentales que permiten comprender y describir datos antes de cualquier modelado.

Al finalizar el ejercicio, el alumno deberá ser capaz de:

### 1.1 Exploración
- Identificar la estructura del dataset: dimensiones, columnas, tipos de datos.
- Evaluar la calidad del dataset respondiendo preguntas como:
  - ¿Qué tipos de datos tengo? (numéricos, categóricos, fechas, texto libre...)
      - Tenemos datos int, float y object
  - ¿Cuál es el dominio del dataset? ¿Conozco el contexto de las variables?
      - Los datasets proceden de https://archive.ics.uci.edu/ y el significado de las variables está explicado antes de comenzar el análisis
  - ¿La fuente de datos es fiable y completa?
  - ¿Los datos están agregados o son individuales (nivel de granularidad)?
      - Los datos no están agregados
  - ¿Hay valores perdidos? ¿Cuál es su proporción?
      - Hay valores nulos
  - ¿Existen duplicados o registros anómalos?
      - No
  - ¿Las variables tienen una distribución razonable? ¿Existen outliers?
    - Aproximadamente lógica la distribución
  - ¿Los formatos (fechas, categorías) están normalizados?
      - No estaban normalizadas pero yo he generado una columna fecha para generar una columna 'datetime
  - ¿Existen incoherencias entre columnas?
      - No

      https://catalog.data.gov/dataset/crime-data-from-2020-to-present

### 1.2 Limpieza
- Corregir tipos de datos.
- Gestionar valores nulos de forma justificada.
- Eliminar o tratar duplicados.
- Normalizar formatos y categorías.
- Corregir incoherencias detectadas.

### 1.3 Visualización básica
Generar visualizaciones sencillas que ayuden a explicar el dataset, respondiendo a preguntas como:
- ¿Cómo se distribuye una variable numérica relevante?
- ¿Cuáles son las categorías más frecuentes?
- ¿Existen diferencias visuales entre grupos?
- ¿Cómo varían los valores a lo largo del tiempo (si aplica)?
- ¿Qué patrones básicos se detectan tras la limpieza?

### 1.4 Documentación y repositorio
- Explicar con claridad el trabajo realizado.
- Organizar un repositorio en GitHub con estructura ordenada.
- Entregar el enlace a través de **Google Classroom**.

---

## 2. Descripción general del ejercicio
El alumno trabajará con un dataset **elegido libremente** de una fuente fiable (Kaggle, datos públicos, open data, repositorios gubernamentales, etc.).

El trabajo consistirá en cargar los datos, explorarlos, limpiarlos y generar visualizaciones básicas que permitan entender sus características principales.

El foco está en:
- Calidad del proceso.
- Claridad del análisis.
- Documentación.
- Organización del repositorio.

---

## 3. Tareas obligatorias

### 3.1 Carga del dataset
- Importar el dataset.
- Revisar dimensiones y primeras filas.
- Inspeccionar tipos de datos.

### 3.2 Exploración del dataset
- Valores nulos.
- Duplicados.
- Rango de las variables.
- Incoherencias.
- Distribución inicial de columnas.

### 3.3 Limpieza y normalización
- Corrección de tipos.
- Tratamiento de nulos.
- Eliminación o tratamiento de duplicados.
- Normalización de categorías y fechas.
- Justificación de cada decisión.

### 3.4 Visualizaciones básicas
Debe incluir, como mínimo:
- Un histograma.
- Una gráfica de barras.
- Una visualización adicional que aporte información relevante.

### 3.5 Conclusiones exploratorias
- Resumen claro de las características del dataset.
- Principales hallazgos.
- Cambios aplicados durante la limpieza.

---

## 4. Entregables
La entrega se realizará por **Google Classroom**, incluyendo un enlace a un repositorio público de GitHub.

### 4.1 Estructura mínima del repositorio
```
├── data/
│   └── dataset.csv
├── notebooks/
│   └── eda.ipynb
├── README.md
└── requirements.txt (opcional)
```

### 4.2 Contenido obligatorio
- Notebook completo con el proceso.
- Dataset en la carpeta `data/`.
- README con explicación del análisis.

### 4.3 Criterios de evaluación
- Claridad del análisis.
- Coherencia del proceso de limpieza.
- Calidad de las visualizaciones.
- Orden del repositorio.
- Explicaciones adecuadas.

---

## 5. Recomendaciones
- Comentar el código cuando sea necesario.
- Mantener el notebook limpio y sin celdas duplicadas.
- Evitar análisis avanzados no requeridos.
- Asegurar que las visualizaciones sean legibles y útiles.
- Hacer commits frecuentes.

---

## 6. Entrega
La entrega se realizará exclusivamente por **Google Classroom**, adjuntando el enlace público al repositorio de GitHub.

**Fin del enunciado del ejercicio**

In [1]:
!pip install cloudpickle



In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import cloudpickle #Mismas funciones de pickle de guardar modelos + funciones de guardado de las funciones específicasimport seaborn as sns
%matplotlib inline
%config IPCompleter.greedy = True
import warnings
warnings.filterwarnings('ignore')

Definimos la ruta donde ubicamos los datasets para no tener que estar poniéndola en cada ocasión

In [3]:
ruta_datasets = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/EVOLVE/Data Science/EVOLVE/Fernando_Costa/Practicas/Mini_Proyecto_EDA/001_crime_from_2020/000_datasets/'

Definimos el dataset que vamos a usar.

A continuación, aplicaremos los cambios de manera individual sobre el df pero, después, generaremos una función que aglutine todos los pasos individuales y la aplicaremos directamente

In [4]:
dataset_df = 'Crime_Data_from_2020_to_Present.csv'

Cargamos el dataset df

In [5]:
ruta_completa = ruta_datasets + dataset_df
df = pd.read_csv(ruta_completa,sep=',').sample(frac = 0.5)
df

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,...,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
504909,221317764,09/16/2022 12:00:00 AM,09/16/2022 12:00:00 AM,320,13,Newton,1307,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,...,IC,Invest Cont,626.0,,,,1200 E 7TH ST,,34.0376,-118.2423
888948,240613264,11/12/2024 12:00:00 AM,11/12/2024 12:00:00 AM,1220,6,Hollywood,643,2,354,THEFT OF IDENTITY,...,IC,Invest Cont,354.0,,,,1700 N FULLER AV,,34.1016,-118.3489
380355,210117314,09/22/2021 12:00:00 AM,09/22/2021 12:00:00 AM,600,1,Central,174,1,210,ROBBERY,...,IC,Invest Cont,210.0,480.0,,,700 S MAIN ST,,34.0437,-118.2518
592078,222019602,12/23/2022 12:00:00 AM,12/22/2022 12:00:00 AM,1800,20,Olympic,2046,1,330,BURGLARY FROM VEHICLE,...,IC,Invest Cont,330.0,,,,BERENDO,SAN MARINO,34.0545,-118.2941
909821,241306293,02/18/2024 12:00:00 AM,02/18/2024 12:00:00 AM,1445,13,Newton,1313,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",...,IC,Invest Cont,230.0,,,,MYRTLE,WALL,34.0286,-118.2545
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
653301,230221477,11/24/2023 12:00:00 AM,11/23/2023 12:00:00 AM,1530,2,Rampart,221,1,236,INTIMATE PARTNER - AGGRAVATED ASSAULT,...,AO,Adult Other,236.0,,,,300 N BERENDO ST,,34.0770,-118.2944
377447,210907524,03/30/2021 12:00:00 AM,03/16/2021 12:00:00 AM,1216,9,Van Nuys,935,1,440,THEFT PLAIN - PETTY ($950 & UNDER),...,IC,Invest Cont,440.0,,,,14400 SYLVAN ST,,34.1847,-118.4480
596506,221204790,01/15/2022 12:00:00 AM,01/15/2022 12:00:00 AM,1715,12,77th Street,1218,1,210,ROBBERY,...,IC,Invest Cont,210.0,,,,SLAUSON AV,VERMONT AV,33.9891,-118.2915
828998,230817266,11/25/2023 12:00:00 AM,11/25/2023 12:00:00 AM,745,8,West LA,855,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,...,AO,Adult Other,626.0,,,,1600 MALCOLM AV,,34.0543,-118.4376


Comprobamos que el dataset tiene nulos y nos sirve para trabajar

In [6]:
df.isna().sum().sort_values(ascending=False)

Crm Cd 4          502470
Crm Cd 3          501349
Crm Cd 2          468133
Cross Street      425790
Weapon Used Cd    339155
Weapon Desc       339155
Mocodes            75910
Vict Descent       72424
Vict Sex           72417
Premis Desc          304
Premis Cd              8
Crm Cd 1               4
Status                 1
Vict Age               0
Crm Cd                 0
Crm Cd Desc            0
AREA NAME              0
Rpt Dist No            0
AREA                   0
TIME OCC               0
Date Rptd              0
DATE OCC               0
DR_NO                  0
Part 1-2               0
Status Desc            0
LOCATION               0
LAT                    0
LON                    0
dtype: int64

Comprobamos las dimensiones de la tabla y los valores únicos de DR_NO ya que sospecho que debe ser el índice

In [7]:
dimensiones_df = df.shape
print(f'Dimensiones df: ', dimensiones_df)

Dimensiones df:  (502496, 28)


In [8]:
DR_NO = df.DR_NO.nunique()
print(f'Valores únicos de DR_NO: ', DR_NO)

Valores únicos de DR_NO:  502496


Aplicaciones: 
- Transformamos a minúsculas los nombres de las columnas
- Ponemos 'dr_no' como index ya que es el identificador del reporte 

In [9]:
df.columns = df.columns.str.replace(' ','_').str.lower()
df.columns = df.columns.str.replace('-','_')
df = df.set_index('dr_no')
df

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,...,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
221317764,09/16/2022 12:00:00 AM,09/16/2022 12:00:00 AM,320,13,Newton,1307,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,2000 0400 0916 1813,...,IC,Invest Cont,626.0,,,,1200 E 7TH ST,,34.0376,-118.2423
240613264,11/12/2024 12:00:00 AM,11/12/2024 12:00:00 AM,1220,6,Hollywood,643,2,354,THEFT OF IDENTITY,1501 1822,...,IC,Invest Cont,354.0,,,,1700 N FULLER AV,,34.1016,-118.3489
210117314,09/22/2021 12:00:00 AM,09/22/2021 12:00:00 AM,600,1,Central,174,1,210,ROBBERY,1414 1420 0334 0411 0344 0913,...,IC,Invest Cont,210.0,480.0,,,700 S MAIN ST,,34.0437,-118.2518
222019602,12/23/2022 12:00:00 AM,12/22/2022 12:00:00 AM,1800,20,Olympic,2046,1,330,BURGLARY FROM VEHICLE,0386 0344 1822 0216,...,IC,Invest Cont,330.0,,,,BERENDO,SAN MARINO,34.0545,-118.2941
241306293,02/18/2024 12:00:00 AM,02/18/2024 12:00:00 AM,1445,13,Newton,1313,1,230,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",0400 1822 1217 0342,...,IC,Invest Cont,230.0,,,,MYRTLE,WALL,34.0286,-118.2545
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
230221477,11/24/2023 12:00:00 AM,11/23/2023 12:00:00 AM,1530,2,Rampart,221,1,236,INTIMATE PARTNER - AGGRAVATED ASSAULT,2000 0913 1814 0445 0401 0447,...,AO,Adult Other,236.0,,,,300 N BERENDO ST,,34.0770,-118.2944
210907524,03/30/2021 12:00:00 AM,03/16/2021 12:00:00 AM,1216,9,Van Nuys,935,1,440,THEFT PLAIN - PETTY ($950 & UNDER),0394 0344 1822,...,IC,Invest Cont,440.0,,,,14400 SYLVAN ST,,34.1847,-118.4480
221204790,01/15/2022 12:00:00 AM,01/15/2022 12:00:00 AM,1715,12,77th Street,1218,1,210,ROBBERY,1822 0302 0371 0906 0432 0345 0337 0316 0344 0216,...,IC,Invest Cont,210.0,,,,SLAUSON AV,VERMONT AV,33.9891,-118.2915
230817266,11/25/2023 12:00:00 AM,11/25/2023 12:00:00 AM,745,8,West LA,855,2,626,INTIMATE PARTNER - SIMPLE ASSAULT,2000,...,AO,Adult Other,626.0,,,,1600 MALCOLM AV,,34.0543,-118.4376


Ya sabemos que podemos trabajar con el dataset y lo tenemos cargado con los nombre de las columnas en su formato correto

Significado de las columnas:
- dr_no: Número de expediente oficial compuesto por un año de 2 dígitos, un ID de área y 5 dígitos.
- date_rptd: Fecha de Reporte. Indica el día en que el crimen o incidente fue oficialmente reportado (MM/DD/AAAA)
- date_occ: Fecha de Ocurrencia. Indica el día real en que el crimen tuvo lugar (MM/DD/AAAA)
- time_occ: En horario militar de 24 horas.
- area: Áreas Geográficas o Divisiones de Patrulla numeradas secuencialmente del 1 al 21.
- area_name: Nombre de las áreas Geográficas o Divisiones de Patrulla
- rpt_dist_no: Número de distrito de la patrulla del oficial que informó el incidente.
- part_1_2: Indica si el incidente es un crimen de la Parte 1 (crímenes más graves) o de la Parte 2 (crímenes menos graves).
- crm_cd: Código de delito de 3 dígitos del crimen cometido.
- crm_cd_desc: Descripción del delito del crimen cometido.
- mocodes: Modus Operandi o la manera distintiva o característica en que una persona lleva a cabo una actividad criminal.
- vict_age: Edad de la víctima
- vict_sex: Sexo de la víctima.
- vict_descent: Código de descendencia de la víctima
- premis_cd: El Código de Instalación es un código de 3 dígitos que identifica el tipo de lugar donde ocurrió el incidente
- premis_desc: Descripción de la Instalación.
- weapon_used_cd: El Código de Arma es un código de 3 dígitos que identifica el tipo de arma utilizada en el incidente
- weapon_desc: Descripción del Arma.
- status: Estado del caso. (IC es el valor predeterminado)
- status_desc: Define el Código de Estado proporcionado.
- crm_cd_1: Indica el crimen cometido. El Código de Crimen 1 es el principal y el más grave. Los Códigos de Crimen 2, 3 y 4 son, respectivamente, delitos menos graves. Los números de clase de crimen más bajos son más graves.
- crm_cd_2: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- crm_cd_3: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- crm_cd_4: Puede contener un código para un crimen adicional, menos grave que el Código de Crimen 1.
- location: Dirección postal del incidente del crimen redondeada al centenar de la cuadra más cercana para mantener el anonimato.
- cross_street: El nombre de la calle que se cruza con la calle principal donde ocurrió el incidente.
- lat: Latitud.
- lon: Longitud.

Códigos de descendencia: 
- A: Otros Asiáticos
- B: Afroamericano
- C: Chino
- D: Camboyano
- F: Filipino
- G: Guamés
- H: Hispano/Latino/Mexicano
- I: Indio Americano/Nativo de Alaska
- J: Japonés
- K: Coreano
- L: Laosiano
- O: Otro
- P: Isleño del Pacífico
- S: Samoano
- U: Hawaiano
- V: Vietnamita
- W: Blanco
- X: Desconocido
- Z: Hindú Asiático

Revisamos los tipos de datos de cada variable observando entre el .info() y la viasualización de la propia tabla y no se requieren cambios 

También observamos en el count que hay nulos en varias columnas que trataremos posteriormente

In [10]:
pd.set_option('display.max_columns', None)
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
200310785,05/03/2020 12:00:00 AM,05/03/2020 12:00:00 AM,1300,3,Southwest,361,2,901,VIOLATION OF RESTRAINING ORDER,0561 2038 2004,55,F,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",,,IC,Invest Cont,901.0,,,,NICOLET ST,COLISEUM AV,34.0183,-118.3504


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 502496 entries, 221317764 to 201219561
Data columns (total 27 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date_rptd       502496 non-null  object 
 1   date_occ        502496 non-null  object 
 2   time_occ        502496 non-null  int64  
 3   area            502496 non-null  int64  
 4   area_name       502496 non-null  object 
 5   rpt_dist_no     502496 non-null  int64  
 6   part_1_2        502496 non-null  int64  
 7   crm_cd          502496 non-null  int64  
 8   crm_cd_desc     502496 non-null  object 
 9   mocodes         426586 non-null  object 
 10  vict_age        502496 non-null  int64  
 11  vict_sex        430079 non-null  object 
 12  vict_descent    430072 non-null  object 
 13  premis_cd       502488 non-null  float64
 14  premis_desc     502192 non-null  object 
 15  weapon_used_cd  163341 non-null  float64
 16  weapon_desc     163341 non-null  object 
 17  stat

Las columnas 'date_rptd' y 'date_occ' vamos a eliminar la hora porque en todos los registros nos dicen que ha sido a las '12:00:00 AM'. Esta información es errónea según la columna 'time_occ' y además no nos aporta información como variable porque es una constante en todos los registros

In [12]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
241004431,01/11/2024 12:00:00 AM,01/11/2024 12:00:00 AM,1315,10,West Valley,1025,2,624,BATTERY - SIMPLE ASSAULT,0319 2004 0400 0416 1822 0345 1202,78,M,O,108.0,PARKING LOT,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,624.0,,,,7100 DARBY AV,,34.1993,-118.5335


Eliminamos la parte de la hora

In [13]:
df['date_rptd'] = df['date_rptd'].str.split(' ').str[0]
df['date_occ'] = df['date_occ'].str.split(' ').str[0]

Hacemos un datetime de las columnas de fechas

In [14]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
221504546,01/14/2022,01/13/2022,1740,15,N Hollywood,1549,1,440,THEFT PLAIN - PETTY ($950 & UNDER),0344 0352,57,F,W,102.0,SIDEWALK,,,IC,Invest Cont,440.0,,,,CUMPSTON ST,LANKERSHIM BL,34.17,-118.3777


In [15]:
df['date_rptd'] = pd.to_datetime(df['date_rptd'], format='%m/%d/%Y')
df['date_occ'] = pd.to_datetime(df['date_occ'], format='%m/%d/%Y')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 502496 entries, 221317764 to 201219561
Data columns (total 27 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   date_rptd       502496 non-null  datetime64[ns]
 1   date_occ        502496 non-null  datetime64[ns]
 2   time_occ        502496 non-null  int64         
 3   area            502496 non-null  int64         
 4   area_name       502496 non-null  object        
 5   rpt_dist_no     502496 non-null  int64         
 6   part_1_2        502496 non-null  int64         
 7   crm_cd          502496 non-null  int64         
 8   crm_cd_desc     502496 non-null  object        
 9   mocodes         426586 non-null  object        
 10  vict_age        502496 non-null  int64         
 11  vict_sex        430079 non-null  object        
 12  vict_descent    430072 non-null  object        
 13  premis_cd       502488 non-null  float64       
 14  premis_desc     502192 non-nul

In [16]:
df.sample()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
231317844,2023-09-25,2023-09-25,400,13,Newton,1383,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,200 E 60TH ST,,33.9852,-118.2718


Comprobamos los duplicados 

In [17]:
duplicados = df.duplicated().sum()
print(f'Recuento de duplicados en df: ', duplicados)

Recuento de duplicados en df:  849


Nos salen 2966 duplicados de las 27 columnas y que solamente es diferente el índice. Hacemos unas visualizaciones para comprobar que son realmente duplicados y vemos que es cierto, por lo que borramos todos los duplicados

In [18]:
df.loc[df.duplicated()].head()

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
230507918,2023-04-19,2022-11-01,1000,5,Harbor,519,1,510,VEHICLE - STOLEN,,0,,,710.0,OTHER PREMISE,,,IC,Invest Cont,510.0,,,,1700 ALAMEDA ST,,33.7976,-118.2385
210415821,2021-12-13,2021-12-11,700,4,Hollenbeck,424,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,IC,Invest Cont,510.0,,,,2100 N SOTO ST,,34.07,-118.1998
200710075,2020-06-05,2020-05-30,2145,7,Wilshire,702,1,231,ASSAULT WITH DEADLY WEAPON ON POLICE OFFICER,1822 1212 0447,0,M,W,101.0,STREET,500.0,UNKNOWN WEAPON/OTHER WEAPON,IC,Invest Cont,231.0,,,,7500 W MELROSE AV,,34.0837,-118.3532
202109705,2020-05-24,2020-05-17,1700,21,Topanga,2157,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,IC,Invest Cont,510.0,,,,6800 DE SOTO AV,,34.1938,-118.5884
230805459,2023-02-03,2023-02-03,2115,8,West LA,842,2,624,BATTERY - SIMPLE ASSAULT,1815 0416 1251,19,F,B,108.0,PARKING LOT,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,624.0,,,,11800 TEXAS AV,,34.0458,-118.4614


In [19]:
df.loc[(df.mocodes == '0400 2004 1822 0356 1212')]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
242000713,2024-08-27,2024-08-27,1900,20,Olympic,2069,2,623,BATTERY POLICE (SIMPLE),0400 2004 1822 0356 1212,0,X,X,726.0,POLICE FACILITY,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,623.0,,,,1100 S VERMONT AV,,34.0509,-118.2916


Eliminamos los duplicados

In [20]:
df.drop_duplicates(inplace=True)
df.shape

(501647, 27)

In [21]:
# Al cargar el df tenia 1004991 filas
1004991 - 1002025

2966

Comprobamos los valores únicos en la tabla para desestimar variables. En este caso, no hay constantes

In [22]:
df.nunique().sort_values(ascending=True)

# Si hubiera alguna columna que eliminar haríamos df.drop(columns = '...', inplace=True)

part_1_2               2
vict_sex               4
crm_cd_4               4
status                 6
status_desc            6
vict_descent          19
area_name             21
area                  21
crm_cd_3              32
weapon_used_cd        78
weapon_desc           78
vict_age             104
crm_cd_2             115
crm_cd               139
crm_cd_desc          139
crm_cd_1             141
premis_desc          305
premis_cd            312
rpt_dist_no         1177
time_occ            1439
date_occ            1853
date_rptd           1874
lon                 4913
lat                 5283
cross_street        7920
location           56974
mocodes           168939
dtype: int64

Comprobamos los nulos que existen según el tipo de columna: Categórica y numérica

Primero haremos las comprobaciones, después expondré las conclusiones y a continuación realizaré los cambios

In [23]:
df.select_dtypes(include='number').isna().sum().sort_values(ascending=False)

crm_cd_4          501621
crm_cd_3          500500
crm_cd_2          467309
weapon_used_cd    338605
premis_cd              8
crm_cd_1               4
vict_age               0
crm_cd                 0
part_1_2               0
rpt_dist_no            0
area                   0
time_occ               0
lat                    0
lon                    0
dtype: int64

In [24]:
df.select_dtypes(exclude='number').isna().sum().sort_values(ascending=False)

cross_street    425080
weapon_desc     338605
mocodes          75585
vict_descent     72115
vict_sex         72108
premis_desc        304
status               1
date_occ             0
date_rptd            0
crm_cd_desc          0
area_name            0
status_desc          0
location             0
dtype: int64

In [25]:
df.vict_descent.unique()

array(['H', 'B', nan, 'W', 'O', 'X', 'K', 'A', 'P', 'C', 'F', 'U', 'V',
       'J', 'I', 'Z', 'G', 'S', 'L', 'D'], dtype=object)

In [26]:
df.loc[df.vict_descent=='-']

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1


In [27]:
df.vict_sex.unique()

array(['M', 'F', nan, 'X', 'H'], dtype=object)

In [28]:
df.loc[df.vict_sex=='-']

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1


In [29]:
df.loc[(df.premis_cd.notna())&(df.premis_desc.isna())].premis_cd.value_counts()

premis_cd
418.0    198
256.0     79
972.0      9
974.0      5
973.0      4
976.0      1
Name: count, dtype: int64

In [30]:
df.loc[(df.crm_cd_1.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
200112035,2020-05-21,2020-05-21,525,1,Central,163,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329 0910 0447,0,,,801.0,MTA BUS,306.0,ROCK/THROWN OBJECT,IC,Invest Cont,,740.0,,,9TH,SPRING,34.042,-118.2555
220805565,2022-02-09,2022-02-09,245,8,West LA,842,2,888,TRESPASSING,1501,21,F,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",,,IC,Invest Cont,,888.0,,,11700 WILSHIRE BL,,34.0495,-118.4609
200116522,2020-08-17,2020-08-17,545,1,Central,176,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 2004 1601,0,X,X,203.0,OTHER BUSINESS,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,,745.0,,,800 SANTEE ST,,34.0401,-118.2533
230114706,2023-06-22,2023-06-22,1550,1,Central,155,2,623,BATTERY POLICE (SIMPLE),1212 0917 0447 2004,0,M,H,726.0,POLICE FACILITY,500.0,UNKNOWN WEAPON/OTHER WEAPON,IC,Invest Cont,,623.0,,,200 E 6TH ST,,34.0448,-118.2474


In [31]:
df.loc[(df.status.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
241810568,2024-06-08,2024-05-24,1900,18,Southeast,1871,1,510,VEHICLE - STOLEN,,0,,,,,,,,UNK,510.0,,,,13500 S FIGUEROA ST,,33.9092,-118.2827


In [32]:
df.loc[(df.crm_cd_1== 510.0)]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
240613953,2024-12-13,2024-12-13,1715,6,Hollywood,628,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,1900 TAMARIND AV,,34.1052,-118.3192
240910310,2024-07-13,2024-06-30,1930,9,Van Nuys,919,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,13400 VANOWEN ST,,34.1939,-118.4246
230714913,2023-09-21,2023-09-21,1410,7,Wilshire,701,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,8400 MELROSE PL,,34.0835,-118.3734
201407940,2020-03-09,2020-01-18,1505,14,Pacific,1488,1,510,VEHICLE - STOLEN,,0,,,203.0,OTHER BUSINESS,,,IC,Invest Cont,510.0,,,,9000 AIRPORT BL,,33.9553,-118.3857
221105406,2022-02-08,2022-02-06,900,11,Northeast,1107,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,6000 LA PRADA ST,,34.1249,-118.1884
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
220407988,2022-04-27,2022-04-27,545,4,Hollenbeck,417,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,4300 MERCURY AV,,34.0856,-118.1941
200517338,2020-12-02,2020-12-02,1,5,Harbor,532,1,510,VEHICLE - STOLEN,,0,,,123.0,PARKING UNDERGROUND/BUILDING,,,IC,Invest Cont,510.0,,,,1100 N WILMINGTON BL,,33.7843,-118.2746
200312367,2020-06-06,2020-06-04,1500,3,Southwest,396,1,510,VEHICLE - STOLEN,,0,,,101.0,STREET,,,IC,Invest Cont,510.0,,,,4300 S HOOVER ST,,34.0073,-118.2894
231412338,2023-06-14,2023-06-12,500,14,Pacific,1444,1,510,VEHICLE - STOLEN,,0,,,108.0,PARKING LOT,,,IC,Invest Cont,510.0,,,,4000 LINCOLN BL,,33.9905,-118.4478


Observamos lo siguiente sobre las variables categóricas y numéricas:
- En ambos casos hay variables con muchos nulos pero tiene sentido que sean nulos porque son datos que no era necesario rellenarlos por lo que los imputaremos por 'NULO'
    - crm_cd_4, crm_cd_3 y crm_cd_2 son los códigos de los crímenes secundarios. Entiendo que no hubo crímenes secundarios
    - weapon_used_cd y weapon_desc: Habla de las armas usadas. Entiendo que no hubo armas
    - cross_street: Identifica si el crimen se cometió en un cruce. Entiendo que no fue en un cruce
    - mocodes: Habla del modus operandi específico del crimen. Entiendo que no encontraron un patrón identificable

- En el caso de vict_descent vamos a completar los nulos según la distribución de los datos que si están identificados y vamos a borrar los 2 registros que hay con '-'
- En el caso de vict_sex, aparecen registros con ['M', 'F', nan, 'X', 'H', '-']. Vamos a dejar solamente M: Male, F: Female y U: Unknown y borraremos el registro con '-'
- premis_cd y premis_desc contienen información sobre las instalaciones donde se produjo el crimen (código y descripción). Desconocemos el significado de los códigos, pero observamos que los registros de (df.premis_cd.notna())&(df.premis_desc.isna()) se concentran en unos cuantos códigos y habría que investigarlos con una persona de dentro de la organización para obtener mas información. De momento 
    - premis_cd lo imputaremos por la moda
    - premis_desc lo imputaremos como 'NULO'
- En el caso de status, los vamos a borrar porque no hay información en casi ninguna variable y solamente es un caso 
- Por último, crm_cd_1. Este es el código del delito principal que siempre debe ser un código mas bajo (mas bajo = mas grave) que los códigos de crm_cd_1, 2 3 y 4. Así que vamos a ponerles el mismo código por practicar entendiendo que se equivocaron al rellenar el campo y pusieron la información en el crm_cd_2 en vez de el crm_cd_1

Imputaciones por 'NULO'

In [33]:
list(df.columns)

['date_rptd',
 'date_occ',
 'time_occ',
 'area',
 'area_name',
 'rpt_dist_no',
 'part_1_2',
 'crm_cd',
 'crm_cd_desc',
 'mocodes',
 'vict_age',
 'vict_sex',
 'vict_descent',
 'premis_cd',
 'premis_desc',
 'weapon_used_cd',
 'weapon_desc',
 'status',
 'status_desc',
 'crm_cd_1',
 'crm_cd_2',
 'crm_cd_3',
 'crm_cd_4',
 'location',
 'cross_street',
 'lat',
 'lon']

In [34]:
var_imputar_valor = ['crm_cd_2',
                    'crm_cd_3',
                    'crm_cd_4',
                    'weapon_used_cd',
                    'weapon_desc',
                    'cross_street',
                    'premis_desc']
valor = 'NULO'
df[var_imputar_valor] = df[var_imputar_valor].fillna(valor)
df.isna().sum().sort_values(ascending=False)

mocodes           75585
vict_descent      72115
vict_sex          72108
premis_cd             8
crm_cd_1              4
status                1
rpt_dist_no           0
time_occ              0
area                  0
date_occ              0
date_rptd             0
vict_age              0
crm_cd_desc           0
crm_cd                0
part_1_2              0
area_name             0
premis_desc           0
weapon_desc           0
weapon_used_cd        0
status_desc           0
crm_cd_2              0
crm_cd_3              0
crm_cd_4              0
location              0
cross_street          0
lat                   0
lon                   0
dtype: int64

Imputamos los nulos de 'mocodes' por 9999 para tenerlos identificados pero que sea un valor numérico de 4 dígitos

In [35]:
var_imputar_numero = ['mocodes']
numero = 9999
df[var_imputar_numero] = df[var_imputar_numero].fillna(numero)
df.isna().sum().sort_values(ascending=False)

vict_descent      72115
vict_sex          72108
premis_cd             8
crm_cd_1              4
status                1
rpt_dist_no           0
area_name             0
area                  0
date_rptd             0
date_occ              0
time_occ              0
vict_age              0
mocodes               0
crm_cd_desc           0
crm_cd                0
part_1_2              0
premis_desc           0
weapon_desc           0
weapon_used_cd        0
status_desc           0
crm_cd_2              0
crm_cd_3              0
crm_cd_4              0
location              0
cross_street          0
lat                   0
lon                   0
dtype: int64

Borramos el registro de status

In [36]:
df.loc[(df.status.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_age,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
241810568,2024-06-08,2024-05-24,1900,18,Southeast,1871,1,510,VEHICLE - STOLEN,9999,0,,,,NULO,NULO,NULO,,UNK,510.0,NULO,NULO,NULO,13500 S FIGUEROA ST,NULO,33.9092,-118.2827


In [37]:
df = df.loc[df.status.notna()]
df.isna().sum().sort_values(ascending=False)

vict_descent      72114
vict_sex          72107
premis_cd             7
crm_cd_1              4
area_name             0
rpt_dist_no           0
part_1_2              0
area                  0
date_rptd             0
date_occ              0
time_occ              0
vict_age              0
mocodes               0
crm_cd_desc           0
crm_cd                0
weapon_used_cd        0
weapon_desc           0
status                0
premis_desc           0
status_desc           0
crm_cd_2              0
crm_cd_3              0
crm_cd_4              0
location              0
cross_street          0
lat                   0
lon                   0
dtype: int64

Borramos los dos registros con '-' e imputamos los registros de vict_descent según la distribución de los datos 

In [38]:
df = df.loc[~(df.vict_descent=='-')]

In [39]:
# Paso 1: calcular la distribución de frecuencias sin contar los nulos
frequencies = df['vict_descent'].value_counts(normalize=True)

# Paso 2: contar cuántos nulos hay
n_nulos = df['vict_descent'].isna().sum()

# Paso 3: calcular cuántos nulos asignar a cada categoría según la frecuencia
nuevos_valores = (frequencies * n_nulos).round().astype(int)

# Ajustar en caso de que no sumen exactamente la cantidad de nulos (por redondeo)
diferencia = n_nulos - nuevos_valores.sum()
if diferencia != 0:
    # Ordenar por residuo de la multiplicación original para decidir a quién sumar/restar
    residuos = (frequencies * n_nulos) - (frequencies * n_nulos).round()
    ajustes = residuos.abs().sort_values(ascending=False).index[:abs(diferencia)]
    
    for i in range(abs(diferencia)):
        categoria = ajustes[i % len(ajustes)]
        nuevos_valores[categoria] += 1 if diferencia > 0 else -1

# Paso 4: crear una lista con los nuevos valores imputados
imputaciones = []
for categoria, cantidad in nuevos_valores.items():
    imputaciones.extend([categoria] * cantidad)

# Mezclar los valores imputados para que no haya sesgo de orden
np.random.shuffle(imputaciones)

# Paso 5: asignar los valores imputados a las filas con NaN
df.loc[df['vict_descent'].isna(), 'vict_descent'] = imputaciones

df.isna().sum().sort_values(ascending=False)

vict_sex          72107
premis_cd             7
crm_cd_1              4
area                  0
area_name             0
rpt_dist_no           0
part_1_2              0
crm_cd                0
date_rptd             0
date_occ              0
time_occ              0
vict_age              0
mocodes               0
crm_cd_desc           0
vict_descent          0
weapon_used_cd        0
weapon_desc           0
status                0
premis_desc           0
status_desc           0
crm_cd_2              0
crm_cd_3              0
crm_cd_4              0
location              0
cross_street          0
lat                   0
lon                   0
dtype: int64

Imputamos los valores de crm_cd_1 que son nulos por los de crm_cd_2

In [40]:
df['crm_cd_1'] = df['crm_cd_1'].fillna(df['crm_cd_2'])
df.isna().sum().sort_values(ascending=False)

vict_sex          72107
premis_cd             7
date_rptd             0
area                  0
area_name             0
rpt_dist_no           0
part_1_2              0
crm_cd                0
crm_cd_desc           0
date_occ              0
time_occ              0
vict_age              0
mocodes               0
vict_descent          0
premis_desc           0
weapon_used_cd        0
weapon_desc           0
status                0
status_desc           0
crm_cd_1              0
crm_cd_2              0
crm_cd_3              0
crm_cd_4              0
location              0
cross_street          0
lat                   0
lon                   0
dtype: int64

Usaremos el SimpleImputer para aplicar sobre la variable 'vict_sex' que vamos a sustituir los nulos por 'U' y sobre 'premis_cd' imputaremos por la moda

In [41]:
#['M', 'F', nan, 'X', 'H', '-']

#Cargamos e instanciamos SimpleImputer
from sklearn.impute import SimpleImputer

#Reenplaza todos los 'unknown' de df y los hace NaN de Numpy para que después los identifique bien.
#El valor a reemplazar hay que mirarlo en cada caso
df.vict_sex.replace(['nan'], np.nan, inplace = True)

#Instanciamos el nuevo imputer
#Variables CATEGÓRICAS
nulos_var = SimpleImputer(strategy='constant', fill_value='Unknwon') #Reenplazamos por un valor constante
mode_var = SimpleImputer(strategy='most_frequent') #Reenplazamos por la moda

#Entrenamos el imputer
#Es importante que si hacemos una sola variable la pongamos con doble corchete. Si no, nos dará un error de dimensiones
nulos_var.fit(df[['vict_sex']])
mode_var.fit(df[['premis_cd']])

#Ejecutamos el imputer
df[['vict_sex']] = nulos_var.transform(df[['vict_sex']])
df[['premis_cd']] = mode_var.transform(df[['premis_cd']])
df.isna().sum().sort_values(ascending=False)

date_rptd         0
date_occ          0
time_occ          0
area              0
area_name         0
rpt_dist_no       0
part_1_2          0
crm_cd            0
crm_cd_desc       0
mocodes           0
vict_age          0
vict_sex          0
vict_descent      0
premis_cd         0
premis_desc       0
weapon_used_cd    0
weapon_desc       0
status            0
status_desc       0
crm_cd_1          0
crm_cd_2          0
crm_cd_3          0
crm_cd_4          0
location          0
cross_street      0
lat               0
lon               0
dtype: int64

Eliminamos el registro de vict_sex = '-'

In [42]:
df = df.loc[~(df.vict_sex=='-')]

Estandarización de los valores de vict_sex para que solamente haya 'Male', 'Female' y 'Unknown'

In [43]:
df.vict_sex.unique()

array(['M', 'F', 'Unknwon', 'X', 'H'], dtype=object)

In [44]:
df.vict_sex.replace({'M':'Female',
                     'F':'Female',
                     'H':'Male',
                     'X':'Male'}, inplace=True)

In [45]:
df.vict_sex.unique()

array(['Female', 'Unknwon', 'Male'], dtype=object)

Localizamos los valores atípicos

In [46]:
for variable in df:
    print(variable + '\n')
    print(df[variable].value_counts(dropna = False))
    print('\n\n')

date_rptd

date_rptd
2022-05-02    469
2023-02-02    463
2023-02-03    462
2023-01-03    448
2022-08-01    442
             ... 
2025-01-16      1
2025-01-31      1
2025-02-20      1
2025-01-28      1
2025-01-08      1
Name: count, Length: 1874, dtype: int64



date_occ

date_occ
2020-01-01    567
2022-12-02    565
2022-10-01    556
2023-01-01    553
2022-06-01    552
             ... 
2025-05-29      1
2025-01-31      1
2025-03-18      1
2025-02-18      1
2025-03-11      1
Name: count, Length: 1853, dtype: int64



time_occ

time_occ
1200    17736
1800    13375
1700    12649
2000    12466
1900    11459
        ...  
741        11
2331       11
51         10
2332       10
531         6
Name: count, Length: 1439, dtype: int64



area

area
1     34474
12    30688
14    29729
3     28688
6     26281
15    25430
20    25029
18    24833
13    24569
7     24134
2     23468
8     23010
11    21469
9     21283
10    21038
17    20720
5     20708
21    20680
19    20105
4     18650
16    16660

In [47]:
# Función de agrupacion de variables raras
def agrupar_cat_raras(variable, criterio = 0.05):
    #Calcula las frecuencias
    frecuencias = variable.value_counts(normalize=True)
    #Identifica las que están por debajo del criterio
    temp = [cada for cada in frecuencias.loc[frecuencias < criterio].index.values]
    #Las recodifica en 'OTROS'
    temp2 = np.where(variable.isin(temp),'OTROS',variable)
    #Devuelve el resultado
    return(temp2)

# Variables a agrupar
var_imputar_cat_raras = ['weapon_used_cd','premis_cd','premis_desc','weapon_used_cd','weapon_desc','crm_cd_1','crm_cd_2','crm_cd_3','crm_cd_4','cross_street','location']

# Aplicación
for variable in var_imputar_cat_raras:
    df[variable] = agrupar_cat_raras(df[variable],criterio = 0.02)

Hacemos un describe sobre las variables numéricas a ver que vemos y observamos que, aunque hay varias variabees numéricas, no podríamos hacer ningún estadísticos sobre ellas, exceptopsobre 'vict_age' donde vemos que la media de edad es de 29 años y la mediana está en 22 años pero observamos que el mínimo es -4 y máximo 120 años. Esto lo solucionaremos una media winsorizada (0,100)

In [48]:
df.select_dtypes(include='number').describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
time_occ,501646.0,1339.976721,650.104656,1.0,900.0,1420.0,1900.0,2359.0
area,501646.0,10.689534,6.108206,1.0,5.0,11.0,16.0,21.0
rpt_dist_no,501646.0,1115.466773,610.994628,101.0,587.0,1139.0,1613.0,2199.0
part_1_2,501646.0,1.400737,0.490048,1.0,1.0,1.0,2.0,2.0
crm_cd,501646.0,500.136505,205.083501,110.0,331.0,442.0,626.0,956.0
vict_age,501646.0,28.960789,21.999339,-4.0,0.0,30.0,44.0,120.0
lat,501646.0,33.999107,1.600585,0.0,34.0148,34.0589,34.1649,34.3343
lon,501646.0,-118.094173,5.54715,-118.6676,-118.4301,-118.3226,-118.2739,0.0


In [49]:
df.vict_age.value_counts().sort_index(ascending=True)

vict_age
-4           2
-3           4
-2          13
-1          49
 0      134073
         ...  
 96         52
 97         34
 98         30
 99        179
 120         1
Name: count, Length: 104, dtype: int64

Realizamos una imputacion de los valores de la edad tras realizar una media winsorizada manualmente (0, 100)

In [50]:
variable = 'vict_age'
df[variable].describe().loc[['min','max']]


min     -4.0
max    120.0
Name: vict_age, dtype: float64

In [51]:
minimo = 0
maximo = 100
df[variable] = df[variable].clip(minimo, maximo)
df[variable].describe()

count    501646.000000
mean         28.960939
std          21.998935
min           0.000000
25%           0.000000
50%          30.000000
75%          44.000000
max         100.000000
Name: vict_age, dtype: float64

In [52]:
num = df.select_dtypes(include='number')
num

Unnamed: 0_level_0,time_occ,area,rpt_dist_no,part_1_2,crm_cd,vict_age,lat,lon
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
221317764,320,13,1307,2,626,38,34.0376,-118.2423
240613264,1220,6,643,2,354,42,34.1016,-118.3489
210117314,600,1,174,1,210,42,34.0437,-118.2518
222019602,1800,20,2046,1,330,27,34.0545,-118.2941
241306293,1445,13,1313,1,230,31,34.0286,-118.2545
...,...,...,...,...,...,...,...,...
230221477,1530,2,221,1,236,38,34.0770,-118.2944
210907524,1216,9,935,1,440,38,34.1847,-118.4480
221204790,1715,12,1218,1,210,25,33.9891,-118.2915
230817266,745,8,855,2,626,31,34.0543,-118.4376


In [53]:
cat = df.select_dtypes(exclude='number')
cat

Unnamed: 0_level_0,date_rptd,date_occ,area_name,crm_cd_desc,mocodes,vict_sex,vict_descent,premis_cd,premis_desc,weapon_used_cd,weapon_desc,status,status_desc,crm_cd_1,crm_cd_2,crm_cd_3,crm_cd_4,location,cross_street
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
221317764,2022-09-16,2022-09-16,Newton,INTIMATE PARTNER - SIMPLE ASSAULT,2000 0400 0916 1813,Female,H,501.0,SINGLE FAMILY DWELLING,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",IC,Invest Cont,626.0,NULO,NULO,NULO,OTROS,NULO
240613264,2024-11-12,2024-11-12,Hollywood,THEFT OF IDENTITY,1501 1822,Female,B,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",NULO,NULO,IC,Invest Cont,354.0,NULO,NULO,NULO,OTROS,NULO
210117314,2021-09-22,2021-09-22,Central,ROBBERY,1414 1420 0334 0411 0344 0913,Female,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",OTROS,OTROS,IC,Invest Cont,210.0,OTROS,NULO,NULO,OTROS,NULO
222019602,2022-12-23,2022-12-22,Olympic,BURGLARY FROM VEHICLE,0386 0344 1822 0216,Female,B,101.0,STREET,NULO,NULO,IC,Invest Cont,330.0,NULO,NULO,NULO,OTROS,OTROS
241306293,2024-02-18,2024-02-18,Newton,"ASSAULT WITH DEADLY WEAPON, AGGRAVATED ASSAULT",0400 1822 1217 0342,Female,H,101.0,STREET,OTROS,OTROS,IC,Invest Cont,230.0,NULO,NULO,NULO,OTROS,OTROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
230221477,2023-11-24,2023-11-23,Rampart,INTIMATE PARTNER - AGGRAVATED ASSAULT,2000 0913 1814 0445 0401 0447,Female,H,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",AO,Adult Other,OTROS,NULO,NULO,NULO,OTROS,NULO
210907524,2021-03-30,2021-03-16,Van Nuys,THEFT PLAIN - PETTY ($950 & UNDER),0394 0344 1822,Female,H,203.0,OTHER BUSINESS,NULO,NULO,IC,Invest Cont,440.0,NULO,NULO,NULO,OTROS,NULO
221204790,2022-01-15,2022-01-15,77th Street,ROBBERY,1822 0302 0371 0906 0432 0345 0337 0316 0344 0216,Female,H,102.0,SIDEWALK,102.0,HAND GUN,IC,Invest Cont,210.0,NULO,NULO,NULO,OTROS,OTROS
230817266,2023-11-25,2023-11-25,West LA,INTIMATE PARTNER - SIMPLE ASSAULT,2000,Female,W,501.0,SINGLE FAMILY DWELLING,NULO,NULO,AO,Adult Other,626.0,NULO,NULO,NULO,OTROS,NULO


Guardado de datasets

In [54]:
ruta_calidad = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/EVOLVE/Data Science/EVOLVE/Fernando_Costa/Practicas/Mini_Proyecto_EDA/001_crime_from_2020/001_calidad_de_datos/'

In [55]:
ruta_trabajo = ruta_calidad + 'trabajo_resultado_calidad.pickle'
ruta_cat = ruta_calidad + 'cat_resultado_calidad.pickle'
ruta_num = ruta_calidad + 'num_resultado_calidad.pickle'

Guardar los archivos

In [56]:
df.to_pickle(ruta_trabajo)
cat.to_pickle(ruta_cat)
num.to_pickle(ruta_num)