# ANÁLISIS EXPLORATORIO DE DATOS

## 1. IMPORTAMOS PAQUETES Y DATOS

In [125]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pickle
%matplotlib inline
%config IPCompleter.greedy = True
import warnings
warnings.filterwarnings('ignore')

Ruta archivo de calidad de datos

In [126]:
ruta_principal = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/EVOLVE/Data Science/EVOLVE/Fernando_Costa/Practicas/Mini_Proyecto_EDA/'
carpeta = '002_archivos/'

Nombres de los ficheros de datos.

In [127]:
df_calidad = 'trabajo_resultado_calidad.pickle'

Cargamos los datasets

In [128]:
df = pd.read_pickle(ruta_principal + carpeta + df_calidad)

## 2. CONCLUSIONES Y CAMBIOS NECESARIOS

Observamos lo siguiente sobre las variables categóricas y numéricas: La norma es dejar lo nulos como NaN 
- En ambos casos hay variables con muchos nulos pero tiene sentido que sean nulos porque son datos que no era necesario rellenarlos
    - crm_cd_4, crm_cd_3 y crm_cd_2 son los códigos de los crímenes secundarios. Entiendo que no hubo crímenes secundarios
    - weapon_used_cd y weapon_desc: Habla de las armas usadas. Entiendo que no hubo armas
    - cross_street: Identifica si el crimen se cometió en un cruce. Entiendo que no fue en un cruce
    - mocodes: Habla del modus operandi específico del crimen. Entiendo que no encontraron un patrón identificable

- En el caso de vict_descent vamos a borrar los 2 registros que hay con '-'
- En el caso de vict_sex, aparecen registros con ['M', 'F', nan, 'X', 'H', '-']. Vamos a dejar solamente M: Male, F: Female y U: Unknown y borraremos el registro con '-'
- premis_cd y premis_desc contienen información sobre las instalaciones donde se produjo el crimen (código y descripción). Desconocemos el significado de los códigos, pero observamos que los registros de (df.premis_cd.notna())&(df.premis_desc.isna()) se concentran en unos cuantos códigos y habría que investigarlos con una persona de dentro de la organización para obtener mas información. De momento 
    - premis_cd podrían ser que no lo hayan escrito o que no tengan códogo para ese sitio concreto y habría que investigarlo con alguien de dentro
    - premis_desc que son nulos son los mismos que premis_cd por lo que los dejemos como nulos
- En el caso de status, los vamos a borrar porque no hay información en casi ninguna variable y solamente es un caso 
- Por último, crm_cd_1. Este es el código del delito principal que siempre debe ser un código mas bajo (mas bajo = mas grave) que los códigos de crm_cd_1, 2 3 y 4. Así que vamos a ponerles el mismo código por practicar entendiendo que se equivocaron al rellenar el campo y pusieron la información en el crm_cd_2 en vez de el crm_cd_1
- Eliminación de variables:
    - Por baja frecuencia (<2%) ya que no podemos agrupar los datos para sacer estadísticos ni conclusiones de grupo
        - location
        - cross_street
    - Hemos generado una columna alternativa llamada 'time_to_report' con la información y no aportan: time_occ
    Sobre 'time_to_report' si nos metieramos a hacer un análisis mas profundo, habría que segmentar esta variable en tramos para estudiar todos los casos que superan el percentil 75% que son muchos pero, para el caso de estudio y el objetivo del ejercicio, entiendo que no vamos a entrar en análisis tan profundo

In [129]:
df.isna().sum().sort_values(ascending=False)

crm_cd_4          331249
crm_cd_3          330511
crm_cd_2          308572
cross_street      280342
weapon_used_cd    223544
weapon_desc       223544
mocodes            50386
vict_descent       48119
vict_sex           48118
premis_desc          179
premis_cd              4
crm_cd_1               3
time_to_report         0
date_rptd              0
date_occ               0
crm_cd_desc            0
crm_cd                 0
part_1_2               0
time_occ               0
status                 0
vict_age               0
area_name              0
area                   0
rpt_dist_no            0
status_desc            0
location               0
lat                    0
lon                    0
year_rptd              0
month_rptd             0
day_rptd               0
year_occ               0
month_occ              0
day_occ                0
hour_occ               0
dtype: int64

### VARIABLES

#### MOCODES

Imputamos los nulos de 'mocodes' por 9999 para tenerlos identificados pero que sea un valor numérico de 4 dígitos

In [130]:
var_imputar_numero = ['mocodes']
numero = '9999'
df[var_imputar_numero] = df[var_imputar_numero].fillna(numero)
df.isna().sum().sort_values(ascending=False)

crm_cd_4          331249
crm_cd_3          330511
crm_cd_2          308572
cross_street      280342
weapon_used_cd    223544
weapon_desc       223544
vict_descent       48119
vict_sex           48118
premis_desc          179
premis_cd              4
crm_cd_1               3
time_to_report         0
date_occ               0
date_rptd              0
crm_cd                 0
mocodes                0
crm_cd_desc            0
time_occ               0
area                   0
status                 0
vict_age               0
area_name              0
rpt_dist_no            0
part_1_2               0
status_desc            0
location               0
lat                    0
lon                    0
year_rptd              0
month_rptd             0
day_rptd               0
year_occ               0
month_occ              0
day_occ                0
hour_occ               0
dtype: int64

#### STATUS

Borramos el registro de status

In [131]:
df.loc[(df.status.isna())]

Unnamed: 0_level_0,date_rptd,date_occ,time_to_report,time_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,...,cross_street,lat,lon,year_rptd,month_rptd,day_rptd,year_occ,month_occ,day_occ,hour_occ
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1


In [132]:
df = df.loc[df.status.notna()]
df.isna().sum().sort_values(ascending=False)

crm_cd_4          331249
crm_cd_3          330511
crm_cd_2          308572
cross_street      280342
weapon_used_cd    223544
weapon_desc       223544
vict_descent       48119
vict_sex           48118
premis_desc          179
premis_cd              4
crm_cd_1               3
time_to_report         0
date_occ               0
date_rptd              0
crm_cd                 0
mocodes                0
crm_cd_desc            0
time_occ               0
area                   0
status                 0
vict_age               0
area_name              0
rpt_dist_no            0
part_1_2               0
status_desc            0
location               0
lat                    0
lon                    0
year_rptd              0
month_rptd             0
day_rptd               0
year_occ               0
month_occ              0
day_occ                0
hour_occ               0
dtype: int64

#### VICT_DESCENT

Borramos los dos registros con '-' e imputamos los registros de vict_descent según la distribución de los datos 

In [133]:
df = df.loc[~(df.vict_descent=='-')]

#### CRM_CD_1

Imputamos los valores de crm_cd_1 que son nulos por los de crm_cd_2

In [134]:
df['crm_cd_1'] = df['crm_cd_1'].fillna(df['crm_cd_2'])
df.isna().sum().sort_values(ascending=False)

crm_cd_4          331249
crm_cd_3          330511
crm_cd_2          308572
cross_street      280342
weapon_used_cd    223544
weapon_desc       223544
vict_descent       48119
vict_sex           48118
premis_desc          179
premis_cd              4
date_rptd              0
time_to_report         0
date_occ               0
crm_cd                 0
part_1_2               0
mocodes                0
crm_cd_desc            0
time_occ               0
area                   0
status                 0
vict_age               0
area_name              0
rpt_dist_no            0
status_desc            0
crm_cd_1               0
location               0
lat                    0
lon                    0
year_rptd              0
month_rptd             0
day_rptd               0
year_occ               0
month_occ              0
day_occ                0
hour_occ               0
dtype: int64

In [135]:
#Cambiar formatos manualmente
df = df.astype({'crm_cd_1':'float64',
                'crm_cd_2':'float64'})

# Convertir columnas object a tipo 'category'
for col in df.select_dtypes(include=['float64']).columns:
    df[col] = df[col].astype("category")

In [136]:
df.crm_cd_1.info()

<class 'pandas.core.series.Series'>
Index: 331276 entries, 201812425 to 240113008
Series name: crm_cd_1
Non-Null Count   Dtype   
--------------   -----   
331276 non-null  category
dtypes: category(1)
memory usage: 3.2 MB


#### VICT_SEX

Usaremos el SimpleImputer para aplicar sobre la variable 'vict_sex' que vamos a sustituir los nulos por 'U' y sobre 'premis_cd' imputaremos por la moda

In [137]:
#['M', 'F', nan, 'X', 'H', '-']

#Cargamos e instanciamos SimpleImputer
from sklearn.impute import SimpleImputer

#Reenplaza todos los 'unknown' de df y los hace NaN de Numpy para que después los identifique bien.
#El valor a reemplazar hay que mirarlo en cada caso
df.vict_sex.replace(['nan'], np.nan, inplace = True)

#Instanciamos el nuevo imputer
#Variables CATEGÓRICAS
nulos_var = SimpleImputer(strategy='constant', fill_value='Unknwon') #Reenplazamos por un valor constante

#Entrenamos el imputer
#Es importante que si hacemos una sola variable la pongamos con doble corchete. Si no, nos dará un error de dimensiones
nulos_var.fit(df[['vict_sex']])

#Ejecutamos el imputer
df[['vict_sex']] = nulos_var.transform(df[['vict_sex']])

Eliminamos el registro de vict_sex = '-'

In [138]:
df = df.loc[~(df.vict_sex=='-')]

Estandarización de los valores de vict_sex para que solamente haya 'Male', 'Female' y 'Unknown'

In [139]:
df.vict_sex.unique()

array(['F', 'Unknwon', 'M', 'X', 'H'], dtype=object)

In [140]:
df.vict_sex.replace({'M':'Female',
                     'F':'Female',
                     'H':'Male',
                     'X':'Male'}, inplace=True)

In [141]:
df.vict_sex.unique()

array(['Female', 'Unknwon', 'Male'], dtype=object)

#### LOCATION

In [142]:
df = df.drop(columns='location')

#### CROSS_STREET

In [143]:
df = df.drop(columns='cross_street')

#### TIME_OCC

In [144]:
df = df.drop(columns='time_occ')

### VALORES ATÍPICOS

Localizamos los valores atípicos

In [145]:
for variable in df:
    print(variable + '\n')
    print(df[variable].value_counts(dropna = False))
    print('\n\n')

date_rptd

date_rptd
2023-02-02    344
2022-05-02    308
2022-11-02    304
2022-11-03    297
2022-06-02    297
             ... 
2025-01-19      1
2025-03-07      1
2025-02-19      1
2025-03-16      1
2025-03-02      1
Name: count, Length: 1870, dtype: int64



date_occ

date_occ
2023-01-01    396
2023-02-02    375
2020-01-01    372
2022-12-02    365
2022-12-01    364
             ... 
2025-03-12      1
2025-03-16      1
2025-02-25      1
2025-02-06      1
2025-03-08      1
Name: count, Length: 1856, dtype: int64



time_to_report

time_to_report
0       158744
1        73688
2        21237
3        12129
4         7976
         ...  
1068         1
894          1
1393         1
859          1
900          1
Name: count, Length: 1180, dtype: int64



area

area
1     23030
12    20363
14    19614
3     19134
6     17292
15    16945
18    16564
20    16356
13    16115
7     15762
2     15457
8     15030
11    14305
9     14096
10    13876
17    13759
21    13690
5     13477
19    13247


#### AGRUPACION DE CATEGORÍAS RARAS

In [146]:
# Función de agrupacion de variables raras
def agrupar_cat_raras(variable, criterio = 0.02):
    #Calcula las frecuencias
    frecuencias = variable.value_counts(normalize=True)
    #Identifica las que están por debajo del criterio
    temp = [cada for cada in frecuencias.loc[frecuencias < criterio].index.values]
    #Las recodifica en 'OTROS'
    temp2 = np.where(variable.isin(temp),'OTROS',variable)
    #Devuelve el resultado
    return(temp2)

# Variables a agrupar
var_imputar_cat_raras = ['weapon_used_cd','premis_cd','premis_desc','weapon_used_cd','weapon_desc','crm_cd_1','crm_cd_2','crm_cd_3','crm_cd_4']

# Aplicación
for variable in var_imputar_cat_raras:
    df[variable] = agrupar_cat_raras(df[variable],criterio = 0.02)

Hacemos un describe sobre las variables numéricas a ver que vemos y observamos que, aunque hay varias variables numéricas, no podríamos hacer ningún estadísticos sobre ellas, exceptopsobre 'vict_age' donde vemos que la media de edad es de 29 años y la mediana está en 22 años pero observamos que el mínimo es -4 y máximo 120 años. Esto lo solucionaremos una media winsorizada (0,100)

In [147]:
df.select_dtypes(include='number').describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
time_to_report,331276.0,12.190536,69.349449,0.0,0.0,1.0,2.0,1796.0
vict_age,331276.0,28.917419,22.016564,-3.0,0.0,30.0,44.0,120.0


In [148]:
df.vict_age.value_counts().sort_index(ascending=True)

vict_age
-3          1
-2          9
-1         33
 0      88936
 2        131
        ...  
 96        32
 97        20
 98        31
 99       111
 120        1
Name: count, Length: 103, dtype: int64

#### WINSORIZACIÓN

VICT_AGE: Realizamos una imputacion de los valores de la edad tras realizar una media winsorizada manualmente (0, 100)

In [149]:
variable = 'vict_age'
df[variable].describe().loc[['min','max']]

min     -3.0
max    120.0
Name: vict_age, dtype: float64

In [150]:
minimo = 0
maximo = 100
df[variable] = df[variable].clip(minimo, maximo)
df[variable].describe()

count    331276.000000
mean         28.917522
std          22.016122
min           0.000000
25%           0.000000
50%          30.000000
75%          44.000000
max         100.000000
Name: vict_age, dtype: float64

In [151]:
minimo = 0
maximo = 200
df[variable] = df[variable].clip(minimo, maximo)
df[variable].describe()

count    331276.000000
mean         28.917522
std          22.016122
min           0.000000
25%           0.000000
50%          30.000000
75%          44.000000
max         100.000000
Name: vict_age, dtype: float64

In [152]:
variable = 'vict_age'
df[variable].describe().loc[['min','max']]

min      0.0
max    100.0
Name: vict_age, dtype: float64

In [153]:
minimo = 0
maximo = 100
df[variable] = df[variable].clip(minimo, maximo)
df[variable].describe()

count    331276.000000
mean         28.917522
std          22.016122
min           0.000000
25%           0.000000
50%          30.000000
75%          44.000000
max         100.000000
Name: vict_age, dtype: float64

In [154]:
num = df.select_dtypes(include='number')
num

Unnamed: 0_level_0,time_to_report,vict_age
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1
201812425,4,66
200705197,10,53
201912165,1,0
201317843,0,21
201608441,0,71
...,...,...
240806981,0,31
240510863,1,0
241411186,0,0
241907340,1,28


In [155]:
cat = df.select_dtypes(exclude='number')
cat.head()

Unnamed: 0_level_0,date_rptd,date_occ,area,area_name,rpt_dist_no,part_1_2,crm_cd,crm_cd_desc,mocodes,vict_sex,...,crm_cd_4,lat,lon,year_rptd,month_rptd,day_rptd,year_occ,month_occ,day_occ,hour_occ
dr_no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201812425,2020-06-11,2020-06-07,18,Southeast,1829,1,420,THEFT FROM MOTOR VEHICLE - PETTY ($950 & UNDER),1822 1300 0344 1202,Female,...,,33.9439,-118.2346,2020,6,11,2020,6,7,23
200705197,2020-01-23,2020-01-13,7,Wilshire,777,2,930,CRIMINAL THREATS - NO WEAPON DISPLAYED,0601 0443,Female,...,,34.0452,-118.3351,2020,1,23,2020,1,13,11
201912165,2020-07-15,2020-07-14,19,Mission,1985,1,510,VEHICLE - STOLEN,9999,Unknwon,...,,34.2299,-118.4517,2020,7,15,2020,7,14,22
201317843,2020-10-02,2020-10-02,13,Newton,1371,1,236,INTIMATE PARTNER - AGGRAVATED ASSAULT,0913 1813 2000 0408 0448,Female,...,,33.9906,-118.2745,2020,10,2,2020,10,2,11
201608441,2020-04-21,2020-04-21,16,Foothill,1619,1,648,ARSON,9999,Female,...,,34.2629,-118.2913,2020,4,21,2020,4,21,1


## 4. GUARDADO DE RESULTADOS

In [156]:
ruta_principal = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/EVOLVE/Data Science/EVOLVE/Fernando_Costa/Practicas/Mini_Proyecto_EDA/'
carpeta = '002_archivos/'

In [157]:
ruta_trabajo = ruta_principal + carpeta + 'trabajo_resultado_eda.pickle'
ruta_cat = ruta_principal + carpeta + 'cat_resultado_eda.pickle'
ruta_num = ruta_principal + carpeta + 'num_resultado_eda.pickle'

Guardar los archivos

In [158]:
df.to_pickle(ruta_trabajo)
cat.to_pickle(ruta_cat)
num.to_pickle(ruta_num)