# Preprocessing Data

## Cleaned Data

In [1]:
import pandas as pd
df = pd.read_csv("../Data/Data.csv", encoding="latin")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2562994 entries, 0 to 2562993
Data columns (total 21 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   Año                     int64  
 1   Clave_Ent               int64  
 2   Entidad                 object 
 3   Cve. Municipio          int64  
 4   Municipio               object 
 5   Bien jurídico afectado  object 
 6   Tipo de delito          object 
 7   Subtipo de delito       object 
 8   Modalidad               object 
 9   Enero                   int64  
 10  Febrero                 int64  
 11  Marzo                   int64  
 12  Abril                   int64  
 13  Mayo                    int64  
 14  Junio                   float64
 15  Julio                   float64
 16  Agosto                  float64
 17  Septiembre              float64
 18  Octubre                 float64
 19  Noviembre               float64
 20  Diciembre               float64
dtypes: float64(7), int64(8), object

In [2]:
pd.set_option("display.max_columns", None)
df.sample(5)

Unnamed: 0,Año,Clave_Ent,Entidad,Cve. Municipio,Municipio,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
1726279,2022,20,Oaxaca,20384,Santa Cruz Xitla,La vida y la Integridad corporal,Lesiones,Lesiones dolosas,Con arma de fuego,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
605823,2017,31,Yucatán,31018,Chapab,La sociedad,Corrupción de menores,Corrupción de menores,Corrupción de menores,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
487692,2017,20,Oaxaca,20115,San Bartolo Coyotepec,El patrimonio,Robo,Robo de vehículo automotor,Robo de motocicleta Sin violencia,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2370401,2025,13,Hidalgo,13059,Tecozautla,El patrimonio,Fraude,Fraude,Fraude,1,1,0,0,0,,,,,,,
859247,2018,32,Zacatecas,32027,Melchor Ocampo,La familia,Violencia familiar,Violencia familiar,Violencia familiar,0,0,0,0,1,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [3]:
df[["Modalidad", 'Subtipo de delito', 'Tipo de delito']].nunique()

Modalidad            59
Subtipo de delito    55
Tipo de delito       40
dtype: int64

In [4]:
df = df.drop(columns=['Clave_Ent', 'Cve. Municipio', 'Subtipo de delito'], axis=1)
df.sample(5)

Unnamed: 0,Año,Entidad,Municipio,Bien jurídico afectado,Tipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
2230649,2024,Oaxaca,Yutanduchi de Guerrero,El patrimonio,Robo,"Robo de cables, tubos y otros objetos destinad...",0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
470446,2017,Nayarit,Rosamorada,El patrimonio,Robo,Robo de embarcaciones pequeñas y grandes Sin v...,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
622947,2018,Campeche,Tenabo,El patrimonio,Robo,Con violencia,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1817790,2022,Yucatán,Cuzamá,La sociedad,Trata de personas,Trata de personas,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
88264,2015,Morelos,Coatlán del Río,El patrimonio,Robo,Sin violencia,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [5]:
columns_group = ['Año', 'Entidad', 'Municipio', 'Bien jurídico afectado',
           'Tipo de delito', 'Modalidad']
df = df.groupby(columns_group, as_index=False).sum()

In [7]:
print(df.shape)
df.isnull().sum()

(1778404, 18)


Año                       0
Entidad                   0
Municipio                 0
Bien jurídico afectado    0
Tipo de delito            0
Modalidad                 0
Enero                     0
Febrero                   0
Marzo                     0
Abril                     0
Mayo                      0
Junio                     0
Julio                     0
Agosto                    0
Septiembre                0
Octubre                   0
Noviembre                 0
Diciembre                 0
dtype: int64

In [8]:
import dask.dataframe as dd

df_dask = dd.from_pandas(df, npartitions=36)

months = ['Enero', 'Febrero', 'Marzo', 'Abril', 
        'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre',
        'Octubre', 'Noviembre', 'Diciembre']
columns =  ['Año', 'Entidad', 'Municipio', 'Bien jurídico afectado', 
            'Tipo de delito', 'Modalidad']

df_dask = dd.melt(
    df_dask,
    id_vars=columns,
    value_vars=months,
    var_name="Mes",
    value_name="Incidentes"
)
df_dask.to_parquet("../Data/semi_cleaned_data", write_index=False)

## Transformed Data

In [1]:
import dask.dataframe as dd
import pandas as pd

In [2]:
df = dd.read_parquet('../Data/semi_cleaned_data')
df.columns

Index(['Año', 'Entidad', 'Municipio', 'Bien jurídico afectado',
       'Tipo de delito', 'Modalidad', 'Mes', 'Incidentes'],
      dtype='object')

In [3]:
months = {
    'Enero': 1, 'Febrero': 2, 'Marzo': 3, 'Abril': 4,
    'Mayo': 5, 'Junio': 6, 'Julio': 7, 'Agosto': 8,
    'Septiembre': 9, 'Octubre': 10, 'Noviembre': 11, 'Diciembre': 12
}

df["Mes_Num"] = df["Mes"].map(months, meta=("Mes_Num", "int64"))
df["Fecha"] = dd.to_datetime(
    df['Año'].astype(int).astype(str) + '-' + df['Mes_Num'].astype(str).str.zfill(2) + '-01'
)
n_rows = df.shape[0].compute()
n_cols = df.shape[1]

print(df.columns)
print(f"Shape: ({n_rows}, {n_cols})")
df.head(3)

Index(['Año', 'Entidad', 'Municipio', 'Bien jurídico afectado',
       'Tipo de delito', 'Modalidad', 'Mes', 'Incidentes', 'Mes_Num', 'Fecha'],
      dtype='object')
Shape: (21340848, 10)


Unnamed: 0,Año,Entidad,Municipio,Bien jurídico afectado,Tipo de delito,Modalidad,Mes,Incidentes,Mes_Num,Fecha
0,2015,Aguascalientes,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Enero,38.0,1,2015-01-01
1,2015,Aguascalientes,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Enero,166.0,1,2015-01-01
2,2015,Aguascalientes,Aguascalientes,El patrimonio,Despojo,Despojo,Enero,15.0,1,2015-01-01


In [4]:
df = df[['Fecha', 'Entidad', 'Municipio',
       'Bien jurídico afectado', 'Tipo de delito',
       'Modalidad', 'Incidentes' ]]

def last_day(df):
    df["Fecha"] = df["Fecha"] + pd.offsets.MonthEnd(0)
    return df

df = df.map_partitions(last_day, meta=df)
df["Incidentes"] = df["Incidentes"].fillna(0).astype(int)
df = df[df['Fecha'] <= "2025-06-01"]

df.head(3)

Unnamed: 0,Fecha,Entidad,Municipio,Bien jurídico afectado,Tipo de delito,Modalidad,Incidentes
0,2015-01-31,Aguascalientes,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,38
1,2015-01-31,Aguascalientes,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,166
2,2015-01-31,Aguascalientes,Aguascalientes,El patrimonio,Despojo,Despojo,15


In [5]:
columns = ['Entidad', 'Municipio', 'Bien jurídico afectado', 
           'Tipo de delito', 'Modalidad']
for col in columns:
    df[col] = df[col].astype("category")
df = df.categorize(columns=columns)
df.dtypes

Fecha                     datetime64[ns]
Entidad                         category
Municipio                       category
Bien jurídico afectado          category
Tipo de delito                  category
Modalidad                       category
Incidentes                         int64
dtype: object

In [6]:
df.to_parquet(
    "../Data/cleaned_data/",
    engine="pyarrow",
    write_index=False
)