In [None]:
import pandas as pd

In [None]:
#Dataframes: Incidentes del 2017 al 2019
df_2017 = pd.read_csv('data/incidentes-2017.csv')
df_2018 = pd.read_csv('data/incidentes-2018.csv')
df_2019 = pd.read_csv('data/incidentes-2019.csv')

In [None]:
#Verificar las columnas de cada dataframe
print(df_2017.columns)
print(df_2018.columns)
print(df_2019.columns)

In [None]:
#Mismas columnas. Es posible combinar los 3 dataframes
df = pd.concat([df_2017, df_2018, df_2019], ignore_index=True)

In [None]:
#Verificar cambios
df.head()

In [None]:
df.tail()

In [None]:
#Verificar los tipos de dato
df.dtypes

In [None]:
#Sumatoria de valores nulos por columna
df.isna().sum()

In [None]:
#Ver las dimensiones del dataset
df.shape

In [None]:
#Eliminando valores nulos
df = df.dropna()

In [None]:
#Verificando
df.isna().sum()

In [None]:
#Eliminar columnas que no se utilizaran
df = df.drop(columns = ['latitud', 'longitud', 'geopoint'])

In [None]:
#Valores por columna
df['delegacion_inicio'].unique()

In [None]:
df['delegacion_cierre'].unique()

In [None]:
df['incidente_c4'].unique()

In [None]:
df['clas_con_f_alarma'].unique()

In [None]:
df['tipo_entrada'].unique()

In [None]:
df['codigo_cierre'].unique()

In [None]:
df['mes'].unique()

In [None]:
#Corregir los nombres de las delegaciones
df['delegacion_inicio'] = df['delegacion_inicio'].apply(lambda x: x.title())
df['delegacion_cierre'] = df['delegacion_cierre'].apply(lambda x: x.title())

In [None]:
df.head()

In [None]:
#Corregir el tipo de entrada y el codigo de clasificacion
df['clas_con_f_alarma'] = df['clas_con_f_alarma'].apply(lambda x: x.title())
df['tipo_entrada'] = df['tipo_entrada'].apply(lambda x: x.title())

In [None]:
df.head()

In [None]:
#Mapear el codigo de cierre
mapeo_codigo_cierre = {
    '(D)': 'D',
    '(N)': 'N',
    '(A)': 'A',
    '(F)': 'F',
    '(I)': 'I'
}

def mapear_codigo_cierre(row):
    for key, value in mapeo_codigo_cierre.items():
        if row.startswith(key):
            return value
    return row #Si no coincide con el codigo

df['codigo_cierre'] = df['codigo_cierre'].apply(mapear_codigo_cierre)
df.head()

In [None]:
#Mapear y abreviar las descripciones del incidente
mapeo_desc = {
    'accidente-choque sin lesionados' : 'AC-CSL',
    'accidente-choque con lesionados' : 'AC-CCL', 
    'lesionado-atropellado' : 'L-A',
    'accidente-motociclista' : 'AC-MC', 
    'accidente-volcadura' : 'AC-VL',
    'accidente-persona atrapada / desbarrancada' : 'AC-PA',
    'accidente-vehiculo desbarrancado' : 'AC-VD',
    'accidente-choque con prensados' : 'AC-PR', 
    'accidente-otros' : 'AC-OT',
    'cadáver-atropellado' : 'CA-AT', 
    'cadáver-accidente automovilístico' : 'CA-AA',
    'accidente-vehiculo atrapado' : 'AC-VA', 
    'accidente-ferroviario' : 'AC-FR',
    'detención ciudadana-atropellado' : 'DC-AT',
    'detención ciudadana-accidente automovilístico' : 'DC-AA',
    'sismo-choque sin lesionados' : 'SI-CSL', 
    'sismo-persona atropellada' : 'SI-AT',
    'sismo-choque con lesionados' : 'SI-CCL', 
    'sismo-choque con prensados' : 'SI-PR',
    'accidente-ciclista' : 'AC-CI', 
    'accidente-vehículo atrapado-varado' : 'AC-VAV',
    'accidente-monopatín' : 'AC-MP',
    'Detención ciudadana-accidente automovilístico' : 'DC-AA'       
}

df['incidente_c4'] = df['incidente_c4'].replace(mapeo_desc)
df.head()

In [None]:
#Convertir las columnas a tipos adecuados
df.hora_creacion = pd.to_datetime(df.hora_creacion)
df.fecha_creacion = pd.to_datetime(df.fecha_creacion, format="mixed")
df.fecha_cierre = pd.to_datetime(df.fecha_cierre, format="mixed")
df.hora_cierre = pd.to_datetime(df.hora_cierre)
df.año_cierre = pd.to_numeric(df.año_cierre)

In [None]:
df.dtypes

In [None]:
#Dividir dataset en 2
df1 = df.iloc[:len(df)//2]  # Primer mitad
df2 = df.iloc[len(df)//2:]  # Segunda mitad

# Guardar los DataFrames en archivos CSV separados
df1.to_csv('data/parte1.csv', index=False)
df2.to_csv('data/parte2.csv', index=False)