In [24]:
# !pip install unidecode
# !pip install pandas
# !pip install numpy
# !pip install locale
# !pip install openpyxl

## Preprocesamiento

In [25]:
import pandas as pd
import numpy as np
import locale
locale.setlocale(locale.LC_TIME, 'es_ES.UTF-8')
from datetime import datetime
import re
from unidecode import unidecode

In [26]:
def load_datasets():
   accidentes_antiguo, accidentes_nuevo = [], []
   for year in range(2010, 2024):
      if year>2018:
         accidentes_nuevo.append(pd.read_excel(str(year)+"_Accidentalidad.xlsx"))
      else:
         accidentes_antiguo.append(pd.read_excel(str(year)+"_Accidentalidad.xlsx"))
   return accidentes_antiguo, accidentes_nuevo

In [27]:
accidentes_antiguo, accidentes_nuevo = load_datasets()

In [28]:
from collections import Counter

def columnas_diferentes(accidentes):
    columnas_accidentes = Counter()
    for i in accidentes:
        columnas_accidentes.update(i.columns)
    return columnas_accidentes

In [29]:
print("Antiguo: ", columnas_diferentes(accidentes_antiguo))
print("Nuevo: ", columnas_diferentes(accidentes_nuevo))

Antiguo:  Counter({'FECHA': 9, 'RANGO HORARIO': 9, 'DIA SEMANA': 9, 'DISTRITO': 9, 'LUGAR ACCIDENTE': 9, 'Nº': 9, 'Nº PARTE': 9, 'CPFA Granizo': 9, 'CPFA Hielo': 9, 'CPFA Lluvia': 9, 'CPFA Niebla': 9, 'CPFA Seco': 9, 'CPFA Nieve': 9, 'CPSV Mojada': 9, 'CPSV Aceite': 9, 'CPSV Barro': 9, 'CPSV Grava Suelta': 9, 'CPSV Hielo': 9, 'CPSV Seca Y Limpia': 9, 'TIPO ACCIDENTE': 9, 'Tipo Vehiculo': 9, 'TIPO PERSONA': 9, 'SEXO': 9, 'LESIVIDAD': 9, 'Tramo Edad': 9, 'Nº VICTIMAS *': 7, 'Nº VICTIMAS * ': 1, '* Nº VICTIMAS': 1})
Nuevo:  Counter({'num_expediente': 5, 'fecha': 5, 'hora': 5, 'localizacion': 5, 'numero': 5, 'cod_distrito': 5, 'distrito': 5, 'tipo_accidente': 5, 'estado_meteorológico': 5, 'tipo_vehiculo': 5, 'tipo_persona': 5, 'rango_edad': 5, 'sexo': 5, 'cod_lesividad': 5, 'lesividad': 5, 'coordenada_x_utm': 5, 'coordenada_y_utm': 5, 'positiva_alcohol': 5, 'positiva_droga': 5})


In [30]:
borrar_col_antiguo = ['N VICTIMAS *','N VICTIMAS * ','* N VICTIMAS']
borrar_col_nuevo = ['NUM_IMPLICAT','NUM_VEHICLE','Unnamed: 20','Unnamed: 19']

def borrar_columnas(accidentes, columnas_borrar):
    for i in range(len(accidentes)):
        accidentes[i] = accidentes[i].drop(columns=columnas_borrar, errors='ignore')

borrar_columnas(accidentes_antiguo, borrar_col_antiguo)
borrar_columnas(accidentes_nuevo, borrar_col_nuevo)

print("Antiguo: ", columnas_diferentes(accidentes_antiguo))
print("Nuevo: ", columnas_diferentes(accidentes_nuevo))

Antiguo:  Counter({'FECHA': 9, 'RANGO HORARIO': 9, 'DIA SEMANA': 9, 'DISTRITO': 9, 'LUGAR ACCIDENTE': 9, 'Nº': 9, 'Nº PARTE': 9, 'CPFA Granizo': 9, 'CPFA Hielo': 9, 'CPFA Lluvia': 9, 'CPFA Niebla': 9, 'CPFA Seco': 9, 'CPFA Nieve': 9, 'CPSV Mojada': 9, 'CPSV Aceite': 9, 'CPSV Barro': 9, 'CPSV Grava Suelta': 9, 'CPSV Hielo': 9, 'CPSV Seca Y Limpia': 9, 'TIPO ACCIDENTE': 9, 'Tipo Vehiculo': 9, 'TIPO PERSONA': 9, 'SEXO': 9, 'LESIVIDAD': 9, 'Tramo Edad': 9, 'Nº VICTIMAS *': 7, 'Nº VICTIMAS * ': 1, '* Nº VICTIMAS': 1})
Nuevo:  Counter({'num_expediente': 5, 'fecha': 5, 'hora': 5, 'localizacion': 5, 'numero': 5, 'cod_distrito': 5, 'distrito': 5, 'tipo_accidente': 5, 'estado_meteorológico': 5, 'tipo_vehiculo': 5, 'tipo_persona': 5, 'rango_edad': 5, 'sexo': 5, 'cod_lesividad': 5, 'lesividad': 5, 'coordenada_x_utm': 5, 'coordenada_y_utm': 5, 'positiva_alcohol': 5, 'positiva_droga': 5})


In [31]:
def unir_datasets(accidentes):
    accidentes = pd.concat(accidentes)
    return accidentes

accidentes_antiguo_unido = unir_datasets(accidentes_antiguo)
accidentes_nuevo_unido = unir_datasets(accidentes_nuevo)
accidentes_antiguo_unido.to_csv("accidentes_antiguo_unido.csv", index=False)
accidentes_nuevo_unido.to_csv("accidentes_nuevo_unido.csv", index=False)

In [32]:
print("2010-2017",accidentes_antiguo_unido.shape)
print("2018-2023",accidentes_nuevo_unido.shape)

2010-2017 (252998, 28)
2018-2023 (212863, 19)


## Exploracion de los datasets
### Datasets de 2010 a 2018
[FECHA, RANGO HORARIO, DIA SEMANA, DISTRITO, LUGAR ACCIDENTE, N, N PARTE, CPFA Granizo, CPFA Hielo, CPFA Lluvia, CPFA Niebla, CPFA Seco, CPFA Nieve, CPSV Mojada, CPSV Aceite, CPSV Barro, CPSV Grava Suelta, CPSV Hielo, CPSV Seca Y Limpia, N VICTIMAS *, TIPO ACCIDENTE, Tipo Vehiculo, TIPO PERSONA, SEXO, LESIVIDAD, Tramo Edad]
### Datasets de 2019 a 2023
[num_expediente, fecha, hora, localizacion, numero, cod_distrito, distrito, tipo_accidente, estado_meteorológico, tipo_vehiculo, tipo_persona, rango_edad, sexo, cod_lesividad, lesividad, coordenada_x_utm, coordenada_y_utm, positiva_alcohol, positiva_droga]                                                                          1

### Exploracion
FECHA (fecha) ##
RANGO HORARIO (hora) (transformar a rango_horario) ##
DIA SEMANA (crear columna dia semana)
DISTRITO (cod_distrito) (los distritos comunes, modificarlos) ##
LUGAR ACCIDENTE (localizacion)
N (numero)
-- N PARTE (borrar) ## mantener como string
CPFA Granizo, CPFA Hielo, CPFA Lluvia, CPFA Niebla, CPFA Seco, CPFA Nieve, (estado_meteorológico)
-- CPSV Mojada, CPSV Aceite, CPSV Barro, CPSV Grava Suelta, CPSV Hielo, CPSV Seca Y Limpia, 
-- N VICTIMAS *, 
TIPO ACCIDENTE, (tipo_accidente) 
Tipo Vehiculo, (tipo_vehiculo)
TIPO PERSONA, (tipo_persona) [unificar]
SEXO, (sexo) Cambiar
LESIVIDAD, (lesividad)
Tramo Edad  (rango_edad)


In [33]:
### USADO PARA GENERAR LOS DICCIONARIOS
## generacion de los diccionarios
### cod_distritos
# acentos = {
#     ord("Á"): ord("A"),
#     ord("É"): ord("E"),
#     ord("Í"): ord("I"),
#     ord("Ó"): ord("O"),
#     ord("Ú"): ord("U"),
# }
# cod_distritos = list(pd.DataFrame(accidentes_nuevo[0])[["distrito","cod_distrito"]].value_counts().to_dict().keys())
# cod_distritos = [list(i) for i in cod_distritos]
# for i in range(len(cod_distritos)):
#     cod_distritos[i][0] = cod_distritos[i][0].translate(acentos)
# cod_distritos = dict(cod_distritos)
# después modificamos SAN BLAS-xxxx a SAN BLAS a mano
### diccionario_horas
# horarios = list(accidentes_antiguo[0]["RANGO HORARIO"].value_counts().to_dict().keys())
# rangos_hora = []
# for rango_hora in horarios:
#     rangos_hora.append([re.findall(r'(\d+:\d+)+', rango_hora)[0], re.findall(r'(\d+:\d+)+', rango_hora)[1]])
#[diccionario_horas.update({re.findall(r'(\d+)',rango[0])[0]:rango}) for rango in rangos_hora]
# después modificamos a mano el de 00 a 0

In [34]:
## diccionarios creados
diccionario_horas = {}
for hora in range(0, 25):
    if hora==0:
        diccionario_horas.update({"00":[str(hora)+":00", str(hora)+":59"]})
        diccionario_horas.update({"0":[str(hora)+":00", str(hora)+":59"]})
    else:
        diccionario_horas.update({str(hora):[str(hora)+":00", str(hora)+":59"]})

cod_distritos = {
    'SALAMANCA': 4.,
    'PUENTE DE VALLECAS': 13.,
    'CHAMARTIN': 5.,
    'CARABANCHEL': 11.,
    'CIUDAD LINEAL': 15.,
    'SAN BLAS': 20.,
    'CENTRO': 1.,
    'RETIRO': 3.,
    'MONCLOA-ARAVACA': 9.,
    'CHAMBERI': 7.,
    'LATINA': 10.,
    'FUENCARRAL-EL PARDO': 8.,
    'TETUAN': 6.,
    'ARGANZUELA': 2.,
    'HORTALEZA': 16.,
    'USERA': 12.,
    'MORATALAZ': 14.,
    'VILLAVERDE': 17.,
    'VILLA DE VALLECAS': 18.,
    'BARAJAS': 21.,
    'VICALVARO': 19.
}

est_met = {
    "Despejado": "CPFA Seco",
    "Lluvia débil": "CPFA Lluvia",
    "LLuvia intensa": "CPFA Lluvia",
    "Nublado": "CPFA Niebla",
    "Se desconoce LLuvia intensa":"CPFA Lluvia",
    "Granizando":"CPFA Granizo",
    "Nevando":"CPFA Nieve",
}

sex_trans = {
    "Hombre":"HOMBRE",
    "Mujer":"MUJER",
    "Desconocido": "NO ASIGNADO"
}

tipo_persona = {
    "Conductor":"CONDUCTOR",
    "Pasajero":"VIAJERO",
    "Peatón":"PEATON"
}


# lesividad_nuevo = {
#     "Sin asistencia sanitaria":0,
#     "Asistencia sanitaria sólo en el lugar del accidente":"IMPLICADO",
#     "Ingreso inferior o igual a 24 horas":"IMPLICADO",
#     "Asistencia sanitaria inmediata en centro de salud o mutua":"IMPLICADO",
#     "Atención en urgencias sin posterior ingreso":"IMPLICADO",
#     "Asistencia sanitaria ambulatoria con posterioridad":"IMPLICADO",
#     "Ingreso superior a 24 horas":"IMPLICADO",
#     "Fallecido 24 horas":"FALLECIDO",   
#     "Se desconoce":"SE DESCONOCE"
# }

# lesividad_antiguo = {
#     "IL":"ILESO",
#     "HL":"IMPLICADO", 
#     "NO ASIGNADA":"SE DESCONOCE",
#     "HG":"IMPLICADO",
#     "MT":"FALLECIDO",
# }

### Si hace falta corregir los dias que no están bien
# corregir_dias_semana = {
#     'LUNES':'LUNES', 
#     'MARTES':'MARTES', 
#     'MIA(C)RCOLES': 'MIERCOLES', 
#     'JUEVES':'JUEVES', 
#     'VIERNES':'VIERNES', 
#     'DOMINGO':'DOMINGO',
#     'SA!BADO':'SABADO'
# }

In [35]:
### UNIFICACION
## tipo_accidente (pasar a mayusculas y quitar acentos)
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'TIPO ACCIDENTE':'tipo_accidente'}, errors='ignore')
    accidentes_antiguo[i].dropna(axis=0, subset=["tipo_accidente"], inplace=True)
    accidentes_antiguo[i].tipo_accidente = accidentes_antiguo[i].tipo_accidente.str.strip()
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].dropna(axis=0, subset=["tipo_accidente"], inplace=True)
    accidentes_nuevo[i]["tipo_accidente"] = accidentes_nuevo[i]["tipo_accidente"].apply(lambda x: unidecode(x).upper())
## fecha
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'FECHA':'fecha'}, errors='ignore')
## cod_distrito
### asignamos el codigo de distrito correspondiente 
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'DISTRITO':'cod_distrito'}, errors='ignore')
    accidentes_antiguo[i].dropna(axis=0, subset=["cod_distrito"], inplace=True)
    accidentes_antiguo[i].cod_distrito = accidentes_antiguo[i].cod_distrito.astype(str).str.strip().apply(lambda x: cod_distritos[x])
### borramos la columna distrito del nuevo
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].drop(axis=1, columns="distrito", inplace=True, errors="ignore")
## num_expediente (borrar de accidentes_nuevo)
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].drop(axis=1, columns="num_expediente", inplace=True, errors="ignore")
## hora (establecer rango de horas)
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'RANGO HORARIO':'hora'}, errors='ignore')
    accidentes_antiguo[i]["hora"] = accidentes_antiguo[i]["hora"].astype(str).apply(lambda x: diccionario_horas[re.findall(r'(\d+)',x)[0]])
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].dropna(axis=0, subset=["hora"], inplace=True)
    accidentes_nuevo[i]["hora"] = accidentes_nuevo[i].hora.astype(str).apply(lambda x: diccionario_horas[str(int(re.findall(r'(\d+)',x)[0]))])
## Lugar accidente por localizacion
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'LUGAR ACCIDENTE':'localizacion'}, errors='ignore')
## DIA SEMANA las creamos en ambas
for i in range(len(accidentes_nuevo)):
    dia_semana = [unidecode(day.strftime("%A")).upper() for day in accidentes_nuevo[i].fecha]
    accidentes_nuevo[i]["dia_semana"] = dia_semana
    # accidentes_nuevo[i]["dia_semana"] = accidentes_nuevo[i].dia_semana.astype(str).apply(lambda x: corregir_dias_semana[x])
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'DIA SEMANA':'dia_semana'}, errors='ignore')
## numero
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'N':'numero'}, errors='ignore')
## 'coordenada_x_utm', 'coordenada_y_utm'
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].drop(axis=1, columns=["coordenada_x_utm", "coordenada_y_utm", "positiva_droga", "positiva_alcohol"], inplace=True, errors="ignore")
## edad
def haz_rangos(frase):
    if isinstance(frase, pd.Series):
        print(frase)
    if frase not in ["Desconocido","<5",">74"]:
        return re.findall(r'\d+',frase)[0]+"-"+re.findall(r'\d+',frase)[1]
    else:
        return frase
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].rango_edad[accidentes_nuevo[i].rango_edad=="Menor de 5 años"] = "<5"
    accidentes_nuevo[i].rango_edad[accidentes_nuevo[i].rango_edad=="Más de 74 años"] = ">74"
    accidentes_nuevo[i]["rango_edad"] = accidentes_nuevo[i].rango_edad.transform(haz_rangos)
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'Tramo Edad':'rango_edad'}, errors='ignore')
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i].rango_edad[accidentes_antiguo[i].rango_edad=="DESCONOCIDA"] = "Desconocido"
    accidentes_antiguo[i].rango_edad[accidentes_antiguo[i].rango_edad=="DE 0 A 5 AÑOS"] = "<5"
    accidentes_antiguo[i].rango_edad[accidentes_antiguo[i].rango_edad=="DE MAS DE 74 AÑOS "] = ">74"
    accidentes_antiguo[i]["rango_edad"] = accidentes_antiguo[i].rango_edad.apply(haz_rangos)
## TIPO PERSONA tipo_persona
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'TIPO PERSONA':'tipo_persona'}, errors='ignore')
    accidentes_antiguo[i].tipo_persona = accidentes_antiguo[i].tipo_persona.astype(str).str.strip()
    accidentes_antiguo[i] = accidentes_antiguo[i].loc[accidentes_antiguo[i]['tipo_persona'] != 'TESTIGO']
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].dropna(axis=0, subset=["tipo_persona"], inplace=True)
    accidentes_nuevo[i] = accidentes_nuevo[i].loc[accidentes_nuevo[i]['tipo_persona'] != 'TESTIGO                                 ']
    accidentes_nuevo[i].tipo_persona = accidentes_nuevo[i].tipo_persona.astype(str).str.strip()
    accidentes_nuevo[i]["tipo_persona"] = accidentes_nuevo[i]["tipo_persona"].apply(lambda x: tipo_persona[x])
## Tipo Vehiculo tipo_vehiculo 
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'Tipo Vehiculo':'tipo_vehiculo'}, errors='ignore')
    accidentes_antiguo[i].dropna(axis=0, subset=["tipo_vehiculo"], inplace=True)
    accidentes_antiguo[i].tipo_vehiculo = accidentes_antiguo[i].tipo_vehiculo.astype(str).str.strip()
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].dropna(axis=0, subset=["tipo_vehiculo"], inplace=True)
    accidentes_nuevo[i]["tipo_vehiculo"] = accidentes_nuevo[i]["tipo_vehiculo"].apply(lambda x: unidecode(x).upper())
## SEXO sexo
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'SEXO':'sexo'}, errors='ignore')
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].dropna(axis=0, subset=["sexo"], inplace=True)
    accidentes_nuevo[i].sexo = accidentes_nuevo[i].sexo.astype(str).str.strip()
    accidentes_nuevo[i]["sexo"] = accidentes_nuevo[i]["sexo"].apply(lambda x: sex_trans[x])
# estado_meteorológico
# for i in range(len(accidentes_nuevo)):
#     accidentes_nuevo[i].dropna(axis=0, subset=["estado_meteorológico"], inplace=True)
#     accidentes_nuevo[i] = accidentes_nuevo[i].loc[accidentes_nuevo[i]['estado_meteorológico'] != 'Se desconoce']
#     accidentes_nuevo[i]["estado_meteorológico"] = accidentes_nuevo[i]["estado_meteorológico"].apply(lambda x: est_met[x])
#     accidentes_nuevo[i] = pd.concat([accidentes_nuevo[i], pd.get_dummies(accidentes_nuevo[i]["estado_meteorológico"])],axis=0)
#     accidentes_nuevo[i].drop(columns=['estado_meteorológico'], inplace=True, errors="ignore")
# borrar columnas innecesarias
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i] = accidentes_antiguo[i].rename(columns={'LESIVIDAD':'lesividad'}, errors='ignore')
    accidentes_antiguo[i].drop(axis=1,columns=['CPSV Mojada', 'CPSV Aceite', 'CPSV Barro','CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'N VICTIMAS *', 'N PARTE', 'CPFA Hielo', 'cod_lesividad','N VICTIMAS * ','* N VICTIMAS', 'CPFA Granizo',	'CPFA Lluvia',	'CPFA Niebla',	'CPFA Nieve',	'CPFA Seco', 'estado_meteorológico'], inplace=True, errors="ignore")
## LESIVIDAD lesividad (NUESTRA VARIABLE OBJETIVO)
for i in range(len(accidentes_nuevo)):
    accidentes_nuevo[i].drop(axis=1,columns=['cod_lesividad','lesividad','Unnamed: 19','Unnamed: 20','NUM_IMPLICAT','NUM_VEHICLE','estado_meteorológico','numero'], inplace=True, errors="ignore")
    # accidentes_nuevo[i].dropna(axis=0, subset=["lesividad"], inplace=True)
    # accidentes_nuevo[i]["lesividad"] = accidentes_nuevo[i]["lesividad"].apply(lambda x: lesividad_nuevo[x])
for i in range(len(accidentes_antiguo)):
    accidentes_antiguo[i].lesividad = accidentes_antiguo[i].lesividad.str.strip()
    accidentes_antiguo[i].drop(axis=1, columns=['Nº', 'Nº PARTE', 'Nº VICTIMAS *', '* Nº VICTIMAS', 'Nº VICTIMAS * '], inplace=True, errors="ignore")
    # accidentes_antiguo[i].dropna(axis=0, subset=["lesividad"], inplace=True)
    # accidentes_antiguo[i]["lesividad"] = accidentes_antiguo[i]["lesividad"].apply(lambda x: lesividad_antiguo[x])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  accidentes_nuevo[i].rango_edad[accidentes_nuevo[i].rango_edad=="Menor de 5 años"] = "<5"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  accidentes_nuevo[i].rango_edad[accidentes_nuevo[i].rango_edad=="Más de 74 años"] = ">74"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  accidentes_nuevo[i].rango_edad[accidentes_nuevo[i].rango_edad=="Más de 74 años"] = ">74"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http

In [36]:
print("nuevo vs antiguo: ",[i for i in accidentes_nuevo[0].columns if i not in accidentes_antiguo[0].columns])
print("antiguo vs nuevo: ",[i for i in accidentes_antiguo[0].columns if i not in accidentes_nuevo[0].columns])

nuevo vs antiguo:  []
antiguo vs nuevo:  ['lesividad']


In [37]:
print({"cols_antiguo":sorted(accidentes_antiguo[0].columns), "cols_nuevo":sorted(accidentes_nuevo[0].columns)})

{'cols_antiguo': ['cod_distrito', 'dia_semana', 'fecha', 'hora', 'lesividad', 'localizacion', 'rango_edad', 'sexo', 'tipo_accidente', 'tipo_persona', 'tipo_vehiculo'], 'cols_nuevo': ['cod_distrito', 'dia_semana', 'fecha', 'hora', 'localizacion', 'rango_edad', 'sexo', 'tipo_accidente', 'tipo_persona', 'tipo_vehiculo']}


In [38]:
accidentes_antiguo = pd.concat(accidentes_antiguo, axis=0, sort=True)
accidentes_nuevo = pd.concat(accidentes_nuevo, axis=0, sort=True)

In [39]:
accidentes_nuevo

Unnamed: 0,cod_distrito,dia_semana,fecha,hora,localizacion,rango_edad,sexo,tipo_accidente,tipo_persona,tipo_vehiculo
0,1.0,LUNES,2019-02-04,"[9:00, 9:59]","CALL. ALBERTO AGUILERA, 1",45-49,HOMBRE,COLISION LATERAL,CONDUCTOR,MOTOCICLETA > 125CC
1,1.0,LUNES,2019-02-04,"[9:00, 9:59]","CALL. ALBERTO AGUILERA, 1",30-34,MUJER,COLISION LATERAL,CONDUCTOR,TURISMO
2,11.0,MARTES,2019-01-01,"[3:00, 3:59]",PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,40-44,HOMBRE,ALCANCE,CONDUCTOR,FURGONETA
3,11.0,MARTES,2019-01-01,"[3:00, 3:59]",PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,40-44,MUJER,ALCANCE,CONDUCTOR,TURISMO
4,11.0,MARTES,2019-01-01,"[3:00, 3:59]",PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,45-49,MUJER,ALCANCE,CONDUCTOR,TURISMO
...,...,...,...,...,...,...,...,...,...,...
39778,14.0,MARTES,2023-10-31,"[13:00, 13:59]",AVDA. DOCTOR GARCIA TAPIA / GTA. JOSE ANTONIO ...,65-69,HOMBRE,COLISION LATERAL,CONDUCTOR,TURISMO
39779,16.0,MARTES,2023-10-31,"[19:00, 19:59]",CALL. SILVANO / AVDA. MACHUPICHU,35-39,HOMBRE,COLISION FRONTO-LATERAL,CONDUCTOR,FURGONETA
39780,16.0,MARTES,2023-10-31,"[19:00, 19:59]",CALL. SILVANO / AVDA. MACHUPICHU,60-64,MUJER,COLISION FRONTO-LATERAL,CONDUCTOR,TURISMO
39781,1.0,MARTES,2023-10-31,"[19:00, 19:59]",PASEO. PRADO / COLPB. CARLOS V,25-29,MUJER,CAIDA,CONDUCTOR,VMU ELECTRICO


In [40]:
accidentes_antiguo

Unnamed: 0,cod_distrito,dia_semana,fecha,hora,lesividad,localizacion,rango_edad,sexo,tipo_accidente,tipo_persona,tipo_vehiculo
0,5.0,VIERNES,2010-01-01,"[0:00, 0:59]",IL,CALLE DE CARTAGENA NUM ...,18-20,HOMBRE,COLISIÓN DOBLE,CONDUCTOR,TURISMO
1,5.0,VIERNES,2010-01-01,"[0:00, 0:59]",IL,CALLE DE CARTAGENA NUM ...,50-54,HOMBRE,COLISIÓN DOBLE,CONDUCTOR,TURISMO
2,5.0,VIERNES,2010-01-01,"[0:00, 0:59]",HL,CALLE DE CARTAGENA NUM ...,40-44,MUJER,COLISIÓN DOBLE,VIAJERO,TURISMO
3,13.0,VIERNES,2010-01-01,"[1:00, 1:59]",HL,AUTOVIA M-30 CALZADA 2 KM. ...,25-29,MUJER,COLISIÓN MÚLTIPLE,VIAJERO,NO ASIGNADO
4,13.0,VIERNES,2010-01-01,"[1:00, 1:59]",HL,AUTOVIA M-30 CALZADA 2 KM. ...,30-34,MUJER,COLISIÓN MÚLTIPLE,VIAJERO,NO ASIGNADO
...,...,...,...,...,...,...,...,...,...,...,...
30117,4.0,LUNES,2018-12-31,"[21:00, 21:59]",IL,CALLE DE VELAZQUEZ - CALLE DE VILLANUEVA ...,30-34,HOMBRE,COLISIÓN DOBLE,VIAJERO,TURISMO
30118,4.0,LUNES,2018-12-31,"[21:00, 21:59]",IL,CALLE DE VELAZQUEZ - CALLE DE VILLANUEVA ...,40-44,HOMBRE,COLISIÓN DOBLE,CONDUCTOR,AUTO-TAXI
30119,16.0,LUNES,2018-12-31,"[23:00, 23:59]",IL,CALLE DE JOAQUIN FERNANDEZ LEIVA - CALLE DE SI...,21-24,MUJER,OTRAS CAUSAS,CONDUCTOR,TURISMO
30120,16.0,LUNES,2018-12-31,"[23:00, 23:59]",HL,CALLE DE JOAQUIN FERNANDEZ LEIVA - CALLE DE SI...,50-54,HOMBRE,OTRAS CAUSAS,CONDUCTOR,TURISMO


## Generamos nuestros datasets

In [41]:
accidentes_antiguo = accidentes_antiguo.sort_values(by='fecha')
accidentes_nuevo = accidentes_nuevo.sort_values(by='fecha')

In [42]:
# accidentes_antiguo['fecha'] = pd.to_datetime(accidentes_antiguo['fecha'], format='%d/%m/%Y')
# accidentes_antiguo['fecha'] = accidentes_antiguo['fecha'].dt.strftime('%m/%Y')
# accidentes_nuevo['fecha'] = pd.to_datetime(accidentes_nuevo['fecha'], format='%d/%m/%Y')
# accidentes_nuevo['fecha'] = accidentes_nuevo['fecha'].dt.strftime('%m/%Y')

In [43]:
accidentes_antiguo.to_csv("accidentes_antiguo.csv", index=False)
accidentes_nuevo.to_csv("accidentes_nuevo.csv", index=False)

In [None]:
accidentes_antiguo_grouped = accidentes_antiguo.groupby(['fecha','cod_distrito']).size().reset_index(name='conteo')
accidentes_nuevo_grouped = accidentes_nuevo.groupby(['fecha','cod_distrito']).size().reset_index(name='conteo')

In [None]:
union_datasets_forecasting = pd.concat([accidentes_antiguo_grouped,accidentes_nuevo_grouped], axis=0, sort=True)
union_datasets_forecasting = union_datasets_forecasting.sort_values(by='fecha')

In [None]:
union_datasets_forecasting.to_csv("union_datasets_forecasting.csv", index=False)