In [None]:
%load_ext autoreload
%autoreload 2

import sys
sys.path.append('../../src')
import funciones as f
import soporte_prep as sp

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')
pd.options.display.float_format = '{:.2f}'.format
pd.set_option('display.max_columns', None)

In [None]:
df_principal = pd.read_csv("C:\\Users\\DELL\\Downloads\\BD_ACCIDENTES DE TRANSITO_2007-2023.csv", sep=';')

### Definir lo que significa cada columna

- DIASEMANA: día de la semana.
- MESOCU: mes.
- ANOOCU: año de ocurrencia.
- RHORA: rango de hora.
- REGION: region donde ocurrió.
- PROVINCIA: provincia donde ocurrió.
- TVIA: tipo de vía donde ocurrió.
- TIPOACCIDENTE: tipo de accidente.
- SALDOTRAG: salgo trágico.
- MEDIOTRANS: medio de transporte.
- VEHICHOQUE: vehículo con el que chocó.


In [None]:
df_principal.head()

Unnamed: 0,DIASEMANA,MESOCU,ANOOCU,RHORA,REGION,PROVINCIA,TVIA,TIPOACCIDENTE,SALDOTRAG,MEDIOTRANS,VEHICHOQUE,VEHICUVOLC,VEHICUATRO,VEHICAIDA,VEHIDESLI,ESTRECON,APLASTAM,OTROACCIDEN
0,7,2,2007,2,10,1,4,3,1,25,26,,99,,,,,
1,2,2,2007,1,10,1,2,3,1,25,26,,99,,,,,
2,3,2,2007,1,10,1,2,3,1,25,26,,99,,,,,
3,3,2,2007,11,10,1,2,3,1,25,26,,99,,,,,
4,5,2,2007,10,10,1,2,3,1,25,26,,99,,,,,


In [None]:
# Crear la columna de fecha combinando año, mes y día
df_principal['FECHA'] = pd.to_datetime(df_principal['ANOOCU'].astype(str) + '-' + 
                                    df_principal['MESOCU'].astype(str) + '-' + 
                                    '01', 
                                    format='%Y-%m-%d')

df_principal.head()

Unnamed: 0,DIASEMANA,MESOCU,ANOOCU,RHORA,REGION,PROVINCIA,TVIA,TIPOACCIDENTE,SALDOTRAG,MEDIOTRANS,VEHICHOQUE,VEHICUVOLC,VEHICUATRO,VEHICAIDA,VEHIDESLI,ESTRECON,APLASTAM,OTROACCIDEN,FECHA
0,7,2,2007,2,10,1,4,3,1,25,26,,99,,,,,,2007-02-01
1,2,2,2007,1,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
2,3,2,2007,1,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
3,3,2,2007,11,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
4,5,2,2007,10,10,1,2,3,1,25,26,,99,,,,,,2007-02-01


In [None]:
df_principal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28312 entries, 0 to 28311
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DIASEMANA      28312 non-null  int64         
 1   MESOCU         28312 non-null  int64         
 2   ANOOCU         28312 non-null  int64         
 3   RHORA          28312 non-null  int64         
 4   REGION         28312 non-null  int64         
 5   PROVINCIA      28312 non-null  int64         
 6   TVIA           28312 non-null  int64         
 7   TIPOACCIDENTE  28312 non-null  int64         
 8   SALDOTRAG      28312 non-null  int64         
 9   MEDIOTRANS     28312 non-null  int64         
 10  VEHICHOQUE     28312 non-null  object        
 11  VEHICUVOLC     28312 non-null  object        
 12  VEHICUATRO     28312 non-null  object        
 13  VEHICAIDA      28312 non-null  object        
 14  VEHIDESLI      28312 non-null  object        
 15  ESTRECON       2831

In [None]:
df_llena = df_principal.copy()

In [None]:
df_llena.head()

Unnamed: 0,DIASEMANA,MESOCU,ANOOCU,RHORA,REGION,PROVINCIA,TVIA,TIPOACCIDENTE,SALDOTRAG,MEDIOTRANS,VEHICHOQUE,VEHICUVOLC,VEHICUATRO,VEHICAIDA,VEHIDESLI,ESTRECON,APLASTAM,OTROACCIDEN,FECHA
0,7,2,2007,2,10,1,4,3,1,25,26,,99,,,,,,2007-02-01
1,2,2,2007,1,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
2,3,2,2007,1,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
3,3,2,2007,11,10,1,2,3,1,25,26,,99,,,,,,2007-02-01
4,5,2,2007,10,10,1,2,3,1,25,26,,99,,,,,,2007-02-01


In [None]:
dataframes = [
    'df_diasem.csv',
    'df_mes.csv',
    'df_rhora.csv',
    'df_region.csv',
    'df_provincia.csv',
    'df_tipovia.csv',
    'df_accidente.csv',
    'df_mediot.csv',
    'df_choque.csv'
]

# Crear un diccionario para almacenar los DataFrames leídos
df_dict = {}

for filename in dataframes:
    df_name = filename.split('.')[0]  # Usar el nombre del archivo (sin extensión) como clave
    df_dict[df_name] = pd.read_csv(f'../Datos/datos_accidentes/{filename}')

# Acceso a los DataFrames
print(df_dict['df_diasem'])  # Accede al DataFrame de df_diasem


In [None]:
# lista de tuplas con las columnas a mapear, el df correspondiente y la columna única
mapeos = [
    ('TIPOACCIDENTE', df_accidente), ('REGION', df_region), ('PROVINCIA', df_provincia), ('DIASEMANA', df_diasem), ('MESOCU', df_mes), ('RHORA', df_rhora),
    ('TVIA', df_tipovia),('MEDIOTRANS', df_mediot),
]

for columna, df_mapeado in mapeos:
    mapeo = dict(zip(df_mapeado['Valor'], df_mapeado['Significado']))
    valores = df_llena[columna].unique()
    mapeo_filtrado = {k: v for k, v in mapeo.items() if k in valores}
    df_llena[columna] = df_llena[columna].map(mapeo_filtrado)

In [None]:
df_llena.head()

Unnamed: 0,DIASEMANA,MESOCU,ANOOCU,RHORA,REGION,PROVINCIA,TVIA,TIPOACCIDENTE,SALDOTRAG,MEDIOTRANS,VEHICHOQUE,VEHICUVOLC,VEHICUATRO,VEHICAIDA,VEHIDESLI,ESTRECON,APLASTAM,OTROACCIDEN,FECHA
0,Domingo,Febrero,2007,02:01-04:00,Región Ozama,Distrito Nacional,Carretera,Atropellamiento,1,Peatón atropellado,26,,99,,,,,,2007-02-01
1,Martes,Febrero,2007,00:01-02:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,,2007-02-01
2,Miércoles,Febrero,2007,00:01-02:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,,2007-02-01
3,Miércoles,Febrero,2007,20:01-22:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,,2007-02-01
4,Viernes,Febrero,2007,18:01-20:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,,2007-02-01


In [None]:
# muevo la última columna al principio
ultima_columna = df_llena.columns[-1]  # busco el nombre de la última columna
columnas = [ultima_columna] + [col for col in df_llena.columns if col != ultima_columna] # cambio el orden
df_llena = df_llena[columnas]

In [None]:
df_llena.head()

Unnamed: 0,FECHA,DIASEMANA,MESOCU,ANOOCU,RHORA,REGION,PROVINCIA,TVIA,TIPOACCIDENTE,SALDOTRAG,MEDIOTRANS,VEHICHOQUE,VEHICUVOLC,VEHICUATRO,VEHICAIDA,VEHIDESLI,ESTRECON,APLASTAM,OTROACCIDEN
0,2007-02-01,Domingo,Febrero,2007,02:01-04:00,Región Ozama,Distrito Nacional,Carretera,Atropellamiento,1,Peatón atropellado,26,,99,,,,,
1,2007-02-01,Martes,Febrero,2007,00:01-02:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,
2,2007-02-01,Miércoles,Febrero,2007,00:01-02:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,
3,2007-02-01,Miércoles,Febrero,2007,20:01-22:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,
4,2007-02-01,Viernes,Febrero,2007,18:01-20:00,Región Ozama,Distrito Nacional,Avenida,Atropellamiento,1,Peatón atropellado,26,,99,,,,,


In [None]:
df_llena = df_llena.iloc[:,0:11]