## Preparación de Datos (Accidentes) paso 5: Dias de semana/fines de semana

Para finalizar la limpieza del dataset *Accidentes.csv* la columna *DIA_ACCIDENTE* es agrupada para obtener si el día del accidente es un dia laboral de semana (Lun - Jue) o fin de semana (Vie - Dom). Conocer esto nos permitirá en la fase de análisis estudiar patrones en los accidentes a partir del tipo de dia se la semana en el que ocurre.

### Lectura del último dataset
Se importa la ultima version de los datos aplicando el formato de fecha a la columna *FECHA_ACCIDENTE*

In [1]:
import numpy as np
import pandas as pd

df = pd.read_csv('Accidentes_clusters.csv')
df['FECHA_ACCIDENTE'] = pd.to_datetime(df['FECHA_ACCIDENTE'], format='%Y-%m-%d %H:%M:%S')
df.head(10)

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,MOMENTO_DIA,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,LATITUD,LONGITUD,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES,ZONA
0,2017-12-24 21:30:00,2017,12,Dom,09:30:00:PM,Noche,Con heridos,Choque,CR 6 CL 94,10.946586,-74.826513,1.0,0.0,1,SUR
1,2015-01-01 14:10:00,2015,1,Jue,02:10:00:PM,Tarde,Con heridos,Choque,VIA 40 CON 77,11.016189,-74.795327,1.0,0.0,1,NORTE
2,2015-01-01 14:15:00,2015,1,Jue,02:15:00:PM,Tarde,Solo daños,Choque,CALLE 14 CR 13,10.952965,-74.771882,0.0,0.0,1,CENTRO
3,2015-01-01 14:20:00,2015,1,Jue,02:20:00:PM,Tarde,Solo daños,Choque,CL 74 CR 38C,10.985707,-74.81242,0.0,0.0,1,NORTE
4,2015-01-01 15:30:00,2015,1,Jue,03:30:00:PM,Tarde,Con heridos,Choque,CL 45 CR 19,10.958396,-74.79471,2.0,0.0,1,CENTRO
5,2015-01-01 04:20:00,2015,1,Jue,04:20:00:AM,Madrugada,Solo daños,Choque,CRA 15 CLLE 21,10.953501,-74.776203,0.0,0.0,1,CENTRO
6,2015-01-01 16:40:00,2015,1,Jue,04:40:00:PM,Tarde,Con heridos,Choque,CRA 14 CLLE 35,10.951457,-74.788801,2.0,0.0,1,CENTRO
7,2015-01-01 16:50:00,2015,1,Jue,04:50:00:PM,Tarde,Con heridos,Atropello,CRA 6 CLLE 90,10.944943,-74.823909,1.0,0.0,1,SUR
8,2015-01-01 06:00:00,2015,1,Jue,06:00:00:AM,Mañana,Solo daños,Choque,CRA 6 CLLE 92,10.944446,-74.825528,0.0,0.0,1,SUR
9,2015-01-01 19:50:00,2015,1,Jue,07:50:00:PM,Noche,Solo daños,Choque,CALLE 99 CR 56,11.016135,-74.826478,0.0,0.0,1,NORTE


### Transformación de características
Utilizando el método *apply* de Pandas, se crea la nueva columna pasando una función que recibirá por parametro el día de la semana en tipo cadena y retornará la cadena 'DIA DE SEMANA' o 'FIN DE SEMANA' según corresponda.

In [2]:
def transformation(day):
    weekend_days = ['Vie', 'Sab', 'Dom']
    if day in weekend_days:
        return 'FIN DE SEMANA'
    else:
        return 'DIA DE SEMANA'
    
day_of_week = pd.DataFrame()
day_of_week['DIA_SEMANA_ACCIDENTE'] = df['DIA_ACCIDENTE'].copy().apply(transformation)
day_of_week.head()

Unnamed: 0,DIA_SEMANA_ACCIDENTE
0,FIN DE SEMANA
1,DIA DE SEMANA
2,DIA DE SEMANA
3,DIA DE SEMANA
4,DIA DE SEMANA


### Añadiendo la nueva columna
Se añade la nueva columna al dataframe que contiene los datos.

In [3]:
df = pd.concat([df[:], day_of_week[:]], axis='columns')
df.head(10)

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,MOMENTO_DIA,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,LATITUD,LONGITUD,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES,ZONA,DIA_SEMANA_ACCIDENTE
0,2017-12-24 21:30:00,2017,12,Dom,09:30:00:PM,Noche,Con heridos,Choque,CR 6 CL 94,10.946586,-74.826513,1.0,0.0,1,SUR,FIN DE SEMANA
1,2015-01-01 14:10:00,2015,1,Jue,02:10:00:PM,Tarde,Con heridos,Choque,VIA 40 CON 77,11.016189,-74.795327,1.0,0.0,1,NORTE,DIA DE SEMANA
2,2015-01-01 14:15:00,2015,1,Jue,02:15:00:PM,Tarde,Solo daños,Choque,CALLE 14 CR 13,10.952965,-74.771882,0.0,0.0,1,CENTRO,DIA DE SEMANA
3,2015-01-01 14:20:00,2015,1,Jue,02:20:00:PM,Tarde,Solo daños,Choque,CL 74 CR 38C,10.985707,-74.81242,0.0,0.0,1,NORTE,DIA DE SEMANA
4,2015-01-01 15:30:00,2015,1,Jue,03:30:00:PM,Tarde,Con heridos,Choque,CL 45 CR 19,10.958396,-74.79471,2.0,0.0,1,CENTRO,DIA DE SEMANA
5,2015-01-01 04:20:00,2015,1,Jue,04:20:00:AM,Madrugada,Solo daños,Choque,CRA 15 CLLE 21,10.953501,-74.776203,0.0,0.0,1,CENTRO,DIA DE SEMANA
6,2015-01-01 16:40:00,2015,1,Jue,04:40:00:PM,Tarde,Con heridos,Choque,CRA 14 CLLE 35,10.951457,-74.788801,2.0,0.0,1,CENTRO,DIA DE SEMANA
7,2015-01-01 16:50:00,2015,1,Jue,04:50:00:PM,Tarde,Con heridos,Atropello,CRA 6 CLLE 90,10.944943,-74.823909,1.0,0.0,1,SUR,DIA DE SEMANA
8,2015-01-01 06:00:00,2015,1,Jue,06:00:00:AM,Mañana,Solo daños,Choque,CRA 6 CLLE 92,10.944446,-74.825528,0.0,0.0,1,SUR,DIA DE SEMANA
9,2015-01-01 19:50:00,2015,1,Jue,07:50:00:PM,Noche,Solo daños,Choque,CALLE 99 CR 56,11.016135,-74.826478,0.0,0.0,1,NORTE,DIA DE SEMANA


### Versión final del dataset
La version final del dataset se exporta en formato CSV para la fase de anàlisis.

In [4]:
df.to_csv('../../../data/processed/Accidentes_clean.csv', index=False)