## Depuración base de datos

In [5]:
##Carga de paquetes previos
library(ggplot2)
library(dplyr)
library(tidyverse)

### Lectura base de datos
Lee las 6 bases de datos y las junta para depurar

In [20]:
##Lectura de las 5 bases de datos desde el drectorio
getwd() #CHECKEAR QUE EL DIRECTORIO SEA: "/accidentes_medellin/Descriptiva y depuracion"

#Para cambiar wd usar: "setwd(path)" los path en R son con "/" en lugar de "\"
#ej: setwd("C:/Users/JF_Mra/Documents/GitHub/accidentes_medellin/Descriptiva y depuracion")

files_names= list.files(pattern="*.csv", path =  paste(getwd(),"/Datasets",sep=""))
path <- paste(getwd(),"/Datasets/",files_names,sep="")
df <- do.call(rbind, lapply(path, function(x) read.csv(x, stringsAsFactors = FALSE,encoding = 'UTF-8', ) )) ##se leen y se juntas las 6 bases de datos usando los nombres de los archivos.

### Depuración de la base de datos

In [21]:
#df$RADICADO <- as.character(df$RADICADO)
#Se cambia el nombre de la primera columna
df<- df %>% rename(OBJECTID = X.U.FEFF.OBJECTID)

#Cambios de tpo de datos en la base
df<- df %>% 
    mutate_at(vars(starts_with("RADIC")),funs(as.character)) %>%
    mutate_at(vars(starts_with("OBJECT")),funs(as.character))

Los elementos en zona rural carecen de barrios o comunas. Al solo sumar 258, se decide eliminarlos del analisis.

In [22]:
df2 <- df[df$TIPO_GEOCOD!="ZONA RURAL",]
##Se crea df2, nueva base de datos con las depuraciones respectivas.

Se considera que "CON MUERTO" es equivalente a "MUERTO" para la columna "GRAVEDAD":
Se considera que "Caida Ocupante" es equivalente a "Caida de Ocupante" en la columna "CLASE"

In [23]:
df2[df2$CLASE == "Caida Ocupante" | df2$CLASE == "Caída de Ocupante" ,]$CLASE <- "Caída Ocupante"
df2[df2$CLASE == "Choque y Atropello" | df2$CLASE ==  "Choque ",]$CLASE = "Choque"

In [24]:
clase_c<-count(df2, CLASE)
clase_c[order(-clase_c$n),]
count(df2, GRAVEDAD)

CLASE,n
Choque,141309
Otro,22017
Atropello,20667
Caída Ocupante,18532
Volcamiento,6613
Incendio,24
,6


GRAVEDAD,n
CON MUERTO,73
HERIDO,114022
MUERTO,1166
SOLO DAÑOS,93907


Se decide que el objeto de estudio es Medellín y sus 16 comunas.

In [25]:
##Los datos relevantes que se excluyen corresponden a los 5 corregimientos, que definen la zona rural de medellín

comunas <- count(df2, COMUNA) 
#head(comunas[order(-comunas$n),],25) #Numero de accidentes por comuna/corregimiento
comunas_relevantes <- head(comunas[order(-comunas$n),][1], 16) 
df3 <- df2 #saving df2
df2 <- df2[df2$COMUNA %in% as.vector(unlist(comunas_relevantes)),]


Se encuentra que hay un numero de obervaciones con el Radicado repetido. Tras detallada inspección se determina que no son duplicados.

In [26]:
n_occur <- data.frame(table(df2$RADICADO))
a<-df2[df3$RADICADO %in% n_occur$Var1[n_occur$Freq > 1],] ## Algunas 5 o 6 tienen los mismos datos. Pero la gran mayoria varian en varias columnas
a[order(a$RADICADO),] #listado de todos los archivos con mismo radicado

Unnamed: 0,OBJECTID,X,Y,RADICADO,FECHA,HORA,DIA,PERIODO,CLASE,DIRECCION,DIRECCION_ENC,CBML,TIPO_GEOCOD,GRAVEDAD,BARRIO,COMUNA,DISENO,DIA_NOMBRE,MES
2957,217630.0,833732.1,1182874.0,1430393.0,2014-02-23T00:00:00.000Z,09:30 PM,23.0,2014.0,Choque,CR 62 CL 44,CR 062 044 000 00000,1008.0,Malla vial,SOLO DAÑOS,Corazón de Jesús,La Candelaria,Tramo de via,DOMINGO,2.0
3176,217866.0,834514.0,1187689.0,1430683.0,2014-02-25T00:00:00.000Z,07:00 PM,25.0,2014.0,Caída Ocupante,CR 69 CL 96,CR 069 096 000 00000,511.0,Malla vial,HERIDO,Castilla,Castilla,Tramo de via,MARTES,2.0
26308,240313.0,832734.3,1183037.0,1453578.0,2014-08-18T00:00:00.000Z,10:00 AM,18.0,2014.0,Choque,CL 44 CR 70,CL 044 070 000 00000,1117.0,Malla vial,HERIDO,Florida Nueva,Laureles Estadio,Tramo de via,LUNES,8.0
83894,260266.0,832480.7,1183222.0,1520986.0,2016-01-30T00:00:00.000Z,10:40 PM,30.0,2016.0,Choque,CL 45 D CR 72,CL 045 D 072 000 00000,1117.0,Malla vial,SOLO DAÑOS,Florida Nueva,Laureles Estadio,Tramo de via,SÁBADO,1.0
83905,260278.0,834474.5,1184612.0,1521025.0,2016-01-31T00:00:00.000Z,12:50 PM,31.0,2016.0,Otro,CR 63 CL 67,CR 063 067 000 00000,701.0,Malla vial,HERIDO,Universidad Nacional,Robledo,Tramo de via,DOMINGO,1.0
83849,260217.0,834292.8,1182688.0,1521099.0,2016-01-30T00:00:00.000Z,01:00 PM,30.0,2016.0,Choque,CR 57 CL 44,CR 057 044 000 00000,1007.0,Malla vial,SOLO DAÑOS,Guayaquil,La Candelaria,Glorieta,SÁBADO,1.0
87547,262273.0,833654.0,1182901.0,1523002.0,2016-02-15T00:00:00.000Z,07:45 AM,15.0,2016.0,Otro,CR 63 CL 44,CR 063 044 000 00000,1103.0,Malla vial,HERIDO,Naranjal,Laureles Estadio,Tramo de via,LUNES,2.0
88018,262793.0,833473.3,1183849.0,1523853.0,2016-02-18T00:00:00.000Z,04:30 PM,18.0,2016.0,Choque,CL 50 CR 66,CL 050 066 000 00000,1101.0,Malla vial,SOLO DAÑOS,Carlos E. Restrepo,Laureles Estadio,Tramo de via,JUEVES,2.0
125796,345235.0,832897.6,1178123.0,1563627.0,2016-12-20T00:00:00.000Z,12:30 AM,20.0,2016.0,Otro,CL 6 Sur CR 52,CL S 006 052 000 00000,1509.0,Malla vial,HERIDO,Cristo Rey,Guayabal,Tramo de via,MARTES,12.0
125628,345050.0,831478.2,1182303.0,1563785.0,2016-12-19T00:00:00.000Z,09:00 PM,19.0,2016.0,Choque,CR 80 CL 35,CR 080 035 000 00000,1109.0,Malla vial,SOLO DAÑOS,Las Acacias,Laureles Estadio,Glorieta,LUNES,12.0


### Inspeccion de NAs
De momento opto por remover los NA, luego podemos ver si es preferible realiza imputaciones.

In [27]:
##ESta es la lista de los NA y los barrios con NA's o espacios vacios, si desea eliminarlos o hacerles imputación más adelante
df2[df2 == ""] <- NA
na_DF <- df2[rowSums(is.na(df2)) > 0,]#
final.df<- na.omit(df2) #DF sin NAs

print(paste("El numero de datos con NA es:" , as.character(dim(na_DF)[1])))


[1] "El numero de datos con NA es: 1045"


Tras las modificaciones de arriba de los 209426 registros originales, quedamos con 202462.

## Exportación de dfs:

In [28]:
write.csv(final.df, "df_depurada_1.csv", row.names=F) ##Exporta el dataframe final al directorio