<a href="https://colab.research.google.com/github/RodrigoEduard/Codigos-TFM-VIU-2023/blob/Procesamiento_y_Limpieza_de_Datos/TFM_VIU_2023_11_Procesamiento_y_Limpieza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -----------------------------------------------------------------------
# Script para el procesamiento y limpieza de datos.
#
# Autor: Rodrigo Hernández A.
# Fecha: 2 de Octubre, 2023.
# Tutora: Dra. Nery Sofía Huerta.
#
# Descripción:
# Este script realiza una serie de operaciones de limpieza y procesamiento
# en un conjunto de datos sobre la conducción en estado de ebriedad en Chile.
#
# Código desarrollado en lenguaje R en el entorno R de Google Colab.
# Proyecto: TFM - Máster en Big Data y Ciencia de Datos - Universidad de Valencia (VIU)
# -----------------------------------------------------------------------

# -- 1 -- Importación de paquetes necesarios ----
library(readxl) # Paquete para leer archivos Excel (.xls y .xlsx)
library(dplyr) # Paquete que contiene herramientas para la manipulación y transformación de datos.
library(writexl) # Paquete para escribir datos en formato Excel (.xlsx)

# -- 2 -- Lectura y carga de los datasets ----
# Fuente de datos: https://numeros.pjud.cl/Descargas. Materia: "Penal"
penal_2015 <- read_excel("DATASET_PENAL/penal2015.xlsx")
penal_2016 <- read_excel("DATASET_PENAL/penal2016.xlsx")
penal_2017 <- read_excel("DATASET_PENAL/penal2017.xlsx")
penal_2018 <- read_excel("DATASET_PENAL/penal2018.xlsx")
penal_2019 <- read_excel("DATASET_PENAL/penal2019.xlsx")
penal_2020 <- read_excel("DATASET_PENAL/penal2020.xlsx")
penal_2021 <- read_excel("DATASET_PENAL/penal2021.xlsx")
penal_2022 <- read_excel("DATASET_PENAL/penal2022.xlsx")
penal_2023 <- read_excel("DATASET_PENAL/penal2023Parcial.xlsx")

# -- 3 -- Preprocesamiento de datos I: Eliminación de columnas innecesarias ----
penal_2015 <- select(penal_2015, -c("(*)Se agregó columna total de ingresos, dado que en algunas causas, la materia se repite (error de tramitación)"))
penal_2016 <- select(penal_2016, -c("(*)Se agregó columna total de ingresos, dado que en algunas causas, la materia se repite (error de tramitación)"))
penal_2017 <- select(penal_2017, -c("(*)Se agregó columna total de ingresos, dado que en algunas causas, la materia se repite (error de tramitación)"))
penal_2018 <- select(penal_2018, -c("(*)Se agregó columna total de ingresos, dado que en algunas causas, la materia se repite (error de tramitación)"))
penal_2019 <- select(penal_2019, -c("(*)Se agregó columna total de ingresos, dado que en algunas causas, la materia se repite (error de tramitación)"))
penal_2015 <- select(penal_2015, -c("N°"))
penal_2016 <- select(penal_2016, -c("N°"))
penal_2017 <- select(penal_2017, -c("N°"))
penal_2018 <- select(penal_2018, -c("N°"))
penal_2019 <- select(penal_2019, -c("N°"))
penal_2020 <- select(penal_2020, -c("N°"))
penal_2021 <- select(penal_2021, -c("RUC"))
penal_2022 <- select(penal_2022, -c("RUC"))
penal_2023 <- select(penal_2023, -c("RUC"))
penal_2021 <- select(penal_2021, -c("FORMA INICIO"))
penal_2021 <- select(penal_2021, -c("TIPO INGRESO"))
penal_2021 <- select(penal_2021, -c("SISTEMA"))
penal_2022 <- select(penal_2022, -c("FORMA INICIO"))
penal_2022 <- select(penal_2022, -c("TIPO INGRESO"))
penal_2022 <- select(penal_2022, -c("SISTEMA"))
penal_2022 <- select(penal_2022, -c("ID_CAUSA"))
penal_2023 <- select(penal_2023, -c("FORMA INICIO"))
penal_2023 <- select(penal_2023, -c("TIPO INGRESO"))
penal_2023 <- select(penal_2023, -c("SISTEMA"))
penal_2023 <- select(penal_2023, -c("CRR IDCAUSA"))
penal_2015 <- select(penal_2015, -c("COD. CORTE"))
penal_2016 <- select(penal_2016, -c("COD. CORTE"))
penal_2017 <- select(penal_2017, -c("COD. CORTE"))
penal_2018 <- select(penal_2018, -c("COD. CORTE"))
penal_2019 <- select(penal_2019, -c("COD. CORTE"))
penal_2020 <- select(penal_2020, -c("COD. CORTE"))
penal_2021 <- select(penal_2021, -c("COD. CORTE"))
penal_2022 <- select(penal_2022, -c("CÓDIGO CORTE"))
penal_2023 <- select(penal_2023, -c("CÓDIGO CORTE"))
penal_2015 <- select(penal_2015, -c("COD. TRIBUNAL"))
penal_2016 <- select(penal_2016, -c("COD. TRIBUNAL"))
penal_2017 <- select(penal_2017, -c("COD. TRIBUNAL"))
penal_2018 <- select(penal_2018, -c("COD. TRIBUNAL"))
penal_2019 <- select(penal_2019, -c("COD. TRIBUNAL"))
penal_2020 <- select(penal_2020, -c("COD. TRIBUNAL"))
penal_2021 <- select(penal_2021, -c("COD. TRIBUNAL"))
penal_2022 <- select(penal_2022, -c("CÓDIGO TRIBUNAL"))
penal_2023 <- select(penal_2023, -c("CÓDIGO TRIBUNAL"))
penal_2015 <- select(penal_2015, -c("FECHA INGRESO"))
penal_2016 <- select(penal_2016, -c("FECHA INGRESO"))
penal_2017 <- select(penal_2017, -c("FECHA INGRESO"))
penal_2018 <- select(penal_2018, -c("FECHA INGRESO"))
penal_2019 <- select(penal_2019, -c("FECHA INGRESO"))
penal_2020 <- select(penal_2020, -c("FECHA INGRESO"))
penal_2021 <- select(penal_2021, -c("FECHA INGRESO"))
penal_2022 <- select(penal_2022, -c("FECHA INGRESO"))
penal_2023 <- select(penal_2023, -c("FECHA INGRESO"))
penal_2015 <- select(penal_2015, -c("CORTE"))
penal_2016 <- select(penal_2016, -c("CORTE"))
penal_2017 <- select(penal_2017, -c("CORTE"))
penal_2018 <- select(penal_2018, -c("CORTE"))
penal_2019 <- select(penal_2019, -c("CORTE"))
penal_2020 <- select(penal_2020, -c("CORTE"))
penal_2021 <- select(penal_2021, -c("CORTE"))
penal_2022 <- select(penal_2022, -c("CORTE"))
penal_2023 <- select(penal_2023, -c("CORTE"))

# -- 4 -- Preprocesamiento de datos II: Renombramiento de columnas ----
penal_2015 <- rename(penal_2015, "TOTAL INGRESOS POR MATERIAS" = "TOTAL INGRESOS POR MATERIAS(*)")

# -- 5 -- Características: Adición de columna
penal_2021$`TOTAL INGRESOS POR MATERIAS` <- 1

# -- 6 -- Integración de datos: Unificación de datasets de 2015 a 2023
penal_2015_2023 = rbind(penal_2015,penal_2016,penal_2017,penal_2018,penal_2019,penal_2020,penal_2021,penal_2022,penal_2023)
penal_2015_2023 <- select(penal_2015_2023, -c("TIPO CAUSA"))

# -- 7 -- Exploración de datos: Identificación de códigos únicos para delitos relacionados con la ebriedad ----
penal_ebriedad <- subset(penal_2015_2023, grepl("EBRIEDAD", MATERIA, ignore.case = TRUE))
penal_conduc   <- subset(penal_2015_2023, grepl("CONDUC.", MATERIA, ignore.case = TRUE))

# -- 8 -- Filtrado de datos: Extracción de registros de conducción en estado de ebriedad ----
codigos_ebriedad_unicos1 <- unique(penal_ebriedad$`COD. MATERIA`)
codigos_ebriedad_unicos2 <- unique(penal_conduc$`COD. MATERIA`)
codigos_ebriedad_unicos = c(codigos_ebriedad_unicos1, codigos_ebriedad_unicos2)
codigos_ebriedad_unicos = unique(codigos_ebriedad_unicos)
print(codigos_ebriedad_unicos)

# -- 8 -- Nuevo DF con sólo MATERIA de conducción en estado de ebriedad----
codigos_materia <- c(4011,14001,14002,14003,14004,14006,14007,14008,14009,14052,12075,12078,12079,12080,12083,12184,12185)

conduccion_2015_2023 <- penal_2015_2023[penal_2015_2023$"COD. MATERIA" %in% codigos_materia, ]

# -- 9 -- Preprocesamiento de datos III: Transformación de valores en el dataframe
conduccion_2015_2023 <- conduccion_2015_2023 %>%
  mutate(TRIBUNAL = ifelse(TRIBUNAL == '6º TRIBUNAL DE JUICIO ORAL EN LO PENAL DE SANTIAGO',
                           '6º TRIBUNAL DE JUICIO ORAL EN LO PENAL DE SAN MIGUEL',TRIBUNAL))

# -- 10 -- Limpieza de registros ----
conduccion_2015_2023$TRIBUNAL1 <- conduccion_2015_2023$TRIBUNAL
conduccion_2015_2023$TRIBUNAL<-gsub("JUZGADO DE GARANTÍA DE ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("TRIBUNAL DE JUICIO ORAL EN LO PENAL ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("JUZGADO DE LETRAS Y GARANTÍA DE ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("1º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("JUZGADO DE GARANTIA DE ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("2º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("3º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("4º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("5º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("6º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("7º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("8º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("9º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("10º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("11º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("12º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("13º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("14º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("15º ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("DE ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<- gsub("\\.", "", conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("JUZGADO LETRAS ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("1","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("TRIBUNAL ORAL EN LO PENAL ","",conduccion_2015_2023$TRIBUNAL)
conduccion_2015_2023$TRIBUNAL<-gsub("Y GARANTIA ","",conduccion_2015_2023$TRIBUNAL)

# -- 11 -- Renombrando otras columnas: Cambia los nombres de las columnas "TRIBUNAL" a
         # "COMUNA" y "TRIBUNAL1" en el DataFrame conduccion_2015_2023
conduccion_2015_2023 <- rename(conduccion_2015_2023,"COMUNA" = "TRIBUNAL")
conduccion_2015_2023 <- rename(conduccion_2015_2023,"TRIBUNAL" = "TRIBUNAL1")

# -- 12 -- Extrayendo mes de la columna MES INGRESO: Extrae solo el mes
        # (dos últimos caracteres) de la columna "MES INGRESO
conduccion_2015_2023$`MES INGRESO` <- substr(conduccion_2015_2023$`MES INGRESO`, start = 6, stop = 7)

#  -- 13 -- Pasa todos los registros a MAYÚSCULA, sin tildes y mantiene la virgulilla de la ñ ----
old_chars <- "áéíóúÁÉÍÓÚ"
new_chars <- "aeiouAEIOU"
columnas <- c("COMUNA","MATERIA", "TRIBUNAL")
conduccion_2015_2023[columnas] <- lapply(conduccion_2015_2023[columnas], function(x) if(is.character(x)) chartr(old_chars, new_chars, toupper(x)) else x)

# -- 15 -- Replicando los casos ingresados con el mismo codigo en un día: Duplica filas en
         # función de los valores en la columna "TOTAL INGRESOS POR MATERIAS". Luego elimina esa columna.
conduccion_2015_2023 <- conduccion_2015_2023[rep(row.names(conduccion_2015_2023), conduccion_2015_2023$`TOTAL INGRESOS POR MATERIAS`), ]
conduccion_2015_2023 <- select(conduccion_2015_2023, -c("TOTAL INGRESOS POR MATERIAS"))

# -- 16 -- Cambia 'ACHAO' a 'QUINCHAO' en la columna COMUNA
conduccion_2015_2023 <- conduccion_2015_2023 %>%
  mutate(COMUNA = ifelse(COMUNA == 'ACHAO', 'QUINCHAO', COMUNA))
conduccion_2015_2023 <- conduccion_2015_2023 %>%
  mutate(COMUNA = ifelse(COMUNA == 'PUERTO CISNES', 'CISNES', COMUNA))

# -- 17 -- Incorporando columna "NOMBRE REGION" / Carga y limpieza del nuevo DF ----
         # Cargando datos que contienen principalmente dos columnas útiles para la correcta
         # identificación entre Regiones y Comunas
RRPC <- read_excel("DATASET_PENAL/NEW_REGIONES_PROVINCIAS_COMUNAS.xlsx",range = "A2:D348")

RRPC <- rename(RRPC, "NOMBRE COMUNA" = "Nombre Comuna")
RRPC <- rename(RRPC, "NOMBRE REGION" = "Nombre Región desde 2018")
RRPC <- select(RRPC, -c("Código Comuna hasta 1999"))
RRPC <- select(RRPC, -c("Provincia desde 2018"))

#  -- 18 -- Pasa todos los registros a MAYÚSCULA, sin tildes y mantiene la virgulilla de la ñ
old_chars <- "áéíóúÁÉÍÓÚ"
new_chars <- "aeiouAEIOU"
colum <- c("NOMBRE COMUNA","NOMBRE REGION" )

#  -- 19 -- Aplicando chart()
RRPC[colum] <- lapply(RRPC[colum], function(x) if(is.character(x)) chartr(old_chars, new_chars, toupper(x)) else x)

# -- 20 -- Nuevo DF llamado conduccion_V1 incorporado comunas, provincias y regiones ----
conduccion_V1 <- merge(conduccion_2015_2023, RRPC, by.x = "COMUNA", by.y = "NOMBRE COMUNA", all = TRUE)
conduccion_V1 <- rename(conduccion_V1, "NOMBRE COMUNA" = "COMUNA")

# -- 21 -- Limpieza de posibles registros vacíos: Elimina las filas que contienen valores
         # NA en el DataFrame conduccion_V1.
conduccion_sin_vacios <- na.omit(conduccion_V1, "RIT")
conduccion_sin_vacios <- select(conduccion_sin_vacios, -c("RIT"))

# -- 22 --  Exportación de datos en formato .xlsx para la posterior etapa de Procesamiento,
          # visualización y exploración de Tendencias Frecuencistas: Exporta el DataFrame procesado y
          # limpio como un archivo .xlsx.

write_xlsx(conduccion_sin_vacios,"conduccion_130823_2015_2023.xlsx")