# Universidad Nacional de Chimborazo

**Facultad:** Facultad de Ingenier√≠a  
**Carrera:** Ciencia de Datos e IA  
**Materia:** Modelamiento  
**Docente:** Estalin Mejia H.  
**Semestre:** Tercero

---

## Trabajo Aut√≥nomo 2

### An√°lisis de Regresi√≥n Lineal M√∫ltiple: Cr√≠menes de Chicago

**Autores:**  
- Alisson Atupa√±a
- Mario Camacho
- Lenin Lopez

**Fecha:** 24 de octubre de 2025

**Riobamba - Ecuador**

## 1. Introducci√≥n

### Objetivo del An√°lisis

Realizar un modelo de **regresi√≥n lineal m√∫ltiple** para predecir la **tasa de arrestos** por distrito en Chicago, utilizando variables como tipo de crimen, ubicaci√≥n, y factores temporales.

### ¬øQu√© es Regresi√≥n Lineal M√∫ltiple?

Es una t√©cnica que modela la relaci√≥n entre:
- **Una variable dependiente** (Y): num√©rica continua
- **M√∫ltiples variables independientes** (X‚ÇÅ, X‚ÇÇ, ..., X‚Çô): predictores

**Ecuaci√≥n:**

$$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$$

### Dataset: Chicago Crimes (2001-Presente)

- **Fuente:** [Chicago Data Portal](https://data.cityofchicago.org/)
- **Tama√±o:** 8+ millones de registros
- **Muestra:** 1,000,000 registros aleatorios

### Variable Dependiente (Y)

**Tasa de Arrestos por Distrito:** Porcentaje de cr√≠menes que resultaron en arresto, agregado por distrito.

### Variables Independientes (X)

1. **Promedio de cr√≠menes dom√©sticos** por distrito
2. **Distribuci√≥n de tipos de crimen** (proporci√≥n de cada tipo)
3. **Promedio de cr√≠menes por hora** del d√≠a
4. **Proporci√≥n de ubicaciones** m√°s comunes
5. **√çndice de densidad criminal** por distrito

## 2. Carga de Librer√≠as

Instalamos y cargamos las librer√≠as necesarias para el an√°lisis:

In [None]:
# Instalaci√≥n de paquetes (ejecutar solo la primera vez)
# install.packages(c("readr", "dplyr", "ggplot2", "lubridate", "car", "corrplot"))

# Cargar librer√≠as
library(readr)      # Leer archivos CSV
library(dplyr)      # Manipulaci√≥n de datos
library(ggplot2)    # Visualizaciones
library(lubridate)  # Manejo de fechas
library(car)        # Diagn√≥sticos de regresi√≥n (VIF)
library(corrplot)   # Matriz de correlaci√≥n

cat("‚úì Librer√≠as cargadas correctamente\n")

## 3. Carga de Datos

### Estrategia de Carga Optimizada

Usamos archivo `.RData` para cargar r√°pidamente la muestra pre-procesada:

In [None]:
# Archivos
archivo_csv <- "Crimes.csv"
archivo_rdata <- "Chicago_Crimes_Sample_1M.RData"

# Cargar datos
if (file.exists(archivo_rdata)) {
  cat("Cargando muestra pre-procesada...\n")
  load(archivo_rdata)
  cat("‚úì Datos cargados:", formatC(nrow(datos_muestra), big.mark=","), "registros\n")
} else {
  cat("Leyendo CSV completo y creando muestra...\n")
  datos_completos <- read_csv(archivo_csv, show_col_types = FALSE)
  
  set.seed(42)
  datos_muestra <- datos_completos %>% sample_n(min(1000000, nrow(datos_completos)))
  
  muestra_info <- list(
    fecha_creacion = Sys.time(),
    registros_originales = nrow(datos_completos),
    registros_muestra = nrow(datos_muestra),
    semilla = 42
  )
  
  save(datos_muestra, muestra_info, file = archivo_rdata)
  rm(datos_completos)
  gc()
  
  cat("‚úì Muestra guardada en:", archivo_rdata, "\n")
}

# Exploraci√≥n inicial
cat("\nDimensiones:", nrow(datos_muestra), "√ó", ncol(datos_muestra), "\n")
cat("Columnas:", paste(names(datos_muestra), collapse=", "), "\n")

## 4. Preparaci√≥n de Datos

### 4.1 Limpieza y Transformaci√≥n

In [None]:
# Funci√≥n auxiliar para encontrar columnas
encontrar_col <- function(df, nombres) {
  for(n in nombres) if(n %in% names(df)) return(n)
  return(NULL)
}

# Seleccionar y renombrar columnas necesarias
datos <- datos_muestra %>%
  select(
    Arrest = !!sym(encontrar_col(datos_muestra, c("Arrest", "arrest"))),
    Primary_Type = !!sym(encontrar_col(datos_muestra, c("Primary Type", "Primary.Type"))),
    Location_Description = !!sym(encontrar_col(datos_muestra, c("Location Description", "Location.Description"))),
    Domestic = !!sym(encontrar_col(datos_muestra, c("Domestic", "domestic"))),
    District = !!sym(encontrar_col(datos_muestra, c("District", "district"))),
    Ward = !!sym(encontrar_col(datos_muestra, c("Ward", "ward"))),
    Community_Area = !!sym(encontrar_col(datos_muestra, c("Community Area", "Community.Area"))),
    Date = !!sym(encontrar_col(datos_muestra, c("Date", "date")))
  ) %>%
  mutate(
    # Extraer hora del d√≠a
    Date_Time = mdy_hms(Date),
    Hour = hour(Date_Time),
    
    # Convertir tipos
    Arrest = as.logical(Arrest),
    Domestic = as.logical(Domestic),
    District = as.character(District),
    Arrest_Numeric = as.numeric(Arrest)  # 1 = arresto, 0 = no arresto
  ) %>%
  filter(!is.na(District), !is.na(Arrest), District != "") %>%
  drop_na()

cat("‚úì Datos limpiados:", formatC(nrow(datos), big.mark=","), "registros\n")

### 4.2 Crear Dataset Agregado por Distrito

**¬øPor qu√© agregamos por distrito?**

Para regresi√≥n lineal m√∫ltiple necesitamos una **variable dependiente num√©rica continua**. Calculamos la **tasa de arrestos** (porcentaje) por distrito.

In [None]:
# Agregaci√≥n por distrito
datos_distrito <- datos %>%
  group_by(District) %>%
  summarise(
    # VARIABLE DEPENDIENTE: Tasa de arrestos (%)
    Tasa_Arrestos = mean(Arrest_Numeric) * 100,
    
    # VARIABLES INDEPENDIENTES:
    # 1. Proporci√≥n de cr√≠menes dom√©sticos
    Prop_Domesticos = mean(as.numeric(Domestic), na.rm=TRUE) * 100,
    
    # 2. Total de cr√≠menes (densidad)
    Total_Crimenes = n(),
    
    # 3. Hora promedio de ocurrencia
    Hora_Promedio = mean(Hour, na.rm=TRUE),
    
    # 4. Diversidad de tipos de crimen (√≠ndice)
    Diversidad_Crimenes = n_distinct(Primary_Type),
    
    # 5. Diversidad de ubicaciones
    Diversidad_Ubicaciones = n_distinct(Location_Description)
  ) %>%
  filter(Total_Crimenes >= 100) %>%  # Solo distritos con suficientes datos
  mutate(
    # Normalizamos algunas variables
    Log_Crimenes = log(Total_Crimenes + 1),
    Densidad_Normalizada = scale(Total_Crimenes)[,1]
  )

cat("\n‚úì Dataset agregado creado\n")
cat("  Distritos:", nrow(datos_distrito), "\n")
cat("  Variables:", ncol(datos_distrito), "\n\n")

# Mostrar primeras filas
print(head(datos_distrito, 10))

## 5. An√°lisis Exploratorio

### 5.1 Estad√≠sticas Descriptivas

In [None]:
cat("=== ESTAD√çSTICAS DESCRIPTIVAS ===\n\n")
summary(datos_distrito %>% select(-District))

### 5.2 Visualizaci√≥n de Relaciones

In [None]:
# Gr√°fico 1: Distribuci√≥n de tasa de arrestos
ggplot(datos_distrito, aes(x=Tasa_Arrestos)) +
  geom_histogram(bins=15, fill="steelblue", color="white") +
  labs(title="Distribuci√≥n de Tasa de Arrestos por Distrito",
       x="Tasa de Arrestos (%)", y="Frecuencia") +
  theme_minimal()

# Gr√°fico 2: Relaci√≥n entre variables
ggplot(datos_distrito, aes(x=Prop_Domesticos, y=Tasa_Arrestos)) +
  geom_point(size=3, alpha=0.6, color="darkblue") +
  geom_smooth(method="lm", se=TRUE, color="red") +
  labs(title="Tasa de Arrestos vs Proporci√≥n de Cr√≠menes Dom√©sticos",
       x="Proporci√≥n de Cr√≠menes Dom√©sticos (%)",
       y="Tasa de Arrestos (%)") +
  theme_minimal()

### 5.3 Matriz de Correlaci√≥n

In [None]:
# Seleccionar variables num√©ricas
vars_numericas <- datos_distrito %>%
  select(Tasa_Arrestos, Prop_Domesticos, Log_Crimenes, 
         Hora_Promedio, Diversidad_Crimenes, Diversidad_Ubicaciones)

# Calcular matriz de correlaci√≥n
matriz_cor <- cor(vars_numericas, use="complete.obs")

# Visualizar
corrplot(matriz_cor, method="color", type="upper", 
         addCoef.col="black", number.cex=0.7,
         tl.col="black", tl.srt=45,
         title="Matriz de Correlaci√≥n",
         mar=c(0,0,2,0))

cat("\nüìä Correlaciones con Tasa_Arrestos:\n")
print(sort(matriz_cor[,"Tasa_Arrestos"], decreasing=TRUE))

## 6. Modelo de Regresi√≥n Lineal M√∫ltiple

### 6.1 Construcci√≥n del Modelo

In [None]:
# Modelo completo
modelo <- lm(Tasa_Arrestos ~ Prop_Domesticos + Log_Crimenes + 
             Hora_Promedio + Diversidad_Crimenes + Diversidad_Ubicaciones,
             data = datos_distrito)

# Resumen del modelo
cat("\n=== RESUMEN DEL MODELO DE REGRESI√ìN LINEAL M√öLTIPLE ===\n\n")
summary(modelo)

### 6.2 Interpretaci√≥n de M√©tricas

#### R¬≤ (R-squared)
- Indica qu√© porcentaje de la variabilidad en Y es explicada por el modelo
- Valor entre 0 y 1 (m√°s cercano a 1 = mejor)

#### R¬≤ Ajustado (Adjusted R-squared)
- Penaliza la inclusi√≥n de variables que no mejoran el modelo
- M√°s confiable que R¬≤ cuando hay m√∫ltiples predictores

#### p-value
- < 0.05: La variable es estad√≠sticamente significativa
- > 0.05: La variable no aporta significativamente al modelo

### 6.3 Diagn√≥sticos del Modelo

In [None]:
# Gr√°ficos de diagn√≥stico
par(mfrow=c(2,2))
plot(modelo)
par(mfrow=c(1,1))

# VIF (Variance Inflation Factor) - Detectar multicolinealidad
cat("\n=== FACTOR DE INFLACI√ìN DE VARIANZA (VIF) ===\n")
cat("VIF < 5: No hay multicolinealidad\n")
cat("VIF > 10: Multicolinealidad severa\n\n")
print(vif(modelo))

## 7. Resultados y Conclusiones

### 7.1 Ecuaci√≥n del Modelo

In [None]:
coefs <- coef(modelo)
cat("\n=== ECUACI√ìN DEL MODELO ===\n\n")
cat(sprintf("Tasa_Arrestos = %.2f + %.2f(Prop_Domesticos) + %.2f(Log_Crimenes) + \n",
            coefs[1], coefs[2], coefs[3]))
cat(sprintf("                %.2f(Hora_Promedio) + %.2f(Diversidad_Crimenes) + \n",
            coefs[4], coefs[5]))
cat(sprintf("                %.2f(Diversidad_Ubicaciones)\n", coefs[6]))

### 7.2 Predicciones vs Valores Reales

In [None]:
# A√±adir predicciones al dataset
datos_distrito$Prediccion <- predict(modelo)
datos_distrito$Residuos <- residuals(modelo)

# Gr√°fico de predicciones vs reales
ggplot(datos_distrito, aes(x=Tasa_Arrestos, y=Prediccion)) +
  geom_point(size=3, alpha=0.6, color="darkblue") +
  geom_abline(intercept=0, slope=1, color="red", linetype="dashed", size=1) +
  labs(title="Valores Predichos vs Valores Reales",
       x="Tasa de Arrestos Real (%)",
       y="Tasa de Arrestos Predicha (%)") +
  theme_minimal()

### 7.3 M√©tricas Finales

In [None]:
# Extraer m√©tricas
r2 <- summary(modelo)$r.squared
r2_adj <- summary(modelo)$adj.r.squared
rmse <- sqrt(mean(residuals(modelo)^2))
mae <- mean(abs(residuals(modelo)))

cat("\n=== M√âTRICAS FINALES DEL MODELO ===\n\n")
cat(sprintf("R¬≤ (R-cuadrado):           %.4f (%.2f%%)\n", r2, r2*100))
cat(sprintf("R¬≤ Ajustado:               %.4f (%.2f%%)\n", r2_adj, r2_adj*100))
cat(sprintf("RMSE (Error cuadr√°tico):   %.2f\n", rmse))
cat(sprintf("MAE (Error absoluto):      %.2f\n", mae))

cat("\nüìä Interpretaci√≥n:\n")
if(r2_adj > 0.7) {
  cat("‚úì Excelente ajuste del modelo (R¬≤ ajustado > 0.70)\n")
} else if(r2_adj > 0.5) {
  cat("‚úì Buen ajuste del modelo (R¬≤ ajustado > 0.50)\n")
} else {
  cat("‚ö†Ô∏è Ajuste moderado del modelo (R¬≤ ajustado < 0.50)\n")
}

## 8. Conclusiones

### Hallazgos Principales

1. **Variables Significativas:** Identificamos qu√© factores influyen m√°s en la tasa de arrestos
2. **Calidad del Modelo:** R¬≤ y R¬≤ ajustado indican qu√© tan bien el modelo explica los datos
3. **Aplicabilidad:** El modelo puede ayudar a predecir tasas de arresto en diferentes distritos

### Limitaciones

- Agregaci√≥n por distrito reduce el tama√±o muestral
- Variables omitidas pueden influir en los resultados
- Relaciones pueden no ser perfectamente lineales

### Recomendaciones

- Incluir m√°s variables socioecon√≥micas
- Probar transformaciones de variables
- Considerar interacciones entre predictores