# Universidad Nacional de Chimborazo

**Facultad:** Facultad de Ingeniería  
**Carrera:** Ciencia de Datos e IA  
**Materia:** Modelamiento  
**Docente:** Estalin Mejia H.  
**Semestre:** Tercero

---

## Trabajo Autónomo 2

### Análisis de Regresión Lineal Múltiple: Predicción de Arrestos en Crímenes de Chicago

**Autores:**  
- Alisson Atupaña
- Mario Camacho
- Lenin Lopez

**Fecha:** 24 de octubre de 2025

**Riobamba - Ecuador**

---


In [None]:
# Cargar el dataset datos.rds
datos <- readRDS("datos.rds")

# Información básica del dataset
print("=== INFORMACIÓN BÁSICA DEL DATASET ===")
print(paste("Dimensiones:", nrow(datos), "filas x", ncol(datos), "columnas"))
print("")
print("Estructura del dataset:")
str(datos)

In [None]:
# Analizar tipos de variables
print("=== ANÁLISIS DE VARIABLES ===")
print("Nombres de todas las columnas:")
print(names(datos))
print("")

# Identificar variables numéricas (candidatas para Y)
variables_numericas <- sapply(datos, is.numeric)
print("Variables NUMÉRICAS (candidatas para variable dependiente Y):")
print(names(datos)[variables_numericas])
print("")

# Identificar variables categóricas/texto (candidatas para X)
variables_categoricas <- sapply(datos, function(x) is.character(x) | is.factor(x))
print("Variables CATEGÓRICAS (candidatas para variables independientes X):")
print(names(datos)[variables_categoricas])

In [None]:
# Resumen estadístico de variables numéricas
print("=== RESUMEN ESTADÍSTICO DE VARIABLES NUMÉRICAS ===")
variables_num <- datos[, variables_numericas, drop = FALSE]
if(ncol(variables_num) > 0) {
  summary(variables_num)
} else {
  print("No hay variables numéricas en el dataset")
}

# Verificar variabilidad (evitar constantes)
print("=== VERIFICACIÓN DE VARIABILIDAD ===")
if(ncol(variables_num) > 0) {
  varianza <- sapply(variables_num, var, na.rm = TRUE)
  print("Varianza de cada variable numérica:")
  print(varianza)
  
  constantes <- names(varianza[varianza == 0 | is.na(varianza)])
  if(length(constantes) > 0) {
    print("⚠️ Variables constantes (no útiles para regresión):")
    print(constantes)
  } else {
    print("✅ Todas las variables numéricas tienen variabilidad")
  }
}

In [None]:
# Verificar valores faltantes
print("=== VERIFICACIÓN DE VALORES FALTANTES ===")
valores_na <- sapply(datos, function(x) sum(is.na(x)))
porcentaje_na <- round((valores_na / nrow(datos)) * 100, 2)

tabla_na <- data.frame(
  Variable = names(valores_na),
  Valores_NA = valores_na,
  Porcentaje_NA = porcentaje_na
)

print("Tabla de valores faltantes:")
print(tabla_na[tabla_na$Valores_NA > 0, ])

if(sum(valores_na) == 0) {
  print("✅ No hay valores faltantes en el dataset")
} else {
  print(paste("⚠️ Total de valores faltantes:", sum(valores_na)))
}

In [None]:
# DIAGNÓSTICO FINAL: ¿Es adecuado para regresión lineal múltiple?
print("=== DIAGNÓSTICO FINAL PARA REGRESIÓN LINEAL MÚLTIPLE ===")

# Criterio 1: Tamaño del dataset
cat("1. TAMAÑO DEL DATASET:\n")
if(nrow(datos) >= 1000) {
  cat("✅ Suficientes observaciones:", nrow(datos), "filas (≥1000)\n")
} else {
  cat("⚠️ Pocas observaciones:", nrow(datos), "filas (<1000)\n")
}

# Criterio 2: Variables numéricas disponibles
cat("\n2. VARIABLES DEPENDIENTES CANDIDATAS (Y):\n")
vars_num_sin_constantes <- names(variables_num)[sapply(variables_num, function(x) var(x, na.rm = TRUE) > 0)]
if(length(vars_num_sin_constantes) > 0) {
  cat("✅ Variables numéricas disponibles:", length(vars_num_sin_constantes), "\n")
  cat("   Candidatas para Y:", paste(vars_num_sin_constantes, collapse = ", "), "\n")
} else {
  cat("❌ No hay variables numéricas con variabilidad\n")
}

# Criterio 3: Variables independientes disponibles
cat("\n3. VARIABLES INDEPENDIENTES CANDIDATAS (X):\n")
vars_categoricas_disponibles <- names(datos)[variables_categoricas]
vars_numericas_para_x <- vars_num_sin_constantes[length(vars_num_sin_constantes) > 1]
total_x <- length(vars_categoricas_disponibles) + length(vars_numericas_para_x)
if(total_x >= 2) {
  cat("✅ Variables independientes disponibles:", total_x, "\n")
  if(length(vars_categoricas_disponibles) > 0) {
    cat("   Categóricas:", paste(head(vars_categoricas_disponibles, 3), collapse = ", "), 
        if(length(vars_categoricas_disponibles) > 3) "..." else "", "\n")
  }
  if(length(vars_numericas_para_x) > 0) {
    cat("   Numéricas:", paste(head(vars_numericas_para_x, 3), collapse = ", "), 
        if(length(vars_numericas_para_x) > 3) "..." else "", "\n")
  }
} else {
  cat("⚠️ Pocas variables independientes disponibles:", total_x, "\n")
}

In [None]:
# CONCLUSIÓN FINAL
cat("\n=== CONCLUSIÓN ===\n")
criterios_cumplidos <- 0

if(nrow(datos) >= 1000) criterios_cumplidos <- criterios_cumplidos + 1
if(length(vars_num_sin_constantes) > 0) criterios_cumplidos <- criterios_cumplidos + 1
if(total_x >= 2) criterios_cumplidos <- criterios_cumplidos + 1

if(criterios_cumplidos == 3) {
  cat("🎉 DATASET ADECUADO PARA REGRESIÓN LINEAL MÚLTIPLE\n")
  cat("   ✅ Todos los criterios se cumplen\n")
  cat("   📊 Puedes proceder con el análisis de regresión\n")
} else if(criterios_cumplidos == 2) {
  cat("⚠️  DATASET PARCIALMENTE ADECUADO\n")
  cat("   🔧 Necesita algunas transformaciones\n")
} else {
  cat("❌ DATASET NO ADECUADO PARA REGRESIÓN LINEAL MÚLTIPLE\n")
  cat("   🔄 Considera otro dataset o modificaciones importantes\n")
}

cat("\nCriterios cumplidos:", criterios_cumplidos, "de 3\n")