<a href="https://colab.research.google.com/github/Jarcos09/Tareas/blob/main/ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🎓 **Inteligencia Artificial Aplicada**

## 🤖 **Análisis de grandes volúmenes de datos (Gpo 10)**

### 🏛️ Tecnológico de Monterrey

#### 👨‍🏫 **Profesor titular :** Dr. Iván Olmos Pineda
#### 👩‍🏫 **Profesor asistente :** Verónica Sandra Guzmán de Valle

### 📊 **Actividad 3 | Aprendizaje supervisado y no supervisado**

#### 📅 **25 de mayo de 2025**

🧑‍💻 **A01795941 :** Juan Carlos Pérez Nava




**Aprendizaje automático**

En el ámbito del aprendizaje automático, existen tres enfoques principales dentro del proceso de Machine Learning: el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo.

# Aprendizaje supervisado

En el aprendizaje supervisado, el modelo se entrena con un conjunto de datos etiquetados, donde cada ejemplo de entrada está asociado a una salida deseada o etiqueta. A través de este proceso, el modelo aprende a identificar patrones y a realizar predicciones sobre nuevos datos con características similares. Este tipo de aprendizaje es ampliamente utilizado en aplicaciones como el reconocimiento de imágenes, el procesamiento de lenguaje natural y los sistemas de recomendación.

El aprendizaje supervisado se emplea principalmente en problemas de clasificación y regresión. En la clasificación, el objetivo es asignar una categoría a cada instancia de entrada, como ocurre en el filtrado de correos electrónicos entre "spam" y "no spam" o en la clasificación de imágenes de acuerdo con su contenido. Por otro lado, en la regresión, el propósito es predecir un valor numérico en función de los datos disponibles, lo que resulta útil en tareas como la predicción del precio de una vivienda, la estimación de ventas futuras o el análisis de tendencias económicas.

**Algoritmos representativos**

* *Regresión Lineal* : Predice valores numéricos basándose en relaciones lineales entre variables.
* *Regresión Logística* : Algoritmo utilizado para clasificación binaria, que modela la probabilidad de que una instancia pertenezca a una de dos categorías mediante una función logística.
* *Árboles de Decisión* : Modelos que utilizan una estructura jerárquica basada en reglas para dividir los datos según sus características. Cada nodo representa una decisión basada en un atributo, y las hojas corresponden a las posibles clasificaciones o predicciones.
* *Random Forest* : Algoritmo basado en un conjunto de árboles de decisión, donde cada árbol contribuye a la predicción final mediante un proceso de votación o promedio.
* *Support Vector Machines (SVM)* : Algoritmo que identifica un hiperplano óptimo para separar las diferentes clases dentro de un espacio de características.
* *Redes Neuronales* : Modelos computacionales inspirados en el funcionamiento de las neuronas biológicas, diseñados para resolver tareas complejas mediante el aprendizaje automático y la adaptación de patrones en los datos.


`PySpark` ofrece una amplia variedad de algoritmos de aprendizaje supervisado a través de `MLlib`, diseñados para resolver problemas de clasificación y regresión en entornos de procesamiento distribuido. Algunos de los algoritmos más representativos incluyen:

* *LinearRegression* : Modelo utilizado para predecir valores numéricos.
* *LogisticRegression* : Algoritmo de clasificación binaria basado en la función logística.
* *DecisionTreeClassifier* : Árboles de decisión que segmentan los datos según criterios específicos para realizar clasificaciones.
* *RandomForestClassifier* : Conjunto de árboles de decisión que mejora la precisión y reduce el sobreajuste mediante el aprendizaje en múltiples subconjuntos de datos.
* *GBTClassifier (Gradient Boosted Trees)* : Algoritmo basado en árboles de decisión potenciados mediante el método de boosting.
*	*MultilayerPerceptronClassifier (Redes neuronales)* : Algoritmo de
aprendizaje supervisado basado en redes neuronales multicapa.

# Aprendizaje no supervisado

El aprendizaje no supervisado es una forma de aprendizaje automático que trabaja con datos sin etiquetas, es decir, sin respuestas conocidas de antemano. A diferencia del aprendizaje supervisado, donde el modelo aprende a partir de ejemplos con resultados correctos, en el aprendizaje no supervisado el **objetivo es descubrir patrones, estructuras o relaciones** dentro de los datos sin una guía específica.

Este enfoque es especialmente útil cuando se trabaja con conjuntos de datos donde no se conoce la estructura ni la relación entre las variables. Una de las técnicas más utilizadas en el aprendizaje no supervisado es el agrupamiento (clustering), que organiza los datos en grupos según sus similitudes. Esto ayuda a identificar patrones ocultos y facilita su análisis.

**Algoritmos representativos**

* *K-Means* : Agrupa los datos en k grupos según sus similitudes.
* *Gaussian Mixture Model (GMM)* : Modelo que asigna probabilidades a cada punto para determinar a qué grupo pertenece.
* *Hierarchical Clustering* : Crea una estructura de grupos organizados en distintos niveles, como un árbol.
* *DBSCAN* : Encuentra grupos de datos con diferentes densidades, permitiendo detectar patrones en conjuntos más dispersos.
* *PCA (Análisis de Componentes Principales)* : Reduce la cantidad de variables en los datos, conservando la información más importante para facilitar su análisis.

`PySpark MLlib` ofrece varios algoritmos de aprendizaje no supervisado, que ayudan a encontrar patrones en los datos sin necesidad de etiquetas. Algunos de los más usados son:

* *KMeans* : Agrupa los datos en varios grupos según sus similitudes.
* *GaussianMixture* : Usa probabilidades para asignar cada dato a un grupo.
* *BisectingKMeans* : Variante de K-Means que divide los datos de manera más organizada.
* *PowerIterationClustering* : Método que descubre relaciones en los datos mediante cálculos repetitivos.
* *PCA (Análisis de Componentes Principales)* : Reduce la cantidad de variables para hacer más fácil el análisis de datos complejos.

# Aprendizaje por refuerzo

El aprendizaje por refuerzo es un enfoque dentro del aprendizaje automático en el que un agente interactúa con un entorno dinámico y aprende a tomar decisiones. Básicamente, prueba diferentes acciones, recibe retroalimentación en forma de recompensas o penalizaciones y ajusta su comportamiento para mejorar con el tiempo.



In [1]:
# Módulos del sistema para manejo de rutas
import os
import sys

# Definición del path para incluir una librería personalizada
module_path = os.path.abspath(os.path.join('proyectos/librerias'))
if module_path not in sys.path:
    sys.path.append(module_path)

# Importación de módulos gráficos personalizados
from graficas import *

# Importación de PySpark para manipulación y análisis de datos
from pyspark.sql import (
    SparkSession, DataFrame
)
from pyspark.sql.types import (
    StructType, StructField, StringType, IntegerType, DoubleType
)
from pyspark.sql.functions import (
    col, sum, avg, lit, count, when, format_number, round, rand
)
from pyspark.ml.feature import (
    StringIndexer, OneHotEncoder, QuantileDiscretizer,
    VectorAssembler, StandardScaler, Imputer
)
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.regression import LinearRegression, RandomForestRegressor

from pyspark.ml.clustering import KMeans, GaussianMixture
from pyspark.ml.evaluation import ClusteringEvaluator

# Importación de librerías para visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Librería para la integración con Kaggle
import kagglehub

# Manipulación de datos con Pandas
import pandas as pd

# Funciones de programación funcional
from functools import reduce

In [2]:
path = kagglehub.dataset_download("sobhanmoosavi/us-accidents")
print("Path to dataset files:", path)

Path to dataset files: /home/jarcos/.cache/kagglehub/datasets/sobhanmoosavi/us-accidents/versions/13


In [3]:
# Creación de una sesión de Spark
# Se configura el modo "local[*]" para usar todos los núcleos disponibles en la máquina
# Se asigna un nombre a la aplicación y se configuran los límites de memoria para el driver y los ejecutores

spark = SparkSession.builder.master("local[*]").appName("CargarCSV").config("spark.driver.memory", "40g").config("spark.executor.memory", "20g").getOrCreate()
df_accident = spark.read.option("header", True).option("inferSchema", True).csv(path)
spark.sparkContext.setLogLevel("ERROR")

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/05/24 22:04:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [4]:
df_accident.show(5)

+---+-------+--------+-------------------+-------------------+-----------------+------------------+-------+-------+------------+--------------------+--------------------+------------+----------+-----+----------+-------+----------+------------+-------------------+--------------+-------------+-----------+------------+--------------+--------------+---------------+-----------------+-----------------+-------+-----+--------+--------+--------+-------+-------+----------+-------+-----+---------------+--------------+------------+--------------+--------------+-----------------+---------------------+
| ID| Source|Severity|         Start_Time|           End_Time|        Start_Lat|         Start_Lng|End_Lat|End_Lng|Distance(mi)|         Description|              Street|        City|    County|State|   Zipcode|Country|  Timezone|Airport_Code|  Weather_Timestamp|Temperature(F)|Wind_Chill(F)|Humidity(%)|Pressure(in)|Visibility(mi)|Wind_Direction|Wind_Speed(mph)|Precipitation(in)|Weather_Condition|Ameni

# Selección de los datos

El conjunto de datos se particiona tomando en cuenta las condiciones climáticas y la severidad del accidente, dividiéndolo en múltiples subconjuntos según combinaciones específicas de estas características. Esta misma partición fue la propuesta en el ejercicio anterior.

In [5]:
# Definición de las columnas clave que serán utilizadas para el análisis y particionamiento
columnas_clave = [
    "ID", "Weather_Condition","Precipitation(in)","Severity", "City", "State",
    "Temperature(F)", "Humidity(%)", "Visibility(mi)","Wind_Direction","Wind_Speed(mph)","Crossing","Junction","Railway",
    "Roundabout","Stop","Sunrise_Sunset","Traffic_Calming","Traffic_Signal"]

total = df_accident.count()

# Agrupación de los datos por condición climática y severidad del accidente
# Se calcula la frecuencia de cada combinación y su proporción respecto al total de datos
combinaciones_top = df_accident.groupBy("Weather_Condition", "Severity") \
    .agg(count("*").alias("Frecuencia")) \
    .withColumn("Proporción", col("Frecuencia") / total) \
    .orderBy(col("Proporción").desc())

# Transformación de la columna "Proporción" para expresarla en porcentaje
combinaciones_top = combinaciones_top.withColumn("Frecuencia", col("Frecuencia"))  \
    .withColumn("Proporción", col("Proporción")*100)

# Escritura del DataFrame en formato Parquet, particionando por las columnas "Weather_Condition" y "Severity"
df_particionada = df_accident.select(columnas_clave)
df_particionada.write.mode("overwrite").partitionBy("Weather_Condition","Severity").parquet("us_accidents_partitioned")

combinaciones_top.show(10, truncate=False)



+-----------------+--------+----------+------------------+
|Weather_Condition|Severity|Frecuencia|Proporción        |
+-----------------+--------+----------+------------------+
|Fair             |2       |2226576   |28.810332392473782|
|Mostly Cloudy    |2       |792735    |10.25743511523869 |
|Cloudy           |2       |692929    |8.966015449005317 |
|Partly Cloudy    |2       |548760    |7.1005696655734685|
|Clear            |2       |536971    |6.948028270815386 |
|Light Rain       |2       |270162    |3.495706870017238 |
|Overcast         |2       |248938    |3.22108319011686  |
|Clear            |3       |244956    |3.1695589018882835|
|Fair             |3       |240084    |3.1065186376367455|
|Mostly Cloudy    |3       |189229    |2.4484905919651614|
+-----------------+--------+----------+------------------+
only showing top 10 rows



                                                                                

In [6]:
# Definición del umbral mínimo de registros para considerar una partición
max_reg = 2000

# Filtrado de combinaciones donde la frecuencia es mayor o igual al umbral definido
combinaciones_filtradas = combinaciones_top.filter(col("Frecuencia") >= max_reg)

# Recolección de las combinaciones filtradas en una lista para su uso posterior
particiones = combinaciones_filtradas.select("Weather_Condition", "Severity").collect()

print(f'✅ Se identificaron \033[32m\033[1m{len(particiones)}\033[0m particiones que contienen más de \033[36m{max_reg}\033[0m registros.')



✅ Se identificaron [32m[1m77[0m particiones que contienen más de [36m2000[0m registros.




In [7]:
# Número de muestras a extraer por partición
muestras = 2000
contador_total = 0
semilla = 450

# Crear un DataFrame vacío con la misma estructura que df_particionada
df_muestras = spark.createDataFrame([], df_particionada.schema)
lista_muestras = []

for particion in particiones:

    contador_total += 1
    weather = particion["Weather_Condition"]
    severity = particion["Severity"]

    print(f"Extrayendo Partición #\033[32m\033[1m{contador_total:03}\033[0m | 🌦 Weather: \033[1;36m{weather}\033[0m | ⚠ Severity: \033[1;36m{severity}\033[0m")

    # Filtrar los registros que corresponden a la condición climática y severidad
    df_filtrada = df_particionada.filter((col("Weather_Condition") == weather) & (col("Severity") == severity))

    # Ordenar aleatoriamente los registros y limitar la cantidad de muestras extraídas
    df_rand = df_filtrada.orderBy(rand(semilla)).limit(muestras)

    lista_muestras.append(df_rand)

df_muestras = lista_muestras[0]

# Unir todas las muestras en un solo DataFrame
for df in lista_muestras[1:]:
    df_muestras = df_muestras.union(df)

# Se reduce el número de particiones para mejorar la eficiencia en el procesamiento
df_muestras = df_muestras.persist().coalesce(8)

contador_total = df_muestras.count()
print(f"Total de registros obtenidos en la muestra: \033[32m\033[1m{contador_total}\033[0m")

Extrayendo Partición #[32m[1m001[0m | 🌦 Weather: [1;36mFair[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m002[0m | 🌦 Weather: [1;36mMostly Cloudy[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m003[0m | 🌦 Weather: [1;36mCloudy[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m004[0m | 🌦 Weather: [1;36mPartly Cloudy[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m005[0m | 🌦 Weather: [1;36mClear[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m006[0m | 🌦 Weather: [1;36mLight Rain[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m007[0m | 🌦 Weather: [1;36mOvercast[0m | ⚠ Severity: [1;36m2[0m
Extrayendo Partición #[32m[1m008[0m | 🌦 Weather: [1;36mClear[0m | ⚠ Severity: [1;36m3[0m
Extrayendo Partición #[32m[1m009[0m | 🌦 Weather: [1;36mFair[0m | ⚠ Severity: [1;36m3[0m
Extrayendo Partición #[32m[1m010[0m | 🌦 Weather: [1;36mMostly Cloudy[0m | ⚠ Severity: [1;36m3[0m
Extrayend



Total de registros obtenidos en la muestra: [32m[1m148000[0m


                                                                                

# Preparación de los datos

In [8]:
# Función para obtener un resumen de valores nulos en un DataFrame de PySpark
def obten_nulos(particion):

  print(f"📊 Total de filas en la partición: {particion.count()}")
  print(f"🗂️ Número de columnas en la partición: {len(particion.columns)}")

  info_nulos = {}
  cols_nulos = {}
  total_rows = particion.count()
  registros_totales = particion.count()

  # Contar valores nulos por columna y almacenarlos en un DataFrame temporal

  cols_nulos = particion.select(
    [sum(col(c).isNull().cast("int")).alias(c) for c in particion.columns]
    )

  # Convertir los resultados en un diccionario para fácil acceso
  info_nulos = {c: cols_nulos.select(c).collect()[0][0] for c in particion.columns}

  # Filtrar solo las columnas con valores nulos y calcular el porcentaje de nulos
  cols_nulos = {c: {"count": v, "percent": (v / total_rows) * 100} for c, v in info_nulos.items() if v > 0}

  # Validar si existen columnas con valores nulos
  if not cols_nulos:
        print("✅ No existen valores nulos en la partición.")
        return

  # Crear una lista con los resultados para construir un DataFrame
  listado = [(key, value['count'], value['percent']) for key, value in cols_nulos.items()]

  # Definir el esquema del DataFrame para almacenar el resumen de valores nulos
  schema = StructType([
    StructField("Columna", StringType(), True),
    StructField("Total de nulos", IntegerType(), True),
    StructField("Porcentaje", DoubleType(), True)
  ])

  df_resumen_nulos = spark.createDataFrame(listado, schema=schema)

  for col_name in [c for c, t in df_resumen_nulos.dtypes if t == "double"]:
      df_resumen_nulos = df_resumen_nulos.withColumn(col_name, round(df_resumen_nulos[col_name], 2))

  # Ordenar el DataFrame por el número de valores nulos en orden descendente y mostrarlo en consola
  df_resumen_nulos.orderBy(col("Total de nulos").desc()).show(truncate=False)

In [9]:
# Función para imputar valores faltantes en una partición del conjunto de datos
def imputacion_valores(particion):
    print("✅ Se realiza la imputación utilizando los siguientes valores:\n")

    # Obtener las modas (valores más frecuentes) de las variables categóricas
    moda_Weather = particion.groupBy("Weather_Condition").count().orderBy(col("count").desc()).first()["Weather_Condition"]
    moda_City = particion.groupBy("City").count().orderBy(col("count").desc()).first()["City"]
    moda_Sunset = particion.groupBy("Sunrise_Sunset").count().orderBy(col("count").desc()).first()["Sunrise_Sunset"]
    moda_wub = particion.groupBy("Wind_Direction").count().orderBy(col("count").desc()).first()["Wind_Direction"]

    # Obtener promedios de las variables numéricas para imputación
    media_Temperature = particion.select(round(avg(col("Temperature(F)")), 2).alias("avg_temp")).collect()[0][0]
    media_Humidity = particion.select(round(avg(col("Humidity(%)")), 2).alias("avg_humidity")).collect()[0][0]
    media_Visibility = particion.select(round(avg(col("Visibility(mi)")), 2).alias("avg_visibility")).collect()[0][0]
    media_Precipitation = particion.select(round(avg(col("Precipitation(in)")), 2).alias("avg_precipitation")).collect()[0][0]
    media_Wind_Speed = particion.select(round(avg(col("Wind_Speed(mph)")), 2).alias("avg_wind_speed")).collect()[0][0]


    # Imprimir valores calculados correctamente
    print(f"🌡️ Temperatura promedio: {media_Temperature}")
    print(f"💧 Humedad promedio: {media_Humidity}")
    print(f"👀 Visibilidad promedio: {media_Visibility}")
    print(f"🌧️ Precipitación promedio: {media_Precipitation}")
    print(f"🌬️ Velocidad del viento promedio: {media_Wind_Speed}")

    print(f"☁️ Condición meteorológica más frecuente: {moda_Weather}")
    print(f"🏙️ Ciudad más frecuente: {moda_City}")
    print(f"🌅 Hora de atardecer más frecuente: {moda_Sunset}")
    print(f"🌬️ Dirección del viento más frecuente: {moda_wub}")

    # Aplicar imputación de valores numéricos con la estrategia de promedio
    imputer_num = Imputer(
        inputCols=["Temperature(F)", "Humidity(%)", "Visibility(mi)", "Precipitation(in)", "Wind_Speed(mph)"],
        outputCols=["Temperature(F)", "Humidity(%)", "Visibility(mi)", "Precipitation(in)", "Wind_Speed(mph)"]
    ).setStrategy("mean")

    particion = imputer_num.fit(particion).transform(particion)

    # Imputación de valores categóricos utilizando la moda
    particion = particion.na.fill({
        "Weather_Condition": moda_Weather,
        "City": moda_City,
        "Sunrise_Sunset": moda_Sunset,
        "Wind_Direction": moda_wub
    })

    print("\n🔍 Se validan nuevamente los valores nulos para corroborar la imputación.\n")

    obten_nulos(particion)

    for col_name in [c for c, t in particion.dtypes if t == "double"]:
      particion = particion.withColumn(col_name, round(particion[col_name], 1))

    return particion

In [10]:
obten_nulos(df_muestras)

📊 Total de filas en la partición: 148000
🗂️ Número de columnas en la partición: 19
+-----------------+--------------+----------+
|Columna          |Total de nulos|Porcentaje|
+-----------------+--------------+----------+
|Precipitation(in)|33372         |22.55     |
|Wind_Speed(mph)  |8679          |5.86      |
|Humidity(%)      |1013          |0.68      |
|Temperature(F)   |698           |0.47      |
|Wind_Direction   |691           |0.47      |
|Sunrise_Sunset   |537           |0.36      |
|Visibility(mi)   |438           |0.3       |
|City             |2             |0.0       |
+-----------------+--------------+----------+



[Stage 3566:>                                                     (0 + 16) / 16]                                                                                

In [11]:
muestra_imp = imputacion_valores(df_muestras)

✅ Se realiza la imputación utilizando los siguientes valores:

🌡️ Temperatura promedio: 57.41
💧 Humedad promedio: 75.16
👀 Visibilidad promedio: 7.01
🌧️ Precipitación promedio: 0.04
🌬️ Velocidad del viento promedio: 10.15
☁️ Condición meteorológica más frecuente: Fair
🏙️ Ciudad más frecuente: Houston
🌅 Hora de atardecer más frecuente: Day
🌬️ Dirección del viento más frecuente: CALM

🔍 Se validan nuevamente los valores nulos para corroborar la imputación.

📊 Total de filas en la partición: 148000
🗂️ Número de columnas en la partición: 19
✅ No existen valores nulos en la partición.


In [12]:
# Identificación de valores atípicos (outliers) en las columnas numéricas seleccionadas
# Se utiliza la función calcular_IQR, que aplica el método del rango intercuartílico (IQR)
# para detectar valores fuera del rango típico en cada columna especificada
outliers = calcular_IQR(muestra_imp,['Precipitation(in)','Temperature(F)','Humidity(%)','Visibility(mi)','Wind_Speed(mph)'])
outliers

Unnamed: 0_level_0,IQR,Límite Inf.,Límite Sup.
Columna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Precipitation(in),0.0,0.0,0.0
Temperature(F),31.0,-4.5,119.5
Humidity(%),30.0,17.0,137.0
Visibility(mi),7.0,-7.5,20.5
Wind_Speed(mph),8.0,-7.0,25.0


In [13]:
for index, row in outliers.iterrows():
    columna = index
    limite_inf = row["Límite Inf."]
    limite_sup = row["Límite Sup."]

    columnas_IQR = f"`{columna}`"

    # Aplicar una transformación a la columna para reemplazar valores atípicos
    # Si un valor está fuera de los límites establecidos, se sustituye por el promedio de la columna
    # En caso contrario, se conserva el valor original
    muestra_imp = muestra_imp.withColumn(columna, when((col(columna) < limite_inf) | (col(columna) > limite_sup), muestra_imp.selectExpr(f"avg({columnas_IQR})").collect()[0][0])
        .otherwise(col(columna))
    )


In [14]:
# Se vuelve a calcular el rango intercuartílico (IQR) para verificar cambios
outliers = calcular_IQR(muestra_imp,['Precipitation(in)','Temperature(F)','Humidity(%)','Visibility(mi)','Wind_Speed(mph)'])
outliers

Unnamed: 0_level_0,IQR,Límite Inf.,Límite Sup.
Columna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Precipitation(in),0.0,0.0,0.0
Temperature(F),31.0,-4.5,119.5
Humidity(%),29.0,19.5,135.5
Visibility(mi),7.0,-7.5,20.5
Wind_Speed(mph),7.7,-6.55,24.25


# Preparación del conjunto de entrenamiento y prueba

In [15]:
categoricas = ["Weather_Condition", "City", "State", "Sunrise_Sunset","Wind_Direction"]
binarias = ["Crossing", "Junction", "Railway", "Roundabout", "Stop", "Traffic_Calming", "Traffic_Signal"]

In [16]:
# ✅ Crear una copia de imp_sev_1 para trabajar sobre ella sin modificar el original
Transf_muestra = muestra_imp.alias("copia_muestra")

# 🔄 Convertir variables binarias a formato numérico (0 y 1)
for columna in binarias:
    Transf_muestra = Transf_muestra.withColumn(columna + "_num", col(columna).cast("int"))

# 🎭 Aplicar StringIndexer a las variables categóricas para convertirlas en valores numéricos indexados
indexers = [StringIndexer(inputCol=col, outputCol=col + "_Index").fit(Transf_muestra) for col in categoricas]
for indexer in indexers:
    Transf_muestra = indexer.transform(Transf_muestra)

# 🏷️ Aplicar StringIndexer a las etiquetas
index_label = StringIndexer(inputCol="Severity", outputCol="Severity_Index").fit(Transf_muestra)
Transf_muestra = index_label.transform(Transf_muestra)

# 🏗️ Aplicar One-Hot Encoding a las variables categóricas para representarlas como vectores binarios
codificadores = [OneHotEncoder(inputCol=col + "_Index", outputCol=col + "_OHE").fit(Transf_muestra) for col in categoricas]
for codificador in codificadores:
    Transf_muestra = codificador.transform(Transf_muestra)

# 🔥 Eliminar las columnas originales que ya no se usarán en el modelo después de la transformación
Transf_muestra = Transf_muestra.drop(*categoricas).drop(*binarias)

# 👀 Mostrar el DataFrame transformado para verificar los cambios
Transf_muestra.show(5)

+---------+-----------------+--------+--------------+-----------+--------------+---------------+------------+------------+-----------+--------------+--------+-------------------+------------------+-----------------------+----------+-----------+--------------------+--------------------+--------------+---------------------+-------------------+---------------+------------------+------------------+
|       ID|Precipitation(in)|Severity|Temperature(F)|Humidity(%)|Visibility(mi)|Wind_Speed(mph)|Crossing_num|Junction_num|Railway_num|Roundabout_num|Stop_num|Traffic_Calming_num|Traffic_Signal_num|Weather_Condition_Index|City_Index|State_Index|Sunrise_Sunset_Index|Wind_Direction_Index|Severity_Index|Weather_Condition_OHE|           City_OHE|      State_OHE|Sunrise_Sunset_OHE|Wind_Direction_OHE|
+---------+-----------------+--------+--------------+-----------+--------------+---------------+------------+------------+-----------+--------------+--------+-------------------+------------------+-------

In [17]:
# 📌 Definición de la lista de atributos que serán utilizados en el modelo de análisis
atributos = [ 'Precipitation(in)', 'Temperature(F)', 'Humidity(%)', 'Visibility(mi)',
              'Wind_Speed(mph)','Crossing_num', 'Junction_num', 'Railway_num',
              'Roundabout_num','Stop_num','Traffic_Calming_num', 'Traffic_Signal_num',
              'Weather_Condition_OHE','City_OHE','State_OHE','Sunrise_Sunset_OHE','Wind_Direction_OHE']

In [18]:
# 🏗️ Construcción de un vector de características a partir de las variables seleccionadas
# Se utiliza VectorAssembler para combinar múltiples columnas en una única columna de características
assembler = VectorAssembler(inputCols=atributos, outputCol = 'Caracteristicas')
df_vec = assembler.transform(Transf_muestra)

df_vec.select('Caracteristicas','Severity_index').show(5,truncate = False)

+---------------------------------------------------------------------------------+--------------+
|Caracteristicas                                                                  |Severity_index|
+---------------------------------------------------------------------------------+--------------+
|(7853,[1,2,3,4,13,3521,7801,7829,7834],[60.0,72.0,10.0,12.0,1.0,1.0,1.0,1.0,1.0])|0.0           |
|(7853,[1,2,3,13,378,7800,7829,7830],[72.0,20.0,10.0,1.0,1.0,1.0,1.0,1.0])        |0.0           |
|(7853,[1,2,3,4,13,1679,7788,7829,7831],[75.0,94.0,7.0,3.0,1.0,1.0,1.0,1.0,1.0])  |0.0           |
|(7853,[1,2,3,13,109,7786,7830],[54.0,78.0,10.0,1.0,1.0,1.0,1.0])                 |0.0           |
|(7853,[1,2,3,4,13,820,7781,7834],[60.0,55.0,10.0,6.0,1.0,1.0,1.0,1.0])           |0.0           |
+---------------------------------------------------------------------------------+--------------+
only showing top 5 rows



In [19]:
# 📏 Aplicar StandardScaler para normalizar las características
# StandardScaler escala las características para que tengan una desviación estándar unitaria

scaler = StandardScaler(inputCol="Caracteristicas", outputCol="Caracteristicas_scale", withStd=True, withMean=True)
scaler_model = scaler.fit(df_vec)
df_scaled = scaler_model.transform(df_vec)
df_scaled.select('Caracteristicas_scale','Severity_index').show(5,truncate = True)

+---------------------+--------------+
|Caracteristicas_scale|Severity_index|
+---------------------+--------------+
| [-0.3713612229363...|           0.0|
| [-0.3713612229363...|           0.0|
| [-0.3713612229363...|           0.0|
| [-0.3713612229363...|           0.0|
| [-0.3713612229363...|           0.0|
+---------------------+--------------+
only showing top 5 rows



In [20]:
# 📊 División del conjunto de datos escalado en entrenamiento y prueba
# Se asigna el 80% de los datos a train y el 20% a test, utilizando una semilla para reproducibilidad
train, test = df_scaled.randomSplit([0.8,0.2], seed = 10)

train_size = train.count()
test_size = test.count()
total_size = train_size + test_size

# 📈 Cálculo de los porcentajes de cada conjunto respecto al total de datos
train_pct = (train_size / total_size) * 100
test_pct = (test_size / total_size) * 100

# 📢 Impresión de la distribución de datos en los conjuntos de entrenamiento y prueba
print(f"""Existen \033[36m{train_size:,}\033[0m instancias en el conjunto de entrenamiento ({train_pct:.2f}%),
y \033[36m{test_size:,}\033[0m en el conjunto de prueba ({test_pct:.2f}%).""")



Existen [36m118,446[0m instancias en el conjunto de entrenamiento (80.03%),
y [36m29,554[0m en el conjunto de prueba (19.97%).


                                                                                

# Construcción del modelo de aprendizaje supervisado

In [21]:
# 📉 Definir el modelo de regresión lineal
# Se especifican las características de entrada y la variable objetivo
# Se configuran hiperparámetros como el número de iteraciones, la regularización y ElasticNet
lr = LinearRegression(featuresCol='Caracteristicas_scale', labelCol='Severity_Index', maxIter=300, regParam=0.1, elasticNetParam=0.8)

# 🏋️ Entrenamiento del modelo de regresión lineal con el conjunto de datos de entrenamiento
lr_model = lr.fit(train)

# 🔄 Generación de predicciones en el conjunto de prueba
y_pred = lr_model.transform(test)

# 👀 Visualización de los primeros 5 resultados con las características escaladas, el índice real y la predicción
y_pred.select('Caracteristicas_scale','Severity_Index','prediction').show(5,truncate = True)



+---------------------+--------------+------------------+
|Caracteristicas_scale|Severity_Index|        prediction|
+---------------------+--------------+------------------+
| [-0.3713612229363...|           0.0|1.1670775015564125|
| [-0.3713612229363...|           0.0|1.1643756618806025|
| [-0.3713612229363...|           0.0|0.6519426483175073|
| [-0.3713612229363...|           0.0|1.1700204822651412|
| [-0.3713612229363...|           0.0| 1.170454801151175|
+---------------------+--------------+------------------+
only showing top 5 rows



In [22]:
# 📊 Imprimir los coeficientes del modelo
# Estos valores representan el peso asignado a cada característica en la ecuación de regresión lineal
print (f'El coeficiente del modelo : {lr_model.coefficients}')

# 🎯 Imprimir el intercepto del modelo
# Este valor indica el punto donde la línea de regresión cruza el eje vertical cuando todas las características son cero
print (f'El intercepto del modelo es : {lr_model.intercept}')

El coeficiente del modelo : (7853,[3,4,12,13,14,15,16],[0.0072260203273301835,-0.0042370892576847705,0.11366886636089815,0.11642096993137069,0.1153523295316653,0.11545001126048281,0.11314114694150355])
El intercepto del modelo es : 0.7847284369666645


In [23]:
# 📏 Creación del evaluador de regresión
# Se utiliza para calcular múltiples métricas de desempeño del modelo de regresión lineal
eval_lr = RegressionEvaluator(
    labelCol="Stop_num",
    predictionCol="prediction"
)

# 📉 Cálculo del Error Cuadrático Medio (RMSE)
# Indica la magnitud promedio del error del modelo, penalizando grandes desviaciones
rmse_lr = eval_lr.evaluate(y_pred, {eval_lr.metricName: "rmse"})

# 🔄 Cálculo del Error Medio Cuadrático (MSE)
# Mide la diferencia cuadrática entre los valores reales y predichos (más sensible a errores grandes)
mse_lr = eval_lr.evaluate(y_pred, {eval_lr.metricName: "mse"})

# 📊 Cálculo del Error Absoluto Medio (MAE)
# Evalúa la precisión del modelo al calcular el error promedio absoluto sin penalización cuadrática
mae_lr = eval_lr.evaluate(y_pred, {eval_lr.metricName: "mae"})

# 🎯 Cálculo del coeficiente de determinación (R²)
# Mide qué proporción de la variabilidad en los datos es explicada por el modelo
r2_lr = eval_lr.evaluate(y_pred, {eval_lr.metricName: "r2"})

print(f"Regresión Lineal RMSE: {rmse_lr:.3f}")
print(f"Regresión Lineal MSE: {mse_lr:.3f}")
print(f"Regresión Lineal MAE: {mae_lr:.3f}")
print(f"Regresión Lineal R²: {r2_lr:.3f}")




Regresión Lineal RMSE: 0.809
Regresión Lineal MSE: 0.655
Regresión Lineal MAE: 0.774
Regresión Lineal R²: -29.810




El modelo tiene un rendimiento bajo, ya que su valor de R² es negativo. Esto significa que no se ajusta bien a los datos y no logra encontrar patrones útiles. Para mejorar su precisión, se podría revisar qué características están siendo usadas o probar un modelo diferente que funcione mejor para este problema.

In [24]:
# 🌳 Definir el modelo de Random Forest Regressor
# Este modelo utiliza múltiples árboles de decisión para mejorar la precisión de las predicciones
rf = RandomForestRegressor(
    featuresCol='Caracteristicas_scale',
    labelCol='Severity_Index',
    numTrees=100,
    maxDepth=10,
    seed=42
)

# 🏋️ Entrenar el modelo con el conjunto de entrenamiento
rf_model = rf.fit(train)

# 🔄 Generar predicciones con el conjunto de prueba
y_pred_rf = rf_model.transform(test)

# 📏 Evaluador de regresión para medir el rendimiento del modelo
eval_rf = RegressionEvaluator(labelCol="Severity_Index", predictionCol="prediction")

rmse_rf = eval_rf.evaluate(y_pred_rf, {eval_rf.metricName: "rmse"})
mse_rf = eval_rf.evaluate(y_pred_rf, {eval_rf.metricName: "mse"})
mae_rf = eval_rf.evaluate(y_pred_rf, {eval_rf.metricName: "mae"})
r2_rf = eval_rf.evaluate(y_pred_rf, {eval_rf.metricName: "r2"})

print(f"Random Forest RMSE: {rmse_rf:.3f}")
print(f"Random Forest MSE: {mse_rf:.3f}")
print(f"Random Forest MAE: {mae_rf:.3f}")
print(f"Random Forest R²: {r2_rf:.3f}")



Random Forest RMSE: 0.744
Random Forest MSE: 0.554
Random Forest MAE: 0.626
Random Forest R²: 0.357


                                                                                

Estos resultados muestran que el modelo de Random Forest ha logrado una mejora significativa en comparación con el de regresión lineal, ofreciendo una mayor precisión en las predicciones. Aunque el R² sigue siendo relativamente bajo, indica que el modelo está capturando patrones útiles en los datos.

# Construcción del modelo de aprendizaje no supervisado

In [25]:
# 🔍 Definir el modelo K-Means
# K-Means es un algoritmo de agrupamiento que clasifica los datos en k grupos según su similitud
kmeans = KMeans(
    featuresCol='Caracteristicas_scale',
    k=5,
    seed=42
)

# 🏋️ Entrenar el modelo con los datos escalados
model_kmeans = kmeans.fit(df_scaled)

# 🔄 Aplicar el modelo entrenado para hacer predicciones y asignar cada dato a un cluster
kMeans_pred = model_kmeans.transform(df_scaled)

# 📊 Mostrar los resultados de la agrupación
kMeans_pred.select('Caracteristicas_scale','Severity_Index','prediction').show(5,truncate = True)



+---------------------+--------------+----------+
|Caracteristicas_scale|Severity_Index|prediction|
+---------------------+--------------+----------+
| [-0.3713612229363...|           0.0|         0|
| [-0.3713612229363...|           0.0|         0|
| [-0.3713612229363...|           0.0|         0|
| [-0.3713612229363...|           0.0|         0|
| [-0.3713612229363...|           0.0|         0|
+---------------------+--------------+----------+
only showing top 5 rows



In [26]:
# 📏 Definir el evaluador de clustering
# Se utiliza para medir qué tan bien separados están los clusters generados por K-Means
eval = ClusteringEvaluator(featuresCol='Caracteristicas_scale', predictionCol='prediction', metricName="silhouette")

# 🔍 Calcular el Silhouette Score
# Esta métrica evalúa qué tan bien definidos están los clusters. Valores cercanos a 1 indican buenos clusters,
# valores cercanos a 0 sugieren solapamiento y valores negativos indican mala asignación de datos
silhouette_score = eval.evaluate(kMeans_pred)

print(f"Silhouette Score: {silhouette_score:.3f}")




Silhouette Score: -0.432




In [27]:
kMeans_pred.groupBy('prediction').count().show()

[Stage 18706:>                                                      (0 + 8) / 8]

+----------+------+
|prediction| count|
+----------+------+
|         1|  4073|
|         3|    10|
|         2|    49|
|         0|143853|
|         4|    15|
+----------+------+



                                                                                

El resultado del Silhouette Score muestra que los grupos creados por K-Means no están bien separados. Esto significa que el modelo no está organizando los datos correctamente y que muchos puntos están más cerca de otro grupo distinto al que se les asignó. Como el Silhouette Score es negativo, indica que la agrupación no está funcionando bien y que podría necesitar ajustes.