# Actividad 4 | Métricas de calidad de resultados

In [1]:
import kagglehub
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import MultilabelClassificationEvaluator
from pyspark.ml.feature import StringIndexer, OneHotEncoder, StandardScaler, VectorAssembler
from pyspark.ml.functions import vector_to_array
from pyspark.sql import SparkSession
from pyspark.sql.functions import when, col, hour, date_format, count, round, concat_ws, rand
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, percentile_approx
import findspark


  from .autonotebook import tqdm as notebook_tqdm


## 1. Construcción de la muestra M

Primero descargaremos el dataset de forma local y creamos la sesión de PySpark.

In [2]:
# Download the latest version
path = kagglehub.dataset_download("sobhanmoosavi/us-accidents")

print("Path to dataset files:", path)

dataset_path = path + "/US_Accidents_March23.csv"

Path to dataset files: C:\Users\danie\.cache\kagglehub\datasets\sobhanmoosavi\us-accidents\versions\13


In [3]:
# Create a Spark session
findspark.init()
spark = SparkSession.builder.master("local[*]").getOrCreate()

spark.conf.set("spark.sql.repl.eagerEval.enabled", True)

spark

Ahora podemos cargar nuestro dataset como un dataframe de PySpark.

In [4]:
df = spark.read.csv(dataset_path, header=True, inferSchema=True)

df.show(5)

+---+-------+--------+-------------------+-------------------+-----------------+------------------+-------+-------+------------+--------------------+--------------------+------------+----------+-----+----------+-------+----------+------------+-------------------+--------------+-------------+-----------+------------+--------------+--------------+---------------+-----------------+-----------------+-------+-----+--------+--------+--------+-------+-------+----------+-------+-----+---------------+--------------+------------+--------------+--------------+-----------------+---------------------+
| ID| Source|Severity|         Start_Time|           End_Time|        Start_Lat|         Start_Lng|End_Lat|End_Lng|Distance(mi)|         Description|              Street|        City|    County|State|   Zipcode|Country|  Timezone|Airport_Code|  Weather_Timestamp|Temperature(F)|Wind_Chill(F)|Humidity(%)|Pressure(in)|Visibility(mi)|Wind_Direction|Wind_Speed(mph)|Precipitation(in)|Weather_Condition|Ameni

A continuación aplicamos nuestro muestreo del conjunto de datos, tal como se describió en la actividad anterior.

El primer paso consiste en crear las columnas Weather_Condition, Hora_Periodo y Tipo_Día.

In [5]:
df = df.withColumn("Weather_Type",
    when(col("Weather_Condition").isNull(), "Desconocido")
    .when(col("Weather_Condition").rlike("(?i)null|N/A"), "Desconocido")
    .when(col("Weather_Condition").rlike("(?i)Rain|Drizzle|Thunder|Storm|Snow|Sleet|Hail|Ice|Fog|Haze|Mist|Dust|Sand|Smoke|Wintry|Squall|Tornado|Ash|Funnel"), "Adverso")
    .otherwise("Favorable")
)

df = df.withColumn(
    "Hora_Periodo",
    when(hour("Start_Time") < 6, "Madrugada")
    .when(hour("Start_Time") < 18, "Alta actividad")
    .otherwise("Tarde-Noche")
)

df = df.withColumn("Dia_Semana", date_format("Start_Time", "E"))
df = df.withColumn(
    "Tipo_Día",
    when(col("Dia_Semana").isin("Sat", "Sun"), "Fin de semana").otherwise("Laboral")
)

Posteriormente, filtramos cualquier registro en el cual las columnas clave (Severity, Hora_Periodo, Tipo_Día y Weather_Type) son nulas.

In [6]:
df_filtrado = df.filter(
    (col("Severity").isNotNull()) &
    (col("Hora_Periodo").isNotNull()) &
    (col("Tipo_Día").isNotNull()) &
    (col("Weather_Type").isNotNull())
)

Ahora obtenemos los estratos a partir de las diferentes combinaciones de estas variables, al igual que la probabilidad para cada estrato.

In [7]:
total_registros = df_filtrado.count()

estratos = df_filtrado.groupBy("Severity", "Hora_Periodo", "Tipo_Día", "Weather_Type") \
    .agg(count("*").alias("frecuencia")) \
    .withColumn("probabilidad", round(col("frecuencia") / total_registros, 6)) \
    .orderBy(col("probabilidad").desc())

Para cada estrato, calculamos el número de elementos a incluir a partir del tamaño de la muestra deseado y la probabilidad para cada estrato. En este caso, buscamos una sub-muestra de 10,000 elementos.

In [8]:
# Tamaño total de muestra deseado
n_muestra = 10000

estratos = estratos.withColumn(
    "n_estrato",
    round(col("probabilidad") * n_muestra).cast("integer")
)

Unimos los dataframes con la información de los estratos con nuestro dataset.

In [9]:
# En df_filtrado (base depurada sin nulos en variables clave)
df_filtrado = df_filtrado.withColumn(
    "estrato_id",
    concat_ws("_", "Severity", "Hora_Periodo", "Tipo_Día", "Weather_Type")
)

# Igual en la tabla de estratos con probabilidades y n_estrato
estratos = estratos.withColumn(
    "estrato_id",
    concat_ws("_", "Severity", "Hora_Periodo", "Tipo_Día", "Weather_Type")
)

df_muestreo = df_filtrado.join(
    estratos.select("estrato_id", "n_estrato"),
    on="estrato_id",
    how="inner"
)

Ordenamos de forma aleatoria los elementos dentro de cada estrato.

In [10]:
# Asignar un número aleatorio y calcular el orden por estrato
df_muestreo = df_muestreo.withColumn("rand", rand(seed=42))

window = Window.partitionBy("estrato_id").orderBy("rand")

df_muestreo = df_muestreo.withColumn("row_num", row_number().over(window))

Finalmente, creamos nuestro data frame con la muestra a utilizar, incluyendo sólamente el número de elementos correspondiente a cada estrato.

In [11]:
df_muestra_final = df_muestreo.filter(col("row_num") <= col("n_estrato"))

Una vez construida la muestra, podemos persistir el dataframe para que PySpark optimice las transformaciones posteriores. Al persistir el DataFrame, nos aseguramos de "congelar" su estado actual, de modo que cualquier operación posterior tenga un punto de partida definido.

In [12]:
df_muestra_final = df_muestra_final.persist()

In [13]:
df_muestra_final.summary()

summary,estrato_id,ID,Source,Severity,Start_Lat,Start_Lng,End_Lat,End_Lng,Distance(mi),Description,Street,City,County,State,Zipcode,Country,Timezone,Airport_Code,Temperature(F),Wind_Chill(F),Humidity(%),Pressure(in),Visibility(mi),Wind_Direction,Wind_Speed(mph),Precipitation(in),Weather_Condition,Sunrise_Sunset,Civil_Twilight,Nautical_Twilight,Astronomical_Twilight,Weather_Type,Hora_Periodo,Dia_Semana,Tipo_Día,n_estrato,rand,row_num
count,10003,10003,10003,10003.0,10003.0,10003.0,5552.0,5552.0,10003.0,10003,9996,10002,10003,10003,10000,10003,9992,9971,9793.0,7379.0,9773.0,9820.0,9774.0,9779,9274.0,7090.0,9775,9966,9966,9966,9966,10003,10003,10003,10003,10003.0,10003,10003.0
mean,,,,2.212636209137259,36.21916174689025,-94.92490494333438,36.37626733720156,-96.25287156289144,0.5453729877488411,,,,,,57144.058607021514,,,,61.70130705606045,58.20455346252879,65.03591527678297,29.54638391038699,9.095945365254758,,7.607321544101784,0.0074640338504936,,,,,,,,,,2107.662801159652,6.447993348574957E-4,1054.331400579826
stddev,,,,0.4878777238015975,5.107221494122912,17.381733822325174,5.293945598709418,18.1791928540894,1.5811612995445157,,,,,,30800.081919386776,,,,18.914183626201737,22.31576221015729,22.72799253953108,0.9663792408880992,2.7315542242426742,,5.241953803631672,0.0457905024285375,,,,,,,,,,1861.2403085753288,3.846901241010442...,1234.8936379224372
min,1_Alta actividad_...,A-1000249,Source1,1.0,24.651971,-124.415166,24.648098,-124.415185,0.0,#1 #2 #3 lane blo...,100th Ave SE,Abingdon,Abbeville,AL,01007-9709,US,US/Central,K04W,-15.0,-35.0,2.0,20.02,0.0,CALM,0.0,0.0,Blowing Dust / Windy,Day,Day,Day,Day,Adverso,Alta actividad,Fri,Fin de semana,1.0,1.023707092429049...,1.0
25%,,,,2.0,33.408390000000004,-117.268898,33.546731,-117.880255,0.0,,,,,,30071.0,,,,49.0,42.0,49.0,29.36,10.0,,4.6,0.0,,,,,,,,,,501.0,3.219139866442733E-4,119.0
50%,,,,2.0,35.785198,-87.92536899999998,36.179922,-90.017958,0.026,,,,,,55718.0,,,,64.0,62.0,67.0,29.86,10.0,,7.0,0.0,,,,,,,,,,995.0,6.337200378750962E-4,473.0
75%,,,,2.0,40.109268,-80.434523,40.329509,-80.323107,0.462,,,,,,90723.0,,,,76.0,75.0,84.0,30.03,10.0,,10.0,0.0,,,,,,,,,,4251.0,9.637690343168304E-4,1751.0
max,4_Tarde-Noche_Lab...,A-998950,Source3,4.0,48.904619,-68.696929,48.910452,-68.688581,41.59999847412109,disabled vehicle ...,Zion Rd,Zumbrota,Yuba,WY,99224,US,US/Pacific,KZZV,114.1,114.0,100.0,31.0,70.0,West,43.0,1.53,Wintry Mix,Night,Night,Night,Night,Favorable,Tarde-Noche,Wed,Laboral,4251.0,0.006384820585985995,4251.0


## 2. Construcción Train - Test

Previo a la construcción de los conjuntos train y test, vamos a realizar una limpieza de datos.
Esto consiste en:
- Eliminar columnas con metadatos que no proporcionarán valor a ningún modelo
- Eliminar columnas que son redundantes con otras columnas en el conjunto de datos
- Eliminar columnas donde más del 5% de los registros son valores faltantes
- De las columnas restantes, eliminar los registros donde existan valores faltantes

In [14]:
# Comenzamos con la limpieza de las columnas agregadas para el sub muestreo
cols_to_drop = ['ID', 'estrato_id', 'n_estrato', 'rand', 'row_num', 'rand', 'Source']


In [15]:
# Ahora las columnas irrelevantes o redundantes.
cols_to_drop += ['Start_Lng', 'End_Lng', 'Start_Lat', 'End_Lat', 'Street', 'City', 'County', 'State', 'Zipcode', 'Country', 'Timezone', 'Airport_Code', 'Weather_Timestamp', 'Civil_Twilight', 'Nautical_Twilight', 'Astronomical_Twilight', 'Wind_Chill(F)', 'Description', 'Wind_Direction', 'Sunrise_Sunset']


In [16]:
# Ignoramos las columnas que ya identificamos como columnas a remover
cols = [c for c in df_muestra_final.columns if c not in cols_to_drop]
total = df_muestra_final.count()

for c in cols:
    n_missing = df_muestra_final.filter(col(c).isNull()).count()
    if n_missing > (total*0.05):
        print(f'Dropping column {c}')
        cols_to_drop.append(c)


Dropping column Wind_Speed(mph)
Dropping column Precipitation(in)


In [17]:
cols = [c for c in df_muestra_final.columns if c not in cols_to_drop]
df_muestra_final = df_muestra_final.dropna(subset=cols)

Una vez realizada la limpieza de datos, podemos proceder a crear nuestros conjuntos de train y test. Para este ejercicio, se utilizará una proporción de 80/20, la cual es comúnmnente utilizada en problemas de aprendizaje de máquina.

In [18]:
train_data,test_data = df_muestra_final.randomSplit([0.8,0.2], seed = 42)
print(f"""Existen {train_data.count()} instancias en el conjunto train, y {test_data.count()} en el conjunto test""")

Existen 7799 instancias en el conjunto train, y 1898 en el conjunto test


## 3. Selección de métricas para medir calidad de resultados

El modelo de aprendizaje automático a crear durante este ejercicio será un modelo de clasificación binaria. La intención de este modelo es predecir si un accidente será de baja o alta severidad, basado en las condiciones bajo las cuales sucedió.

El caso de uso hipotético para este modelo es por parte de los equipos de respuesta a accidentes; la intención será que, una vez recibido un reporte de accidente, puedan utilizar este modelo para predecir su severidad y priorizar los recursos de respuesta de forma apropiada e informada.

Debido a que se trata de un modelo de clasificación binaria, se utilizarán las siguientes métricas para evaluar la calidad del modelo:
- Accuracy
- Precision
- Recall
- F1-Score

Además, considerando el contexto del problema, la métrica para la cual se busca optimizar será recall. Esto es debido a que se busca reducir la cantidad de falsos negativos; es decir, reducir la cantidad de accidentes de alta severidad que son catalogados como baja severidad. El razonamiento detrás de esta decisión es que el costo de un falso negativo (no atender inmediatamente un accidente grave) es mayor que el costo de un falso positivo (atender inmediatamente un accidente leve).

## 4. Entrenamiento de Modelos de Aprendizaje

Antes de comenzar a entrenar nuestro modelo, se realizará preprocesamiento básico del dataset con la finalidad de prepararlo para el entrenamiento.

La primera transformación consiste en crear una columna "Minutes" calculada a partir del tiempo de inicio y final de los accidentes. En el caso de uso hipotético en el que los equipos de respuesta utilizarán este modelo, la columna se calculará a partir de la hora a la que se reportó el accidente y la hora actual.

In [19]:
train_data = train_data.withColumn('Minutes', (col('End_Time').cast('long') - col('Start_Time').cast('long')) / 60)
test_data = train_data.withColumn('Minutes', (col('End_Time').cast('long') - col('Start_Time').cast('long')) / 60)

Ahora procedemos a eliminar outliers mediante la técnica IQR. Esto lo aplicaremos a las columnas Minutes y Distance.

In [20]:
# Calculate Q1 and Q3
quantiles = train_data.select(
    percentile_approx('Minutes', [0.25, 0.75], 10000).alias('quantiles')
).collect()[0]['quantiles']

Q1 = quantiles[0]
Q3 = quantiles[1]
IQR = Q3 - Q1

# Filter out outliers
train_data = train_data.filter(
    (col('Minutes') >= Q1 - 1.5 * IQR) &
    (col('Minutes') <= Q3 + 1.5 * IQR)
)
test_data = test_data.filter(
    (col('Minutes') >= Q1 - 1.5 * IQR) &
    (col('Minutes') <= Q3 + 1.5 * IQR)
)

In [21]:
# Calculate Q1 and Q3
quantiles = train_data.select(
    percentile_approx('Distance(mi)', [0.25, 0.75], 10000).alias('quantiles')
).collect()[0]['quantiles']

Q1 = quantiles[0]
Q3 = quantiles[1]
IQR = Q3 - Q1

# Filter out outliers
train_data = train_data.filter(
    (col('Distance(mi)') >= Q1 - 1.5 * IQR) &
    (col('Distance(mi)') <= Q3 + 1.5 * IQR)
)
test_data = test_data.filter(
    (col('Distance(mi)') >= Q1 - 1.5 * IQR) &
    (col('Distance(mi)') <= Q3 + 1.5 * IQR)
)

Ahora procedemos a crear nuestra columna objetivo a partir de la columna Severity. Para este ejercicio, severidades 1 y 2 se considerarán como accidentes leves, mientras que las severidades 3 y 4 se considerarán accidentes graves.

In [22]:
train_data = train_data.withColumn('IsSevere', (col('Severity') > 2).cast("double"))
test_data = test_data.withColumn('IsSevere', (col('Severity') > 2).cast("double"))

Ahora bien, procedemos a crear nuestro vector de características. Para este ejercicio, consideraremos las variables numéricas Distance, Visibility y Minutes; así como las variables categóricas Weather_Type, Hora_Periodo y Tipo_Día.

Para las variables numéricas, aplicamos escalamiento estándar.

In [23]:
cols_to_scale = ['Distance(mi)', 'Visibility(mi)', 'Minutes']

vectorizer = VectorAssembler(inputCols=cols_to_scale, outputCol="numerical_features")
train_data = vectorizer.transform(train_data)
test_data = vectorizer.transform(test_data)

scaler = StandardScaler(inputCol="numerical_features", outputCol="scaled_features")
fitted_scaler = scaler.fit(train_data)
train_data = fitted_scaler.transform(train_data)
test_data = fitted_scaler.transform(test_data)


Por su parte, las variables categóricas deben ser indexadas primero, para posteriormente codificar mediante One Hot encoding.

In [24]:
categorical_columns = ['Weather_Type', 'Dia_Semana', 'Tipo_Día', 'Hora_Periodo']

# Primero convertimos todas las columnas a índices
for c in categorical_columns:
    indexer = StringIndexer(inputCol=c, outputCol=f"{c}_index", handleInvalid='keep')
    fitted_indexer = indexer.fit(train_data)
    train_data = fitted_indexer.transform(train_data)
    test_data = fitted_indexer.transform(test_data)

In [25]:
categorical_index_cols = [f"{c}_index" for c in categorical_columns]

encoder = OneHotEncoder(inputCols=categorical_index_cols, outputCols=[f"{c}_vector" for c in categorical_columns], handleInvalid='keep')
fitted_encoder = encoder.fit(train_data)
train_data = fitted_encoder.transform(train_data)
test_data = fitted_encoder.transform(test_data)

Ahora creamos un solo vector que contenga las características para entrenar nuestro modelo.

In [26]:
cols_to_vectorize = ['Weather_Type_vector', 'Tipo_Día_vector', 'Hora_Periodo_vector', 'Severity', 'scaled_features']
vectorizer = VectorAssembler(inputCols=cols_to_vectorize, outputCol="input_features")
train_data = vectorizer.transform(train_data)
test_data = vectorizer.transform(test_data)

Debido a que se trata de un problema no balanceado, podemos agregar peso a nuestras clases. Esto evitará sesgos a favor de la clase mayoritaria.

In [50]:
severe_percentage = test_data.where(col('IsSevere') == 1).count() / test_data.count()
severe_weight = 1 - severe_percentage
print("Weights:")
print(f"Severe: {severe_weight}")
print(f"Not severe: {1 - severe_weight}")

train_data = train_data.withColumn('weight', when(col('IsSevere') == 1, severe_weight).otherwise((1-severe_weight)))
test_data = test_data.withColumn('weight', when(col('IsSevere') == 1, severe_weight).otherwise((1-severe_weight)))

Weights:
Severe: 0.7995341873232407
Not severe: 0.20046581267675934


Finalmente, podemos crear un modelo de clasificación. Primero entrenamos con nuestro conjunto de train.

In [55]:
log_regression = LogisticRegression(featuresCol='input_features', labelCol='IsSevere', weightCol='weight').fit(train_data)

Posteriormente, obtenemos las predicciones correspondientes al conjunto de test.

In [56]:
test_predictions = log_regression.transform(test_data)

A partir de estas predicciones, podemos obtener las métricas de desempeño. En este caso, utilizaremos el `MultilabelClassificationEvaluator` de PySpark para evaluar nuestras métricas. Este objeto requiere un dataframe con dos columnas en forma de arreglo, una con la predicción y otra con la etiqueta real. Preparamos nuestro dataframe en este formato.

In [57]:
label_assembler = VectorAssembler(inputCols=['IsSevere'], outputCol='label')
pred_assembler = VectorAssembler(inputCols=['prediction'], outputCol='pred')

test_predictions = (pred_assembler.transform(label_assembler.transform(test_predictions))
         .select(vector_to_array(col('pred')).alias('pred'), vector_to_array(col('label')).alias('label')))

In [58]:
test_accuracy = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='accuracy').evaluate(test_predictions)
test_recall = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='recall').evaluate(test_predictions)
test_precision = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='precision').evaluate(test_predictions)
test_f1 = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='f1Measure').evaluate(test_predictions)

In [59]:
print(f'Accuracy: {test_accuracy:.3f}')
print(f'Recall: {test_recall:.3f}')
print(f'Precision: {test_precision:.3f}')
print(f'F1: {test_f1:.3f}')

Accuracy: 1.000
Recall: 1.000
Precision: 1.000
F1: 1.000


Repetimos el proceso de evaluación para el conjunto de entrenamiento, con la intención de determinar si nuestro modelo está sobre-ajustado o no. Un modelo sobre-ajustado tendrá un rendimiento significativamente superior con el conjunto de entrenamiento.

In [60]:
train_predictions = log_regression.transform(train_data)
train_predictions = (pred_assembler.transform(label_assembler.transform(train_predictions))
         .select(vector_to_array(col('pred')).alias('pred'), vector_to_array(col('label')).alias('label')))

train_accuracy = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='accuracy').evaluate(train_predictions)
train_recall = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='recall').evaluate(train_predictions)
train_precision = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='precision').evaluate(train_predictions)
train_f1 = MultilabelClassificationEvaluator(predictionCol='pred', labelCol='label', metricName='f1Measure').evaluate(train_predictions)

print(f'Accuracy: {train_accuracy:.3f}')
print(f'Recall: {train_recall:.3f}')
print(f'Precision: {train_precision:.3f}')
print(f'F1: {train_f1:.3f}')

Accuracy: 1.000
Recall: 1.000
Precision: 1.000
F1: 1.000


## 5. Análisis de resultados

Como podemos observar, el modelo de regresión logística obtenido a partir de este entrenamiento presenta un rendimiento perfecto, tanto en el conjunto de pruebas como en el conjunto de entrenamiento. Debido a que ambos conjuntos presentan el mismo rendimiento, no se sospecha de sobre-ajuste.

Si bien no es común obtener modelos con rendimiento perfecto, existen posibles causas para esto:
- La calidad de la información en el conjunto de datos original permite el entrenamiento de un modelo de clasificación perfecto
- El preprocesamiento aplicado durante este ejercicio elimina la posibilidad de "ruido" que afectaría el rendimiento del modelo

Cabe destacar que en este ejercicio se utilizó una muestra de 10,000 elementos (de un total de 7.7 millones), por lo que es probable que en caso de incrementar el tamaño de la muestra, el rendimiento del modelo disminuya.