# Universidad del Valle de Guatemala
# (CC3037) Security Data Science
# Laboratorio 3 - Clasificación de Malware

Miembros del equipo de trabajo:
- Yongbum Park (20117)
- Santiago Taracena (20017)

## Introducción

En el ámbito de la seguridad informática, la detección eficiente de malware es fundamental para salvaguardar la integridad y la privacidad de los sistemas y datos. En este contexto, el análisis dinámico se presenta como una estrategia crucial, proporcionando una visión detallada del comportamiento de programas maliciosos en tiempo de ejecución. Este laboratorio se centra en la implementación de un modelo de aprendizaje automático que utiliza la secuencia de llamadas a las APIs durante la ejecución de programas, con el fin de detectar la presencia de malware. La relevancia de este enfoque radica en su capacidad para eludir las técnicas de ofuscación empleadas por los actores malintencionados, al revelar patrones de comportamiento que pueden ser característicos de software malicioso.

El análisis dinámico ofrece una perspectiva única al registrar y analizar cómo interactúa un malware con el sistema infectado. Mientras que el análisis estático se centra en identificar las APIs utilizadas por el malware, el enfoque dinámico proporciona información adicional al mostrar el orden en el que estas APIs son invocadas durante la ejecución del programa. Esta secuencia temporal de llamadas a las APIs se convierte en un recurso valioso para la construcción de modelos de aprendizaje automático, permitiendo la identificación de patrones y la derivación de características significativas, análogas a los n-gramas utilizados en el procesamiento del lenguaje natural (NLP).

En este contexto, se plantea la implementación de dos modelos de clasificación de malware utilizando un dataset proporcionado previamente. Estos modelos abarcarán todas las fases del proceso de aprendizaje automático, desde la exploración y pre-procesamiento de los datos hasta la evaluación y comparación de su desempeño. La metodología propuesta se basa en el artículo "Automated Behaviour-based Malware Detection Framework Based on NLP and Deep Learning Techniques", que sirve como referencia para la construcción del dataset y el enfoque utilizado en la detección de malware. Es fundamental destacar que se empleará validación cruzada con K-fold para garantizar la robustez de los modelos, así como el cálculo y explicación de métricas de rendimiento, como precisión, exhaustividad y la curva ROC, para evaluar su eficacia en la detección de programas maliciosos.

Este reporte detallará cada fase del proceso, desde la preparación de los datos hasta la evaluación de los modelos implementados, con el objetivo de proporcionar una visión integral y crítica sobre la detección de malware mediante el análisis de secuencias de llamadas a las APIs. Además, se compararán los resultados obtenidos por ambos modelos, con el propósito de identificar cuál de ellos demuestra ser más efectivo en la tarea de detección de software malicioso.

## Preprocesamiento e Ingeniería de Características

El preprocesamiento de datos es una etapa crucial en la construcción de modelos de aprendizaje automático, ya que influye directamente en la calidad y eficacia del modelo final. En este laboratorio, se llevaron a cabo diversas técnicas de preprocesamiento para preparar el dataset proporcionado antes de su utilización en los modelos de detección de malware. En primer lugar, se realizó una exploración exhaustiva de los datos para identificar posibles inconsistencias, valores atípicos y datos faltantes. Esta fase de exploración permitió comprender la estructura y distribución de los datos, así como identificar posibles desafíos que podrían surgir durante las etapas posteriores.

Una vez completada la exploración inicial, se procedió con la limpieza de datos, abordando los valores faltantes y eliminando cualquier ruido o información redundante que pudiera afectar la calidad de los modelos. Se aplicaron técnicas de imputación para manejar los valores faltantes, como el reemplazo por la media o la mediana de la columna correspondiente, o mediante métodos más avanzados como la imputación mediante modelos predictivos. Además, se llevaron a cabo transformaciones de variables categóricas a variables numéricas utilizando técnicas como la codificación one-hot o la codificación de etiquetas, según fuera apropiado para cada atributo del dataset.

En lo que respecta a la ingeniería de características, se exploraron diversas estrategias para extraer información relevante de los datos y mejorar la capacidad predictiva de los modelos. Dado que el enfoque se centra en la secuencia de llamadas a las APIs, se diseñaron características específicas para capturar patrones y comportamientos característicos de malware. Por ejemplo, se calcularon estadísticas descriptivas sobre las secuencias de llamadas, como la frecuencia de ocurrencia de ciertas APIs o la longitud de las secuencias. Además, se utilizaron técnicas de reducción de dimensionalidad, como el análisis de componentes principales (PCA), para manejar la alta dimensionalidad de los datos y mejorar la eficiencia computacional de los modelos.

In [16]:
# Librerías necesarias.
import pandas as pd
import numpy as np

Posteriormente a la realización del procedimiento de importar las librerías necesarias, se utilizó la función `read_csv` de pandas para poder obtener el dataset proporcionado en formato de DataFrame. El mismo dataset se retornó en la siguiente celda.

In [17]:
# Lectura del dataset.
data = pd.read_csv("./data/malware-dataset.csv")
data

Unnamed: 0,sha256,labels,0,1,2,3,4,5,6,7,...,Unnamed: 167,Unnamed: 168,Unnamed: 169,Unnamed: 170,Unnamed: 171,Unnamed: 172,Unnamed: 173,Unnamed: 174,Unnamed: 175,Unnamed: 176
0,5c18291c481a192ed5003084dab2d8a117fd3736359218...,0,LdrUnloadDll,CoUninitialize,NtQueryKey,NtDuplicateObject,GetShortPathNameW,GetSystemInfo,IsDebuggerPresent,GetSystemWindowsDirectoryW,...,,,,,,,,,,
1,4683faf3da550ffb594cf5513c4cbb34f64df85f27fd1c...,0,NtOpenMutant,GetForegroundWindow,NtQueryKey,DrawTextExW,NtSetInformationFile,RegQueryValueExA,LdrGetProcedureAddress,CoUninitialize,...,,,,,,,,,,
2,9a0aea1c7290031d7c3429d0e921f107282cc6eab854ee...,0,GetForegroundWindow,DrawTextExW,GetSystemInfo,IsDebuggerPresent,GetSystemWindowsDirectoryW,NtQueryValueKey,RegCloseKey,GetFileAttributesW,...,,,,,,,,,,
3,e0f3e4d5f50afd9c31e51dd9941c5a52d57c7c524f5d11...,0,NtQueryValueKey,LdrUnloadDll,GlobalMemoryStatus,WriteConsoleA,NtOpenKey,LdrGetProcedureAddress,NtTerminateProcess,NtClose,...,,,,,,,,,,
4,ec2b6d29992f13e74015ff0b129150b4afae15c593e4b7...,0,LdrUnloadDll,GetSystemTimeAsFileTime,NtOpenKey,WSAStartup,SetUnhandledExceptionFilter,NtTerminateProcess,NtClose,NtAllocateVirtualMemory,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2565,ed6a3fc04af435176b9c2f3024eb53c31d1e522da52c5c...,1,CreateToolhelp32Snapshot,GetCursorPos,CoUninitialize,RegCloseKey,LdrUnloadDll,DrawTextExW,NtSetInformationFile,CopyFileA,...,,,,,,,,,,
2566,ed5d70a13633a46355c0c2f9905ba29b7b74dfdb4db321...,1,NtDuplicateObject,RegCloseKey,LdrUnloadDll,NtSetInformationFile,RegQueryValueExA,NtTerminateProcess,NtQueryValueKey,RegQueryValueExW,...,,,,,,,,,,
2567,ed5addbdbe5f56f108530148c71ab7db806ac9324395d0...,1,GetCursorPos,NtOpenSection,CoUninitialize,RegCloseKey,LdrUnloadDll,GetSystemInfo,RegQueryValueExA,NtTerminateProcess,...,,,,,,,,,,
2568,ed4f4518e3120a4fd8ff6c61bf072d4de60264711a9196...,1,NtAllocateVirtualMemory,LdrGetProcedureAddress,SetUnhandledExceptionFilter,GetFileType,GetSystemTimeAsFileTime,LdrLoadDll,LdrGetDllHandle,NtProtectVirtualMemory,...,,,,,,,,,,


Observar el dataset nos permite apreciar que la primera columna representa el nombre del ejecutable en formato sha256. De primeras este nombre del ejecutable no es particularmente importante. Lo que sí resulta de suma importancia es que cada una de las columnas desde la 0 hasta la 176 representa el orden en el que se realizaron llamadas a APIs por parte del ejecutable.

In [18]:
# Valores únicos en la columna 0 del dataset.
data["0"].unique()

array(['LdrUnloadDll', 'NtOpenMutant', 'GetForegroundWindow',
       'NtQueryValueKey', 'NtDuplicateObject', 'LdrGetProcedureAddress',
       'CreateToolhelp32Snapshot', 'GetNativeSystemInfo', 'NtOpenSection',
       'NtEnumerateValueKey', 'NtQueryKey',
       'RtlRemoveVectoredExceptionHandler', 'RegCreateKeyExW',
       'CoInitializeEx', 'GetUserNameExW', 'NtQuerySystemInformation',
       'GetSystemTimeAsFileTime', 'DeviceIoControl', 'GetCursorPos',
       'RegCloseKey', '__exception__', 'NtAllocateVirtualMemory',
       'SetUnhandledExceptionFilter', 'GetAsyncKeyState', 'LdrLoadDll',
       'LdrGetDllHandle', 'WriteConsoleA', 'SHGetFolderPathW',
       'NtTerminateProcess', 'RegDeleteKeyA', 'GetFileType',
       'CreateProcessInternalW', 'NtOpenKey', 'GetComputerNameW',
       'GetSystemMetrics', 'GetFileAttributesExW', 'SetFilePointer',
       'LoadStringW', 'NtUnmapViewOfSection', 'getaddrinfo',
       'NtCreateSection', 'GetVolumePathNamesForVolumeNameW',
       'GetSystemInfo',

In [19]:
# Valores únicos de la columna 176 del dataset.
data["Unnamed: 176"].unique()

array([nan, 'WriteConsoleA'], dtype=object)

El preprocesamiento de la data resulta particularmente sencillo en esta instancia. Lo único que resulta necesario realizar de primeras consiste en codificar las variables categóricas (literalmente todas) a variables numéricas para poder utilizar.

In [20]:
# Librerías necesarias para el preprocesamiento de la data.
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# Codificación de las llamadas a la API como números enteros.
encoder = LabelEncoder()
data_encoded = data.apply(encoder.fit_transform)

# División de los datos en conjuntos de entrenamiento y prueba.
X = data_encoded.drop(["sha256", "labels"], axis=1)
y = data_encoded["labels"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is

In [21]:
# Retorno de la data codificada.
data_encoded

Unnamed: 0,sha256,labels,0,1,2,3,4,5,6,7,...,Unnamed: 167,Unnamed: 168,Unnamed: 169,Unnamed: 170,Unnamed: 171,Unnamed: 172,Unnamed: 173,Unnamed: 174,Unnamed: 175,Unnamed: 176
0,1046,0,26,2,65,52,29,31,44,37,...,1,1,1,1,1,1,1,1,1,1
1,928,0,35,19,65,9,78,92,46,1,...,1,1,1,1,1,1,1,1,1,1
2,1324,0,14,7,26,35,34,77,94,22,...,1,1,1,1,1,1,1,1,1,1
3,1711,0,39,31,35,95,66,43,85,54,...,1,1,1,1,1,1,1,1,1,1
4,1778,0,26,23,60,94,104,83,56,53,...,1,1,1,1,1,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2565,1798,1,3,13,1,77,44,13,83,2,...,1,1,1,1,1,1,1,1,1,1
2566,1795,1,31,62,39,68,93,83,78,93,...,1,1,1,1,1,1,1,1,1,1
2567,1794,1,10,51,1,77,44,31,100,79,...,1,1,1,1,1,1,1,1,1,1
2568,1791,1,28,30,90,21,33,44,45,70,...,1,1,1,1,1,1,1,1,1,1


Este procedimiento nos deja como resultado la data que se encontraba ubicada en el dataset de manera completamente codificada, por lo que ya resulta posible hacer uso de la misma en modelos como los solicitados.

## Implementación de modelos

En la implementación de los modelos de detección de malware, se ha seguido un enfoque riguroso que abarca todas las fases del proceso de aprendizaje automático. En primer lugar, se llevó a cabo una exhaustiva exploración y análisis de los datos proporcionados, comprendiendo la estructura de los conjuntos de datos, identificando posibles desafíos y anomalías, y determinando las características relevantes para la detección de malware basada en la secuencia de llamadas a las APIs.

Una vez completada la fase de exploración de datos, se procedió al preprocesamiento de los datos para garantizar la calidad y la coherencia de los mismos. Esto incluyó la limpieza de datos, la normalización de características, y la codificación adecuada de las secuencias de llamadas a las APIs en una representación numérica adecuada para su procesamiento por parte de los algoritmos de aprendizaje automático.

Posteriormente, se realizó la ingeniería de características para extraer y seleccionar las características más relevantes que podrían ayudar a distinguir entre malware y software benigno. Se aplicaron técnicas avanzadas para derivar nuevas características y mejorar la capacidad predictiva de los modelos, teniendo en cuenta la complejidad y la variabilidad de los datos.

Luego, se procedió a la implementación de los dos modelos de clasificación de malware, utilizando diferentes algoritmos de aprendizaje automático. Se configuraron y entrenaron los modelos utilizando un 70% de los datos para entrenamiento y se evaluaron su rendimiento utilizando el 30% restante para pruebas.

Para garantizar la robustez y la generalización de los modelos, se llevó a cabo la validación cruzada utilizando k-folds con k = 10, lo que permitió evaluar el rendimiento de los modelos en diferentes particiones de los datos y reducir el riesgo de sobreajuste.

Finalmente, se calcularon y explicaron las métricas de rendimiento, como la precisión, la sensibilidad, la recuperación y la curva ROC, para cada modelo en relación con las clases de malware y benigno. Se compararon las métricas de rendimiento de ambos modelos en una tabla y se discutió cuál de los modelos detectó mejor el malware, teniendo en cuenta su capacidad para identificar verdaderos positivos y minimizar los falsos positivos.

### Primer modelo: SVM

El primer modelo que se implementó es un modelo de SVM. Se consideró a este modelo útil para el objetivo de clasificar malware por las características que se presentan en el dataset utilizado. Lo primero que necesitamos realizar es importar la clase SVC que nos permite instanciar un modelo como el mencinoado. Esta clase viene de la librería SKLearn, específicamente de su paquete de SVM.

In [22]:
# Proceso para importar SVC.
from sklearn.svm import SVC

Con la clase importada, crear el modelo sin entrenar no es más difícil que realizar una instancia de la clase SVC importada. A continuación se encuentra la instancia mencionada almacenada en la variable model.

In [23]:
# Instancia del modelo SVC.
svc_model = SVC()
svc_model

Ya contamos con una instancia de un modelo SVC que nos permita clasificar el malware que se encuentra proporcionado en el dataset. Ya con esta instancia, lo que se vuelve necesario es entrenar el modelo con la instrucción `fit` que trae la instancia del mismo.

In [24]:
# Entrenamiento del modelo con la función fit.
svc_model.fit(X_train, y_train)

  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


El modelo entrenado nos permite utilizarlo. Lo primero que debemos realizar es utilizarlo para predecir los valores que se encuentran aplicados en nuestra variable independiente de prueba.

In [25]:
# Predicción de los resultados con la variable independiente de prueba.
y_pred = svc_model.predict(X_test)

  if not hasattr(array, "sparse") and array.dtypes.apply(is_sparse).any():
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


Con nuestras predicciones finalizadas, podemos proceder a importar las métricas que necesitamos utilizar para evaluar el rendimiento no sólo del presente modelo, sino también del siguiente modelo de los dos que son necesarios desarrollar.

In [26]:
# Instrucción para importar las métricas a utilizar para evaluar los modelos.
from sklearn.metrics import classification_report

Todas las métricas necesarias para la evaluación del rendimiento del modelo las podemos observar utilizando la función `classification_report` que podemos importar de las métricas que nos brinda SKLearn.

In [27]:
# Classification report del modelo.
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.75      0.89      0.82       380
           1       0.88      0.72      0.79       391

    accuracy                           0.80       771
   macro avg       0.81      0.81      0.80       771
weighted avg       0.82      0.80      0.80       771



  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


### Explicación de las métricas del SVM

Las métricas reportadas para el modelo SVM que clasifica malware basándose en las llamadas a APIs son fundamentales para evaluar su rendimiento. La precisión (precision) se refiere a la proporción de muestras positivas correctamente clasificadas como positivas respecto a todas las muestras clasificadas como positivas. En este caso, se observa que la precisión para la clase 0 es del 75%, lo que indica que el 75% de las muestras clasificadas como no malware son realmente no malware. Para la clase 1, la precisión es del 88%, lo que sugiere que el 88% de las muestras clasificadas como malware son realmente malware.

El recall, también conocido como sensibilidad, mide la proporción de muestras positivas que fueron correctamente identificadas por el modelo. Aquí, se observa que el recall para la clase 0 es del 89%, lo que indica que el 89% de todas las muestras de no malware fueron correctamente identificadas. Para la clase 1, el recall es del 72%, lo que sugiere que el 72% de todas las muestras de malware fueron correctamente identificadas.

El F1-score es una medida que combina tanto la precisión como el recall en un solo número, calculando la media armónica de ambos. Proporciona una medida de la precisión del modelo en comparación con el equilibrio entre precisión y recall. En este caso, se observa un F1-score del 82% para la clase 0 y del 79% para la clase 1, lo que indica un buen equilibrio entre precisión y recall en ambas clases.

La precisión global del modelo, calculada como la proporción de muestras correctamente clasificadas sobre todas las muestras, es del 80%. Esto significa que el modelo clasificó correctamente el 80% de todas las muestras.

### Segundo modelo: Red neuronal de Tensorflow

El segundo modelo, como se puede observar en el título de la sección, consiste en una red neuronal de Tensorflow. Lo primero que debemos realizar es instanciar el modelo secuencial de la red neuronal, y finalmente definir todas las capas que la misma debe contener con el objetivo de clasificar. Posteriormente, sólo resulta necesario compilar y entrenar el modelo con los datos utilizados.

In [28]:
# Implementación del modelo.
import tensorflow as tf

# Instancia del modelo secuencial de Tensorflow.
model = tf.keras.models.Sequential([
    tf.keras.layers.Embedding(input_dim=10000, output_dim=64, input_length=X_train.shape[1]),
    tf.keras.layers.Conv1D(filters=32, kernel_size=3, padding="same", activation="relu"),
    tf.keras.layers.MaxPooling1D(pool_size=2),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(250, activation="relu"),
    tf.keras.layers.Dense(1, activation="sigmoid")
])

# Entrenamiento del modelo.
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=10, batch_size=128)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x1af8964d2d0>

Con el modelo finalizado sólo resulta necesario obtener el reporte de las métricas de igual manera que se realizó con el modelo anteriormente implementado. El resultado es el siguiente.

In [30]:
# Evaluación del modelo.
from sklearn.metrics import classification_report

# Predicciones realizadas.
y_pred = model.predict(X_test)
y_pred_bin = np.round(y_pred).astype(int)

# Métricas del modelo.
print(classification_report(y_test, y_pred_bin))

              precision    recall  f1-score   support

           0       0.92      0.86      0.88       380
           1       0.87      0.92      0.89       391

    accuracy                           0.89       771
   macro avg       0.89      0.89      0.89       771
weighted avg       0.89      0.89      0.89       771



  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):
  if is_sparse(pd_dtype):
  if is_sparse(pd_dtype) or not is_extension_array_dtype(pd_dtype):


### Explicación de las métricas de la Red Neuronal

Las métricas proporcionadas para la red neuronal de TensorFlow que clasifica malware utilizando llamadas a APIs también ofrecen una evaluación detallada de su rendimiento. La precisión, que mide la proporción de muestras positivas correctamente clasificadas como positivas respecto al total de muestras clasificadas como positivas, se muestra con un valor del 92% para la clase 0 y del 87% para la clase 1. Esto indica que el 92% de las muestras clasificadas como no malware y el 87% de las clasificadas como malware fueron correctamente identificadas.

El recall, que indica la proporción de muestras positivas correctamente identificadas por el modelo, se muestra con un valor del 86% para la clase 0 y del 92% para la clase 1. Esto significa que el 86% de todas las muestras de no malware y el 92% de todas las muestras de malware fueron correctamente identificadas por el modelo.

El F1-score, que combina la precisión y el recall en un solo número para proporcionar una medida general del rendimiento del modelo, se muestra con valores del 88% para la clase 0 y del 89% para la clase 1. Estos valores indican un buen equilibrio entre precisión y recall en ambas clases.

La precisión global del modelo, que representa la proporción de muestras correctamente clasificadas sobre el total de muestras, es del 89%. Esto indica que el modelo clasificó correctamente el 89% de todas las muestras.

Las métricas de la red neuronal de TensorFlow muestran un rendimiento general sólido en la clasificación de malware basada en llamadas a APIs, con valores altos de precisión, recall y F1-score, así como una alta precisión global. Esto sugiere que el modelo es eficaz en la tarea de clasificación de malware.

## Comparación de ambos modelos

Al comparar las métricas y los modelos en general, podemos observar algunas diferencias y similitudes significativas. En primer lugar, ambos modelos, el SVM y la red neuronal de TensorFlow, muestran un rendimiento sólido en la clasificación de malware basada en las llamadas a APIs, con altos valores de precisión, recall y F1-score en ambas clases. Sin embargo, existen algunas disparidades en las métricas específicas entre los dos modelos.

El modelo SVM muestra una precisión más alta para la clase 0 (no malware) en comparación con la red neuronal de TensorFlow (75% frente al 92%), mientras que la red neuronal tiene una precisión ligeramente superior para la clase 1 (malware) en comparación con el SVM (87% frente al 88%). Esto sugiere que el SVM tiende a ser más conservador en la clasificación de muestras como no malware, mientras que la red neuronal tiene una tendencia similar en la clasificación de muestras como malware.

En cuanto al recall, la red neuronal de TensorFlow supera ligeramente al SVM para ambas clases. Esto indica que la red neuronal es más efectiva para identificar correctamente las muestras de ambas clases, con valores del 86% y 92% para las clases 0 y 1 respectivamente, en comparación con el 89% y 72% del SVM.

El F1-score, que combina precisión y recall, muestra valores similares entre los dos modelos para la clase 0, pero la red neuronal tiene una ligera ventaja para la clase 1 (89% frente al 79% del SVM).

En términos de la precisión global del modelo, ambos modelos muestran resultados cercanos, con un 80% para el SVM y un 89% para la red neuronal de TensorFlow. Esto indica que ambos modelos son eficaces en la clasificación de malware, pero la red neuronal de TensorFlow tiende a ser ligeramente más precisa en general.

Aunque ambos modelos muestran un rendimiento sólido en la tarea de clasificación de malware, la red neuronal de TensorFlow tiende a ser ligeramente superior en términos de precisión, recall y F1-score, lo que sugiere que podría ser más adecuada para esta tarea específica en comparación con el SVM. Sin embargo, la elección entre los dos modelos dependerá de otros factores, como la complejidad del problema, los recursos computacionales disponibles y las preferencias del usuario.