# Modelo ML Supervisado detector Anomalias en intraestructura en la nube

# I. Descripción del problema e inspección del conjunto de datos

## 1. Descripción del problema y conjuto de datos

El objetivo es identificar automáticamente, basándose en un conjunto de métricas operacionales (como el uso de CPU, memoria, tráfico de red, y consumo de energía), cuándo una VM se está comportando de manera anómala o inusual, en lugar de su patrón de comportamiento normal.

**Finalidad**: Este tipo de detección es crucial para la monitorización del rendimiento, el mantenimiento predictivo, y la fiabilidad general de los servicios en la nube, permitiendo identificar fallos de hardware, software o posibles incidentes de seguridad de forma temprana.

**Aproximación**: El dataset proporciona una etiqueta binaria ("Anomaly status") para cada conjunto de métricas, lo que permite el desarrollo y la evaluación de modelos de Machine Learning supervisado para clasificar si un estado de la VM es normal o anómalo

El conjunto de datos proviene de un dataset de Kanggle https://www.kaggle.com/datasets/sandhyapeesara/cloud-anomaly-data

### Descripción de Variables

| Variable | Tipo de Dato (Implícito) | Descripción Mejorada |
| :--- | :--- | :--- |
| **vm\_id** | Categórico / ID | **Identificador único** de la Máquina Virtual (VM) en el entorno de la nube. Permite rastrear el rendimiento individual de cada instancia. |
| **timestamp** | Temporal | **Marca de tiempo** exacta de la medición. Es fundamental para el análisis de **series de tiempo** y la detección de patrones temporales o estacionalidad. |
| **cpu\_usage** | Numérico (Porcentaje) | **Utilización del Procesador Central (CPU)**, expresada como un porcentaje (0-100%). Mide la carga de trabajo de la VM. |
| **memory\_usage** | Numérico (Porcentaje) | **Utilización de la Memoria RAM**, expresada como un porcentaje (0-100%). Indica la cantidad de memoria activa consumida por los procesos. |
| **network\_traffic** | Numérico | **Volumen de Tráfico de Red** (entrada/salida) de la VM. Medido en una escala relativa (0-1000); podría representar bytes/segundo o paquetes/segundo. |
| **power\_consumption** | Numérico | **Consumo de Energía** de la VM en la unidad de tiempo. Medido en una escala relativa (0-500); la unidad física podría ser Vatios (W). |
| **num\_executed\_instructions** | Numérico (Contador) | **Número de Instrucciones** ejecutadas por la CPU durante el intervalo de medición. Mide la productividad computacional. |
| **execution\_time** | Numérico | **Tiempo de Ejecución** de las tareas o procesos en la VM. Medido en una escala relativa (0-100); podría representar milisegundos o un tiempo de respuesta normalizado. |
| **energy\_efficiency** | Numérico (Ratio) | **Eficiencia Energética**. Un valor normalizado entre 0 y 1, que generalmente se calcula como una razón entre el rendimiento (ej. instrucciones ejecutadas) y el consumo de energía. |
| **task\_type** | Categórico | **Tipo de Tarea** principal que se está ejecutando en la VM en ese momento. Categorías clave: **'io'** (Intensiva en Entrada/Salida), **'network'** (Intensiva en Red), **'other'**. |
| **task\_priority** | Categórico Ordinal | **Nivel de Prioridad** asignado a la tarea en curso. Categorías: **'low'** (Baja), **'high'** (Alta), **'other'** (Otras o media/variable). |
| **task\_status** | Categórico | **Estado Actual de la Tarea** medida. Categorías: **'waiting'** (En espera de recursos), **'running'** (Actualmente en ejecución), **'other'** (Otros estados, como completada o fallida). |
| **Anomaly status** | Binario (Target) | **Estado de Anomalía**. Esta es la **variable objetivo** (`target`). Un valor de **1** indica que el comportamiento de la VM se considera **Anómalo**, y **0** indica un comportamiento **Normal**. |

### Contenido Dataset

### Install Libraries

In [None]:
# Install libraries
import kagglehub

### Import Dataset

In [None]:
# Install dependencies as needed:
# pip install kagglehub[pandas-datasets]
from kagglehub import KaggleDatasetAdapter

# Set the path to the file you'd like to load
file_path = "Cloud_Anomaly_Dataset.csv"

# Load the latest version
df = kagglehub.dataset_load(
  KaggleDatasetAdapter.PANDAS,
  "sandhyapeesara/cloud-anomaly-data",
  file_path,
)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 277570 entries, 0 to 277569
Data columns (total 13 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   vm_id                      249595 non-null  object 
 1   timestamp                  277570 non-null  object 
 2   cpu_usage                  250130 non-null  float64
 3   memory_usage               249775 non-null  float64
 4   network_traffic            249725 non-null  float64
 5   power_consumption          250018 non-null  float64
 6   num_executed_instructions  249637 non-null  float64
 7   execution_time             249960 non-null  float64
 8   energy_efficiency          249616 non-null  float64
 9   task_type                  249580 non-null  object 
 10  task_priority              249674 non-null  object 
 11  task_status                249621 non-null  object 
 12  Anomaly status             277570 non-null  int64  
dtypes: float64(7), int64(1), obje

### Identificación de datos unicos

In [8]:
df.nunique()

vm_id                        249595
timestamp                     44552
cpu_usage                    250128
memory_usage                 249774
network_traffic              249724
power_consumption            250010
num_executed_instructions     10000
execution_time               249957
energy_efficiency            249591
task_type                         3
task_priority                     3
task_status                       3
Anomaly status                    2
dtype: int64

Preliminarmente no se puede descartar ningura variable por ser constate

# II. Diseño de Experimentos y Recolección de Resultados

## 4. Estrategía de preparación de datos y recolección de resultados

## 5. Descripción de los experimentos de ajuste de paramentros

## 5. Analisis de Resultados Finales

# III. Comparación de Modelos entrenados y conclusiones


## 6. Comparacion del mejor modelo obtenido por cada método

## 7. Conclusiones del trabajo