# Caso práctico: Detección de procesos anómalos

### Descripción

En este caso práctico se propone el uso de los datos almacenados en Elasticsearch y recopilados de los diferentes hosts con el objetivo de identificar posibles procesos anómalos desde el punto de vista de la seguridad a partir de su consumo de cpu y su consumo de memoria

## 1. Lectura de los datos de Elasticsearch

In [1]:
from datetime import datetime
from elasticsearch import Elasticsearch

In [None]:
# Generamos el objeto cliente que nos permite establecer la conexión con Elasticsearch
es = Elasticsearch ('http://[ip_maquina]:9200')

**Existen varias posibilidades a la hora de consultar información en Elasticsearch de manera programática a través del uso de Python**

In [None]:
# Obtención de un documento de Elasticsearch a partir de su indice e id del documento
resp = es.get(index='metricbeat-7.13.2-2021.06.18-000001',id='')

In [None]:
# Mostramos la información
resp

**Otra de las formas más comunes es leer un conjunto de documentos de un índice determinando indicando el número que se desea leer**

In [None]:
# Leemos 10.000 documentos del indice metricbeat-*
docs = es.search (index='metricbeat-7.13.2-2021.06.18-000001')
hits =docs['hits']['hits']

In [None]:
# Mostramos la información
hits

In [3]:
# Para este ejercicio en concreto nos interesa recopilar memoria y cpu
metrics = {'memory': [], 'cpu':[]}
process = []

In [None]:
# The percentage of CPU time spent by the process since the last update. 
# Its value is similar to the %CPU value of the process displayed by the top command on Unix systems.
#
# The percentage of memory the process occupied in main memory (RAM).
for hit in hits:
    if hit['_source']['metricset']['name']=='process':
        metrics['memory'].append(hit['_source']['system']['process']['memory']['res']['pct'])
        metrics['cpu'].append(hit['_source']['system']['process']['cpu']['total']['pct'])
        process.append[hit]

In [None]:
# Visualización de los datos extraidos
leng(metrics['memory'])

## 2. Visualización de los datos extraidos

In [4]:
# Utilizamos la libreria pandas para visualizar los datos
import pandas as pd

df = pd.DataFrame(metrics)
df

Unnamed: 0,memory,cpu


In [None]:
# Visualización de los 10 primeros valores
df.head(10)

In [None]:
df.describe()

**Una de las cosas de mayor utilidad para ganar intuiciones de los datos es representarlos gráficamente**

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Representación gráfica de los valores de la memoria y cpu
plt.figure(figsize=(14, 6))
plt.scatter(df["memory"], df["cpu"], c="b", marker=".")
plt.xlabel("memory", fontsize=14)
plt.ylabel("cpu", fontsize=14)
plt.show()

## 3. Entrenamiento de un algoritmo de Machine Learning

#### Entrenamiento del algoritmo

In [None]:
# Entrenamiento del algoritmo
from sklearn.ensemble import IsolationForest

ift_clf = IsolationForest(contamination=0.002, max_samples=300)
ift_clf.fit(df)

#### Representación gráfica del límite de decisión

In [None]:
# Representación gráfica del límite de decisión generado
def plot_isolation_forest(X, resolution=1000):
    mins = X.min(axis=0) - 0.1
    maxs = X.max(axis=0) + 0.1
    xx, yy = np.meshgrid(np.linspace(mins[0], maxs[0], resolution),
                         np.linspace(mins[1], maxs[1], resolution))
    
    Z = ift_clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.contourf(xx, yy, Z)

    plt.plot(X[:, 0], X[:, 1], 'w.')
    
plt.figure(figsize=(14, 6))
plot_isolation_forest(df.values)
plt.xlabel("memory", fontsize=14)
plt.ylabel("cpu", fontsize=14)
plt.show()

#### Predicción de valores anómalos

In [None]:
# Identificación de anomalías
anomalies = ift_clf.predict(df)

In [None]:
print("Total de anomalías identificadas:", len(df[anomalies==-1]))

In [None]:
# Representación gráfica de las anomalías
plt.figure(figsize=(14, 6))
plt.plot(df["memory"][anomalies == -1],df["cpu"][anomalies == -1], 'go', markersize=6)
plot_isolation_forest(df.values)
plt.xlabel("memory", fontsize=14)
plt.ylabel("memory", fontsize=14)
plt.show()

## 3. Conclusiones

Una vez hemos identificado los procesos que tienen valores de cpu y memoria anómalos, podemos recuperar el conjunto total de atributos para identificar a que proceso en concreto se corresponden esos valores

In [None]:
df[anomalies==-1]

In [None]:
process[1075]