<a href="https://colab.research.google.com/drive/1tnOvFNgXiLtktiSsltTr0s308LZSsEPJ">Abre este Jupyter en Google Colab</a>

# Regresión Lineal: Coste de un incidente de seguridad

En este ejercicio se explican los fundamentos básicos de la regresión lineal aplicada a un caso de uso sencillo relacionado con la Ciberseguridad.

## Enunciado del ejercicio

El ejercicio consiste en predecir el coste de un incidente de seguridad en base al número de equipos que se han visto afectados. El conjunto de datos es generado de manera aleatoria.

### 0. Imports

### 1. Generación del conjunto de datos

In [None]:
import numpy as np

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

print("La longitud del conjunto de datos es:", len(X))

### 2. Visualización del conjunto de datos

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.plot(X, y, "b.")
plt.xlabel("Equipos afectados (u/1000)")
plt.ylabel("Coste del incidente (u/10000)")
plt.grid(True, linestyle="--", alpha=0.5)
plt.show()

In [None]:
plt.plot(X, y, "b.")
plt.xlabel("Equipos afectados (u/1000)")
plt.ylabel("Coste del incidente (u/10000)")
plt.show()

### 3. Modificación del conjunto de datos

In [None]:
import pandas as pd

In [None]:
import pandas as pd

data = {'n_equipos_afectados': X.flatten(), 'coste': y.flatten()}
df = pd.DataFrame(data)
df.head(10)

In [None]:
# Escalado del número de equipos afectados
df['n_equipos_afectados'] = df['n_equipos_afectados'] * 1000
df['n_equipos_afectados'] = df['n_equipos_afectados'].astype('int')
# Escalado del coste
df['coste'] = df['coste'] * 10000
df['coste'] = df['coste'].astype('int')
df.head(10)

In [None]:
# Representación gráfica del conjunto de datos
X = df['n_equipos_afectados']
y = df['coste']
z = np.cos(X)

plt.scatter(X, y, c=z, s=100 * np.abs(z), cmap="viridis")
plt.xlabel("Equipos afectados")
plt.colorbar()
plt.ylabel("Coste del incidente")
plt.title("Relación entre equipos afectados y coste del incidente")
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

### 4. Construcción del modelo

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Construcción del modelo y ajuste de la función hipótesis
lin_reg = LinearRegression()
lin_reg.fit(df['n_equipos_afectados'].values.reshape(-1, 1), df['coste'].values)

In [None]:
# Parámetro theta 0
lin_reg.intercept_

In [None]:
# Parámetro theta 1
lin_reg.coef_

In [None]:
# Predicción para el valor mínimo y máximo del conjunto de datos de entrenamiento
X_min_max = np.array([[df["n_equipos_afectados"].min()], [df["n_equipos_afectados"].max()]])
y_train_pred = lin_reg.predict(X_min_max)
y_pred = lin_reg.predict(X.values.reshape(-1, 1))
z = y - y_pred

In [None]:
# Representación gráfica de la función hipótesis generada
plt.plot(X_min_max, y_train_pred, "r-", linewidth=1, label="Predicción")
plt.scatter(X, y, c=z, cmap="viridis", marker=".")
plt.xlabel("Equipos afectados")
plt.ylabel("Coste del incidente")
plt.show()

### 5. Predicción de nuevos ejemplos

In [None]:
x_new = np.array([[1300]]) # 1300 equipos afectados

# Predicción del coste que tendría el incidente
coste = lin_reg.predict(x_new)

print("El coste del incidente sería:", int(coste[0]), "€")

In [None]:
plt.scatter(df['n_equipos_afectados'], df['coste'], marker=".", c=z, cmap="viridis")
plt.plot(X_min_max, y_train_pred, "b-", linewidth=1, label="Predicción")
plt.plot(x_new, coste, "r+")
plt.xlabel("Equipos afectados")
plt.ylabel("Coste del incidente")
plt.show()