## **INCISO 2**

- #### **Análisis de las Variables**

In [None]:
#Importación de paquetes necesarios para el inciso
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Lectura y análisis del Dataset
df1 = pd.read_csv('str_1.csv', delimiter=';')
df2 = pd.read_csv('str_2.csv', delimiter=';')

In [None]:
#Concatenamos los dataframes
df = pd.concat([df1, df2], ignore_index=True)

In [None]:
# Eliminamos la columna ID para trabajar de una mejor manera
df.drop('ID',axis=1, inplace=True)

In [None]:
#Información general del dataframe
df.info()

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
#Contamos los valores faltantes por columna
df.isnull().sum()

- #### **Valores Érroneos/Valores Faltantes**

In [None]:
df[pd.isnull(df.login_attempts)]

In [None]:
df[pd.notnull(df.login_attempts)]

In [None]:
df[pd.isnull(df.encryption_used)]

In [None]:
df[pd.notnull(df.encryption_used)]

In [None]:
# Análisis de variables con faltas
print("\nValores únicos por variable con faltas:\n")
for col in ['encryption_used', 'login_attempts']:
    print(f"\nColumna: {col}")
    print(df[col].value_counts(dropna=False))

In [None]:
# Limpieza de valores faltantes

# Imputar login_attempts con la media
df.loc[pd.isnull(df.login_attempts), 'login_attempts'] = df[pd.notnull(df.login_attempts)].login_attempts.median()

In [None]:
# Imputar encryption_used con la categoría 'Faltante'
df.loc[pd.isnull(df['encryption_used']), 'encryption_used'] = 'Faltante'

In [None]:
# Confirmar que ya no quedan valores faltantes
print("\nValores faltantes después de la imputación:\n")
df.isnull().sum()

- #### **Valores atípicos**

In [None]:
## Boxplot para visualizar valores atípicos
# Visualizamos la distribución de las distintas variables
fig, ax = plt.subplots(figsize=(15,6))
df.plot(kind='box', ax=ax)

#df[['login_attempts', 'ip_reputation_score', 'failed_logins']].plot(kind='box', ax=ax)

In [None]:
## Ver que podemos hacer acá, para mi los intentos de login y fallos de login no son variables atípicas a tratar, el hoario inusual mucho menos
## es binario encima, duration, tamaño de paquete podría tratarse, confiabilidad del ip no porq los valores atípicos son representativos
## Consultar bien esto

In [None]:
## Visualizamos nuevamente los Boxplots
fig, ax = plt.subplots(figsize=(15,6))
#df.plot(kind='box', ax=ax)

df[['duration']].plot(kind='box', ax=ax)
plt.title("Boxplot de variables numéricas")
plt.show()

- #### **Correlación entre variables**

In [None]:
# Calculamos la matriz de correlación absoluta
corr = df.corr(numeric_only=True).abs()

In [None]:
# Calculamos un vector con las medias de cada columna
column_mean = corr.mean(axis=1)

In [None]:
column_mean

In [None]:
corr

In [None]:
# Visualizamos la matriz de correlación
sns.heatmap(corr, xticklabels=corr.columns, yticklabels=corr.columns, annot=True, cmap=sns.diverging_palette(220, 20, as_cmap=True))
plt.tight_layout()

In [None]:
# Calculo de las correlaciones de las columnas dado un umbral
umbral = 0.70
variables = corr.columns

for i in range(len(variables)):
    for j in range(i + 1, len(variables)):
        if corr.iloc[i, j] > umbral:
            print(f"La variable '{variables[i]}' está altamente correlacionada con '{variables[j]}'")
            if column_mean[variables[i]] > column_mean[variables[j]]:
                print(f"Se recomienda eliminar: '{variables[i]}'")
            else:
                print(f"Se recomienda eliminar: '{variables[j]}'")

In [None]:
# esto está de adorno, sirve para ver de otra manera la correlación entre variables numéricas
sns.pairplot(df)

- #### **Procesamiento de variables categóricas.**

- #### **Balance del conjunto de datos.**

- #### **Normalización del conjunto de datos.**

In [None]:
# Selección de variables numéricas
num_cols = ['login_attempts', 'duration', 'packet_size', 'ip_reputation_score', 'failed_logins']

# Filtramos los datos
data_numeric = df[num_cols]

In [None]:
# Calculamos la media y desviación estándar
means = data_numeric.mean()
stds = data_numeric.std()

In [None]:
# Aplicamos la normalización Z-score
data_scaled = (data_numeric - means) / stds

In [None]:
# Reemplazamos en el DataFrame original
df_scaled = df.copy()
df_scaled[num_cols] = data_scaled