In [None]:
# 📊 EDA_inicial.ipynb
# Proyecto: Phishing Dataset (Grupo 11 - Maestría en Ciberseguridad)

# ======================
# 1. Importar librerías
# ======================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo
sns.set(style="whitegrid", palette="muted")
plt.rcParams["figure.figsize"] = (10,6)

# ======================
# 2. Cargar dataset
# ======================
# Opción 1: Cargar desde archivo local (guardar CSV en carpeta data/)
df = pd.read_csv("../data/phishing.csv")

# Opción 2: Cargar desde Kaggle directamente (si tienen API configurada)
# from kaggle.api.kaggle_api_extended import KaggleApi
# api = KaggleApi()
# api.authenticate()
# api.dataset_download_files("shashwatwork/phishing-dataset-for-machine-learning", path="../data", unzip=True)
# df = pd.read_csv("../data/phishing.csv")

# ======================
# 3. Exploración inicial
# ======================
print("Dimensiones del dataset:", df.shape)
print("\nPrimeras filas:")
display(df.head())

print("\nInformación del dataset:")
print(df.info())

print("\nValores nulos por columna:")
print(df.isnull().sum())

print("\nDistribución de la variable objetivo:")
print(df['class'].value_counts())

# ======================
# 4. Estadísticas básicas
# ======================
print("\nEstadísticas descriptivas:")
display(df.describe())

# ======================
# 5. Visualización de clases
# ======================
sns.countplot(x="class", data=df, palette="viridis")
plt.title("Distribución de clases (0=Legítima, 1=Phishing)")
plt.show()

# ======================
# 6. Histogramas de variables numéricas
# ======================
df.hist(bins=30, figsize=(15,10))
plt.suptitle("Distribución de variables numéricas", size=16)
plt.show()

# ======================
# 7. Boxplots comparativos
# ======================
for col in df.select_dtypes(include=np.number).columns[:5]:  # primeras 5 numéricas
    sns.boxplot(x="class", y=col, data=df, palette="Set2")
    plt.title(f"Distribución de {col} por clase")
    plt.show()

# ======================
# 8. Heatmap de correlaciones
# ======================
corr = df.corr()
plt.figure(figsize=(12,8))
sns.heatmap(corr, annot=False, cmap="coolwarm")
plt.title("Mapa de correlación entre variables")
plt.show()

# ======================
# 9. Insights iniciales
# ======================
# Ejemplo: diferencias entre phishing y legítimas en longitud de URL
if "url_length" in df.columns:
    sns.kdeplot(data=df, x="url_length", hue="class", fill=True, palette="Set1")
    plt.title("Distribución de la longitud de URLs (Phishing vs Legítima)")
    plt.show()
