<a href="https://colab.research.google.com/github/Emma-Ok/Phishing-Detection-ML/blob/main/Exploring_data_Sklearn_Features.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pishing For Machine Learning.

Proyecto para la asignatura Modelos y Simulación 2.

Universidad de Antioquia



| No. | Feature                                      | Type          | Description                                                                                       |
|-----|----------------------------------------------|---------------|---------------------------------------------------------------------------------------------------|
| 1   | NumDots                                      | Discrete      | Counts the number of dots in webpage URL                                                           |
| 2   | SubdomainLevel                               | Discrete      | Counts the level of subdomain in webpage URL                                                      |
| 3   | PathLevel                                    | Discrete      | Counts the depth of the path in webpage URL                                                       |
| 4   | UrlLength                                    | Discrete      | Counts the total characters in the webpage URL                                                    |
| 5   | NumDash                                      | Discrete      | Counts the number of “-” in webpage URL                                                           |
| 6   | NumDashInHostname                            | Discrete      | Counts the number of “-” in hostname part of webpage URL                                          |
| 7   | AtSymbol                                     | Binary        | Checks if “@” symbol exist in webpage URL                                                         |
| 8   | TildeSymbol                                  | Binary        | Checks if “∼” symbol exist in webpage URL                                                         |
| 9   | NumUnderscore                                | Discrete      | Counts the number of “_” in webpage URL                                                           |
| 10  | NumPercent                                   | Discrete      | Counts the number of “%” in webpage URL                                                           |
| 11  | NumQueryComponents                           | Discrete      | Counts the number of query parts in webpage URL                                                   |
| 12  | NumAmpersand                                 | Discrete      | Counts the number of “&” in webpage URL                                                           |
| 13  | NumHash                                      | Discrete      | Counts the number of “#” in webpage URL                                                           |
| 14  | NumNumericChars                              | Discrete      | Counts the number of numeric characters in the webpage URL                                        |
| 15  | NoHttps                                      | Binary        | Checks if HTTPS exist in webpage URL                                                              |
| 16  | RandomString                                 | Binary        | Checks if random strings exist in webpage URL                                                     |
| 17  | IpAddress                                    | Binary        | Checks if IP address is used in hostname part of webpage URL                                      |
| 18  | DomainInSubdomains                           | Binary        | Checks if TLD or ccTLD is used as part of subdomain in webpage URL                               |
| 19  | DomainInPaths                                | Binary        | Checks if TLD or ccTLD is used in the path of webpage URL                                        |
| 20  | HttpsInHostname                              | Binary        | Checks if HTTPS is obfuscated in hostname part of webpage URL                                    |
| 21  | HostnameLength                               | Discrete      | Counts the total characters in hostname part of webpage URL                                       |
| 22  | PathLength                                   | Discrete      | Counts the total characters in path of webpage URL                                               |
| 23  | QueryLength                                  | Discrete      | Counts the total characters in query part of webpage URL                                         |
| 24  | DoubleSlashInPath                            | Binary        | Checks if “//” exist in the path of webpage URL                                                   |
| 25  | NumSensitiveWords                            | Discrete      | Counts the number of sensitive words (e.g., “secure,” “account,” “login,” etc.) in webpage URL   |
| 26  | EmbeddedBrandName                            | Binary        | Checks if brand name appears in subdomains and path; brand = most frequent domain in HTML        |
| 27  | PctExtHyperlinks                             | Continuous    | Percentage of external hyperlinks in HTML source code                                            |
| 28  | PctExtResourceUrls                           | Continuous    | Percentage of external resource URLs in HTML source code                                         |
| 29  | ExtFavicon                                   | Binary        | Checks if favicon is loaded from a different domain                                              |
| 30  | InsecureForms                                | Binary        | Checks if form action URL lacks HTTPS protocol                                                    |
| 31  | RelativeFormAction                           | Binary        | Checks if form action URL is relative                                                            |
| 32  | ExtFormAction                                | Binary        | Checks if form action URL is external domain                                                     |
| 33  | AbnormalFormAction                           | Categorical   | Form action contains “#,” “about:blank,” empty, or “javascript:true”                                     |
| 34  | PctNullSelfRedirectHyperlinks                | Continuous    | Pct. of hyperlinks empty, self-redirect (“#”), current URL, or abnormal                                             |
| 35  | FrequentDomainNameMismatch                   | Binary        | Most frequent domain in HTML ≠ webpage URL domain                                                |
| 36  | FakeLinkInStatusBar                          | Binary        | Checks if onMouseOver JS shows fake URL in status bar                                            |
| 37  | RightClickDisabled                           | Binary        | Checks if JS disables right-click function                                                       |
| 38  | PopUpWindow                                  | Binary        | Checks if JS launches pop-up windows                                                             |
| 39  | SubmitInfoToEmail                            | Binary        | Checks if HTML uses “mailto” in forms                                                            |
| 40  | IframeOrFrame                                | Binary        | Checks if iframe or frame tags are used                                                          |
| 41  | MissingTitle                                 | Binary        | Checks if the title tag is empty                                                               |
| 42  | ImagesOnlyInForm                             | Binary        | Form scope contains only images, no text                                                         |
| 43  | SubdomainLevelRT                             | Categorical   | Counts dots in hostname (reinforced thresholds)                                                  |
| 44  | UrlLengthRT                                  | Categorical   | URL length with applied rules/thresholds                                                         |
| 45  | PctExtResourceUrlsRT                         | Categorical   | Pct. of external resource URLs (categorical)                                                     |
| 46  | AbnormalExtFormActionR                       | Categorical   | Form action foreign domain, “about:blank”, or empty                                              |
| 47  | ExtMetaScriptLinkRT                          | Categorical   | Pct. of meta, script, link tags with external URLs                                               |
| 48  | PctExtNullSelfRedirect-HyperlinksRT          | Categorical   | Pct. of hyperlinks external, “#,” or “JavaScript:: void(0)”                                      |

In [None]:


import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import (SelectKBest, f_classif, chi2, mutual_info_classif,
                                      RFE, RFECV, SelectFromModel, VarianceThreshold)
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.linear_model import Lasso, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import LinearSVC
from scipy.stats import pointbiserialr
import warnings
warnings.filterwarnings('ignore')

url = "https://raw.githubusercontent.com/Emma-Ok/Phishing-Detection-ML/main/Phishing_Legitimate_full.csv"
df = pd.read_csv(url)
df = df.drop(columns=['id'])

target = 'CLASS_LABEL'

# Separar características y etiquetas
X = df.drop(target, axis=1)
y = df[target]
feature_names = X.columns.tolist()

In [None]:

print(f"\nDimensión de datos: {X.shape}")
print(f"Número de características: {X.shape[1]}")
print(f"Número de muestras: {X.shape[0]}")
print(f"Distribución de clases: \n{y.value_counts()}")

# Crear una copia del dataset con la etiqueta para facilitar visualizaciones
df_viz = X.copy()
df_viz[target] = y



Dimensión de datos: (10000, 48)
Número de características: 48
Número de muestras: 10000
Distribución de clases: 
CLASS_LABEL
1    5000
0    5000
Name: count, dtype: int64


# Plots

In [None]:
# Función para crear histogramas para todas las características
def plot_all_histograms(df, target_col, max_cols=6, max_features=48):
    """
    Crea histogramas para todas las características, agrupados en subplots.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        max_cols: Número máximo de columnas en los subplots
        max_features: Número máximo de características a visualizar
    """
    features = [col for col in df.columns if col != target_col]

    # Limitar el número de características si hay demasiadas
    if len(features) > max_features:
        print(f"Mostrando solo las primeras {max_features} características de {len(features)} totales")
        features = features[:max_features]

    num_features = len(features)
    num_rows = (num_features + max_cols - 1) // max_cols  # Ceil division

    fig = make_subplots(rows=num_rows, cols=max_cols, subplot_titles=features)

    for i, feature in enumerate(features):
        row = i // max_cols + 1
        col = i % max_cols + 1

        # Crear histograma
        fig.add_trace(
            go.Histogram(x=df[feature], name=feature),
            row=row, col=col
        )

        # Ajustar diseño de cada subplot
        fig.update_xaxes(title_text=feature, row=row, col=col)
        fig.update_yaxes(title_text="Frecuencia", row=row, col=col)

    # Ajustar diseño general
    fig.update_layout(
        title="Distribución de todas las características",
        showlegend=False,
        height=250 * num_rows,
        width=200 * max_cols
    )

    return fig



In [None]:
# Función para crear boxplots por clase para todas las características
def plot_all_boxplots(df, target_col, max_cols=6, max_features=48):
    """
    Crea boxplots para todas las características agrupadas por clase.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        max_cols: Número máximo de columnas en los subplots
        max_features: Número máximo de características a visualizar
    """
    features = [col for col in df.columns if col != target_col]

    # Limitar el número de características si hay demasiadas
    if len(features) > max_features:
        print(f"Mostrando solo las primeras {max_features} características de {len(features)} totales")
        features = features[:max_features]

    num_features = len(features)
    num_rows = (num_features + max_cols - 1) // max_cols  # Ceil division

    fig = make_subplots(rows=num_rows, cols=max_cols, subplot_titles=features)

    for i, feature in enumerate(features):
        row = i // max_cols + 1
        col = i % max_cols + 1

        # Crear boxplot para cada clase
        classes = df[target_col].unique()
        for cls in classes:
            fig.add_trace(
                go.Box(
                    y=df[df[target_col] == cls][feature],
                    name=f"Clase {cls}",
                    boxpoints='outliers',
                    jitter=0.3,
                    marker_color=f"rgba({50+cls*150}, {100+cls*50}, {150-cls*100}, 0.6)"
                ),
                row=row, col=col
            )

        # Ajustar diseño de cada subplot
        fig.update_xaxes(title_text="Clase", row=row, col=col)
        fig.update_yaxes(title_text=feature, row=row, col=col)

    # Ajustar diseño general
    fig.update_layout(
        title="Distribución de características por clase",
        showlegend=True,
        height=300 * num_rows,
        width=350 * max_cols,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
    )

    # Mostrar leyenda solo una vez
    for i in range(1, len(fig.data)):
        fig.data[i].showlegend = i < len(classes)

    return fig


In [None]:
# Función para crear violin plots por clase para todas las características
def plot_all_violins(df, target_col, max_cols=3, max_features=48):
    """
    Crea violin plots para las características agrupadas por clase.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        max_cols: Número máximo de columnas en los subplots
        max_features: Número máximo de características a visualizar
    """
    features = [col for col in df.columns if col != target_col]

    # Limitar el número de características si hay demasiadas
    if len(features) > max_features:
        print(f"Mostrando solo las primeras {max_features} características de {len(features)} totales")
        features = features[:max_features]

    num_features = len(features)
    num_rows = (num_features + max_cols - 1) // max_cols  # Ceil division

    fig = make_subplots(rows=num_rows, cols=max_cols, subplot_titles=features)

    for i, feature in enumerate(features):
        row = i // max_cols + 1
        col = i % max_cols + 1

        # Crear violin plot
        fig.add_trace(
            go.Violin(
                x=df[target_col].apply(lambda x: f"Clase {x}"),
                y=df[feature],
                box_visible=True,
                meanline_visible=True,
                points="all",
                jitter=0.05,
                name=feature
            ),
            row=row, col=col
        )

        # Ajustar diseño de cada subplot
        fig.update_xaxes(title_text="Clase", row=row, col=col)
        fig.update_yaxes(title_text=feature, row=row, col=col)

    # Ajustar diseño general
    fig.update_layout(
        title="Distribución de características por clase (Violin Plots)",
        showlegend=False,
        height=300 * num_rows,
        width=350 * max_cols
    )

    return fig


In [None]:
# Función para crear scatter plots de pares de características importantes
def plot_feature_pairs(df, target_col, num_pairs=20):
    """
    Crea scatter plots para pares de características, coloreados por clase.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        num_pairs: Número de pares de características a visualizar
    """
    features = [col for col in df.columns if col != target_col]

    # Si hay muchas características, seleccionar algunas para visualizar
    if len(features) > 10:
        # Calcular correlación con el target para seleccionar las características más relevantes
        correlations = []
        for feature in features:
            corr = df[[feature, target_col]].corr().iloc[0, 1]
            correlations.append((feature, abs(corr)))

        # Ordenar por correlación absoluta
        correlations.sort(key=lambda x: x[1], reverse=True)
        selected_features = [x[0] for x in correlations[:6]]
    else:
        selected_features = features

    # Crear todas las combinaciones de pares
    pairs = []
    for i in range(len(selected_features)):
        for j in range(i+1, len(selected_features)):
            pairs.append((selected_features[i], selected_features[j]))

    # Limitar el número de pares
    pairs = pairs[:num_pairs]

    # Crear subplots
    num_pairs = len(pairs)
    num_cols = min(3, num_pairs)
    num_rows = (num_pairs + num_cols - 1) // num_cols

    fig = make_subplots(rows=num_rows, cols=num_cols,
                        subplot_titles=[f"{pair[0]} vs {pair[1]}" for pair in pairs])

    for i, (feature1, feature2) in enumerate(pairs):
        row = i // num_cols + 1
        col = i % num_cols + 1

        # Crear scatter plot
        classes = df[target_col].unique()
        for cls in classes:
            mask = df[target_col] == cls
            fig.add_trace(
                go.Scatter(
                    x=df[mask][feature1],
                    y=df[mask][feature2],
                    mode='markers',
                    name=f"Clase {cls}",
                    marker=dict(
                        size=6,
                        color=f"rgba({50+cls*150}, {100+cls*50}, {150-cls*100}, 0.8)"
                    )
                ),
                row=row, col=col
            )

        # Ajustar diseño de cada subplot
        fig.update_xaxes(title_text=feature1, row=row, col=col)
        fig.update_yaxes(title_text=feature2, row=row, col=col)

    # Ajustar diseño general
    fig.update_layout(
        title="Relaciones entre pares de características importantes",
        showlegend=True,
        height=350 * num_rows,
        width=400 * num_cols,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
    )

    # Mostrar leyenda solo una vez
    for i in range(len(classes), len(fig.data)):
        fig.data[i].showlegend = False

    return fig



In [None]:
# Función para visualizar proyecciones de dimensionalidad reducida
def plot_dimensionality_reduction(df, target_col, methods=['PCA', 'TSNE']):
    """
    Visualiza los datos usando técnicas de reducción de dimensionalidad.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        methods: Lista de métodos a utilizar ('PCA', 'TSNE')
    """
    X = df.drop(target_col, axis=1)
    y = df[target_col]

    # Escalar los datos
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)

    # Crear figura con subplots
    fig = make_subplots(rows=1, cols=len(methods), subplot_titles=methods)

    # Procesar cada método
    for i, method in enumerate(methods):
        col = i + 1

        if method == 'PCA':
            # Aplicar PCA
            pca = PCA(n_components=2)
            X_reduced = pca.fit_transform(X_scaled)
            explained_var = pca.explained_variance_ratio_
            title = f"PCA (var. explicada: {explained_var[0]:.2f}, {explained_var[1]:.2f})"

        elif method == 'TSNE':
            # Aplicar t-SNE
            tsne = TSNE(n_components=2, random_state=42, n_jobs=-1)
            X_reduced = tsne.fit_transform(X_scaled)
            title = "t-SNE"

        # Crear scatter plot
        classes = np.unique(y)
        for cls in classes:
            mask = y == cls
            fig.add_trace(
                go.Scatter(
                    x=X_reduced[mask, 0],
                    y=X_reduced[mask, 1],
                    mode='markers',
                    name=f"Clase {cls}",
                    marker=dict(
                        size=8,
                        color=f"rgba({50+cls*150}, {100+cls*50}, {150-cls*100}, 0.8)"
                    )
                ),
                row=1, col=col
            )

        # Ajustar diseño de cada subplot
        fig.update_xaxes(title_text=f"Componente 1", row=1, col=col)
        fig.update_yaxes(title_text=f"Componente 2", row=1, col=col)

    # Ajustar diseño general
    fig.update_layout(
        title="Visualización de datos con reducción de dimensionalidad",
        showlegend=True,
        height=500,
        width=1000,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
    )

    # Mostrar leyenda solo una vez
    for i in range(len(classes), len(fig.data)):
        fig.data[i].showlegend = False

    return fig


In [None]:
# Función para crear un heatmap de correlación entre características
def plot_correlation_heatmap(df, target_col):
    """
    Crea un heatmap de correlación entre características.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
    """
    # Calcular matriz de correlación
    corr_matrix = df.corr()

    # Crear heatmap
    fig = px.imshow(corr_matrix,
                    labels=dict(x="Características", y="Características", color="Correlación"),
                    x=corr_matrix.columns,
                    y=corr_matrix.columns,
                    color_continuous_scale='RdBu_r',
                    range_color=[-1, 1])

    fig.update_layout(
        title="Matriz de Correlación entre Características",
        width=900,
        height=800
    )

    return fig



In [None]:
# Función para crear un radar chart (spider chart) por clase
def plot_radar_chart(df, target_col, max_features=10):
    """
    Crea un radar chart para comparar clases en múltiples dimensiones.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
        max_features: Número máximo de características a incluir
    """
    # Si hay muchas características, seleccionar las más correlacionadas con el target
    features = [col for col in df.columns if col != target_col]

    if len(features) > max_features:
        correlations = []
        for feature in features:
            corr = df[[feature, target_col]].corr().iloc[0, 1]
            correlations.append((feature, abs(corr)))

        correlations.sort(key=lambda x: x[1], reverse=True)
        selected_features = [x[0] for x in correlations[:max_features]]
    else:
        selected_features = features

    # Normalizar características para el radar chart
    df_radar = df[selected_features + [target_col]].copy()
    for feature in selected_features:
        df_radar[feature] = (df_radar[feature] - df_radar[feature].min()) / (df_radar[feature].max() - df_radar[feature].min())

    # Calcular medias por clase
    class_means = df_radar.groupby(target_col).mean()

    # Crear radar chart
    fig = go.Figure()

    classes = df[target_col].unique()
    for cls in classes:
        fig.add_trace(go.Scatterpolar(
            r=class_means.loc[cls].values,
            theta=selected_features,
            fill='toself',
            name=f'Clase {cls}'
        ))

    fig.update_layout(
        title="Radar Chart de Características por Clase",
        polar=dict(
            radialaxis=dict(
                visible=True,
                range=[0, 1]
            )),
        showlegend=True,
        width=700,
        height=700
    )

    return fig


# Visualización conjunta

In [None]:
# Función principal para generar todas las visualizaciones
def visualize_all_features(df, target_col):
    """
    Genera y muestra todas las visualizaciones para el análisis de características.

    Args:
        df: DataFrame con las características y el target
        target_col: Nombre de la columna target
    """
    print("\n=== EXPLORANDO DISTRIBUCIONES DE CARACTERÍSTICAS ===")

    # 1. Histogramas para todas las características
    print("\n1. Histogramas de todas las características")
    hist_fig = plot_all_histograms(df, target)
    hist_fig.show()

    # 2. Boxplots por clase
    print("\n2. Boxplots de características agrupadas por clase")
    box_fig = plot_all_boxplots(df, target)
    box_fig.show()

    # 3. Violin plots (para mejor visualización de la distribución)
    print("\n3. Violin plots de características por clase")
    violin_fig = plot_all_violins(df, target)
    violin_fig.show()

    # 4. Scatter plots de pares de características
    print("\n4. Scatter plots de pares de características importantes")
    scatter_fig = plot_feature_pairs(df, target)
    scatter_fig.show()

    # 5. Visualización de datos con reducción de dimensionalidad
    print("\n5. Visualización con técnicas de reducción de dimensionalidad")
    dim_red_fig = plot_dimensionality_reduction(df, target)
    dim_red_fig.show()

    # 6. Matriz de correlación
    print("\n6. Matriz de correlación entre características")
    corr_fig = plot_correlation_heatmap(df, target)
    corr_fig.show()

    # 7. Radar chart
    print("\n8. Radar Chart por clase")
    radar_fig = plot_radar_chart(df, target)
    radar_fig.show()

# Ejecutar la visualización completa
visualize_all_features(df_viz, target)


=== EXPLORANDO DISTRIBUCIONES DE CARACTERÍSTICAS ===

1. Histogramas de todas las características
Mostrando solo las primeras 30 características de 48 totales



2. Boxplots de características agrupadas por clase
Mostrando solo las primeras 30 características de 48 totales



3. Violin plots de características por clase
Mostrando solo las primeras 15 características de 48 totales



4. Scatter plots de pares de características importantes



5. Visualización con técnicas de reducción de dimensionalidad



6. Matriz de correlación entre características



8. Radar Chart por clase



=== VISUALIZACIÓN COMPLETA FINALIZADA ===

    RESUMEN DE VISUALIZACIONES:
    
    1. Histogramas: Muestran la distribución general de cada característica
    2. Boxplots: Permiten comparar la distribución y detectar outliers por clase
    3. Violin plots: Combinan boxplot con densidad para mejor visualización de la distribución
    4. Scatter plots: Muestran relaciones entre pares de características
    5. PCA/t-SNE: Proyectan los datos a 2D para visualizar separación de clases
    6. Matriz de correlación: Identifica relaciones lineales entre características
    7. Parallel Coordinates: Visualiza múltiples dimensiones simultáneamente
    8. Radar Chart: Compara el perfil de cada clase en todas las dimensiones
    
    Estas visualizaciones permiten:
    - Identificar características con distribuciones distintivas entre clases
    - Detectar anomalías y valores atípicos
    - Observar relaciones entre características
    - Entender la separabilidad de las clases en el espacio de car

    
  *RESUMEN DE VISUALIZACIONES:*

    1. Histogramas: Muestran la distribución general de cada característica
    2. Boxplots: Permiten comparar la distribución y detectar outliers por clase
    3. Violin plots: Combinan boxplot con densidad para mejor visualización de la distribución
    4. Scatter plots: Muestran relaciones entre pares de características
    5. PCA/t-SNE: Proyectan los datos a 2D para visualizar separación de clases
    6. Matriz de correlación: Identifica relaciones lineales entre características
    7. Parallel Coordinates: Visualiza múltiples dimensiones simultáneamente
    8. Radar Chart: Compara el perfil de cada clase en todas las dimensiones

    Estas visualizaciones permiten:
    - Identificar características con distribuciones distintivas entre clases
    - Detectar anomalías y valores atípicos
    - Observar relaciones entre características
    - Entender la separabilidad de las clases en el espacio de características
  


In [None]:
print(f"\nDimensión de datos: {X.shape}")
print(f"Número de características: {X.shape[1]}")
print(f"Número de muestras: {X.shape[0]}")
print(f"Distribución de clases: \n{y.value_counts()}")

# Dividir en conjunto de entrenamiento y prueba para evaluaciones consistentes
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)

# Escalar características para métodos que lo requieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



Dimensión de datos: (10000, 48)
Número de características: 48
Número de muestras: 10000
Distribución de clases: 
CLASS_LABEL
1    5000
0    5000
Name: count, dtype: int64


In [None]:
print("\n=== COMENZANDO ANÁLISIS DE CARACTERÍSTICAS ===")

# 1. ESTADÍSTICAS DESCRIPTIVAS
print("\n--- 1. Estadísticas Descriptivas ---")
# Mostrar estadísticas descriptivas básicas
desc_stats = X.describe().T
desc_stats['missing'] = X.isnull().sum()
desc_stats['unique'] = X.nunique()
print("\nEstadísticas descriptivas de las características (primeras 10):")
print(desc_stats)

# 2. ANÁLISIS DE CORRELACIÓN
print("\n--- 2. Análisis de Correlación ---")

# Correlación entre características
corr_matrix = X.corr()

# Identificar pares de características con alta correlación
print("\nPares de características con alta correlación (>0.8):")
high_corr_pairs = []
for i, col1 in enumerate(corr_matrix.columns):
    for col2 in corr_matrix.columns[i+1:]:
        corr_value = corr_matrix.loc[col1, col2]
        if abs(corr_value) > 0.8:
            high_corr_pairs.append((col1, col2, corr_value))
            print(f"{col1} - {col2}: {corr_value:.4f}")

if not high_corr_pairs:
    print("No se encontraron pares de características con correlación > 0.8")

# Visualizar matriz de correlación con plotly
# Creamos un heatmap interactivo
fig = px.imshow(corr_matrix,
                labels=dict(x="Características", y="Características", color="Correlación"),
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                color_continuous_scale='RdBu_r',
                range_color=[-1, 1])
fig.update_layout(title='Matriz de Correlación entre Características',
                  width=800, height=800)
fig.show()



=== COMENZANDO ANÁLISIS DE CARACTERÍSTICAS ===

--- 1. Estadísticas Descriptivas ---

Estadísticas descriptivas de las características (primeras 10):
                                      count       mean        std   min  \
NumDots                             10000.0   2.445100   1.346836   1.0   
SubdomainLevel                      10000.0   0.586800   0.751214   0.0   
PathLevel                           10000.0   3.300300   1.863241   0.0   
UrlLength                           10000.0  70.264100  33.369877  12.0   
NumDash                             10000.0   1.818000   3.106258   0.0   
NumDashInHostname                   10000.0   0.138900   0.545744   0.0   
AtSymbol                            10000.0   0.000300   0.017319   0.0   
TildeSymbol                         10000.0   0.013100   0.113709   0.0   
NumUnderscore                       10000.0   0.323200   1.114660   0.0   
NumPercent                          10000.0   0.073800   0.622248   0.0   
NumQueryComponents      

In [None]:
# Correlación con la variable objetivo (para variables continuas)
print("\n--- 3. Correlación con la Variable Objetivo ---")

# Correlación Punto Biserial para cada característica con respecto al target
point_biserial_corr = []
for col in X.columns:
    corr, p_value = pointbiserialr(X[col], y)
    point_biserial_corr.append((col, corr, p_value))

# Ordenar por valor absoluto de correlación
point_biserial_corr.sort(key=lambda x: abs(x[1]), reverse=True)

# Mostrar las 10 características con mayor correlación
print("\nTop 10 características con mayor correlación punto biserial con el target:")
for col, corr, p_value in point_biserial_corr[:10]:
    print(f"{col}: Correlación = {corr:.4f}, p-value = {p_value:.4e}")

# Visualizar las correlaciones con plotly
pb_corr_data = pd.DataFrame(point_biserial_corr, columns=['Feature', 'Correlation', 'p-value'])
pb_corr_data = pb_corr_data.sort_values('Correlation', ascending=False).head(15)

fig = px.bar(pb_corr_data, x='Correlation', y='Feature',
             title='Correlación Punto Biserial con la Variable Objetivo (Top 15)',
             labels={'Correlation': 'Correlación', 'Feature': 'Característica'},
             color='Correlation', color_continuous_scale='RdBu_r', range_color=[-1, 1])
fig.update_layout(width=800, height=500)
fig.show()



--- 3. Correlación con la Variable Objetivo ---

Top 10 características con mayor correlación punto biserial con el target:
HttpsInHostname: Correlación = nan, p-value = nan
PctExtNullSelfRedirectHyperlinksRT: Correlación = -0.5405, p-value = 0.0000e+00
FrequentDomainNameMismatch: Correlación = 0.4640, p-value = 0.0000e+00
NumDash: Correlación = -0.3722, p-value = 0.0000e+00
SubmitInfoToEmail: Correlación = -0.3576, p-value = 1.7070e-299
PctNullSelfRedirectHyperlinks: Correlación = 0.3428, p-value = 9.0132e-274
InsecureForms: Correlación = 0.3164, p-value = 2.6797e-231
NumDots: Correlación = 0.2941, p-value = 1.0268e-198
PctExtHyperlinks: Correlación = 0.2597, p-value = 7.2079e-154
NumSensitiveWords: Correlación = 0.2552, p-value = 1.8929e-148


In [None]:
# 4. MÉTODOS DE SELECCIÓN DE CARACTERÍSTICAS
print("\n--- 4. Comparación de Métodos de Selección de Características ---")

# 4.1 SelectKBest con diferentes funciones de puntuación
print("\n4.1 SelectKBest con diferentes funciones de puntuación")

# ANOVA F-value
skb_f_classif = SelectKBest(f_classif, k='all').fit(X_train, y_train)
f_classif_scores = skb_f_classif.scores_
f_classif_pvalues = skb_f_classif.pvalues_

# Chi-squared
# Aseguramos valores no negativos para chi2
X_train_chi2 = X_train.copy()
for col in X_train_chi2.columns:
    min_val = X_train_chi2[col].min()
    if min_val < 0:
        X_train_chi2[col] = X_train_chi2[col] - min_val
skb_chi2 = SelectKBest(chi2, k='all').fit(X_train_chi2, y_train)
chi2_scores = skb_chi2.scores_
chi2_pvalues = skb_chi2.pvalues_

# Mutual Information
skb_mi = SelectKBest(mutual_info_classif, k='all').fit(X_train, y_train)
mi_scores = skb_mi.scores_

# Crear DataFrames para comparación y visualización
f_classif_df = pd.DataFrame({'Feature': feature_names, 'Score': f_classif_scores})
f_classif_df = f_classif_df.sort_values('Score', ascending=False).head(15)

chi2_df = pd.DataFrame({'Feature': feature_names, 'Score': chi2_scores})
chi2_df = chi2_df.sort_values('Score', ascending=False).head(15)

mi_df = pd.DataFrame({'Feature': feature_names, 'Score': mi_scores})
mi_df = mi_df.sort_values('Score', ascending=False).head(15)

# Visualizar con plotly - creamos subplots para las tres métricas
fig = make_subplots(rows=3, cols=1,
                    subplot_titles=("Top Características según ANOVA F-value",
                                    "Top Características según Chi-squared",
                                    "Top Características según Mutual Information"),
                    vertical_spacing=0.1)

fig.add_trace(go.Bar(x=f_classif_df['Score'], y=f_classif_df['Feature'],
                     orientation='h', name='F-value', marker_color='blue'),
              row=1, col=1)

fig.add_trace(go.Bar(x=chi2_df['Score'], y=chi2_df['Feature'],
                     orientation='h', name='Chi2', marker_color='green'),
              row=2, col=1)

fig.add_trace(go.Bar(x=mi_df['Score'], y=mi_df['Feature'],
                     orientation='h', name='MI', marker_color='red'),
              row=3, col=1)

fig.update_layout(height=900, width=800, showlegend=False,
                  title_text="Comparación de Métodos de Filtro")
fig.show()

# Comparar rankings entre métodos
print("\nComparando rankings de características entre métodos:")
# Crear un DataFrame de rankings
feature_ranks = pd.DataFrame({
    'Feature': feature_names,
    'F-classif Rank': pd.Series(f_classif_scores).rank(ascending=False),
    'Chi2 Rank': pd.Series(chi2_scores).rank(ascending=False),
    'MI Rank': pd.Series(mi_scores).rank(ascending=False)
})

# Calcular ranking promedio
feature_ranks['Avg Rank'] = feature_ranks[['F-classif Rank', 'Chi2 Rank', 'MI Rank']].mean(axis=1)
feature_ranks = feature_ranks.sort_values('Avg Rank')

print("\nTop 10 características por ranking promedio de métodos de filtro:")
print(feature_ranks.head(10))




--- 4. Comparación de Métodos de Selección de Características ---

4.1 SelectKBest con diferentes funciones de puntuación



Comparando rankings de características entre métodos:

Top 10 características por ranking promedio de métodos de filtro:
                               Feature  F-classif Rank  Chi2 Rank  MI Rank  \
47  PctExtNullSelfRedirectHyperlinksRT             1.0        3.0      4.0   
4                              NumDash             3.0        1.0      8.0   
34          FrequentDomainNameMismatch             2.0        4.0      7.0   
38                   SubmitInfoToEmail             4.0        5.0      9.0   
33       PctNullSelfRedirectHyperlinks             5.0       10.0      3.0   
26                    PctExtHyperlinks             8.0       18.0      1.0   
0                              NumDots             7.0       12.0     10.0   
24                   NumSensitiveWords             9.0       11.0     16.0   
2                            PathLevel            11.0       13.0     14.0   
22                         QueryLength            28.0        2.0     12.0   

     Avg Rank  
47 

In [None]:
# 4.2 Importancia de características basada en modelos de árbol
print("\n4.2 Importancia de características basada en modelos de árbol")

# Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
rf_importances = rf_model.feature_importances_

# Extra Trees
et_model = ExtraTreesClassifier(n_estimators=100, random_state=42)
et_model.fit(X_train, y_train)
et_importances = et_model.feature_importances_

# Decision Tree
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
dt_importances = dt_model.feature_importances_

# Crear DataFrames para visualización
rf_df = pd.DataFrame({'Feature': feature_names, 'Importance': rf_importances})
rf_df = rf_df.sort_values('Importance', ascending=False).head(15)

et_df = pd.DataFrame({'Feature': feature_names, 'Importance': et_importances})
et_df = et_df.sort_values('Importance', ascending=False).head(15)

dt_df = pd.DataFrame({'Feature': feature_names, 'Importance': dt_importances})
dt_df = dt_df.sort_values('Importance', ascending=False).head(15)

# Visualizar con plotly
fig = make_subplots(rows=3, cols=1,
                    subplot_titles=("Importancia de Características - Random Forest",
                                    "Importancia de Características - Extra Trees",
                                    "Importancia de Características - Decision Tree"),
                    vertical_spacing=0.1)

fig.add_trace(go.Bar(x=rf_df['Importance'], y=rf_df['Feature'],
                     orientation='h', name='RF', marker_color='darkgreen'),
              row=1, col=1)

fig.add_trace(go.Bar(x=et_df['Importance'], y=et_df['Feature'],
                     orientation='h', name='ET', marker_color='forestgreen'),
              row=2, col=1)

fig.add_trace(go.Bar(x=dt_df['Importance'], y=dt_df['Feature'],
                     orientation='h', name='DT', marker_color='lightgreen'),
              row=3, col=1)

fig.update_layout(height=900, width=800, showlegend=False,
                  title_text="Importancia de Características en Modelos de Árbol")
fig.show()

# Comparar rankings entre modelos basados en árboles
tree_ranks = pd.DataFrame({
    'Feature': feature_names,
    'RF Rank': pd.Series(rf_importances).rank(ascending=False),
    'ET Rank': pd.Series(et_importances).rank(ascending=False),
    'DT Rank': pd.Series(dt_importances).rank(ascending=False)
})

tree_ranks['Avg Tree Rank'] = tree_ranks[['RF Rank', 'ET Rank', 'DT Rank']].mean(axis=1)
tree_ranks = tree_ranks.sort_values('Avg Tree Rank')

print("\nTop 10 características según modelos basados en árboles:")
print(tree_ranks.head(10))



4.2 Importancia de características basada en modelos de árbol



Top 10 características según modelos basados en árboles:
                               Feature  RF Rank  ET Rank  DT Rank  \
47  PctExtNullSelfRedirectHyperlinksRT      1.0      1.0      2.0   
26                    PctExtHyperlinks      2.0      2.0      1.0   
34          FrequentDomainNameMismatch      4.0      3.0      3.0   
33       PctNullSelfRedirectHyperlinks      5.0      4.0      5.0   
27                  PctExtResourceUrls      3.0      7.0      6.0   
29                       InsecureForms      8.0      6.0      4.0   
38                   SubmitInfoToEmail     11.0      8.0      7.0   
4                              NumDash      6.0     10.0     11.0   
2                            PathLevel     10.0     11.0      8.0   
39                       IframeOrFrame     15.0      9.0      9.0   

    Avg Tree Rank  
47       1.333333  
26       1.666667  
34       3.333333  
33       4.666667  
27       5.333333  
29       6.000000  
38       8.666667  
4        9.000000  
2 

In [None]:
# 4.3 Selección basada en coeficientes de modelos lineales
print("\n4.3 Selección basada en coeficientes de modelos lineales")

# Logistic Regression con regularización L1
lr_model = LogisticRegression(penalty='l1', solver='liblinear', random_state=42)
lr_model.fit(X_train_scaled, y_train)
lr_importances = np.abs(lr_model.coef_[0])

# Linear SVM con regularización L1
lsvc_model = LinearSVC(penalty='l1', dual=False, random_state=42)
lsvc_model.fit(X_train_scaled, y_train)
lsvc_importances = np.abs(lsvc_model.coef_[0])

# Lasso (regresión lineal con regularización L1)
lasso_model = Lasso(alpha=0.01)
lasso_model.fit(X_train_scaled, y_train)
lasso_importances = np.abs(lasso_model.coef_)

# Crear DataFrames para visualización
lr_df = pd.DataFrame({'Feature': feature_names, 'Importance': lr_importances})
lr_df = lr_df.sort_values('Importance', ascending=False).head(15)

lsvc_df = pd.DataFrame({'Feature': feature_names, 'Importance': lsvc_importances})
lsvc_df = lsvc_df.sort_values('Importance', ascending=False).head(15)

lasso_df = pd.DataFrame({'Feature': feature_names, 'Importance': lasso_importances})
lasso_df = lasso_df.sort_values('Importance', ascending=False).head(15)

# Visualizar con plotly
fig = make_subplots(rows=3, cols=1,
                    subplot_titles=("Coeficientes - Logistic Regression",
                                    "Coeficientes - Linear SVM",
                                    "Coeficientes - Lasso"),
                    vertical_spacing=0.1)

fig.add_trace(go.Bar(x=lr_df['Importance'], y=lr_df['Feature'],
                     orientation='h', name='LR', marker_color='orange'),
              row=1, col=1)

fig.add_trace(go.Bar(x=lsvc_df['Importance'], y=lsvc_df['Feature'],
                     orientation='h', name='LSVC', marker_color='darkorange'),
              row=2, col=1)

fig.add_trace(go.Bar(x=lasso_df['Importance'], y=lasso_df['Feature'],
                     orientation='h', name='Lasso', marker_color='coral'),
              row=3, col=1)

fig.update_layout(height=900, width=800, showlegend=False,
                  title_text="Coeficientes de Modelos Lineales")
fig.show()



4.3 Selección basada en coeficientes de modelos lineales


In [None]:
# 4.4 Recursive Feature Elimination (RFE)
print("\n4.4 Recursive Feature Elimination (RFE)")

# RFE con Random Forest
rfe_selector = RFE(estimator=RandomForestClassifier(random_state=42), n_features_to_select=20, step=1)
rfe_selector.fit(X_train, y_train)
rfe_support = rfe_selector.get_support()
rfe_features = [feature for i, feature in enumerate(feature_names) if rfe_support[i]]

print(f"\nCaracterísticas seleccionadas por RFE (top 20):")
for i, feature in enumerate(rfe_features):
    print(f"{i+1}. {feature}")

# RFECV para encontrar automáticamente el número óptimo de características
print("\nRealizando RFECV para encontrar el número óptimo de características...")
rfecv_selector = RFECV(estimator=RandomForestClassifier(random_state=42), step=1, cv=5, scoring='accuracy')
rfecv_selector.fit(X_train, y_train)
rfecv_support = rfecv_selector.get_support()
rfecv_features = [feature for i, feature in enumerate(feature_names) if rfecv_support[i]]

print(f"\nNúmero óptimo de características según RFECV: {rfecv_selector.n_features_}")
print(f"Características seleccionadas por RFECV:")
for i, feature in enumerate(rfecv_features[:10]):  # Mostramos solo las primeras 10 para brevedad
    print(f"{i+1}. {feature}")
if len(rfecv_features) > 10:
    print(f"... y {len(rfecv_features) - 10} más")

# Graficar número de características vs. score en CV con plotly
fig = px.line(x=range(1, len(rfecv_selector.grid_scores_) + 1), y=rfecv_selector.grid_scores_,
              labels={'x': 'Número de Características', 'y': 'Precisión en Validación Cruzada'},
              title='RFECV - Número de Características vs. Precisión')
fig.update_layout(width=800, height=400)
fig.show()



4.4 Recursive Feature Elimination (RFE)


KeyboardInterrupt: 

In [None]:
# 4.5 Selección basada en Varianza
print("\n4.5 Selección de características basada en Varianza")

# Calcular varianza de cada característica
variance = X_train.var()
variance_df = pd.DataFrame({'Feature': feature_names, 'Variance': variance.values})
variance_df = variance_df.sort_values('Variance', ascending=False)

print("\nTop 10 características con mayor varianza:")
print(variance_df.head(10))

# Evaluar diferentes umbrales de varianza
thresholds = [0.0, 0.01, 0.05, 0.1, 0.2]
threshold_results = []
for threshold in thresholds:
    selector = VarianceThreshold(threshold=threshold)
    selector.fit(X_train)
    n_selected = sum(selector.get_support())
    print(f"Umbral {threshold}: {n_selected} características seleccionadas")
    threshold_results.append({'Umbral': threshold, 'Características': n_selected})

# Visualizar distribución de varianza con plotly
fig = px.histogram(variance, nbins=30,
                   labels={'value': 'Varianza', 'count': 'Frecuencia'},
                   title='Distribución de Varianza de las Características')
fig.update_layout(width=800, height=400)
fig.show()

# Graficar top características por varianza
fig = px.bar(variance_df.head(15), x='Variance', y='Feature',
             title='Top 15 Características por Varianza',
             labels={'Variance': 'Varianza', 'Feature': 'Característica'})
fig.update_layout(width=800, height=500)
fig.show()



4.5 Selección de características basada en Varianza

Top 10 características con mayor varianza:
               Feature     Variance
3            UrlLength  1115.510630
21          PathLength   606.763161
22         QueryLength   591.702287
13     NumNumericChars    91.425879
20      HostnameLength    64.384077
4              NumDash     9.679749
2            PathLevel     3.511690
10  NumQueryComponents     1.791144
0              NumDots     1.771729
11        NumAmpersand     1.244867
Umbral 0.0: 47 características seleccionadas
Umbral 0.01: 42 características seleccionadas
Umbral 0.05: 35 características seleccionadas
Umbral 0.1: 30 características seleccionadas
Umbral 0.2: 22 características seleccionadas


In [None]:
# 4.6 PCA - Análisis de Componentes Principales
print("\n4.6 PCA - Análisis de Componentes Principales")

# Aplicar PCA
pca = PCA()
pca.fit(X_train_scaled)

# Varianza explicada por cada componente
explained_variance = pca.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance)

# Encontrar número de componentes para diferentes umbrales de varianza
for var_threshold in [0.7, 0.8, 0.9, 0.95]:
    n_components = np.argmax(cumulative_variance >= var_threshold) + 1
    print(f"Componentes necesarios para explicar {var_threshold*100}% de la varianza: {n_components}")

# Graficar varianza explicada con plotly
pca_df = pd.DataFrame({
    'Componente': range(1, len(explained_variance) + 1),
    'Varianza Individual': explained_variance,
    'Varianza Acumulada': cumulative_variance
})

fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(x=pca_df['Componente'], y=pca_df['Varianza Individual'], name='Varianza Individual'),
    secondary_y=False
)

fig.add_trace(
    go.Scatter(x=pca_df['Componente'], y=pca_df['Varianza Acumulada'],
               name='Varianza Acumulada', mode='lines+markers'),
    secondary_y=True
)

# Añadir líneas de referencia para 90% y 95%
fig.add_trace(
    go.Scatter(x=[1, len(explained_variance)], y=[0.9, 0.9], mode='lines',
               name='90% Varianza', line=dict(color='red', dash='dash')),
    secondary_y=True
)

fig.add_trace(
    go.Scatter(x=[1, len(explained_variance)], y=[0.95, 0.95], mode='lines',
               name='95% Varianza', line=dict(color='green', dash='dash')),
    secondary_y=True
)

fig.update_layout(
    title_text='PCA - Varianza Explicada por Componente',
    xaxis_title='Número de Componentes',
    width=800, height=500
)

fig.update_yaxes(title_text='Varianza Individual', secondary_y=False)
fig.update_yaxes(title_text='Varianza Acumulada', secondary_y=True)

fig.show()



4.6 PCA - Análisis de Componentes Principales
Componentes necesarios para explicar 70.0% de la varianza: 18
Componentes necesarios para explicar 80.0% de la varianza: 23
Componentes necesarios para explicar 90.0% de la varianza: 30
Componentes necesarios para explicar 95.0% de la varianza: 34


In [None]:
# 5. INTEGRACIÓN Y ANÁLISIS COMPARATIVO
print("\n--- 5. Integración y Análisis Comparativo de Métodos ---")

# Crear un DataFrame con el ranking global de características
all_methods_ranks = pd.DataFrame({'Feature': feature_names})

# Añadir rankings de cada método
all_methods_ranks['F-classif Rank'] = pd.Series(f_classif_scores).rank(ascending=False)
all_methods_ranks['Chi2 Rank'] = pd.Series(chi2_scores).rank(ascending=False)
all_methods_ranks['MI Rank'] = pd.Series(mi_scores).rank(ascending=False)
all_methods_ranks['RF Rank'] = pd.Series(rf_importances).rank(ascending=False)
all_methods_ranks['ET Rank'] = pd.Series(et_importances).rank(ascending=False)
all_methods_ranks['DT Rank'] = pd.Series(dt_importances).rank(ascending=False)
all_methods_ranks['LR Rank'] = pd.Series(lr_importances).rank(ascending=False)
all_methods_ranks['LSVC Rank'] = pd.Series(lsvc_importances).rank(ascending=False)
all_methods_ranks['Lasso Rank'] = pd.Series(lasso_importances).rank(ascending=False)
all_methods_ranks['Variance Rank'] = pd.Series(variance.values).rank(ascending=False)

# RFE y RFECV son binarios (seleccionado o no), convertimos a ranking
all_methods_ranks['RFE Selected'] = 0
for feature in rfe_features:
    all_methods_ranks.loc[all_methods_ranks['Feature'] == feature, 'RFE Selected'] = 1

all_methods_ranks['RFECV Selected'] = 0
for feature in rfecv_features:
    all_methods_ranks.loc[all_methods_ranks['Feature'] == feature, 'RFECV Selected'] = 1

# Calcular ranking promedio (excluyendo RFE y RFECV que son binarios)
ranking_columns = [col for col in all_methods_ranks.columns if 'Rank' in col]
all_methods_ranks['Avg Rank'] = all_methods_ranks[ranking_columns].mean(axis=1)

# Ordenar por ranking promedio
all_methods_ranks = all_methods_ranks.sort_values('Avg Rank')

print("\nTop 20 características según el ranking promedio de todos los métodos:")
print(all_methods_ranks[['Feature', 'Avg Rank'] + ranking_columns].head(20))

# Análisis de consistencia entre métodos
print("\nAnálisis de consistencia entre métodos:")

# Correlación entre rankings de diferentes métodos
rank_correlation = all_methods_ranks[ranking_columns].corr()

# Visualizar correlación entre métodos con plotly
fig = px.imshow(rank_correlation,
                labels=dict(x="Método", y="Método", color="Correlación"),
                x=rank_correlation.columns,
                y=rank_correlation.columns,
                color_continuous_scale='RdBu_r',
                text_auto='.2f')
fig.update_layout(title='Correlación entre Rankings de Diferentes Métodos',
                  width=800, height=700)
fig.show()



--- 5. Integración y Análisis Comparativo de Métodos ---

Top 20 características según el ranking promedio de todos los métodos:
                               Feature  Avg Rank  F-classif Rank  Chi2 Rank  \
47  PctExtNullSelfRedirectHyperlinksRT      2.80             1.0        3.0   
34          FrequentDomainNameMismatch      5.60             2.0        4.0   
4                              NumDash      6.40             3.0        1.0   
33       PctNullSelfRedirectHyperlinks      9.10             5.0       10.0   
26                    PctExtHyperlinks      9.60             8.0       18.0   
38                   SubmitInfoToEmail      9.90             4.0        5.0   
29                       InsecureForms     10.50             6.0       24.0   
2                            PathLevel     11.80            11.0       13.0   
0                              NumDots     12.00             7.0       12.0   
10                  NumQueryComponents     12.00            15.0        8.0   
3

In [None]:
# 6. IDENTIFICACIÓN DE CARACTERÍSTICAS MÁS CONSISTENTES
print("\n--- 6. Identificación de Características Más Consistentes ---")

# Calcular desviación estándar de los rankings para ver consistencia
all_methods_ranks['Rank StdDev'] = all_methods_ranks[ranking_columns].std(axis=1)

# Ordenar por ranking promedio y mostrar las más consistentes (menor desviación)
consistent_features = all_methods_ranks.sort_values(['Avg Rank', 'Rank StdDev'])

print("\nTop 15 características más importantes y consistentes:")
print(consistent_features[['Feature', 'Avg Rank', 'Rank StdDev']].head(15))

# Visualizar las características más consistentes con plotly
fig = px.scatter(consistent_features, x='Avg Rank', y='Rank StdDev',
                 hover_name='Feature',
                 labels={'Avg Rank': 'Ranking Promedio', 'Rank StdDev': 'Desviación Estándar'},
                 title='Consistencia vs. Importancia de Características')

# Añadir anotaciones para las 15 más importantes y consistentes
for i, row in consistent_features.head(15).iterrows():
    fig.add_annotation(
        x=row['Avg Rank'],
        y=row['Rank StdDev'],
        text=row['Feature'],
        showarrow=True,
        arrowhead=1,
        ax=0,
        ay=-20
    )

fig.update_layout(width=800, height=600)
fig.show()



--- 6. Identificación de Características Más Consistentes ---

Top 15 características más importantes y consistentes:
                               Feature  Avg Rank  Rank StdDev
47  PctExtNullSelfRedirectHyperlinksRT      2.80     3.392803
34          FrequentDomainNameMismatch      5.60     6.653320
4                              NumDash      6.40     2.951459
33       PctNullSelfRedirectHyperlinks      9.10     8.582281
26                    PctExtHyperlinks      9.60    11.432896
38                   SubmitInfoToEmail      9.90     7.370361
29                       InsecureForms     10.50     8.847473
2                            PathLevel     11.80     5.006662
0                              NumDots     12.00     3.126944
10                  NumQueryComponents     12.00     7.586538
39                       IframeOrFrame     14.10     5.743595
22                         QueryLength     15.85    11.460197
27                  PctExtResourceUrls     15.90    15.637917
24           

In [None]:
# 7. RESUMEN FINAL Y RECOMENDACIONES
print("\n--- 7. Resumen Final y Recomendaciones ---")

# Top 20 características recomendadas
recommended_features = consistent_features['Feature'].head(20).tolist()

print("\nLas 20 características más recomendadas para modelado (basado en múltiples métodos):")
for i, feature in enumerate(recommended_features):
    print(f"{i+1}. {feature}")




--- 7. Resumen Final y Recomendaciones ---

Las 20 características más recomendadas para modelado (basado en múltiples métodos):
1. PctExtNullSelfRedirectHyperlinksRT
2. FrequentDomainNameMismatch
3. NumDash
4. PctNullSelfRedirectHyperlinks
5. PctExtHyperlinks
6. SubmitInfoToEmail
7. InsecureForms
8. PathLevel
9. NumDots
10. NumQueryComponents
11. IframeOrFrame
12. QueryLength
13. PctExtResourceUrls
14. NumSensitiveWords
15. UrlLength
16. HostnameLength
17. ExtMetaScriptLinkRT
18. NumAmpersand
19. NumDashInHostname
20. ExtFavicon


RESUMEN DE MÉTODOS DE EVALUACIÓN DE CARACTERÍSTICAS:

1. Análisis Estadístico Básico:
   - Estadísticas descriptivas (media, desviación estándar, mín/máx)
   - Análisis de varianza
   - Ventaja: Simple y rápido
   - Desventaja: No considera relaciones con la variable objetivo

2. Correlación:
   - Correlación entre características (Pearson)
   - Correlación punto biserial con la variable objetivo
   - Ventaja: Identifica redundancias y relaciones lineales
   - Desventaja: No captura relaciones no lineales

3. Métodos Basados en Filtros:
   - ANOVA F-value (f_classif)
   - Chi-squared (chi2)
   - Mutual Information (mutual_info_classif)
   - Ventaja: Independientes del modelo, rápidos
   - Desventaja: Evalúan características individualmente

4. Métodos Basados en Modelos:
   - Importancia en Random Forest
   - Importancia en Extra Trees
   - Importancia en Decision Tree
   - Coeficientes de Logistic Regression y Linear SVM
   - Ventaja: Capturan interacciones entre características
   - Desventaja: Pueden sobreajustar a un tipo específico de modelo

5. Métodos Envolventes:
   - Recursive Feature Elimination (RFE)
   - RFE con Cross-Validation (RFECV)
   - Ventaja: Evaluación en conjunto, considera interacciones
   - Desventaja: Computacionalmente intensivo

6. PCA:
   - Reducción de dimensionalidad preservando varianza
   - Ventaja: Reduce dimensionalidad manteniendo información
   - Desventaja: Pierde interpretabilidad de características originales

RECOMENDACIONES DE USO:

1. Para eliminar características redundantes: Análisis de correlación
2. Para una primera evaluación rápida: Métodos de filtro (ANOVA, Chi2, MI)
3. Para selección específica de modelo: Importancia basada en ese modelo
4. Para evaluación exhaustiva: RFE o RFECV
5. Para datos de alta dimensionalidad: PCA o selección basada en varianza
6. Para mejor enfoque: Combinar múltiples métodos y buscar características consistentes