In [None]:
# algoritmo de Gradiente de boosting

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder

# Cargar el dataset
df = pd.read_csv('malicius_dataset.csv')

# Mostrar información inicial del dataset
print("Información inicial del dataset:")
print(df.info())

# Preprocesamiento de datos
# Convertir la columna 'type' a valores numéricos (0 para benigno, 1 para phishing)
label_encoder = LabelEncoder()
df['type'] = label_encoder.fit_transform(df['type'])

# Definir características (X) y variable objetivo (y)
X = df['url']  # Características: URL
y = df['type']  # Variable objetivo: tipo (benigno o phishing)

# Convertir las URLs en características numéricas usando técnicas de vectorización
X_vectorized = pd.DataFrame()

# Contar la longitud de la URL
X_vectorized['largo_url'] = X.apply(len)

# Contar la cantidad de dígitos en la URL
X_vectorized['cantidad_digitos'] = X.apply(lambda url: sum(c.isdigit() for c in url))

# Contar la cantidad de caracteres especiales en la URL
X_vectorized['cantidad_caracteres_especiales'] = X.apply(lambda url: sum(c in string.punctuation for c in url))

# Contar vocales y consonantes
vowels = 'aeiou'
X_vectorized['cantidad_vocales'] = X.apply(lambda url: sum(c.lower() in vowels for c in url))
X_vectorized['cantidad_consonantes'] = X.apply(lambda url: sum(c.isalpha() and c.lower() not in vowels for c in url))

# Dividir el dataset en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de Gradient Boosting
model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
model.fit(X_train, y_train)

# Hacer predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
puntaje = accuracy_score(y_test, y_pred)
confusion = confusion_matrix(y_test, y_pred)
reporte = classification_report(y_test, y_pred)

print(f'Puntaje: {puntaje:.2f}')
print('Matriz de Confusion:')
print(confusion)
print('Reporte:')
print(reporte)
```
