# Proyecto: Detección de Sitios Web de Phishing usando Aprendizaje Automático

### Dataset Selecionado
Mohammad,Rami and McCluskey,Lee. (2015). Phishing Websites. UCI Machine Learning Repository. https://doi.org/10.24432/C51W2X.

### 1. Primero, asegúrate de tener instaladas las bibliotecas necesarias. Ejecuta este comando en una celda de Jupyter Notebook Google Coolab:

In [None]:
#!pip install scipy pandas scikit-learn numpy

En este caso se trabajo en un entorno virtual de python con el IDE Visual Studio Code y todas las dependencias se encuentran en archivo `requirements.txt`

##### Las extensiones utilizadas son: `ms-toolsai.jupyter`
- Name: Jupyter
- Id: ms-toolsai.jupyter
- Description: Jupyter notebook support, interactive programming and computing that supports Intellisense, debugging and more.
- Version: 2024.4.0
- Publisher: Microsoft
- VS Marketplace Link: https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter

En consola de Sistema operativo:

In [21]:
## Esto en consola
## crear entorno virtual con python
#python -m venv venv

## instalar dependencias
#pip install -r requirements.txt

SyntaxError: invalid syntax (2733344731.py, line 1)

## 2. Importación de Bibliotecas
A continuación, importa las bibliotecas que utilizarás en el proyecto:

- `pandas` se utiliza para manipulación de datos.
- `arff` de scipy.io se usa para cargar archivos .arff.
- `train_test_split` de sklearn.model_selection divide el conjunto de datos.
- `RandomForestClassifier` es el modelo de clasificación.
- `classification_report` evalúa el rendimiento del modelo.

In [20]:
import pandas as pd
from scipy.io import arff
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report


## 3. Carga del Archivo .arff
Carga los datos desde el archivo .arff y conviértelos a un DataFrame de pandas para facilitar su manipulación:

Este bloque de código carga los datos y los convierte en un DataFrame de pandas, lo que facilita su análisis y procesamiento posterior.

In [22]:
# Cargar el archivo .arff
data, meta = arff.loadarff('TrainingDataset.arff')

# Convertir a DataFrame de pandas
df = pd.DataFrame(data)

## 4. Decodificación de Columnas
Las columnas categóricas están en formato byte y deben ser convertidas a strings:

Este paso asegura que las columnas categóricas se manejen correctamente en Python.

In [None]:
# Convertir las columnas categóricas de bytes a strings
for column in df.columns:
    if df[column].dtype == object:
        df[column] = df[column].str.decode('utf-8')

## 5. Separación de Características y Etiquetas
Separa las características (X) de la etiqueta (y):

En este paso, X contiene todas las características o atributos y y contiene las etiquetas de clasificación o target.

In [None]:
# Separar características y etiquetas
X = df.drop('Result', axis=1)
y = df['Result']

## 6. División del Conjunto de Datos
Divide los datos en conjuntos de entrenamiento y prueba:

Este bloque divide los datos, reservando el 20% para pruebas y el 80% para entrenamiento.

In [None]:
# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## 7. Entrenamiento del Modelo
Entrena un modelo de clasificación Random Forest:

Aquí, el modelo Random Forest se entrena utilizando los datos de entrenamiento.

In [None]:
# Entrenar el modelo
model = RandomForestClassifier()
model.fit(X_train, y_train)

## 8. Predicción y Evaluación
Predice y evalúa el modelo con el conjunto de prueba:

Este código predice las etiquetas para los datos de prueba y luego imprime un reporte de clasificación que incluye métricas como precisión, recall y F1-score.

In [None]:
# Predecir y evaluar
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

In [None]:
# Crear un diccionario con los datos de entrada
nuevos_datos = {
    'having_IP_Address': [-1],
    'URL_Length': [1],
    'Shortining_Service': [1],
    'having_At_Symbol': [1],
    'double_slash_redirecting': [-1],
    'Prefix_Suffix': [-1],
    'having_Sub_Domain': [-1],
    'SSLfinal_State': [-1],
    'Domain_registeration_length': [-1],
    'Favicon': [1],
    'port': [1],
    'HTTPS_token': [-1],
    'Request_URL': [1],
    'URL_of_Anchor': [-1],
    'Links_in_tags': [1],
    'SFH': [-1],
    'Submitting_to_email': [-1],
    'Abnormal_URL': [-1],
    'Redirect': [-1],
    'on_mouseover': [1],
    'RightClick': [1],
    'popUpWidnow': [1],
    'Iframe': [-1],
    'age_of_domain': [1],
    'DNSRecord': [1],
    'web_traffic': [1],
    'Page_Rank': [-1],
    'Google_Index': [-1],
    'Links_pointing_to_page': [-1],
    'Statistical_report': [1]
}

# Crear un DataFrame a partir del diccionario de datos
nuevos_datos_df = pd.DataFrame(nuevos_datos)

# Realizar la predicción utilizando el modelo entrenado
prediccion = model.predict(nuevos_datos_df)

# Imprimir la predicción
print(prediccion)