# Requirements

In [None]:
%pip install pandas numpy matplotlib seaborn 
%pip install scikit-learn
%pip install imbalanced-learn

### Imports

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import plotly.express as px
import plotly.graph_objects as go

### Data

- Definição das funções

In [None]:
DATA_PATH = 'PhiUSIIL_Phishing_URL_Dataset.csv'

def load_data(data_path=DATA_PATH):
    data = pd.read_csv(data_path)
    
    print("\nInformações do Dataset:")
    display(data.info())
    
    print("\nPrimeiras linhas do Dataset:")
    display(data.head(10))
    
    print("\nEstatísticas do Dataset:")
    display(data.describe())
    
    print("\nValores nulos no Dataset:")
    display(data.isnull().sum())
    
    # Modificar a a coluna label para target, para ser de fácil perceção ??
    data.rename(columns={'label': 'target'}, inplace=True)
    
    # Remover colunas categóricas
    categorical_columns = data.select_dtypes(include=['object']).columns
    data.drop(categorical_columns, axis=1, inplace=True)
    
    #Vai apresentar o nome das colunas
    #display("Columns: " + ", ".join(list(map(str, data.columns))))
    
    return data

In [None]:
def separar_features_target(data):
    X = data.copy()
    X.drop('target', axis=1,inplace=True)
    y = data['target'].copy()
    
    return X,y

In [None]:
def normalizar_features(X):
    scaler = StandardScaler()
    X = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)
    return X

- Execução Pré - Processamento

In [None]:
data = load_data()
X, y  = separar_features_target(data)
X = normalizar_features(X)

- Análise dos dados

  - 1 - Legítimo | 0 - Phishing

In [None]:
def plot_class_distribution(data):
    
    values = data['target'].value_counts()
    keys = ['Legítimo', 'Phishing']
    
    fig_pie = px.pie(names=keys, values=values, title='Distribuição das classes (%)')
    
    fig_bar = px.bar(x = keys, y=values, labels={'x': 'Classe', 'y': 'Contagem'},
                     title="Distribuição das Classes (Phishing vs. Legítimo)")
    
    fig_pie.show()
    fig_bar.show()
    
    print("\nPerc. of class 1 (Legítimo): " + str(data['target'].sum() / data.shape[0] * 100) + " %")

    #São muitos features, como simplificar aqui para verificar a matriz de correlação?
    
    # Com matplotlib
    corr = data.corr()
    
    plt.figure()
    sns.heatmap(corr, annot=True, vmin=-1.0, cmap='mako')
    plt.title("Matriz de Correlação")
    plt.show()
    
    # Com plotly
    fig_corr = px.imshow(corr, title="Matriz de Correlação",
                     color_continuous_scale= 'blues',
                     labels={'x': 'Features', 'y': 'Features', 'color': 'Correlação'})
    fig_corr.show()

    
    
plot_class_distribution(data)