In [2]:
# Importa bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import joblib

In [6]:
# Carregue o conjunto de dados
df = pd.read_csv('phishing.csv')

# Preencha valores nulos com string vazia
data = df.where((pd.notnull(df)), '')

# Obtenha as variáveis ​​de texto e rótulo
x = data["Email Text"]
y = data["Email Type"]

# Divida o conjunto de dados em treinamento e teste
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.2, random_state=3)

# Crie um vetorizador TF-IDF
feature_extraction = TfidfVectorizer(min_df=1, stop_words='english', lowercase=True)

# Transforme o texto de treinamento em features TF-IDF
X_train_features = feature_extraction.fit_transform(X_train)

# Transforme o texto de teste em features TF-IDF
X_test_features = feature_extraction.transform(X_test)

# Converta as variáveis ​​de rótulo para int
Y_train = Y_train.astype("int")
Y_test = Y_test.astype("int")

# Crie um modelo de regressão logística
model = LogisticRegression()

# Treine o modelo com os dados de treinamento
model.fit(X_train_features, Y_train)

# Salve o modelo treinado no arquivo 'spam_model.pkl'
joblib.dump(model, 'phishing_model.pkl')

# Salve o objeto TfidfVectorizer no arquivo 'tfidf_vectorizer.pkl'
joblib.dump(feature_extraction, 'phishing_tfidf_vectorizer.pkl')


['phishing_tfidf_vectorizer.pkl']

In [7]:
# Visualize as primeiras linhas do conjunto de dados
print(df.head())

# Visualize as primeiras linhas do conjunto de dados preenchido
print(data.head())

# Faça previsões nos dados de treinamento
predict_on_training_data = model.predict(X_train_features)

# Calcule a acurácia no conjunto de treinamento
accuracy_on_training_data = accuracy_score(Y_train, predict_on_training_data)

# Faça previsões nos dados de teste
prediction_on_test_data = model.predict(X_test_features)

# Calcule a acurácia no conjunto de teste
# accuracy_on_test_data = accuracy_score(Y_test, prediction_on_test_data)

   Unnamed: 0                                         Email Text  Email Type
0           0  re : 6 . 1100 , disc : uniformitarianism , re ...           0
1           1  the other side of * galicismos * * galicismo *...           0
2           2  re : equistar deal tickets are you still avail...           0
3           3  \nHello I am your hot lil horny toy.\n    I am...           1
4           4  software at incredibly low prices ( 86 % lower...           1
   Unnamed: 0                                         Email Text  Email Type
0           0  re : 6 . 1100 , disc : uniformitarianism , re ...           0
1           1  the other side of * galicismos * * galicismo *...           0
2           2  re : equistar deal tickets are you still avail...           0
3           3  \nHello I am your hot lil horny toy.\n    I am...           1
4           4  software at incredibly low prices ( 86 % lower...           1


In [76]:
# Carregue o vetorizador TF-IDF do arquivo 'tfidf_vectorizer.pkl'
tfidf_vectorizer_carregado = joblib.load('phishing_tfidf_vectorizer.pkl')

# Carregue o modelo treinado
modelo_carregado = joblib.load('phishing_model.pkl')

# email qualquer para testar
input_your_mail = ["Congratulations! You have been randomly selected to receive an amazing prize! To find out which prize you won, simply click on the link below:"]

# Transforme o texto de entrada em features TF-IDF
input_data_features = tfidf_vectorizer_carregado.transform(input_your_mail)

# Faça a predição para o texto de entrada
print(modelo_carregado.predict(input_data_features))

# Faça a predição para o texto de entrada em probabilidade
print(modelo_carregado.predict_proba(input_data_features)[0][1])

# Faça a predição para o texto para verificar se a probabilidade é maior que 70%
if(modelo_carregado.predict_proba(input_data_features)[0][1] > 0.7):
    print("it's phishing")
else:print("isn't phishing")



[1]
0.972528414302815
é spam
