## Modelo de Detecção de Modelos de Detecção de Smishing

Ankit Kumar Jain, B.B. Gupta,
Rule-Based Framework for Detection of Smishing Messages in Mobile Environment,
Procedia Computer Science,
Volume 125,
2018,
Pages 617-623,
ISSN 1877-0509,
https://doi.org/10.1016/j.procs.2017.12.079.
(https://www.sciencedirect.com/science/article/pii/S1877050917328478)
Abstract: Smishing is a cyber-security attack, which utilizes Short Message Service (SMS) to steal personal credentials of mobile users. The trust level of users on their smart devices has attracted attackers for performing various mobile security attacks like Smishing. In this paper, we implement the rule-based data mining classification approach in the detection of smishing messages. The proposed approach identified nine rules which can efficiently filter smishing SMS from the genuine one. Further, our approach applies rule-based classification algorithms to train these outstanding rules. Since the SMS text messages are very short and generally written in Lingo language, we have used text normalization to convert them into standard form to obtain better rules. The performance of the proposed approach is evaluated, and it achieved more than 99% true negative rate. Furthermore, the proposed approach is very efficient for the detection of the zero hour attack too.
Keywords: Smishing; Mobile Phishing; Data mining; Short messaging service; Machine learning

> Reprodução de resultados

In [7]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
import ruleset_br as ruleset

#### 1. Pré processamento dos dados

In [8]:
# Import the CSV dataset as a dataframe
# Since pandas is already imported in cell 1, we can use it directly
df = pd.read_csv('SMSSpamCollectionDataset-ptbr-gemma3n.csv', encoding='latin-1')
df = df[['label', 'text']]

# Display the first few rows to get a glimpse of the data

df

Unnamed: 0,label,text
0,ham,"âVai atÃ© o ponto final, loucoâ¦ SÃ³ dispon..."
1,ham,âOk lar... Joking wif u oniâ¦â\n
2,spam,âOlÃ¡! Sua entrada para os bilhetes da final...
3,ham,"âEi, vocÃª disse que estÃ¡ muito cedoâ¦ JÃ¡..."
4,ham,"âNÃ£o, eu nÃ£o acho que ele vai para nÃ³s, e..."
...,...,...
5567,spam,âEssa Ã© a segunda vez que tentamos entrar e...
5568,ham,âVai vai esplanade pra casa?â
5569,ham,"âAinda bem, estava em um clima de que nem is..."
5570,ham,"âO cara fez algumas piadas, mas eu parei de ..."


In [9]:
# Download dos recursos necessários do NLTK
nltk.download('punkt', quiet=True)
nltk.download('punkt_tab', quiet=True) 
nltk.download('stopwords', quiet=True)

def normalize_text(original_text) -> str:
    '''
    Recebe um SMS
    
    Retorna texto original normalizado (mais conservador para melhor performance)
    '''

    # Convert to lowercase
    text = original_text.lower()

    # Remove extra spaces
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Tokenize (método mais simples se houver problemas com punkt)
    try:
        words = nltk.word_tokenize(text)
    except:
        # Fallback para tokenização simples
        words = text.split()
    
    # Remove stopwords apenas as mais comuns (mais conservador)
    # IMPORTANTE: Preservar símbolos financeiros e matemáticos mesmo que sejam curtos
    common_stopwords = {'the', 'a', 'an', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 'of', 'with', 'by', 'is', 'are', 'was', 'were', 'be', 'been', 'have', 'has', 'had', 'do', 'does', 'did', 'will', 'would', 'could', 'should'}
    
    # Símbolos financeiros e matemáticos importantes para detecção de spam/smishing
    important_symbols = {
        # Símbolos financeiros
        '$', '£', '€', '¥', '₹', '¢', 
        # Símbolos matemáticos
        '+', '-', '*', '/', '=', '<', '>', '≤', '≥', '≠', '±', '×', '÷',
        # Outros símbolos importantes  
        '%', '#', '@', '&', '!', '?'
    }
    
    # Manter palavra se: não é stopword E (tem mais de 1 char OU é símbolo importante)
    words = [word for word in words if word not in common_stopwords and (len(word) > 1 or word in important_symbols)]
    
    # NÃO aplicar stemming agressivo - manter palavras mais íntegras
    # Preservar símbolos importantes e palavras relevantes
    words = [word for word in words if len(word) > 2 or word in important_symbols]
    
    # Join words back into a string
    normalized_text = ' '.join(words)
    
    return normalized_text

# Testar com um exemplo
sample_text = "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005!"
print(f"Original: {sample_text}")
print(f"Normalizado: {normalize_text(sample_text)}")

Original: Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005!
Normalizado: free entry wkly comp win cup final tkts 21st may 2005 !


(debugando o por quê do símbolo de dolar estar sumindo e verificando que ainda funciona...)

### Balanceando dataset

In [10]:
df_ham = df[df["label"] == "ham"]
df_spam = df[df["label"] == "spam"]

min_len = min(len(df_ham), len(df_spam))


df_ham_sample = df_ham.sample(n=min_len, random_state=42)
df_spam_sample = df_spam.sample(n=min_len, random_state=42)

big_df = df
df = pd.concat([df_ham_sample,df_spam_sample])
df


Unnamed: 0,label,text
3714,ham,"âAi, que late! EntÃ£o chama a gente amanhÃ£ ..."
1311,ham,âVocÃª estÃ¡ demais perto do meu coraÃ§Ã£o. ...
548,ham,âAguarde &lt;#&gt; minâ¦â\n
1324,ham,"âOlÃ¡! Pode me chamar, por favor? Seu nÃºmer..."
3184,ham,"âTalvez se vocÃª acordasse antes de 3, isso ..."
...,...,...
504,spam,âParabÃ©ns! Neste dia de sorte da competiÃ§Ã...
737,spam,âOi! Oferta de Fidelidade do Cliente: A NOVA...
1928,spam,âOlÃ¡! Essa chamada vem de 08702490080. Ela ...
3228,spam,"âDinheiro, saldo atual Ã© 500 libras - para ..."


In [11]:
# Apply the normalize_text function to the text column
df['normalized_text'] = df['text'].apply(normalize_text)

# Display the first few rows to see the normalized text
print(df[['text', 'normalized_text']].head())

                                                   text  \
3714  âAi, que late! EntÃ£o chama a gente amanhÃ£ ...   
1311  âVocÃª estÃ¡ demais perto do meu coraÃ§Ã£o. ...   
548                   âAguarde &lt;#&gt;  minâ¦â\n   
1324  âOlÃ¡! Pode me chamar, por favor? Seu nÃºmer...   
3184  âTalvez se vocÃª acordasse antes de 3, isso ...   

                                        normalized_text  
3714  âai que late ! entã£o chama gente amanhã£ ma...  
1311  âvocãª estã¡ demais perto meu coraã§ã£o vocã...  
548                          âaguarde & # & minâ¦â  
1324  âolã¡ ! pode chamar por favor ? seu nãºmero ...  
3184  âtalvez vocãª acordasse antes isso nã£o seri...  


### 2. Extração de features



In [12]:
# Apply each rule function from the ruleset module to create new columns
df['rule1'] = df['normalized_text'].apply(ruleset.rule1)
df['rule2'] = df['normalized_text'].apply(ruleset.rule2)
df['rule3'] = df['normalized_text'].apply(ruleset.rule3)
df['rule4'] = df['normalized_text'].apply(ruleset.rule4)
df['rule5'] = df['normalized_text'].apply(ruleset.rule5)
df['rule6'] = df['normalized_text'].apply(ruleset.rule6)
df['rule7'] = df['normalized_text'].apply(ruleset.rule7)
df['rule8'] = df['normalized_text'].apply(ruleset.rule8)
df['rule9'] = df['normalized_text'].apply(ruleset.rule9)

# Display the dataframe with all rule columns
print("Shape after adding rule columns:", df.shape)
df.head()

Shape after adding rule columns: (1494, 12)


Unnamed: 0,label,text,normalized_text,rule1,rule2,rule3,rule4,rule5,rule6,rule7,rule8,rule9
3714,ham,"âAi, que late! EntÃ£o chama a gente amanhÃ£ ...",âai que late ! entã£o chama gente amanhã£ ma...,0,0,1,0,1,0,0,1,0
1311,ham,âVocÃª estÃ¡ demais perto do meu coraÃ§Ã£o. ...,âvocãª estã¡ demais perto meu coraã§ã£o vocã...,0,0,1,0,0,0,0,1,0
548,ham,âAguarde &lt;#&gt; minâ¦â\n,âaguarde & # & minâ¦â,0,0,0,0,0,0,0,1,0
1324,ham,"âOlÃ¡! Pode me chamar, por favor? Seu nÃºmer...",âolã¡ ! pode chamar por favor ? seu nãºmero ...,0,0,1,0,1,0,0,1,0
3184,ham,"âTalvez se vocÃª acordasse antes de 3, isso ...",âtalvez vocãª acordasse antes isso nã£o seri...,0,0,1,0,1,0,0,1,0


In [13]:
import os
# Remove the problematic environment variable
if 'MPLBACKEND' in os.environ:
    del os.environ['MPLBACKEND']

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Convert labels to binary values (ham=0, spam=1)
df['binary_label'] = df['label'].map({'ham': 0, 'spam': 1})

# Extract features (all rule columns) and target variable
X = df[['rule1', 'rule2', 'rule3', 'rule4', 'rule5', 'rule6', 'rule7', 'rule8', 'rule9']]
y = df['binary_label']

# Split the data into training and testing sets (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Create and train a Decision Tree Classifier
dt_classifier = DecisionTreeClassifier(random_state=42)
dt_classifier.fit(X_train, y_train)

# Make predictions on test data
y_pred = dt_classifier.predict(X_test)

# Evaluate the model
accuracy = accuracy_score(y_test, y_pred)
class_report = classification_report(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

# Print the results
print(f"Decision Tree Classifier Results:")
print(f"Accuracy: {accuracy * 100:.2f}%")
print("\nClassification Report:")
print(class_report)
print("\nConfusion Matrix:")
print(conf_matrix)

# Calculate feature importances
feature_importances = dt_classifier.feature_importances_
feature_names = X.columns
importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})
importance_df = importance_df.sort_values('Importance', ascending=False)

print("\nFeature Importance:")
print(importance_df)

# Print true negative rate as mentioned in the paper
tn, fp, fn, tp = conf_matrix.ravel()
tnr = tn / (tn + fp)
print(f"\nTrue Negative Rate: {tnr * 100:.2f}%")
print(f"True Positive Rate (Sensitivity/Recall): {tp / (tp + fn) * 100:.2f}%")
print(f"False Positive Rate: {fp / (fp + tn) * 100:.2f}%")
print(f"False Negative Rate: {fn / (fn + tp) * 100:.2f}%")

Decision Tree Classifier Results:
Accuracy: 77.26%

Classification Report:
              precision    recall  f1-score   support

           0       0.79      0.72      0.76       145
           1       0.76      0.82      0.79       154

    accuracy                           0.77       299
   macro avg       0.77      0.77      0.77       299
weighted avg       0.77      0.77      0.77       299


Confusion Matrix:
[[105  40]
 [ 28 126]]

Feature Importance:
  Feature  Importance
4   rule5    0.595328
0   rule1    0.190674
1   rule2    0.089719
5   rule6    0.069118
2   rule3    0.034369
6   rule7    0.020612
7   rule8    0.000180
3   rule4    0.000000
8   rule9    0.000000

True Negative Rate: 72.41%
True Positive Rate (Sensitivity/Recall): 81.82%
False Positive Rate: 27.59%
False Negative Rate: 18.18%


In [14]:
## Análise de Overfitting

# Vamos usar validação cruzada para verificar se há overfitting
from sklearn.model_selection import cross_val_score, validation_curve, learning_curve
import numpy as np

# 1. Validação Cruzada com 5 folds
print("=== ANÁLISE DE OVERFITTING ===\n")

# Validação cruzada
cv_scores = cross_val_score(dt_classifier, X, y, cv=5, scoring='accuracy')
print(f"Validação Cruzada (5-fold):")
print(f"Scores: {cv_scores}")
print(f"Média: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")
print(f"Desvio padrão: {cv_scores.std():.4f}")

# Se o desvio padrão for muito alto, pode indicar overfitting
if cv_scores.std() > 0.02:
    print("⚠️  ALERTA: Alto desvio padrão pode indicar overfitting!")
else:
    print("✅ Desvio padrão baixo - modelo parece estável")

print("\n" + "="*50)

=== ANÁLISE DE OVERFITTING ===

Validação Cruzada (5-fold):
Scores: [0.75585284 0.76254181 0.76254181 0.76254181 0.77181208]
Média: 0.7631 (+/- 0.0102)
Desvio padrão: 0.0051
✅ Desvio padrão baixo - modelo parece estável



In [15]:
# 2. Análise da Distribuição das Features
print("\n=== ANÁLISE DAS FEATURES ===")

# Verificar distribuição das regras
feature_distribution = df[['rule1', 'rule2', 'rule3', 'rule4', 'rule5', 'rule6', 'rule7', 'rule8', 'rule9']].sum()
total_samples = len(df)

print("Distribuição das regras (quantos SMS triggeram cada regra):")
for rule, count in feature_distribution.items():
    percentage = (count / total_samples) * 100
    print(f"{rule}: {count}/{total_samples} ({percentage:.1f}%)")

# Verificar quantos SMS não triggeraram nenhuma regra
no_rules_triggered = df[(df[['rule1', 'rule2', 'rule3', 'rule4', 'rule5', 'rule6', 'rule7', 'rule8', 'rule9']].sum(axis=1) == 0)]
print(f"\nSMS que não triggeram NENHUMA regra: {len(no_rules_triggered)}")
print(f"Destes, quantos são spam: {len(no_rules_triggered[no_rules_triggered['label'] == 'spam'])}")
print(f"Destes, quantos são ham: {len(no_rules_triggered[no_rules_triggered['label'] == 'ham'])}")

# Verificar correlação entre regras
correlation_matrix = df[['rule1', 'rule2', 'rule3', 'rule4', 'rule5', 'rule6', 'rule7', 'rule8', 'rule9']].corr()
print(f"\nCorrelações mais altas entre regras:")
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        if abs(corr_value) > 0.3:  # Correlação moderada ou alta
            print(f"{correlation_matrix.columns[i]} vs {correlation_matrix.columns[j]}: {corr_value:.3f}")

print("\n" + "="*50)


=== ANÁLISE DAS FEATURES ===
Distribuição das regras (quantos SMS triggeram cada regra):
rule1: 120/1494 (8.0%)
rule2: 488/1494 (32.7%)
rule3: 730/1494 (48.9%)
rule4: 0/1494 (0.0%)
rule5: 719/1494 (48.1%)
rule6: 172/1494 (11.5%)
rule7: 121/1494 (8.1%)
rule8: 1487/1494 (99.5%)
rule9: 0/1494 (0.0%)

SMS que não triggeram NENHUMA regra: 6
Destes, quantos são spam: 1
Destes, quantos são ham: 5

Correlações mais altas entre regras:



In [16]:
# 3. Análise específica da Rule4 (dominante)
print("\n=== ANÁLISE DETALHADA DA RULE4 ===")

# Analisar a performance da rule4 sozinha
rule4_analysis = df.groupby(['rule4', 'label']).size().unstack(fill_value=0)
print("Distribuição Rule4 vs Label:")
print(rule4_analysis)

# Calcular métricas se usássemos apenas a rule4
rule4_only_accuracy = ((rule4_analysis.loc[0, 'ham'] + rule4_analysis.loc[1, 'spam']) / len(df))
print(f"\nSe usássemos APENAS a Rule4:")
print(f"Acurácia: {rule4_only_accuracy:.4f} ({rule4_only_accuracy*100:.2f}%)")

# Verificar quantos spam/ham triggeraram rule4
spam_with_rule4 = len(df[(df['label'] == 'spam') & (df['rule4'] == 1)])
total_spam = len(df[df['label'] == 'spam'])
ham_with_rule4 = len(df[(df['label'] == 'ham') & (df['rule4'] == 1)])
total_ham = len(df[df['label'] == 'ham'])

print(f"\nRule4 detecta {spam_with_rule4}/{total_spam} spam ({spam_with_rule4/total_spam*100:.1f}%)")
print(f"Rule4 é triggerrada por {ham_with_rule4}/{total_ham} ham ({ham_with_rule4/total_ham*100:.1f}%)")

# Isso mostra se a rule4 é muito específica
if ham_with_rule4/total_ham < 0.02:  # Menos de 2% dos ham triggeram rule4
    print("⚠️  Rule4 pode estar sendo muito específica para spam!")

print("\n" + "="*50)


=== ANÁLISE DETALHADA DA RULE4 ===
Distribuição Rule4 vs Label:
label  ham  spam
rule4           
0      747   747


KeyError: 1

In [None]:
# 4. Teste sem a Rule4 dominante
print("\n=== TESTE SEM RULE4 ===")

# Treinar modelo sem a rule4
X_without_rule4 = df[['rule1', 'rule2', 'rule3', 'rule5', 'rule6', 'rule7', 'rule8', 'rule9']]
y = df['binary_label']

# Split dos dados
X_train_no4, X_test_no4, y_train_no4, y_test_no4 = train_test_split(
    X_without_rule4, y, test_size=0.2, random_state=42
)

# Treinar novo modelo
dt_no_rule4 = DecisionTreeClassifier(random_state=42)
dt_no_rule4.fit(X_train_no4, y_train_no4)

# Fazer predições
y_pred_no4 = dt_no_rule4.predict(X_test_no4)
accuracy_no4 = accuracy_score(y_test_no4, y_pred_no4)

print(f"Acurácia SEM Rule4: {accuracy_no4:.4f} ({accuracy_no4*100:.2f}%)")
print(f"Queda de performance: {(accuracy - accuracy_no4)*100:.2f} pontos percentuais")

# Feature importance sem rule4
feature_imp_no4 = dt_no_rule4.feature_importances_
feature_names_no4 = X_without_rule4.columns
importance_df_no4 = pd.DataFrame({'Feature': feature_names_no4, 'Importance': feature_imp_no4})
importance_df_no4 = importance_df_no4.sort_values('Importance', ascending=False)

print(f"\nNova distribuição de importância (sem rule4):")
for idx, row in importance_df_no4.iterrows():
    print(f"{row['Feature']}: {row['Importance']:.3f}")

# Validação cruzada sem rule4
cv_scores_no4 = cross_val_score(dt_no_rule4, X_without_rule4, y, cv=5, scoring='accuracy')
print(f"\nValidação cruzada sem rule4: {cv_scores_no4.mean():.4f} (+/- {cv_scores_no4.std() * 2:.4f})")

print("\n" + "="*50)

In [None]:
# 5. Conclusões sobre Overfitting - ANÁLISE FINAL ATUALIZADA
print("\n=== CONCLUSÕES SOBRE OVERFITTING (DATASET BALANCEADO) ===")

# Primeiro, vamos obter os dados corretos das análises anteriores
cv_std = cv_scores.std()
no_rules_count = len(no_rules_triggered)
no_rules_spam = len(no_rules_triggered[no_rules_triggered['label'] == 'spam'])
no_rules_ham = len(no_rules_triggered[no_rules_triggered['label'] == 'ham'])

# Obter importância da rule4 do modelo atual
rule4_importance = importance_df[importance_df['Feature'] == 'rule4']['Importance'].iloc[0]

print("✅ EVIDÊNCIAS CONTRA OVERFITTING:")
print(f"• Validação cruzada estável (std = {cv_std:.3f} = {cv_std*100:.1f}%)")
print(f"• Modelo sem rule4 ainda tem {accuracy_no4*100:.2f}% de acurácia")
print(f"• {no_rules_count} SMS não triggeram nenhuma regra ({no_rules_ham} ham, {no_rules_spam} spam)")
print(f"• Dataset balanceado: {total_spam} spam vs {total_ham} ham")

print("\n⚠️  POSSÍVEIS PREOCUPAÇÕES:")
print(f"• Rule4 domina com {rule4_importance*100:.1f}% de importância")
print(f"• Rule4 sozinha já dá {rule4_only_accuracy*100:.2f}% de acurácia")
print(f"• Rule4 detecta {spam_with_rule4/total_spam*100:.1f}% dos spam mas apenas {ham_with_rule4/total_ham*100:.1f}% dos ham")

# Verificar rule9
rule9_count = feature_distribution['rule9']
print(f"• Rule9 (email) triggera apenas {rule9_count} casos ({rule9_count/total_samples*100:.1f}%)")

print("\n🔍 INTERPRETAÇÃO:")
print("• NÃO há overfitting clássico (modelo generaliza bem)")
print("• Dataset balanceado reduz viés, mas rule4 ainda domina")
print("• DEPENDÊNCIA EXCESSIVA da rule4 (números de telefone)")
print("• Modelo encontrou um 'atalho' muito específico para este dataset")
print("• Risco de falsos negativos em spam sem números de telefone")

print(f"\n📊 RESUMO NUMÉRICO ATUALIZADO:")
print(f"• Acurácia com todas as features: {accuracy*100:.2f}%")
print(f"• Acurácia sem rule4: {accuracy_no4*100:.2f}%")
print(f"• Perda de performance sem rule4: {(accuracy - accuracy_no4)*100:.2f} pontos percentuais")
print(f"• Dependência da rule4: {(accuracy - accuracy_no4)/accuracy*100:.1f}% da performance total")

print(f"\n🎯 MÉTRICAS DE BALANCEAMENTO:")
print(f"• True Negative Rate: {tnr*100:.2f}%")
print(f"• True Positive Rate: {tp/(tp+fn)*100:.2f}%")
print(f"• Precisão: {tp/(tp+fp)*100:.2f}%")
print(f"• F1-Score: {2*tp/(2*tp+fp+fn)*100:.2f}%")

print(f"\n💡 RECOMENDAÇÕES:")
print("1. Investigar rule4 - pode estar muito permissiva para números")
print("2. Melhorar rules menos usadas (rule6, rule7, rule9)")
print("3. Testar com dataset de spam sem números de telefone")
print("4. Considerar ensemble de modelos para reduzir dependência")
print("5. Aplicar regularização para balancear importância das features")

print("\n" + "="*70)