# 1. Introduction : 

A phishing website represents one of the most common security threats on the internet at present. Unlike software vulnerabilities, it targets human weaknesses. Indeed, it masquerades as trusted URLs and web pages to deceive users. With this in mind, our goal is to design a web interface incorporating a machine learning solution. This solution aims to determine whether a given URL is legitimate or constitutes a phishing attempt. To achieve this, we will extract features from the URLs and use them as input data for classification algorithms. The model training process will be fueled by open data, containing both legitimate URLs and phishing URLs.

# 2. Data Collection : 

In this project, I utilized a series of URLs classified as legitimate (0) and phishing (1). Collecting phishing URLs is quite straightforward thanks to the open-source service called PhishTank. This service provides a set of phishing URLs in various formats such as CSV, JSON, etc., which are updated hourly. To download the data, visit: [PhishTank](https://www.phishtank.com/developer_info.php). As for legitimate URLs, I found a source containing a collection of benign, spam, phishing, malware, and defacement URLs. The dataset's source is the University of New Brunswick, [here](https://www.unb.ca/cic/datasets/url-2016.html). The number of legitimate URLs in this collection exceeds 35,300. The URL collection is downloaded, and from that, the file 'Benign_url_file.csv' is created.

In [2]:
import pandas as pd

## 2.1Phishing URLs : 

The phishing URLs are collected from PhishTank using the provided link. The CSV file containing the phishing URLs is obtained using the wget command. Once the dataset is downloaded, it is loaded into a DataFrame.

In [3]:
#loading the phishing URLs data to dataframe
phish_data = pd.read_csv(r"./verified_online.csv")
phish_data.head()

Unnamed: 0,phish_id,url,phish_detail_url,submission_time,verified,verification_time,online,target
0,8503869,https://anoe.co.jp.cqnevmi.cn/aeon,http://www.phishtank.com/phish_detail.php?phis...,2024-03-22T16:00:25+00:00,yes,2024-03-22T16:03:39+00:00,yes,Other
1,8503868,https://anoe.co.jp.lkzeubg.cn/aeon,http://www.phishtank.com/phish_detail.php?phis...,2024-03-22T16:00:24+00:00,yes,2024-03-22T16:03:39+00:00,yes,Other
2,8503860,https://jp212.cn/,http://www.phishtank.com/phish_detail.php?phis...,2024-03-22T15:50:24+00:00,yes,2024-03-22T15:53:01+00:00,yes,Other
3,8503861,https://5-site.hobinh37930073.workers.dev,http://www.phishtank.com/phish_detail.php?phis...,2024-03-22T15:50:24+00:00,yes,2024-03-22T15:53:01+00:00,yes,Other
4,8503859,http://181.214.48.76/via/?http://bradesco.com.br,http://www.phishtank.com/phish_detail.php?phis...,2024-03-22T15:49:53+00:00,yes,2024-03-22T15:53:01+00:00,yes,Accurint


In [4]:
phish_data.shape

(55588, 8)

Thus, the data contains thousands of phishing URLs. However, the issue here is that this data is updated every hour. To avoid the risk of data imbalance, I will limit the number of URLs to 5,000 for both categories: phishing and legitimate.

Therefore, I will randomly select 5,000 samples from the previous DataFrame.

In [5]:
#Collecting 5,000 Phishing URLs randomly
phishurl = phish_data.sample(n = 5000, random_state = 12).copy()
phishurl = phishurl.reset_index(drop=True)
phishurl.head()

Unnamed: 0,phish_id,url,phish_detail_url,submission_time,verified,verification_time,online,target
0,8500336,https://dell-122dental.web.app/,http://www.phishtank.com/phish_detail.php?phis...,2024-03-20T13:48:40+00:00,yes,2024-03-20T13:52:16+00:00,yes,Other
1,8042908,https://my24pay.com/,http://www.phishtank.com/phish_detail.php?phis...,2023-02-20T13:37:30+00:00,yes,2023-02-20T16:32:28+00:00,yes,Other
2,8483852,https://telegm.pro/,http://www.phishtank.com/phish_detail.php?phis...,2024-03-08T20:04:41+00:00,yes,2024-03-08T20:13:10+00:00,yes,Other
3,8294281,https://ipfs.eth.aragon.network/ipfs/bafybeigf...,http://www.phishtank.com/phish_detail.php?phis...,2023-09-11T23:16:08+00:00,yes,2023-09-11T23:33:58+00:00,yes,Other
4,8492323,https://tms-autohandel.com.pl/authorize.php?MN...,http://www.phishtank.com/phish_detail.php?phis...,2024-03-13T21:03:41+00:00,yes,2024-03-13T21:13:32+00:00,yes,Other


In [6]:
phishurl.shape

(5000, 8)

For now, we have collected 5000 phishing URLs. Now, we need to collect the legitimate URLs.

## 2.2 Legitimate URLs :

From the downloaded file Benign_url_file.csv, the URLs are loaded into a DataFrame.

In [7]:
legit_data = pd.read_csv(r".\Benign_url_file.csv")
legit_data.columns = ['URLs']
legit_data.head()

Unnamed: 0,URLs
0,http://1337x.to/torrent/1110018/Blackhat-2015-...
1,http://1337x.to/torrent/1122940/Blackhat-2015-...
2,http://1337x.to/torrent/1124395/Fast-and-Furio...
3,http://1337x.to/torrent/1145504/Avengers-Age-o...
4,http://1337x.to/torrent/1160078/Avengers-age-o...


In [8]:
legit_data.shape

(35377, 1)



Dans ce cas, je vais sélectionner aléatoirement 5000 échantillons d'URLs légitimes à partir du DataFrame précédent.

In [9]:
#Collecting 5,000 Legitimate URLs randomly
legiturl = legit_data.sample(n = 5000, random_state = 12).copy()
legiturl = legiturl.reset_index(drop=True)
legiturl.head()

Unnamed: 0,URLs
0,http://graphicriver.net/search?date=this-month...
1,http://ecnavi.jp/redirect/?url=http://www.cros...
2,https://hubpages.com/signin?explain=follow+Hub...
3,http://extratorrent.cc/torrent/4190536/AOMEI+B...
4,http://icicibank.com/Personal-Banking/offers/o...


In [10]:
legiturl.shape

(5000, 1)

# 2. Extraction des caractéristiques 
 

Dans cette étape, les caractéristiques sont extraites du jeu de données des URLs.

Les caractéristiques extraites sont catégorisées en :

- Caractéristiques basées sur la barre d'adresse
- Caractéristiques basées sur le domaine
- Caractéristiques basées sur le HTML et le JavaScript



## 2.1. Caractéristiques basées sur la barre d'adresse:

De nombreuses caractéristiques peuvent être extraites et considérées comme des caractéristiques basées sur la barre d'adresse. Parmi celles-ci, les suivantes ont été prises en compte pour ce projet :

- **Domaine de l'URL** : Cette caractéristique fait référence au domaine principal de l'URL, par exemple, "exemple.com". Elle est utile pour identifier la source de l'URL et vérifier sa légitimité.
- **Adresse IP dans l'URL** : Si une adresse IP est utilisée au lieu d'un nom de domaine dans l'URL, cela peut indiquer une tentative de dissimulation de l'identité du site. Cela peut être un signe de tentative de phishing.
- **Symbole "@" dans l'URL** : La présence du symbole "@" dans l'URL peut indiquer une tentative de phishing, car il est rare qu'un utilisateur inclut un nom d'utilisateur dans une URL normale.
- **Longueur de l'URL** : Les URLs de phishing ont souvent tendance à être plus longues que les URLs légitimes. Une longueur excessive peut indiquer une tentative de dissimulation de l'identité du site.
- **Profondeur de l'URL** : Cette caractéristique fait référence au nombre de sous-répertoires dans l'URL. Les URLs de phishing ont tendance à être plus profondes que les URLs légitimes, car elles peuvent essayer de masquer leur véritable source.
- **Redirection "//" dans l'URL** : La présence de la séquence "//" dans l'URL peut indiquer une redirection, ce qui est souvent utilisé dans les attaques de phishing pour rediriger les utilisateurs vers des sites malveillants.
- **"http/https" dans le nom de domaine** : La présence de "http" ou "https" dans le nom de domaine peut indiquer une tentative de dissimulation de la véritable adresse du site, ce qui est couramment utilisé dans les attaques de phishing.
- **Utilisation de services de raccourcissement d'URL tels que TinyURL** : Les services de raccourcissement d'URL sont souvent utilisés dans les attaques de phishing pour masquer la véritable adresse du site. La présence de ces services dans l'URL peut indiquer une tentative de phishing.
- **Préfixe ou suffixe "-" dans le domaine** : Certains URL de phishing peuvent utiliser des préfixes ou des suffixes spécifiques dans leur domaine pour imiter les URL légitimes. La présence de ces éléments peut indiquer une tentative de tromperie.

En analysant ces différentes caractéristiques, on peut obtenir des indices sur la légitimité ou la malignité d'une URL, ce qui est essentiel pour la détection des attaques de phishing.


In [11]:
# importing required packages for this section
from urllib.parse import urlparse,urlencode
import ipaddress
import re

### 2.1.1. Domain of the URL

In [12]:
# 1.Domain of the URL (Domain) 
def getDomain(url):
    parsed_url = urlparse(url)
    domain = parsed_url.netloc
    if domain.startswith('www.'):
        domain = domain[4:]  # Remove 'www.' if present
    return domain

### 2.1.2. IP Address in the URL

In [13]:
# 2.Checks for IP address in URL (Have_IP)
def havingIP(url):
    ip_pattern = r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b'
    return 1 if re.search(ip_pattern, url) else 0

### 2.1.3. "@" Symbol in URL

In [14]:
# 3.Checks the presence of @ in URL (Have_At)
def haveAtSign(url):
  if "@" in url:
    at = 1    
  else:
    at = 0    
  return at

### 2.1.4. Length of URL

In [15]:
# 4.Finding the length of URL and categorizing (URL_Length)
def getLength(url):
  if len(url) < 54:
    length = 0            
  else:
    length = 1            
  return length

### 2.1.5. Depth of URL

In [16]:
# 5.Gives number of '/' in URL (URL_Depth)
def getDepth(url):
    path_segments = urlparse(url).path.split('/')
    depth = 0
    for segment in path_segments:
        if segment:
            depth += 1
    return depth

### 2.1.6. Redirection "//" in URL

In [17]:
# 6.Checking for redirection '//' in the url (Redirection)
def redirection(url):
  pos = url.rfind('//')
  if pos > 6:
    if pos > 7:
      return 1
    else:
      return 0
  else:
    return 0

### 2.1.7. "http/https" in Domain name

In [18]:
# 7.Existence of “HTTPS” or "HTTP" Token in the Domain Part of the URL (https_Domain)
def httpDomain(url):
  domain = urlparse(url).netloc
  if ('https' in domain or 'http' in domain):
    return 1
  else:
    return 0

### 2.1.8. Using URL Shortening Services “TinyURL”

In [19]:
#listing shortening services
shortening_services = r"bit\.ly|goo\.gl|shorte\.st|go2l\.ink|x\.co|ow\.ly|t\.co|tinyurl|tr\.im|is\.gd|cli\.gs|" \
                      r"yfrog\.com|migre\.me|ff\.im|tiny\.cc|url4\.eu|twit\.ac|su\.pr|twurl\.nl|snipurl\.com|" \
                      r"short\.to|BudURL\.com|ping\.fm|post\.ly|Just\.as|bkite\.com|snipr\.com|fic\.kr|loopt\.us|" \
                      r"doiop\.com|short\.ie|kl\.am|wp\.me|rubyurl\.com|om\.ly|to\.ly|bit\.do|t\.co|lnkd\.in|db\.tt|" \
                      r"qr\.ae|adf\.ly|goo\.gl|bitly\.com|cur\.lv|tinyurl\.com|ow\.ly|bit\.ly|ity\.im|q\.gs|is\.gd|" \
                      r"po\.st|bc\.vc|twitthis\.com|u\.to|j\.mp|buzurl\.com|cutt\.us|u\.bb|yourls\.org|x\.co|" \
                      r"prettylinkpro\.com|scrnch\.me|filoops\.info|vzturl\.com|qr\.net|1url\.com|tweez\.me|v\.gd|" \
                      r"tr\.im|link\.zip\.net"

In [20]:
# 8. Checking for Shortening Services in URL (Tiny_URL)
def tinyURL(url):
    match=re.search(shortening_services,url)
    if match:
        return 1
    else:
        return 0

### 2.1.9. Prefix or Suffix "-" in Domain

In [21]:
# 9.Checking for Prefix or Suffix Separated by (-) in the Domain (Prefix/Suffix)
def prefixSuffix(url):
    if ('-' in urlparse(url).netloc or '_' in urlparse(url).netloc):
        return 1            
    else:
        return 0 

## 2.2. Caractéristiques basées sur le domaine:

De nombreuses caractéristiques peuvent être extraites et entrent dans cette catégorie. Parmi celles-ci, les suivantes ont été prises en compte pour ce projet :
- **Enregistrement DNS** : Cela fait référence à la résolution DNS associée au domaine de l'URL. Il peut indiquer si le domaine est bien établi et a des enregistrements DNS valides.
- **Trafic du site web** : Cette caractéristique se réfère à la quantité de trafic reçue par le site web associé au domaine de l'URL. Un trafic élevé peut indiquer la légitimité du site, tandis qu'un trafic faible ou inexistant peut indiquer un site frauduleux.
- **age du domaine** : Cela représente la durée pendant laquelle le domaine a été enregistré. Les sites web de phishing ont souvent des domaines plus récents, tandis que les sites légitimes ont tendance à être plus anciens.
- **Période de fin du domaine** : Il s'agit de la date d'expiration du domaine. Un domaine expirant bientôt ou récemment expiré peut indiquer un site potentiellement suspect, tandis qu'un domaine enregistré pour une longue période peut indiquer un site plus fiable.

In [22]:
# importing required packages for this section
import re
import requests
from bs4 import BeautifulSoup
import whois
import urllib
import urllib.request
from datetime import datetime

## 2.2.1. DNS Record

In [23]:
# 11.DNS Record availability (DNS_Record)
# obtained in the featureExtraction function itself

### 2.2.2. Web Traffic

In [24]:
def web_traffic(url):
     try:
        # Fetch the webpage
        url = getDomain(url)
        response = requests.get(f'https://www.semrush.com/website/{url}/overview/')
        soup = BeautifulSoup(response.text, 'html.parser')
      
        
        # Find the global rank element
        rank_element = soup.find('div', {'class': 'rank-card__SCWrap-sc-2sba91-6 guXRlv'})
        rank_text = rank_element.find('b', class_='rank-card__SCRank-sc-2sba91-8')
       

        rank_value = rank_text.text.strip()

        # Extract the rank number
        rank_value = int(rank_value.replace(',', ''))  # Remove commas and convert to int
        if rank_value < 100000:
             return 0
        else:
             return 1
     except Exception as e:
         return 1

### 2.2.3. Age of Domain

In [25]:
# 13.Survival time of domain: The difference between termination time and creation time (Domain_Age)  
def domainAge(domain_name):
  creation_date = domain_name.creation_date
  expiration_date = domain_name.expiration_date
  if (isinstance(creation_date,str) or isinstance(expiration_date,str)):
    try:
      creation_date = datetime.strptime(creation_date,'%Y-%m-%d')
      expiration_date = datetime.strptime(expiration_date,"%Y-%m-%d")
    except:
      return 1
  if ((expiration_date is None) or (creation_date is None)):
      return 1
  elif ((type(expiration_date) is list) or (type(creation_date) is list)):
      return 1
  else:
    ageofdomain = abs((expiration_date - creation_date).days)
    if ((ageofdomain/30) < 12):
      age = 1
    else:
      age = 0
  return age

### 2.2.4. End Period of Domain

In [26]:
def domainEnd(domain_name):
  expiration_date = domain_name.expiration_date
  if isinstance(expiration_date,str):
    try:
      expiration_date = datetime.strptime(expiration_date,"%Y-%m-%d")
    except:
      return 1
  if (expiration_date is None):
      return 1
  elif (type(expiration_date) is list):
      return 1
  else:
    today = datetime.now()
    end = abs((expiration_date - today).days)
    if ((end/30) < 6):
      end = 1
    else:
      end = 0
  return end

## 2.3. HTML and JavaScript based Features

De nombreuses caractéristiques peuvent être extraites dans cette catégorie. Parmi elles, les suivantes ont été prises en compte pour ce projet :
- **Redirection IFrame** : Cette caractéristique se réfère à l'utilisation d'éléments IFrame pour rediriger l'utilisateur vers un autre site web sans son consentement ou sa connaissance. Les attaquants peuvent utiliser cela pour masquer l'URL réelle du site de phishing en l'affichant dans un IFrame sur une page légitime.
- **Personnalisation de la barre d'état** : Il s'agit de la modification de la barre d'état du navigateur pour afficher un message différent de celui attendu, ce qui peut être utilisé pour tromper les utilisateurs sur la destination réelle de l'URL.
- **Désactivation du clic droit** : Cette caractéristique implique la désactivation de la fonctionnalité du clic droit dans la fenêtre du navigateur, empêchant ainsi l'utilisateur d'accéder aux options habituelles telles que "Ouvrir dans un nouvel onglet" ou "Afficher le code source". Cela peut être utilisé pour empêcher les utilisateurs d'inspecter le code source de la page et de détecter des éléments suspects.
- **Redirection de site web** : Cette caractéristique consiste à rediriger automatiquement l'utilisateur vers un autre site web sans son consentement explicite. Cela peut être utilisé pour rediriger les utilisateurs vers des sites de phishing ou malveillants sans leur consentement.

In [27]:
# importing required packages for this section
import requests

### 2.3.1. IFrame Redirection

In [28]:
# 15. IFrame Redirection (iFrame)
def iframe(response):
  if response == "":
      return 1
  else:
      if re.findall(r"[<iframe>|<frameBorder>]", response.text):
          return 0
      else:
          return 1

### 2.3.2. Status Bar Customization

In [29]:
# 16.Checks the effect of mouse over on status bar (Mouse_Over)
def mouseOver(response): 
  if response == "" :
    return 1
  else:
    if re.findall("<script>.+onmouseover.+</script>", response.text):
      return 1
    else:
      return 0

### 2.3.3. Disabling Right Click

In [30]:
# 17.Checks the status of the right click attribute (Right_Click)
def rightClick(response):
  if response == "":
    return 1
  else:
    if re.findall(r"event.button ?== ?2", response.text):
      return 1
    else:
      return 0

### 2.3.4. Website Forwarding

In [31]:
# 18.Checks the number of forwardings (Web_Forwards)    
def forwarding(response):
  if response == "":
    return 1
  else:
    if len(response.history) <= 2:
      return 0
    else:
      return 1

# 3. Computing URL Features

Après avoir créé la fonction pour chaque caractéristique, nous allons ensuite créer une liste et une fonction qui appelle les autres fonctions et stocke toutes les caractéristiques de l'URL dans la liste. Nous allons extraire les caractéristiques de chaque URL et les ajouter à cette liste.

la fonction est définie comme suit :


In [32]:
#Function to extract features
# There are 17 features extracted from the dataset
def featureExtractions(url):

  features = []
  #Address bar based features (9)
  features.append(getDomain(url))
  features.append(havingIP(url))
  features.append(haveAtSign(url))
  features.append(getLength(url))
  features.append(getDepth(url))
  features.append(redirection(url))
  features.append(httpDomain(url))
  features.append(prefixSuffix(url))
  features.append(tinyURL(url))

  
  #Domain based features (4)
  dns = 0
  try:
    domain_name = whois.whois(urlparse(url).netloc)
  except:
    dns = 1

  features.append(dns)
  features.append(web_traffic(url))
  features.append(1 if dns == 1 else domainAge(domain_name))
  features.append(1 if dns == 1 else domainEnd(domain_name))
  
  # HTML & Javascript based features (4)
  try:
    response = requests.get(url)
  except:
    response = ""
  features.append(iframe(response))
  features.append(mouseOver(response))
  features.append(rightClick(response))
  features.append(forwarding(response))
#  features.append(label)
  
  return features

featureExtractions('http://www.facebook.com/home/service')

['facebook.com', 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0]

## 3.1. URLs légitimes:

Maintenant, l'extraction des caractéristiques des URLs légitimes.

In [32]:
legiturl.shape

(5000, 1)

In [None]:
#Extracting the feautres & storing them in a list
legit_features = []
for i in range(0, 5000):
    print(i) // to show the progress of the extraction process
    url = legiturl['URLs'][i]
    legit_features.append(featureExtractions(url))  
  
# ajouter 0 comme label dans chaque ligne( légitime )
legit_features = [legit_feature + [0] for legit_feature in legit_features ] 

## convertir la liste en dataframe :

In [None]:
#converting the list to dataframe
feature_names = ['Domain', 'Have_IP', 'Have_At', 'URL_Length', 'URL_Depth','Redirection', 
                'https_Domain', 'Prefix/Suffix', 'TinyURL', 'DNS_Record', 'Web_Traffic', 'Domain_Age', 'Domain_End',
                 'iFrame', 'Mouse_Over','Right_Click', 'Web_Forwards', 'Label']

legitimate = pd.DataFrame(legit_features, columns= feature_names)
legitimate.head()

In [None]:
# Storing the extracted legitimate URLs fatures to csv file
legitimate.to_csv('legit_file.csv', index= False)

# 3.2 Phishing URLs:

In [32]:
phishurl.shape

(5000, 8)

In [None]:
#Extracting the feautres & storing them in a list
phish_features = []
for i in range(2000, 3000):
    print(i)
    url = phishurl['url'][i]
    phish_features.append(featureExtractions(url))

In [34]:
phish_features = [phish_feature + [1] for phish_feature in phish_features ]

In [35]:
#converting the list to dataframe
feature_names = ['Domain', 'Have_IP', 'Have_At', 'URL_Length', 'URL_Depth','Redirection', 
                'https_Domain', 'Prefix/Suffix', 'TinyURL', 'DNS_Record', 'Web_Traffic', 'Domain_Age', 'Domain_End',
                 'iFrame', 'Mouse_Over','Right_Click', 'Web_Forwards', 'Label']
phishing = pd.DataFrame(phish_features, columns= feature_names)
phishing.head()

Unnamed: 0,Domain,Have_IP,Have_At,URL_Length,URL_Depth,Redirection,https_Domain,Prefix/Suffix,TinyURL,DNS_Record,Web_Traffic,Domain_Age,Domain_End,iFrame,Mouse_Over,Right_Click,Web_Forwards,Label
0,cloudflare-ipfs.com,0,0,1,2,0,0,1,0,1,0,1,1,0,0,0,0,1
1,seethesunatatt.weeblysite.com,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,1
2,cloudflare-ipfs.com,0,0,1,2,0,0,1,0,1,0,1,1,0,0,0,0,1
3,cloudflare-ipfs.com,0,1,1,3,0,0,1,0,1,0,1,1,0,0,0,0,1
4,portal-mlbanncochile.skillio.online,0,0,0,0,0,0,1,0,0,1,1,1,0,0,0,0,1


In [36]:
# Storing the extracted legitimate URLs fatures to csv file
phishing.to_csv('phishing_file', index= False)

In [None]:
# Read the two CSV files into separate DataFrames
df1 = pd.read_csv('legit_features.csv')
df2 = pd.read_csv('phishing_features.csv')

# Merge the two DataFrames using pd.concat
merged_df = pd.concat([df1, df2], ignore_index=True)

# Write the merged DataFrame to a new CSV file
merged_df.to_csv('data_features.csv', index=False)

Comme vous pouvez le voir dans les figures ci-dessus, nous avons enregistré les caractéristiques des URL de phishing et des URL légitimes dans les fichiers phishing_file.csv et legit_file.csv respectivement, Ensuite, nous avons fusionné les deux dans un même fichier data_features.csv. À ce stade, les données sont prêtes à être utilisées pour entraîner notre modèle.