In [39]:
import pandas as pd
import joblib
import time
import os
from datetime import datetime

# Load the saved model and preprocessing assets
model = joblib.load('model.pkl')
categorical_columns = joblib.load('rfca.pkl')
saved_features = joblib.load('features.pkl')

# Path to the continuously updating CSV file
csv_file = 'network_flowsss.csv'

# Function to read the latest data from the CSV
def get_latest_data(file_path):
    try:
        data = pd.read_csv(file_path)
        return data.tail(10)  # Adjust the number for recent rows to check
    except Exception as e:
        print(f"Error reading CSV: {e}")
        return pd.DataFrame()

# Convert StartTime to datetime format and seconds since epoch
def convert_start_time(data):
    try:
        data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')
        data['StartTime'] = data['StartTime'].astype('int64') // 10**9
    except Exception as e:
        print(f"Error converting StartTime: {e}")
    return data

# Preprocessing: convert time, handle nulls, and match feature set
# Preprocessing: convert time, handle nulls, and match feature set
def preprocess_data(data):
    try:
        data = convert_start_time(data)
        data = data.fillna(0)  # Fill all null values with 0

        # One-hot encode categorical columns
        data = pd.get_dummies(data, columns=categorical_columns)

        # Add any missing columns with zeros using pd.concat
        missing_cols = [col for col in saved_features if col not in data.columns]
        if missing_cols:
            # Create a DataFrame of missing columns filled with zeros
            missing_data = pd.DataFrame(0, index=data.index, columns=missing_cols)
            # Concatenate the new columns to the original DataFrame
            data = pd.concat([data, missing_data], axis=1)

        # Reorder columns to match training data
        data = data[saved_features]
        return data
    except Exception as e:
        print(f"Error during preprocessing: {e}")
        return pd.DataFrame()


# Make predictions
def predict_intrusions(data):
    if data.empty:
        return
    try:
        processed_data = preprocess_data(data)
        predictions = model.predict(processed_data)
        data['Prediction'] = predictions
        print(data[['StartTime', 'SrcAddr', 'DstAddr', 'Proto', 'State', 'Prediction']])
    except Exception as e:
        print(f"Error during prediction: {e}")

# Real-time intrusion detection loop
print("Starting real-time intrusion detection...")
while True:
    latest_data = get_latest_data(csv_file)
    predict_intrusions(latest_data)
    time.sleep(5)  # Adjust for desired update frequency


https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


Starting real-time intrusion detection...


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5942  1741620959  192.168.1.100     192.168.1.1   tcp   CON           0
5943  1741620959  192.168.1.100     192.168.1.1   tcp   CON           0
5944  1741620960  192.168.1.100     192.168.1.1   tcp   CON           0
5945  1741614599              0               0   man   STA           0
5946  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5947  1741614599              0               0   man   STA           0
5948  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5949  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5950  1741620964  192.168.1.100     192.168.1.1   tcp   CON           0
5951  1741620964  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5950  1741620964  192.168.1.100     192.168.1.1   tcp   CON           0
5951  1741620964  192.168.1.100     192.168.1.1   tcp   CON           0
5952  1741620965  192.168.1.100     192.168.1.1   tcp   CON           0
5953  1741614599              0               0   man   STA           0
5954  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5955  1741614599              0               0   man   STA           0
5956  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5957  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5958  1741620969  192.168.1.100     192.168.1.1   tcp   CON           0
5959  1741620969  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5958  1741620969  192.168.1.100     192.168.1.1   tcp   CON           0
5959  1741620969  192.168.1.100     192.168.1.1   tcp   CON           0
5960  1741620970  192.168.1.100     192.168.1.1   tcp   CON           0
5961  1741614599              0               0   man   STA           0
5962  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5963  1741614599              0               0   man   STA           0
5964  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5965  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5966  1741620974  192.168.1.100     192.168.1.1   tcp   CON           0
5967  1741620974  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5966  1741620974  192.168.1.100     192.168.1.1   tcp   CON           0
5967  1741620974  192.168.1.100     192.168.1.1   tcp   CON           0
5968  1741620975  192.168.1.100     192.168.1.1   tcp   CON           0
5969  1741614599              0               0   man   STA           0
5970  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5971  1741614599              0               0   man   STA           0
5972  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5973  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5974  1741620979  192.168.1.100     192.168.1.1   tcp   CON           0
5975  1741620979  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5974  1741620979  192.168.1.100     192.168.1.1   tcp   CON           0
5975  1741620979  192.168.1.100     192.168.1.1   tcp   CON           0
5976  1741620980  192.168.1.100     192.168.1.1   tcp   CON           0
5977  1741614599              0               0   man   STA           0
5978  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5979  1741614599              0               0   man   STA           0
5980  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5981  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5982  1741620984  192.168.1.100     192.168.1.1   tcp   CON           0
5983  1741620984  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5982  1741620984  192.168.1.100     192.168.1.1   tcp   CON           0
5983  1741620984  192.168.1.100     192.168.1.1   tcp   CON           0
5984  1741620985  192.168.1.100     192.168.1.1   tcp   CON           0
5985  1741614599              0               0   man   STA           0
5986  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5987  1741614599              0               0   man   STA           0
5988  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5989  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5990  1741620989  192.168.1.100     192.168.1.1   tcp   CON           0
5991  1741620989  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5990  1741620989  192.168.1.100     192.168.1.1   tcp   CON           0
5991  1741620989  192.168.1.100     192.168.1.1   tcp   CON           0
5992  1741620990  192.168.1.100     192.168.1.1   tcp   CON           0
5993  1741614599              0               0   man   STA           0
5994  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5995  1741614599              0               0   man   STA           0
5996  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
5997  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
5998  1741620994  192.168.1.100     192.168.1.1   tcp   CON           0
5999  1741620994  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
5998  1741620994  192.168.1.100     192.168.1.1   tcp   CON           0
5999  1741620994  192.168.1.100     192.168.1.1   tcp   CON           0
6000  1741620995  192.168.1.100     192.168.1.1   tcp   CON           0
6001  1741614599              0               0   man   STA           0
6002  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6003  1741614599              0               0   man   STA           0
6004  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6005  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
6006  1741620999  192.168.1.100     192.168.1.1   tcp   CON           0
6007  1741620999  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
6006  1741620999  192.168.1.100     192.168.1.1   tcp   CON           0
6007  1741620999  192.168.1.100     192.168.1.1   tcp   CON           0
6008  1741621000  192.168.1.100     192.168.1.1   tcp   CON           0
6009  1741614599              0               0   man   STA           0
6010  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6011  1741614599              0               0   man   STA           0
6012  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6013  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
6014  1741621004  192.168.1.100     192.168.1.1   tcp   CON           0
6015  1741621004  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
6015  1741621004  192.168.1.100     192.168.1.1   tcp   CON           0
6016  1741621005  192.168.1.100     192.168.1.1   tcp   CON           0
6017  1741614599              0               0   man   STA           0
6018  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6019  1741614599              0               0   man   STA           0
6020  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6021  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
6022  1741621009  192.168.1.100     192.168.1.1   tcp   CON           0
6023  1741621009  192.168.1.100     192.168.1.1   tcp   CON           0
6024  1741621010  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
6023  1741621009  192.168.1.100     192.168.1.1   tcp   CON           0
6024  1741621010  192.168.1.100     192.168.1.1   tcp   CON           0
6025  1741614599              0               0   man   STA           0
6026  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6027  1741614599              0               0   man   STA           0
6028  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6029  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
6030  1741621014  192.168.1.100     192.168.1.1   tcp   CON           0
6031  1741621014  192.168.1.100     192.168.1.1   tcp   CON           0
6032  1741621015  192.168.1.100     192.168.1.1   tcp   CON           0


  data['StartTime'] = pd.to_datetime(data['StartTime'], errors='coerce')


       StartTime        SrcAddr         DstAddr Proto State  Prediction
6031  1741621014  192.168.1.100     192.168.1.1   tcp   CON           0
6032  1741621015  192.168.1.100     192.168.1.1   tcp   CON           0
6033  1741614599              0               0   man   STA           0
6034  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6035  1741614599              0               0   man   STA           0
6036  1741614593   10.220.10.66      23.9.220.6   tcp   INT           0
6037  1741614594   10.220.10.66  184.86.248.112   tcp   INT           0
6038  1741621019  192.168.1.100     192.168.1.1   tcp   CON           0
6039  1741621019  192.168.1.100     192.168.1.1   tcp   CON           0
6040  1741621020  192.168.1.100     192.168.1.1   tcp   CON           0


KeyboardInterrupt: 

In [25]:
import pandas as pd

file_path = 'network_flows16.csv'
df = pd.read_csv(file_path)
print(df.head(20))  # Show the first 20 rows


          StartTime        Flgs Proto        SrcAddr        DstAddr State  \
0   10:04:24.304977               man              0              0   STA   
1   10:04:18.957518   e           tcp  10.220.10.107  142.250.77.42   CON   
2   10:04:19.313974   e           tcp  10.220.10.107   35.190.2.239   CON   
3   10:04:25.178708               man              0            100   CON   
4   10:04:24.304977               man              0              0   STA   
5   10:04:18.957518   e           tcp  10.220.10.107  142.250.77.42   CON   
6   10:04:19.313974   e           tcp  10.220.10.107   35.190.2.239   CON   
7   10:04:25.178708               man              0            100   CON   
8   10:04:24.304977               man              0              0   STA   
9   10:04:18.957518   e           tcp  10.220.10.107  142.250.77.42   CON   
10  10:04:19.313974   e           tcp  10.220.10.107   35.190.2.239   CON   
11  10:04:25.178708               man              0            100   CON   

In [29]:
print("Reading CSV file at:", file_path)
print(df)


Reading CSV file at: network_flows16.csv
           StartTime        Flgs Proto        SrcAddr        DstAddr State  \
0    10:04:24.304977               man              0              0   STA   
1    10:04:18.957518   e           tcp  10.220.10.107  142.250.77.42   CON   
2    10:04:19.313974   e           tcp  10.220.10.107   35.190.2.239   CON   
3    10:04:25.178708               man              0            100   CON   
4    10:04:24.304977               man              0              0   STA   
..               ...         ...   ...            ...            ...   ...   
651  10:04:25.178708               man              0            100   CON   
652  10:04:24.304977               man              0              0   STA   
653  10:04:18.957518   e           tcp  10.220.10.107  142.250.77.42   CON   
654  10:04:19.313974   e           tcp  10.220.10.107   35.190.2.239   CON   
655  10:04:25.178708               man              0            100   CON   

           Dur  SrcRat