In [4]:
import pandas as pd
from datetime import timedelta

数据预处理：
1. 上午时间不变，下午的时间+12
2. 时间里的毫秒去掉
3. 时间读取到pandas内 dates = pd.to_datetime(date_strings, format="%d-%m月 -%y %H.%M.%S.%f")
4. 因为数据只给了同一个月份的，暂且先不考虑跨月和跨年，先考虑跨日
5. 操作内容前缀去掉

In [5]:
class DataProcess:
    def __init__(self, path: str) -> None:
        self.data = pd.read_csv(path)
    
    def process(self):
        self.data = self._data_process(self.data)
        return self.data
    
    @staticmethod
    def _data_process(df: pd.DataFrame):
        df_new = pd.DataFrame()
        data_time_format = "%d-%m月 -%y %H.%M.%S.%f"
        # 拆分出时间和上下午
        df_new['日期时间'] = pd.to_datetime(df['操作时间'].str.rsplit(' ', n=1, expand=True)[0], format=data_time_format)
        # 添加12小时给下午的日期时间
        pm_rows = df['操作时间'].str.endswith("下午")
        time_condition = (df_new['日期时间'].dt.hour != 12)
        df_new.loc[pm_rows & time_condition, '日期时间'] += pd.to_timedelta(12, unit='h')

        df_new['账号'] = df['从账号'].copy()
        df_new['机构'] = df['机构'].copy()
        df_new['操作内容'] = df['操作内容'].str.slice(36, None).str.strip()
        df_new['源IP'] = df['源IP'].copy()
        df_new = df_new.sort_values(by='日期时间', ascending=True)

        df_new.to_csv('data_process.csv')

        return df_new

df = DataProcess('data.csv').process()
df

Unnamed: 0,日期时间,账号,机构,操作内容,源IP
109868,2023-05-01 08:21:01,29527d9c-1b55-4121-9450-1acc95dbaa62,榆林全市,用户登陆,10.136.71.74
109867,2023-05-01 08:21:02,29527d9c-1b55-4121-9450-1acc95dbaa62,榆林全市,访问首页模块,10.136.71.74
109866,2023-05-01 08:21:08,29527d9c-1b55-4121-9450-1acc95dbaa62,榆林全市,访问5GSA驻留比模块,10.136.71.74
109864,2023-05-01 08:22:54,1c7cc983-5870-4892-af7b-c06a86ce59d7,延安全市,用户登陆,10.136.50.122
109865,2023-05-01 08:22:55,1c7cc983-5870-4892-af7b-c06a86ce59d7,延安全市,访问首页模块,10.136.50.122
...,...,...,...,...,...
5,2023-05-31 23:00:11,dc57ae05-2e96-4866-bffe-501deb9ffb01,产品运营中心,访问首页模块,10.136.14.86
3,2023-05-31 23:00:51,dc57ae05-2e96-4866-bffe-501deb9ffb01,产品运营中心,用户登陆,10.136.14.86
2,2023-05-31 23:00:52,dc57ae05-2e96-4866-bffe-501deb9ffb01,产品运营中心,访问首页模块,10.136.14.86
1,2023-05-31 23:01:00,dc57ae05-2e96-4866-bffe-501deb9ffb01,产品运营中心,访问智能家居质量日报模块,10.136.14.86


分别定义五个类：

业务高频访问：为每一个账户维护一个字典，值为用户访问的业务以及对应的次数和对应的时间。

账号复用：为每一个账号维护一个集合，保存此账号每次登录时的ip和时间，两分钟内如果集合len>=3，即账号复用，每隔2分钟清零。

非常用IP访问：TODO:这个是否要一次读完全部日志？一条一条读无法判断之后还会不会来。

非工作时间访问：不在8:00~19:00之间的日志都是。

登录异常： 为每个账号维护一个字典，记录访问次数，字典值>=8打上登录异常，一分钟清零

         为每个账号维护一个集合，保存此账号登录的ip，一分钟内若集合len>=2视为登录异常

---


清零操作：每次读到一行数据，如果是一分钟清零，如果新数据的分钟数 = 原来数据分钟数+1，将原数据结构清零。

         两分钟清零就是如果读到了新数据分钟数 = min(原始数据分钟数)+2



优化空间：
1. 五个操作共同维护数据结构，{账号1:{访问次数:{}}, 账号2：{}} 
2. 登录异常1分钟2个ip和2分钟三个ip的逻辑能不能合在一起，只用一个字典来处理。
3. 

为了减少损耗，一次读取的时候同时进行五个操作，因此类里的每个detection方法读取的参数是一行Series

✅ 业务高频访问

In [6]:
class HighFrequencyAccess:

    class User:
        __slots__ = ('time', 'business')
        def __init__(self,timestamp):
            self.time=timestamp
            self.business={}

    def __init__(self, max_num) -> None:
        self.max_num = max_num
        self.user_dict = {}

    def detection(self,row) -> bool:
        user_id= row['账号']
        timestamp = row['日期时间']
        transaction  = row['操作内容']
        if user_id in self.user_dict:
            user = self.user_dict[user_id]
            if timestamp-user.time >= timedelta(minutes=1) or timestamp.minute!=user.time.minute:
                del self.user_dict[user_id]
                # 删除之前的数据
                self.user_dict[user_id] = HighFrequencyAccess.User(timestamp)

            user = self.user_dict[user_id]
        else:
            user = HighFrequencyAccess.User(timestamp)
        user.business[transaction] = user.business.get(transaction, 0) + 1
        self.user_dict[user_id] = user
        
        if user.business[transaction]>self.max_num:
            return True
        else:
            return False

账号复用

In [7]:
class AccountReuse:
    def __init__(self) -> None:
        self.account_data = {}
        self.last_interval = None

    # detection()每次检查一条数据, for循环交给外部
    def detection(self, row) -> bool:
        account = row['账号']
        ip = row['源IP']
        timestamp = row['日期时间']

        # 处理新账户
        if account not in self.account_data:
            self.account_data[account] = set()
        # 计算当前时间所在的时间区间
        current_interval = timestamp.floor('2T')  # 将时间戳向下取整到最近的两分钟时间区间
        # 如果是新的时间区间，清空account_data
        if current_interval != self.last_interval and self.last_interval is not None:
           self.account_data = {}
           self.last_interval = current_interval

        self.account_data[account].add(ip)

        if len(self.account_data[account]) >= 3:
            print(f"账号 {account} 在时间 {timestamp} 存在账号复用行为")
            return True
        return False

非常用IP访问

In [8]:
class UncommonIp:

    class IpData:
        __slots__ = ('count', 'time')
        def __init__(self) -> None:
            self.count = 0
            self.time = []

    def __init__(self):
        self.account_data = {}

    def dataload(self, row):
        account = row['账号']
        ip = row['源IP']
        timestamp = row['日期时间']
        # 如果字典里没有这个用户，初始化
        if account not in self.account_data:
            self.account_data[account] = {'total':0, 'ips':{}}
        
        self.account_data[account]['total'] += 1
        # 如果用户的ips里没有这个ip，初始化\n",
        if ip not in self.account_data[account]['ips']:
            self.account_data[account]['ips'][ip] = UncommonIp.IpData()
        
        self.account_data[account]['ips'][ip].count += 1
        # 如果超过count已经超过4就不再统计ip地址了\n",
        if self.account_data[account]['ips'][ip].count <= 4:
            self.account_data[account]['ips'][ip].time.append(timestamp)


    def detection(self):
        user_list = []
        time_list = []
        for account, user_data in self.account_data.items():
            if user_data['total'] >= 100:
                for _, ip_data in user_data['ips'].items():
                    if ip_data.count < 5:
                        user_id = account
                        for time in ip_data.time:
                            user_list.append(user_id)
                            time_list.append(time)
        data = {
            '异常账号': user_list,
            '异常时间': time_list,
            '异常类型': ['非常用IP访问'] * len(user_list)
        }
        df_ano = pd.DataFrame(data)
        
        return df_ano
    
# u = UncommonIp()
# for i,row in df.iterrows():
#     u.dataload(row)

# df_ano = u.detection()
# df_ano

# 315条 >= 100

✅ 非工作时间访问

In [9]:
class OutOfHoursAccess:
    def __init__(self, start, end) -> None:
        self.start = start
        self.end = end

    def detection(self, row: pd.core.series.Series) -> bool:
        datetime_value = row['日期时间'].time()
        # TODO: 19:00:00算不算？
        if not (self.start <= datetime_value < self.end):
            # print(f"Row {row}: {datetime_value} is not in the range.")
            return True
        return False


✅ 登录异常

In [10]:
class LoginException:
    class User:
        __slots__ = ('time', 'cnt','ips')
        def __init__(self,timestamp):
            self.time=timestamp
            self.cnt=0
            self.ips=set()
    def __init__(self) -> None:
        self.user_dict = {}

    def detection(self,row) -> int:
        user_id= row['账号']
        user_ip = row['源IP']
        timestamp = row['日期时间']
        
        if user_id in self.user_dict:
            user = self.user_dict[user_id]
            if timestamp-user.time >= timedelta(minutes=1) or timestamp.minute!=user.time.minute:
                del self.user_dict[user_id]
                # 删除之前的数据
                user = self.User(timestamp)
        else:
            user = self.User(timestamp)
        user.cnt+=1
        user.ips.add(user_ip)
        self.user_dict[user_id] = user
        if user.cnt>=8 or len(user.ips)>=2:
            return True
        else:
            return False    

main函数

In [12]:
# 1. 业务高频访问
max_num = 5
highfrequency = HighFrequencyAccess(max_num)
# 2. 账户复用
accountreuse = AccountReuse()
# 3. 非常用IP
uncommonip = UncommonIp()
# 4. 非工作时间
start = pd.to_datetime('08:00:00').time()
end = pd.to_datetime('19:00:00').time()
outHour = OutOfHoursAccess(start, end)
# 5. 登录异常
login = LoginException()

# 异常数据
ExceptionData=[]

# 测试
for i, row in df.iterrows():
    # 1. 业务高频访问
    if highfrequency.detection(row):
        ExceptionData.append([row['账号'], row['日期时间'], '业务高频访问'])
    # 2. 账户复用
    if accountreuse.detection(row):
        ExceptionData.append([row['账号'], row['日期时间'], '账户复用'])
    # 3. 非常用IP
    uncommonip.dataload(row)
    # 4. 非工作时间
    if outHour.detection(row):
        ExceptionData.append([row['账号'], row['日期时间'], '非工作时间访问'])
    # 5. 登录异常
    if login.detection(row):
        ExceptionData.append([row['账号'], row['日期时间'], '登录异常'])
df_ano = uncommonip.detection()
for i,row in df_ano.iterrows():
    ExceptionData.append([row['异常账号'], row['异常时间'], row['异常类型']])

# 保存异常数据为csv
df_exception = pd.DataFrame(ExceptionData, columns=['异常账号', '异常时间', '异常类型'])
df_exception.to_csv('exception.csv', index=False)
df_exception

账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-01 14:48:49 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-01 14:48:49 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-01 14:48:56 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 08:52:31 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 08:52:32 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 08:53:04 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 08:53:18 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 08:53:18 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 09:00:00 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 09:00:30 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 09:01:18 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 09:01:40 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05-02 09:03:13 存在账号复用行为
账号 404605c3-18d7-45da-becc-3ca40d31b15c 在时间 2023-05

Unnamed: 0,账号,日期时间,异常类型
0,404605c3-18d7-45da-becc-3ca40d31b15c,2023-05-01 14:48:49,账户复用
1,404605c3-18d7-45da-becc-3ca40d31b15c,2023-05-01 14:48:49,账户复用
2,404605c3-18d7-45da-becc-3ca40d31b15c,2023-05-01 14:48:56,账户复用
3,2ab81266-8510-4f3c-8225-87dce8bf57c7,2023-05-01 19:00:00,非工作时间访问
4,2ab81266-8510-4f3c-8225-87dce8bf57c7,2023-05-01 19:00:36,非工作时间访问
...,...,...,...
45866,8aceabdc-3422-40c3-8d05-b519f3209114,2023-05-24 20:32:50,非常用IP访问
45867,c091ba13-73c7-4401-8a7d-1b47833c858c,2023-05-30 11:24:30,非常用IP访问
45868,c091ba13-73c7-4401-8a7d-1b47833c858c,2023-05-30 11:24:31,非常用IP访问
45869,c091ba13-73c7-4401-8a7d-1b47833c858c,2023-05-30 11:24:45,非常用IP访问
