In [26]:
import pandas as pd
import re

# Log dosyasının yolunu belirleme
file_path = 'weblogdata.log'

# Sütun başlıklarını belirleme
columns = ['IP', 'DATE&TIME', 'REQUEST_METHOD', 'URL', 'STATUS_CODE', 'SIZE', 'USER_AGENT', 'RANDOM_LOG_NUMBER']

# Log dosyasını okuma
with open(file_path, 'r') as file:
    lines = file.readlines()

# Her satırı düzenli ifadelerle doğru şekilde ayırarak sütunlara ayırma
weblogs = []
for line in lines:
    match = re.match(r'(\S+) - - \[(.*?)\] "(.*?) (.*?) (.*?)" (\d+) (\d+) "(.*?)" "(.*?)" (\d+)', line)
    if match:
        ip = match.group(1)
        datetime = match.group(2)
        request_method = match.group(3)
        url = match.group(4)
        protocol_version = match.group(5)
        status_code = match.group(6)
        size = match.group(7)
        referrer = match.group(8)
        user_agent = match.group(9)
        random_log_number = match.group(10)

        weblogs.append([ip, datetime, request_method, url, status_code, size, user_agent, random_log_number])

# DataFrame oluşturma
weblogs = pd.DataFrame(weblogs, columns=columns)

# DataFrame'in ilk birkaç satırını görüntüleme
weblogs.head()


Unnamed: 0,IP,DATE&TIME,REQUEST_METHOD,URL,STATUS_CODE,SIZE,USER_AGENT,RANDOM_LOG_NUMBER
0,207.83.76.108,18/Feb/2021:01:43:23 +0300,GET,/usr/login,502,5009,Mozilla/5.0 (Linux; Android 10; ONEPLUS A6000)...,3628
1,60.21.104.170,03/Oct/2023:07:32:31 +0300,DELETE,/usr/admin/developer,404,5032,Mozilla/5.0 (Windows NT 10.0; Win64; x64) Appl...,3188
2,26.188.222.109,25/Oct/2021:04:33:10 +0300,POST,/usr/register,403,5089,Mozilla/5.0 (Android 10; Mobile; rv:84.0) Geck...,4392
3,7.201.214.198,14/Feb/2021:09:00:47 +0300,PUT,/usr/admin,502,5029,Mozilla/5.0 (Linux; Android 10; ONEPLUS A6000)...,3535
4,145.70.13.248,28/Feb/2022:05:08:19 +0300,GET,/usr/login,404,5009,Mozilla/5.0 (iPhone; CPU iPhone OS 12_4_9 like...,3126


In [27]:
weblogs = weblogs.drop(columns=["USER_AGENT", "RANDOM_LOG_NUMBER"])
weblogs.head()

Unnamed: 0,IP,DATE&TIME,REQUEST_METHOD,URL,STATUS_CODE,SIZE
0,207.83.76.108,18/Feb/2021:01:43:23 +0300,GET,/usr/login,502,5009
1,60.21.104.170,03/Oct/2023:07:32:31 +0300,DELETE,/usr/admin/developer,404,5032
2,26.188.222.109,25/Oct/2021:04:33:10 +0300,POST,/usr/register,403,5089
3,7.201.214.198,14/Feb/2021:09:00:47 +0300,PUT,/usr/admin,502,5029
4,145.70.13.248,28/Feb/2022:05:08:19 +0300,GET,/usr/login,404,5009


In [28]:
weblogs['DATE&TIME'] = pd.to_datetime(weblogs['DATE&TIME'], format='%d/%b/%Y:%H:%M:%S %z')

# 'Date' ve 'Time' olarak ayır
weblogs['DATE'] = weblogs['DATE&TIME'].dt.date
weblogs['TIME'] = weblogs['DATE&TIME'].dt.time

weblogs = weblogs.drop(columns=["DATE&TIME"])

weblogs.head()

weblogs.to_csv('data.csv', index=False)

In [29]:
# Tüm sütunları bir liste halinde "LOG_CONTENT" adlı yeni bir sütuna atama
weblogs['LOG_CONTENT'] = weblogs.apply(lambda row: row.tolist(), axis=1)

# Diğer sütunları düşürme, sadece "LOG_CONTENT" sütunu kalacak
weblogs = weblogs[['LOG_CONTENT']]

# Sonuçları görüntüleme
print(weblogs.head())
weblogs.to_csv('data.csv', index=False)

                                         LOG_CONTENT
0  [207.83.76.108, GET, /usr/login, 502, 5009, 20...
1  [60.21.104.170, DELETE, /usr/admin/developer, ...
2  [26.188.222.109, POST, /usr/register, 403, 508...
3  [7.201.214.198, PUT, /usr/admin, 502, 5029, 20...
4  [145.70.13.248, GET, /usr/login, 404, 5009, 20...


In [30]:
print(weblogs.iloc[1]['LOG_CONTENT'])

['60.21.104.170', 'DELETE', '/usr/admin/developer', '404', '5032', datetime.date(2023, 10, 3), datetime.time(7, 32, 31)]


In [23]:
# Tablonun son halini "clean_data.csv" adlı dosyaya kaydetme
weblogs.to_csv('data.csv', index=False)

# Dosyanın kaydedildiği mesajını gösterme
print("Tablo 'data.csv' dosyasına başarıyla kaydedildi.")

Tablo 'data.csv' dosyasına başarıyla kaydedildi.
