# Apache Log Verileri ile Soru-Cevap Sistemi

Kullanılacak kütüphanelerin yüklenmesi

- pandas: Veri işleme ve analiz kütüphanesi
- sklearn: Makine öğrenimi kütüphanesi
- faiss: Vektör verileri için benzerlik arama kütüphanesi
- torch: PyTorch kütüphanesi
- transformers: Hugging Face tarafından geliştirilen model ve tokenizasyon kütüphanesi
- data_generator: Verileri oluşturmak için yazılan özel kütüphane

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import faiss
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from data_generator import DataGenerator

Veri Oluşturma
- data_generator kütüphanesi ile veri oluşturma
Not: Bu işlem  1 dakika 20 saniye civarında sürecektir. Hata alınması halinde 'data_generator/DataGenerator.py' dosyasını yolunu düzelterek çalıştırınız veya 'maintance/DataGenerator.py çalıştırınız.

In [2]:
DataGenerator.main()

Test dosyası başarıyla oluşturuldu!
Test dosyası oluşturuldu!
Log dosyası başarıyla CSV formatına dönüştürüldü!
Log dosyası başarıyla CSV formatına dönüştürüldü!


In [3]:
data = pd.read_csv('data/apache/data.csv')
print("Sütun Adları:", data.columns)

Sütun Adları: Index(['IP Address', 'Date', 'Request', 'Endpoint', 'Status Code',
       'Response Size', 'Referrer', 'User Agent', 'Time Taken'],
      dtype='object')


Veri Ön İşleme
- Tarih sütununun düzeltilmesi
- Eksik verilerin kontrolü
- Gereksiz sütunların çıkarılması
- Yıl, ay, gün, saat ve dakika sütunlarının oluşturulması
- Boş verilerin temizlenmesi
- Boş olmayan verilerin kontrolü
- Request, Endpoint ve Status Code sütunlarının birleştirilmesi

In [4]:
data['Date'] = pd.to_datetime(data['Date'].str.strip('[]'), format='%d/%b/%Y:%H:%M:%S %z', errors='coerce')

missing_values = data.isnull().sum()
print("Eksik Veriler:", missing_values)

data = data.drop(columns=['Referrer', 'User Agent'], errors='ignore')

data['Year'] = data['Date'].dt.year
data['Month'] = data['Date'].dt.month
data['Day'] = data['Date'].dt.day
data['Hour'] = data['Date'].dt.hour
data['Minute'] = data['Date'].dt.minute

data['Status Code'] = pd.to_numeric(data['Status Code'], errors='coerce')

data = data.dropna(subset=['Request', 'Endpoint', 'Status Code'])
data = data[data['Request'].str.strip() != '']
data = data[data['Endpoint'].str.strip() != '']
data = data[data['Status Code'].notna()] 

data['Combined'] = data['Request'] + ' ' + data['Endpoint'] + ' ' + data['Status Code'].astype(str)

print(data['Combined'].head())
print(data['Combined'].isnull().sum())


Eksik Veriler: IP Address       0
Date             0
Request          0
Endpoint         0
Status Code      0
Response Size    0
Referrer         0
User Agent       0
Time Taken       0
dtype: int64
0           DELETE /usr/admin 304
1    GET /usr/admin/developer 403
2        DELETE /usr/register 200
3             POST /usr/admin 303
4             POST /usr/admin 404
Name: Combined, dtype: object
0


TF-IDF Vektörleri Oluşturma
- Tüm verilerin birleştirilmesi
- TF-IDF vektörlerinin oluşturulması
- Vektörlerin faiss kütüphanesi ile benzerlik araması için hazırlanması

In [5]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['Combined']).toarray()

index = faiss.IndexFlatL2(X.shape[1])
index.add(X.astype('float32'))


Sorgu ve Yanıt Oluşturma
- Verilen sorguya en yakın logları bulma
- Bulunan loglar üzerinden model ile yanıt oluşturma
- Sorgu ve yanıtların test edilmesi
- Modelin yanıtlarının gösterilmesi

In [6]:
def find_relevant_logs(query):
    query_vector = vectorizer.transform([query]).toarray().astype('float32')
    D, I = index.search(query_vector, 5)
    return data.iloc[I[0]]

def generate_response(logs):
    input_text = " ".join(
           logs.apply(
        lambda row: f"{row['IP Address']} {row['Date']} {row['Request']} {row['Endpoint']} {row['Status Code']} "
                    f"{row['Response Size']}{row['Time Taken']}",
        axis=1
    ).tolist()
    )
    input_text = input_text[:1000] 

    input_ids = tokenizer.encode(input_text, return_tensors='pt')
    attention_mask = torch.ones(input_ids.shape, dtype=torch.long)

    output = model.generate(input_ids, attention_mask=attention_mask, max_new_tokens=50, num_return_sequences=1,
                            pad_token_id=tokenizer.eos_token_id)
    response = tokenizer.decode(output[0], skip_special_tokens=True)
    return response

def answer_question(query):
    relevant_logs = find_relevant_logs(query)
    response = generate_response(relevant_logs)
    return response

Model ve Token
- GPT-2 modeli ve tokenizasyonu yüklenmesi

In [7]:
model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)



Test Sorguları Listesi
- Modelin test edilmesi için sorguların listesi

In [8]:
# Test Sorguları Listesi
queries = [
    "Son 24 saatte hangi URL'ler 500 hatası aldı?",
    "Son bir ayda hangi IP adresleri en fazla 403 hatası aldı?",
    "Son bir yıl içinde en sık kullanılan POST isteklerinin listesi nedir?",
    "Son 30 gün içinde hangi tarayıcılar en fazla 404 hatası aldı?",
    "Son haftada hangi endpoint'ler en yüksek Response Size'a sahipti?",
    "En son 10 istekte hangi User Agent'lar kullanıldı?",
    "En yüksek zaman alımı (Time Taken) olan 5 istek nedir?",
    "Son 6 ayda hangi Referrer en çok ziyaret edildi?",
    "Son 24 saatte hangi Endpoint'lerde 502 hatası alındı?",
    "Hangi IP adresleri en uzun süre GET isteği yaptı?",
    "Which IP adress has Longest GET time ?",
]

Her bir sorguyu test etme
- Her bir sorgu için modelin yanıtının gösterilmesi
- Sorgu ve yanıtların gösterilmesi

In [9]:
# Her bir sorguyu test etme
for query in queries:
    print("-" * 80)
    print("\n")
    
    response = answer_question(query)
    print(f"Sorgu: {query}")
    print(f"Modelin Yanıtı: {response}")
    print("\n")


--------------------------------------------------------------------------------


Sorgu: Son 24 saatte hangi URL'ler 500 hatası aldı?
Modelin Yanıtı: 96.68.199.108 2018-08-21 03:30:34+03:00 PUT /usr 500 50531485 3.40.17.73 2018-07-18 08:26:21+03:00 PUT /usr 500 4997259 207.156.196.166 2018-06-21 11:50:13+03:00 PUT /usr 500 4964801 182.56.169.80 2019-06-23 10:33:23+03:00 PUT /usr 500 4969520 215.43.250.126 2018-06-02 05:41:34+03:00 PUT /usr 500 50371939 4.0.0.0 2018-05-29 19:54:34+00:00 PUT /usr 500 4981401 4.0.0.0 2018-05-29 19:54:34+00:


--------------------------------------------------------------------------------


Sorgu: Son bir ayda hangi IP adresleri en fazla 403 hatası aldı?
Modelin Yanıtı: 170.23.19.156 2019-07-02 11:09:51+03:00 PUT /usr 403 496496 72.148.88.9 2018-09-15 02:11:37+03:00 PUT /usr 403 49714740 79.25.89.32 2019-04-03 01:36:58+03:00 PUT /usr 403 49741142 32.234.127.92 2019-09-19 07:37:00+03:00 PUT /usr 403 49743271 45.215.69.249 2018-05-06 03:17:12+03:00 PUT /us

Sorgular ile üretilen yanıtlar arasında bir ilişki olduğu gözlenmekte olup, modelin verileri doğru bir şekilde işlediği görülmektedir.