In [70]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import faiss
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from data_generator import DataGenerator

In [71]:
DataGenerator.main()

Test dosyası başarıyla oluşturuldu!
Test dosyası oluşturuldu!
Log dosyası başarıyla CSV formatına dönüştürüldü!
Log dosyası başarıyla CSV formatına dönüştürüldü!


In [59]:
data = pd.read_csv('data/apache/data.csv')
print("Sütun Adları:", data.columns)

Sütun Adları: Index(['IP Address', 'Date', 'Request', 'Endpoint', 'Status Code',
       'Response Size', 'Referrer', 'User Agent', 'Time Taken'],
      dtype='object')


In [60]:
data['Date'] = pd.to_datetime(data['Date'].str.strip('[]'), format='%d/%b/%Y:%H:%M:%S %z', errors='coerce')

missing_values = data.isnull().sum()
print("Eksik Veriler:", missing_values)

data = data.drop(columns=['Referrer', 'User Agent'], errors='ignore')

data['Year'] = data['Date'].dt.year
data['Month'] = data['Date'].dt.month
data['Day'] = data['Date'].dt.day
data['Hour'] = data['Date'].dt.hour
data['Minute'] = data['Date'].dt.minute

data['Status Code'] = pd.to_numeric(data['Status Code'], errors='coerce')

data = data.dropna(subset=['Request', 'Endpoint', 'Status Code'])
data = data[data['Request'].str.strip() != '']
data = data[data['Endpoint'].str.strip() != '']
data = data[data['Status Code'].notna()] 

data['Combined'] = data['Request'] + ' ' + data['Endpoint'] + ' ' + data['Status Code'].astype(str)

print(data['Combined'].head())
print(data['Combined'].isnull().sum())


Eksik Veriler: IP Address       0
Date             0
Request          0
Endpoint         0
Status Code      0
Response Size    0
Referrer         0
User Agent       0
Time Taken       0
dtype: int64
0    DELETE /usr/admin 500
1       GET /usr/login 403
2    GET /usr/register 303
3            POST /usr 502
4    PUT /usr/register 403
Name: Combined, dtype: object
0


In [61]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['Combined']).toarray()

index = faiss.IndexFlatL2(X.shape[1])
index.add(X.astype('float32'))


In [66]:
def find_relevant_logs(query):
    query_vector = vectorizer.transform([query]).toarray().astype('float32')
    D, I = index.search(query_vector, 5)
    return data.iloc[I[0]]

def generate_response(logs):
    input_text = " ".join(
           logs.apply(
        lambda row: f"{row['IP Address']} {row['Date']} {row['Request']} {row['Endpoint']} {row['Status Code']} "
                    f"{row['Response Size']}{row['Time Taken']}",
        axis=1
    ).tolist()
    )
    input_text = input_text[:1000]  # Giriş metnini 1000 karakterle sınırlama

    input_ids = tokenizer.encode(input_text, return_tensors='pt')
    attention_mask = torch.ones(input_ids.shape, dtype=torch.long)

    output = model.generate(input_ids, attention_mask=attention_mask, max_length=150, num_return_sequences=1,
                            pad_token_id=tokenizer.eos_token_id)
    response = tokenizer.decode(output[0], skip_special_tokens=True)
    return response

def answer_question(query):
    relevant_logs = find_relevant_logs(query)
    response = generate_response(relevant_logs)
    return response

In [67]:
model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)



In [68]:
# Test Sorguları Listesi
queries = [
    "Son 24 saatte hangi URL'ler 500 hatası aldı?",
    "Son bir ayda hangi IP adresleri en fazla 403 hatası aldı?",
    "Son bir yıl içinde en sık kullanılan POST isteklerinin listesi nedir?",
    "Son 30 gün içinde hangi tarayıcılar en fazla 404 hatası aldı?",
    "Son haftada hangi endpoint'ler en yüksek Response Size'a sahipti?",
    "En son 10 istekte hangi User Agent'lar kullanıldı?",
    "En yüksek zaman alımı (Time Taken) olan 5 istek nedir?",
    "Son 6 ayda hangi Referrer en çok ziyaret edildi?",
    "Son 24 saatte hangi Endpoint'lerde 502 hatası alındı?",
    "Hangi IP adresleri en uzun süre GET isteği yaptı?",
    "Which IP adress has Longest GET time ?",
]

In [69]:
# Her bir sorguyu test etme
for query in queries:
    print("-" * 80)
    print("\n")
    
    response = answer_question(query)
    print(f"Sorgu: {query}")
    print(f"Modelin Yanıtı: {response}")
    print("\n")


--------------------------------------------------------------------------------


Sorgu: Son 24 saatte hangi URL'ler 500 hatası aldı?
Modelin Yanıtı: 111.139.229.63 2018-05-15 02:12:55+03:00 PUT /usr 500 49994871 40.147.32.105 2019-09-28 02:11:01+03:00 PUT /usr 500 50053221 187.238.79.103 2019-06-20 04:45:46+03:00 PUT /usr 500 49843327 10.209.39.248 2019-06-15 07:53:20+03:00 PUT /usr 500 49741237 188.98.72.174 2019-04-24 06:04:50+03:00 PUT /usr 500 50801447 188.


--------------------------------------------------------------------------------


Sorgu: Son bir ayda hangi IP adresleri en fazla 403 hatası aldı?
Modelin Yanıtı: 50.229.180.34 2018-06-26 07:10:06+03:00 PUT /usr 403 49764292 139.35.27.252 2019-09-18 11:19:21+03:00 PUT /usr 403 50153575 6.218.243.113 2018-03-26 10:51:23+03:00 PUT /usr 403 4952579 177.32.56.190 2018-12-04 08:03:54+03:00 PUT /usr 403 49804008 214.196.158.77 2019-08-24 08:32:29+03:00 PUT /usr 403 49923748 6.


---------------------------------------------------

ValueError: Input length of input_ids is 158, but `max_length` is set to 150. This can lead to unexpected behavior. You should consider increasing `max_length` or, better yet, setting `max_new_tokens`.