# Web Usage Mining

## Filter Request URI mengambil HTMLnya saja

In [2]:
import pandas as pd

# Nama file input
file_name = "webuage.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Tampilkan info untuk konfirmasi (opsional, tapi praktik yang baik)
print("\nInfo data asli:")
df.info()

# 3. Tampilkan beberapa baris pertama data asli (opsional)
print("\nData asli (head):")
print(df.head())

# 4. Tentukan kolom target
target_column = "Request URI"

# 5. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 6. Filter baris
    #    - Gunakan .str.endswith('.html') untuk menemukan baris yang diakhiri dengan '.html'
    #    - na=False penting untuk menangani nilai yang mungkin kosong (NaN) di kolom tersebut
    #      tanpa menimbulkan error.
    print(f"\nMemfilter data untuk baris di mana '{target_column}' diakhiri dengan '.html'...")
    filtered_df = df[df[target_column].str.endswith('.html', na=False)].copy()

    # 7. Simpan data yang telah difilter ke file CSV baru
    output_filename = "html_requests_only.csv"
    filtered_df.to_csv(output_filename, index=False)

    # 8. Cetak pesan sukses dan pratinjau data yang telah difilter (opsional)
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari webuage.csv...

Info data asli:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132258 entries, 0 to 132257
Data columns (total 9 columns):
 #   Column                            Non-Null Count   Dtype 
---  ------                            --------------   ----- 
 0   Remote host                       132258 non-null  object
 1   Remote logname                    132258 non-null  object
 2   Remote user                       132258 non-null  object
 3   Request time                      132258 non-null  object
 4   Request method                    132258 non-null  object
 5   Request URI                       132258 non-null  object
 6   Request Protocol                  132258 non-null  object
 7   Status                            132258 non-null  int64 
 8   Size of response (incl. headers)  132258 non-null  int64 
dtypes: int64(2), object(7)
memory usage: 9.1+ MB

Data asli (head):
      Remote host Remote logname Remote user          Request time  \
0   65.55

## Filter Status mengambil nilai yg 200

In [5]:
import pandas as pd

# Nama file input (file asli)
file_name = "html_requests_only.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Tentukan kolom target
target_column = "Status"

# 3. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 4. Periksa apakah kolomnya numerik sebelum membandingkan
    if pd.api.types.is_numeric_dtype(df[target_column]):

        # 5. Filter baris di mana 'Status' sama dengan 200
        print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah 200...")

        # Ini adalah baris filter utamanya
        filtered_df = df[df[target_column] == 200].copy()

        # 6. Simpan data yang telah difilter ke file CSV baru
        output_filename = "status_200_only.csv"
        filtered_df.to_csv(output_filename, index=False)

        # 7. Cetak pesan sukses dan pratinjau data (opsional)
        print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
        print("Pratinjau data yang telah difilter:")
        print(filtered_df.head())
    else:
        print(f"Error: Kolom '{target_column}' bukan numerik. Tidak dapat memfilter berdasarkan nilai 200.")

Memuat data dari html_requests_only.csv...

Memfilter data untuk baris di mana 'Status' adalah 200...

Berhasil memfilter data dan menyimpannya ke status_200_only.csv.
Pratinjau data yang telah difilter:
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -           -  2009-10-15T02:00:24Z   
1     65.55.86.34              -           -  2009-10-15T02:00:58Z   
2   148.188.55.88              -           -  2009-10-15T02:01:41Z   
3  66.249.139.233              -           -  2009-10-15T02:02:09Z   
4    72.30.50.248              -           -  2009-10-15T02:02:13Z   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200   

   Size of response (incl.

## Filter Request Method mengambil yg GET

In [6]:
import pandas as pd

# Nama file input (file asli)
file_name = "status_200_only.csv"
filter_value = "GET"
target_column = "Request method"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Filter baris di mana 'Request method' sama dengan 'GET'
    print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah '{filter_value}'...")

    # Ini adalah baris filter utamanya
    filtered_df = df[df[target_column] == filter_value].copy()

    # 4. Simpan data yang telah difilter ke file CSV baru
    output_filename = "method_get_only.csv"
    filtered_df.to_csv(output_filename, index=False)

    # 5. Cetak pesan sukses dan pratinjau data (opsional)
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari status_200_only.csv...

Memfilter data untuk baris di mana 'Request method' adalah 'GET'...

Berhasil memfilter data dan menyimpannya ke method_get_only.csv.
Pratinjau data yang telah difilter:
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -           -  2009-10-15T02:00:24Z   
1     65.55.86.34              -           -  2009-10-15T02:00:58Z   
2   148.188.55.88              -           -  2009-10-15T02:01:41Z   
3  66.249.139.233              -           -  2009-10-15T02:02:09Z   
4    72.30.50.248              -           -  2009-10-15T02:02:13Z   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200   

   Size of response

## Merubah Request Time menjadi tanggal dan waktunya

In [7]:
import pandas as pd

# Nama file input (file asli)
file_name = "method_get_only.csv"
target_column = "Request time"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Tampilkan contoh format asli (opsional)
    print(f"Format asli (baris pertama): {df[target_column].iloc[0]}")

    # 4. Lakukan transformasi:
    #    - Ganti 'T' dengan spasi
    #    - Ganti 'Z' dengan string kosong (dihapus)
    print(f"Mengubah format kolom '{target_column}'...")
    df[target_column] = df[target_column].str.replace('T', ' ', regex=False)
    df[target_column] = df[target_column].str.replace('Z', '', regex=False)

    # 5. Simpan data yang telah diubah ke file CSV baru
    output_filename = "request_time_cleaned.csv"
    df.to_csv(output_filename, index=False)

    # 6. Cetak pesan sukses dan pratinjau (opsional)
    print(f"\nBerhasil mengubah format data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah diubah:")
    print(df.head())

Memuat data dari method_get_only.csv...
Format asli (baris pertama): 2009-10-15T02:00:24Z
Mengubah format kolom 'Request time'...

Berhasil mengubah format data dan menyimpannya ke request_time_cleaned.csv.
Pratinjau data yang telah diubah:
      Remote host Remote logname Remote user         Request time  \
0   65.55.147.227              -           -  2009-10-15 02:00:24   
1     65.55.86.34              -           -  2009-10-15 02:00:58   
2   148.188.55.88              -           -  2009-10-15 02:01:41   
3  66.249.139.233              -           -  2009-10-15 02:02:09   
4    72.30.50.248              -           -  2009-10-15 02:02:13   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200

## Filter Berdasarkan IP Address(Remote host) dan User Agent(Request Protocol)

In [11]:
import pandas as pd

file_name = "request_time_cleaned.csv"
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# Tentukan kolom-kolom
col_ip = "Remote host"
col_time = "Request time"
new_col_name = "SESSION"

# Periksa apakah kolom yang diperlukan ada
if col_ip in df.columns and col_time in df.columns:

    # 2. Bersihkan kolom waktu (seperti yang kita lakukan sebelumnya)
    print(f"Membersihkan kolom '{col_time}'...")
    df[col_time] = df[col_time].str.replace('T', ' ', regex=False)
    df[col_time] = df[col_time].str.replace('Z', '', regex=False)

    # 3. Konversi kolom waktu ke datetime (penting untuk pengurutan)
    print(f"Mengonversi '{col_time}' ke format datetime...")
    # 'errors='coerce'' akan mengubah timestamp yang error menjadi NaT (Not a Time)
    df[col_time] = pd.to_datetime(df[col_time], format='%Y-%m-%d %H:%M:%S', errors='coerce')

    # 4. BUAT KOLOM SESSION (INI BAGIAN UTAMANYA)
    # .astype('category') mengubah kolom IP menjadi tipe kategori
    # .cat.codes memberikan ID unik (mulai dari 0) untuk setiap IP
    # Kita tambah +1 agar ID dimulai dari 1 (seperti di gambar Anda)
    print(f"Membuat kolom '{new_col_name}' berdasarkan '{col_ip}' unik...")
    df[new_col_name] = df[col_ip].astype('category').cat.codes + 1

    # 5. Urutkan data berdasarkan SESSION, lalu WAKTU
    print(f"Mengurutkan data berdasarkan '{new_col_name}' dan '{col_time}'...")
    df_sorted = df.sort_values(by=[new_col_name, col_time], ascending=True)

    # 6. Simpan DataFrame LENGKAP yang sudah diurutkan
    output_filename = "data_dengan_session.csv"
    df_sorted.to_csv(output_filename, index=False)

    print(f"\nBerhasil! Kolom '{new_col_name}' telah ditambahkan.")
    print(f"File baru disimpan sebagai: {output_filename}")
    print("\nPratinjau data baru (5 baris pertama, perhatikan kolom SESSION di akhir):")
    print(df_sorted.head())

else:
    print(f"Error: Kolom '{col_ip}' atau '{col_time}' tidak ditemukan di {file_name}.")

Memuat data dari request_time_cleaned.csv...
Membersihkan kolom 'Request time'...
Mengonversi 'Request time' ke format datetime...
Membuat kolom 'SESSION' berdasarkan 'Remote host' unik...
Mengurutkan data berdasarkan 'SESSION' dan 'Request time'...

Berhasil! Kolom 'SESSION' telah ditambahkan.
File baru disimpan sebagai: data_dengan_session.csv

Pratinjau data baru (5 baris pertama, perhatikan kolom SESSION di akhir):
           Remote host Remote logname Remote user        Request time  \
36189  109.192.104.209              -           - 2009-10-18 18:27:27   
36190   109.192.104.86              -           - 2009-10-18 18:27:27   
36171  109.192.109.233              -           - 2009-10-18 18:26:27   
36818  109.192.111.243              -           - 2009-10-18 20:59:37   
36177  109.192.117.151              -           - 2009-10-18 18:26:27   

      Request method  Request URI Request Protocol  Status  \
36189            GET  /index.html         HTTP/1.1     200   
36190         