# Web Usage Mining

## Data Webuage Pak Mul

## Filter Request URI mengambil HTMLnya saja

In [None]:
import pandas as pd

# Nama file input
file_name = "webuage.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Tampilkan info untuk konfirmasi (opsional, tapi praktik yang baik)
print("\nInfo data asli:")
df.info()

# 3. Tampilkan beberapa baris pertama data asli (opsional)
print("\nData asli (head):")
print(df.head())

# 4. Tentukan kolom target
target_column = "Request URI"

# 5. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 6. Filter baris
    #    - Gunakan .str.endswith('.html') untuk menemukan baris yang diakhiri dengan '.html'
    #    - na=False penting untuk menangani nilai yang mungkin kosong (NaN) di kolom tersebut
    #      tanpa menimbulkan error.
    print(f"\nMemfilter data untuk baris di mana '{target_column}' diakhiri dengan '.html'...")
    filtered_df = df[df[target_column].str.endswith('.html', na=False)].copy()

    # 7. Simpan data yang telah difilter ke file CSV baru
    output_filename = "html_requests_only.csv"
    filtered_df.to_csv(output_filename, index=False)

    # 8. Cetak pesan sukses dan pratinjau data yang telah difilter (opsional)
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari webuage.csv...

Info data asli:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132258 entries, 0 to 132257
Data columns (total 9 columns):
 #   Column                            Non-Null Count   Dtype 
---  ------                            --------------   ----- 
 0   Remote host                       132258 non-null  object
 1   Remote logname                    132258 non-null  object
 2   Remote user                       132258 non-null  object
 3   Request time                      132258 non-null  object
 4   Request method                    132258 non-null  object
 5   Request URI                       132258 non-null  object
 6   Request Protocol                  132258 non-null  object
 7   Status                            132258 non-null  int64 
 8   Size of response (incl. headers)  132258 non-null  int64 
dtypes: int64(2), object(7)
memory usage: 9.1+ MB

Data asli (head):
      Remote host Remote logname Remote user          Request time  \
0   65.55

## Filter Status mengambil nilai yg 200

In [None]:
import pandas as pd

# Nama file input (file asli)
file_name = "html_requests_only.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Tentukan kolom target
target_column = "Status"

# 3. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 4. Periksa apakah kolomnya numerik sebelum membandingkan
    if pd.api.types.is_numeric_dtype(df[target_column]):

        # 5. Filter baris di mana 'Status' sama dengan 200
        print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah 200...")

        # Ini adalah baris filter utamanya
        filtered_df = df[df[target_column] == 200].copy()

        # 6. Simpan data yang telah difilter ke file CSV baru
        output_filename = "status_200_only.csv"
        filtered_df.to_csv(output_filename, index=False)

        # 7. Cetak pesan sukses dan pratinjau data (opsional)
        print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
        print("Pratinjau data yang telah difilter:")
        print(filtered_df.head())
    else:
        print(f"Error: Kolom '{target_column}' bukan numerik. Tidak dapat memfilter berdasarkan nilai 200.")

Memuat data dari html_requests_only.csv...

Memfilter data untuk baris di mana 'Status' adalah 200...

Berhasil memfilter data dan menyimpannya ke status_200_only.csv.
Pratinjau data yang telah difilter:
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -           -  2009-10-15T02:00:24Z   
1     65.55.86.34              -           -  2009-10-15T02:00:58Z   
2   148.188.55.88              -           -  2009-10-15T02:01:41Z   
3  66.249.139.233              -           -  2009-10-15T02:02:09Z   
4    72.30.50.248              -           -  2009-10-15T02:02:13Z   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200   

   Size of response (incl.

## Filter Request Method mengambil yg GET

In [None]:
import pandas as pd

# Nama file input (file asli)
file_name = "status_200_only.csv"
filter_value = "GET"
target_column = "Request method"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Filter baris di mana 'Request method' sama dengan 'GET'
    print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah '{filter_value}'...")

    # Ini adalah baris filter utamanya
    filtered_df = df[df[target_column] == filter_value].copy()

    # 4. Simpan data yang telah difilter ke file CSV baru
    output_filename = "method_get_only.csv"
    filtered_df.to_csv(output_filename, index=False)

    # 5. Cetak pesan sukses dan pratinjau data (opsional)
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari status_200_only.csv...

Memfilter data untuk baris di mana 'Request method' adalah 'GET'...

Berhasil memfilter data dan menyimpannya ke method_get_only.csv.
Pratinjau data yang telah difilter:
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -           -  2009-10-15T02:00:24Z   
1     65.55.86.34              -           -  2009-10-15T02:00:58Z   
2   148.188.55.88              -           -  2009-10-15T02:01:41Z   
3  66.249.139.233              -           -  2009-10-15T02:02:09Z   
4    72.30.50.248              -           -  2009-10-15T02:02:13Z   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200   

   Size of response

## Merubah Request Time menjadi tanggal dan waktunya

In [None]:
import pandas as pd

# Nama file input (file asli)
file_name = "method_get_only.csv"
target_column = "Request time"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
df = pd.read_csv(file_name)

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Tampilkan contoh format asli (opsional)
    print(f"Format asli (baris pertama): {df[target_column].iloc[0]}")

    # 4. Lakukan transformasi:
    #    - Ganti 'T' dengan spasi
    #    - Ganti 'Z' dengan string kosong (dihapus)
    print(f"Mengubah format kolom '{target_column}'...")
    df[target_column] = df[target_column].str.replace('T', ' ', regex=False)
    df[target_column] = df[target_column].str.replace('Z', '', regex=False)

    # 5. Simpan data yang telah diubah ke file CSV baru
    output_filename = "request_time_cleaned.csv"
    df.to_csv(output_filename, index=False)

    # 6. Cetak pesan sukses dan pratinjau (opsional)
    print(f"\nBerhasil mengubah format data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah diubah:")
    print(df.head())

Memuat data dari method_get_only.csv...
Format asli (baris pertama): 2009-10-15T02:00:24Z
Mengubah format kolom 'Request time'...

Berhasil mengubah format data dan menyimpannya ke request_time_cleaned.csv.
Pratinjau data yang telah diubah:
      Remote host Remote logname Remote user         Request time  \
0   65.55.147.227              -           -  2009-10-15 02:00:24   
1     65.55.86.34              -           -  2009-10-15 02:00:58   
2   148.188.55.88              -           -  2009-10-15 02:01:41   
3  66.249.139.233              -           -  2009-10-15 02:02:09   
4    72.30.50.248              -           -  2009-10-15 02:02:13   

  Request method  Request URI Request Protocol  Status  \
0            GET  /index.html         HTTP/1.1     200   
1            GET  /index.html         HTTP/1.1     200   
2            GET    /faq.html         HTTP/1.1     200   
3            GET    /faq.html         HTTP/1.1     200   
4            GET  /index.html         HTTP/1.0     200

## Filter Berdasarkan IP Address(Remote host) dan User Agent(Request Protocol)

In [None]:
import pandas as pd

# DIUBAH: Nama file input yang benar (hasil dari langkah kita sebelumnya)
file_name = "final_cleaned_NASA_data.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
try:
    # DIUBAH: Tambahkan sep=';'
    df = pd.read_csv(file_name, sep=';')
except FileNotFoundError:
    print(f"Error: File {file_name} tidak ditemukan.")
    print("Pastikan Anda sudah menjalankan skrip pemisah tanggal/waktu sebelumnya.")
    exit() # Keluar jika file tidak ada


# DIUBAH: Sesuaikan nama kolom dengan data NASA kita
col_ip = "host"        # Ini adalah 'Remote host' di data tutorial Anda
col_tanggal = "tanggal"  # Kolom tanggal kita yang sudah bersih
col_waktu = "waktu"      # Kolom waktu kita yang sudah bersih
new_col_name = "SESSION" # Nama kolom baru, ini sudah benar

# Periksa apakah kolom yang diperlukan ada
if col_ip in df.columns and col_tanggal in df.columns and col_waktu in df.columns:

    # 2. TIDAK PERLU membersihkan kolom waktu (data kita sudah bersih)

    # 3. Konversi kolom waktu ke datetime (penting untuk pengurutan)
    print(f"Menggabungkan '{col_tanggal}' dan '{col_waktu}' ke format datetime untuk pengurutan...")

    # Kita gabungkan 'tanggal' dan 'waktu' agar bisa diurutkan dengan benar
    # Ini akan membuat kolom sementara seperti '1995-07-01 00:00:09'
    df['full_datetime'] = pd.to_datetime(df[col_tanggal] + ' ' + df[col_waktu], errors='coerce')

    # 4. BUAT KOLOM SESSION (LOGIKA ANDA SUDAH SEMPURNA)
    # .astype('category').cat.codes memberikan ID unik (angka) untuk setiap 'host' unik
    print(f"Membuat kolom '{new_col_name}' berdasarkan '{col_ip}' unik...")
    df[new_col_name] = df[col_ip].astype('category').cat.codes + 1

    # 5. Urutkan data berdasarkan SESSION, lalu WAKTU
    # Ini akan mengelompokkan semua baris dari host yang sama,
    # lalu mengurutkannya berdasarkan waktu.
    print(f"Mengurutkan data berdasarkan '{new_col_name}' dan 'full_datetime'...")
    df_sorted = df.sort_values(by=[new_col_name, 'full_datetime'], ascending=True)

    # 6. Hapus kolom 'full_datetime' sementara agar rapi
    df_sorted = df_sorted.drop(columns=['full_datetime'])

    # 7. Simpan DataFrame LENGKAP yang sudah diurutkan
    output_filename = "data_dengan_session_NASA.csv"
    # DIUBAH: Tambahkan sep=';' saat menyimpan
    df_sorted.to_csv(output_filename, index=False, sep=';')

    print(f"\nBerhasil! Kolom '{new_col_name}' telah ditambahkan.")
    print(f"File baru disimpan sebagai: {output_filename}")
    print("\nPratinjau data baru (perhatikan kolom SESSION dan pengurutan):")
    print(df_sorted.head())

else:
    print(f"Error: Kolom '{col_ip}', '{col_tanggal}', atau '{col_waktu}' tidak ditemukan di {file_name}.")

Memuat data dari time_converted_NASA.csv...
Error: Kolom 'host', 'tanggal', atau 'waktu' tidak ditemukan di time_converted_NASA.csv.


  df = pd.read_csv(file_name, sep=';')


## Dataset NASA

## Filter link web HTML

In [None]:
import pandas as pd

# Nama file input
file_name = "data.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
# DIUBAH: Tambahkan sep=';' karena file Anda menggunakan titik koma
# DIUBAH: Tambahkan index_col=0 karena kolom pertama adalah indeks
df = pd.read_csv(file_name, sep=';', index_col=0)

# 2. Tampilkan info untuk konfirmasi (opsional)
print("\nInfo data asli:")
df.info()

# 3. Tampilkan beberapa baris pertama data asli (opsional)
print("\nData asli (head):")
print(df.head())

# 4. Tentukan kolom target
# DIUBAH: Kita mencari .html di kolom 'url', bukan 'host'
target_column = "url"

# 5. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 6. Filter baris
    #    Logika ini sekarang akan diterapkan pada kolom 'url'
    print(f"\nMemfilter data untuk baris di mana '{target_column}' diakhiri dengan '.html'...")
    filtered_df = df[df[target_column].str.endswith('.html', na=False)].copy()

    # 7. Simpan data yang telah difilter ke file CSV baru
    output_filename = "html_requests_only_NASA.csv"
    # DIUBAH: Tambahkan sep=';' saat menyimpan agar konsisten
    filtered_df.to_csv(output_filename, sep=';')

    # 8. Cetak pesan sukses dan pratinjau data yang telah difilter
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari data.csv...


  df = pd.read_csv(file_name, sep=';', index_col=0)



Info data asli:
<class 'pandas.core.frame.DataFrame'>
Index: 1048575 entries, 0 to 1048574
Data columns (total 6 columns):
 #   Column    Non-Null Count    Dtype 
---  ------    --------------    ----- 
 0   host      1048575 non-null  object
 1   time      1048575 non-null  int64 
 2   method    1048575 non-null  object
 3   url       1048575 non-null  object
 4   response  1048575 non-null  int64 
 5   bytes     1048575 non-null  int64 
dtypes: int64(3), object(3)
memory usage: 56.0+ MB

Data asli (head):
          host       time method                           url  response  \
0  ***.novo.dk  805465029    GET                     /ksc.html       200   
1  ***.novo.dk  805465031    GET    /images/ksclogo-medium.gif       200   
2  ***.novo.dk  805465051    GET  /images/MOSAIC-logosmall.gif       200   
3  ***.novo.dk  805465053    GET     /images/USA-logosmall.gif       200   
4  ***.novo.dk  805465054    GET    /images/NASA-logosmall.gif       200   

   bytes  
0   7067  
1   586

## Filter Status mengambil nilai yg 200

In [None]:
import pandas as pd

# Nama file input (file dari langkah sebelumnya)
file_name = "html_requests_only_NASA.csv"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
# DIUBAH: Tambahkan sep=';' untuk membaca file dengan benar
df = pd.read_csv(file_name, sep=';')

# 2. Tentukan kolom target
target_column = "response"

# 3. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 4. Periksa apakah kolomnya numerik (sekarang seharusnya berhasil)
    if pd.api.types.is_numeric_dtype(df[target_column]):

        # 5. Filter baris di mana 'response' sama dengan 200
        print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah 200...")

        # Ini adalah baris filter utama (logika Anda sudah benar)
        filtered_df = df[df[target_column] == 200].copy()

        # 6. Simpan data yang telah difilter ke file CSV baru
        output_filename = "status_200_only_NASA.csv"
        # DIUBAH: Tambahkan sep=';' agar konsisten saat menyimpan
        filtered_df.to_csv(output_filename, index=False, sep=';')

        # 7. Cetak pesan sukses dan pratinjau data
        print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
        print("Pratinjau data yang telah difilter:")
        print(filtered_df.head())
    else:
        # (Jika sep=';' lupa ditambahkan, Anda mungkin akan melihat error ini)
        print(f"Error: Kolom '{target_column}' bukan numerik. Periksa pemisah file CSV.")

Memuat data dari html_requests_only_NASA.csv...


  df = pd.read_csv(file_name, sep=';')



Memfilter data untuk baris di mana 'response' adalah 200...

Berhasil memfilter data dan menyimpannya ke status_200_only_NASA.csv.
Pratinjau data yang telah difilter:
  Unnamed: 0         host       time method  \
0          0  ***.novo.dk  805465029    GET   
1          6  ***.novo.dk  805465068    GET   
2         12  ***.novo.dk  805465381    GET   
3         13  ***.novo.dk  807951768    GET   
4         23  ***.novo.dk  807951938    GET   

                                            url  response  bytes  
0                                     /ksc.html       200   7067  
1               /shuttle/missions/missions.html       200   8678  
2     /shuttle/resources/orbiters/columbia.html       200   6922  
3  /shuttle/missions/sts-69/mission-sts-69.html       200  11264  
4               /shuttle/countdown/liftoff.html       200   4665  


## Filter Request Method mengambil yg GET

In [None]:
import pandas as pd

# Nama file input (file dari langkah sebelumnya)
file_name = "status_200_only_NASA.csv"
filter_value = "GET"
# DIUBAH: Nama kolom yang benar adalah 'method', bukan 'Request method'
target_column = "method"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
# DIUBAH: Tambahkan sep=';' untuk membaca file dengan benar
df = pd.read_csv(file_name, sep=';')

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Filter baris di mana 'method' sama dengan 'GET'
    print(f"\nMemfilter data untuk baris di mana '{target_column}' adalah '{filter_value}'...")

    # Ini adalah baris filter utama (Logika Anda sudah benar)
    filtered_df = df[df[target_column] == filter_value].copy()

    # 4. Simpan data yang telah difilter ke file CSV baru
    output_filename = "method_get_only_NASA.csv"
    # DIUBAH: Tambahkan sep=';' agar konsisten saat menyimpan
    filtered_df.to_csv(output_filename, index=False, sep=';')

    # 5. Cetak pesan sukses dan pratinjau data (opsional)
    print(f"\nBerhasil memfilter data dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah difilter:")
    print(filtered_df.head())

Memuat data dari status_200_only_NASA.csv...


  df = pd.read_csv(file_name, sep=';')



Memfilter data untuk baris di mana 'method' adalah 'GET'...

Berhasil memfilter data dan menyimpannya ke method_get_only_NASA.csv.
Pratinjau data yang telah difilter:
  Unnamed: 0         host       time method  \
0          0  ***.novo.dk  805465029    GET   
1          6  ***.novo.dk  805465068    GET   
2         12  ***.novo.dk  805465381    GET   
3         13  ***.novo.dk  807951768    GET   
4         23  ***.novo.dk  807951938    GET   

                                            url  response  bytes  
0                                     /ksc.html       200   7067  
1               /shuttle/missions/missions.html       200   8678  
2     /shuttle/resources/orbiters/columbia.html       200   6922  
3  /shuttle/missions/sts-69/mission-sts-69.html       200  11264  
4               /shuttle/countdown/liftoff.html       200   4665  


## Merubah Request Time menjadi tanggal dan waktunya

In [None]:
import pandas as pd

# DIUBAH: Nama file input yang benar
file_name = "method_get_only_NASA.csv"
# DIUBAH: Nama kolom target yang benar
target_column = "time"

# 1. Muat dataset
print(f"Memuat data dari {file_name}...")
# DIUBAH: Tambahkan sep=';' untuk membaca file dengan benar
df = pd.read_csv(file_name, sep=';')

# 2. Periksa apakah kolom target ada
if target_column not in df.columns:
    print(f"Error: Kolom '{target_column}' tidak ditemukan di CSV.")
else:
    # 3. Tampilkan contoh format asli (ini adalah Angka/Timestamp)
    print(f"Format asli (baris pertama): {df[target_column].iloc[0]}")

    # 4. Lakukan transformasi:
    #    Kita tidak mengganti 'T' atau 'Z' karena data aslinya adalah angka (Unix timestamp).
    #    Kita akan MENGONVERSI timestamp itu ke format datetime yang mudah dibaca.
    print(f"Mengonversi kolom '{target_column}' (Unix timestamp) ke format Datetime...")

    # pd.to_datetime mengonversi angka timestamp (unit='s' berarti 'seconds')
    # Kita buat kolom baru 'datetime_readable' agar data asli tidak hilang
    df['datetime_readable'] = pd.to_datetime(df[target_column], unit='s')

    # 5. Simpan data yang telah diubah ke file CSV baru
    output_filename = "time_converted_NASA.csv"
    # DIUBAH: Tambahkan sep=';' agar konsisten
    df.to_csv(output_filename, index=False, sep=';')

    # 6. Cetak pesan sukses dan pratinjau
    print(f"\nBerhasil mengonversi data waktu dan menyimpannya ke {output_filename}.")
    print("Pratinjau data yang telah diubah (lihat kolom baru 'datetime_readable'):")
    print(df.head())

Memuat data dari method_get_only_NASA.csv...


  df = pd.read_csv(file_name, sep=';')


Format asli (baris pertama): 805465029
Mengonversi kolom 'time' (Unix timestamp) ke format Datetime...

Berhasil mengonversi data waktu dan menyimpannya ke time_converted_NASA.csv.
Pratinjau data yang telah diubah (lihat kolom baru 'datetime_readable'):
  Unnamed: 0         host       time method  \
0          0  ***.novo.dk  805465029    GET   
1          6  ***.novo.dk  805465068    GET   
2         12  ***.novo.dk  805465381    GET   
3         13  ***.novo.dk  807951768    GET   
4         23  ***.novo.dk  807951938    GET   

                                            url  response  bytes  \
0                                     /ksc.html       200   7067   
1               /shuttle/missions/missions.html       200   8678   
2     /shuttle/resources/orbiters/columbia.html       200   6922   
3  /shuttle/missions/sts-69/mission-sts-69.html       200  11264   
4               /shuttle/countdown/liftoff.html       200   4665   

    datetime_readable  
0 1995-07-11 12:17:09  
1 1995

## Filter Berdasarkan IP Address(host) dan User Agent(Request Protocol)

In [7]:
import pandas as pd

# --- PARAMETER KONFIGURASI ---
file_name = "time_converted_NASA.csv"
col_ip = "host"               # Kolom IP/Host
col_time = "datetime_readable" # Kolom Waktu
url_col = "url"               # Kolom URL asli
new_col_name = "SESSION_ID"   # Nama kolom ID Sesi baru
url_id_col = "PAGE_ID"        # NAMA KOLOM ID URL BARU
session_threshold_minutes = 30 # Batas waktu inaktivitas (dalam menit)
# ------------------------------

print(f"Memuat data dari {file_name}...")
try:
    # 1. Muat dataset
    df = pd.read_csv(file_name, sep=';')

except FileNotFoundError:
    print(f"Error: File {file_name} tidak ditemukan.")
    exit()

# 2. Periksa kolom wajib dan koreksi tipe data Waktu
if col_ip not in df.columns or col_time not in df.columns or url_col not in df.columns:
    print(f"Error: Kolom '{col_ip}', '{col_time}', atau '{url_col}' tidak ditemukan.")
    exit()

print(f"Mengkonversi kolom '{col_time}' menjadi tipe datetime...")
df[col_time] = pd.to_datetime(df[col_time], errors='coerce')
df.dropna(subset=[col_time], inplace=True)
df = df.reset_index(drop=True)

# 3. IMPLEMENTASI ID MAPPING (Mengubah URL menjadi ID)
# ----------------------------------------------------
print(f"Membuat kolom '{url_id_col}' sebagai ID unik (angka) untuk setiap URL...")
df[url_id_col] = df[url_col].astype('category').cat.codes + 1
url_mapping_df = df[[url_col, url_id_col]].drop_duplicates().sort_values(by=url_id_col)
url_mapping_df.to_csv("url_page_id_mapping.csv", index=False, sep=';')
print(f"Pemetaan URL ke ID disimpan sebagai: url_page_id_mapping.csv")

# 4. IMPLEMENTASI SESSIONIZATION BERBASIS WAKTU
# ---------------------------------------------
print("Menerapkan logika sessionization berbasis waktu...")
df_sorted = df.sort_values(by=[col_ip, col_time], ascending=True).reset_index(drop=True)
df_sorted['time_diff'] = df_sorted.groupby(col_ip)[col_time].diff()
session_threshold = pd.Timedelta(f'{session_threshold_minutes} minutes')
df_sorted['new_session_flag'] = (df_sorted['time_diff'] > session_threshold) | (df_sorted['time_diff'].isna())
df_sorted['SESSION_NUM'] = df_sorted.groupby(col_ip)['new_session_flag'].cumsum()
df_sorted[new_col_name] = df_sorted[col_ip].astype(str) + '_' + df_sorted['SESSION_NUM'].astype(str)

# 5. Pembersihan kolom
df_sorted = df_sorted.drop(columns=['time_diff', 'new_session_flag', 'SESSION_NUM'], errors='ignore')
if 'time' in df_sorted.columns: df_sorted = df_sorted.drop(columns=['time'])
if 'Unnamed: 0' in df_sorted.columns: df_sorted = df_sorted.drop(columns=['Unnamed: 0'])

# =========================================================================
# 6. MEMBUAT MATRIKS FREKUENSI SESI-HALAMAN (Sesuai Permintaan)
# =========================================================================

print("\n=======================================================")
print(f"Membuat Matriks Frekuensi Sesi-Halaman ({new_col_name} vs {url_id_col})...")

# Menggunakan pivot_table untuk menghitung frekuensi
# index=SESSION_ID (Baris), columns=PAGE_ID (Kolom), aggfunc='size' (menghitung jumlah item)
df_matrix = df_sorted.pivot_table(
    index=new_col_name,
    columns=url_id_col,
    aggfunc='size',
    fill_value=0 # Mengisi nilai yang tidak ada (tidak dikunjungi) dengan 0
).reset_index()

# Mengubah nama kolom PAGE_ID (angka) menjadi format yang lebih deskriptif (PAGE_1, PAGE_2, dll)
# Catatan: Kolom PAGE_ID yang lama sekarang adalah nama kolom (angka)
new_cols = [new_col_name] + [f'PAGE_{col}' for col in df_matrix.columns if col != new_col_name]
df_matrix.columns = new_cols

output_filename_matrix = "session_page_frequency_matrix_NASA.csv"
print(f"Menyimpan Matriks Frekuensi ke {output_filename_matrix}...")
df_matrix.to_csv(output_filename_matrix, index=False, sep=',')

print("\nMatriks Frekuensi Sesi-Halaman (Sesi vs Frekuensi Kunjungan Halaman):")
print(df_matrix.head())
print("=======================================================")

print(f"\nMatriks Frekuensi berhasil dibuat dan disimpan sebagai: {output_filename_matrix}")

Memuat data dari time_converted_NASA.csv...


  df = pd.read_csv(file_name, sep=';')


Mengkonversi kolom 'datetime_readable' menjadi tipe datetime...
Membuat kolom 'PAGE_ID' sebagai ID unik (angka) untuk setiap URL...
Pemetaan URL ke ID disimpan sebagai: url_page_id_mapping.csv
Menerapkan logika sessionization berbasis waktu...

Membuat Matriks Frekuensi Sesi-Halaman (SESSION_ID vs PAGE_ID)...
Menyimpan Matriks Frekuensi ke session_page_frequency_matrix_NASA.csv...

Matriks Frekuensi Sesi-Halaman (Sesi vs Frekuensi Kunjungan Halaman):
                          SESSION_ID  PAGE_1  PAGE_2  PAGE_3  PAGE_4  PAGE_5  \
0                      ***.novo.dk_1       0       0       0       0       0   
1                      ***.novo.dk_2       0       0       0       0       0   
2                   007.thegap.com_1       0       0       0       0       0   
3                   007.thegap.com_2       0       0       0       0       0   
4  01-dynamic-c.wokingham.luna.net_1       0       0       0       0       0   

   PAGE_6  PAGE_7  PAGE_8  PAGE_9  ...  PAGE_103  PAGE_104  PAGE

In [9]:
import pandas as pd

# --- PARAMETER KONFIGURASI ---
# File Matriks Frekuensi yang dihasilkan dari langkah sebelumnya
file_name = "session_page_frequency_matrix_NASA_Benar.csv"
session_id_col = "SESSION_ID"
host_col = "HOST_ID" # Nama kolom baru untuk ID Pengguna/Host
# ------------------------------

print(f"Memuat Matriks Frekuensi dari {file_name}...")
try:
    # 1. Muat Matriks Frekuensi
    df_matrix = pd.read_csv(file_name, sep=',')
except FileNotFoundError:
    print(f"Error: File {file_name} tidak ditemukan. Pastikan file sudah ada dan nama file sudah benar.")
    exit()
except Exception as e:
    print(f"Error saat membaca file CSV: {e}")
    exit()

# 2. Ekstraksi ID Host/IP dari SESSION_ID
# SESSION_ID memiliki format: [HOST_ID]_[SESSION_NUM] (misal: ***.novo.dk_1)
print(f"Mengekstrak ID Pengguna/Host dari kolom '{session_id_col}'...")

# Ambil bagian pertama (sebelum underscore terakhir) sebagai ID Host.
# Contoh: ***.novo.dk_1 -> ***.novo.dk
df_matrix[host_col] = df_matrix[session_id_col].apply(lambda x: '_'.join(x.split('_')[:-1]))

# Periksa apakah ekstraksi berhasil (opsional, tapi bagus)
if not df_matrix[host_col].iloc[0] or df_matrix[host_col].iloc[0] == df_matrix[session_id_col].iloc[0]:
     print("Peringatan: Ekstraksi HOST_ID mungkin tidak berjalan optimal. Format SESSION_ID mungkin tidak standar.")


# 3. Kelompokkan berdasarkan HOST_ID dan Jumlahkan Frekuensi Halaman
print(f"Mengelompokkan data berdasarkan '{host_col}' dan menjumlahkan frekuensi halaman...")

# Identifikasi semua kolom halaman (yang dimulai dengan 'PAGE_')
page_cols = [col for col in df_matrix.columns if col.startswith('PAGE_')]

# Lakukan pengelompokan dan penjumlahan (sum)
df_user_frequency = df_matrix.groupby(host_col)[page_cols].sum().reset_index()

# 4. Simpan Matriks Frekuensi Pengguna (Aggregasi)
output_filename = "user_page_frequency_matrix_NASA_aggregated.csv"
print(f"Menyimpan Matriks Frekuensi Pengguna (Aggregasi) ke {output_filename}...")
df_user_frequency.to_csv(output_filename, index=False, sep=',')

print("\nBerhasil! Matriks Frekuensi Sesi telah digabungkan menjadi Matriks Frekuensi Pengguna.")
print(f"File hasil disimpan sebagai: {output_filename}")

print("\nPratinjau Matriks Frekuensi Pengguna (Setiap baris adalah total kunjungan per Host/IP):")
print(df_user_frequency.head())

Memuat Matriks Frekuensi dari session_page_frequency_matrix_NASA_Benar.csv...
Error: File session_page_frequency_matrix_NASA_Benar.csv tidak ditemukan. Pastikan file sudah ada dan nama file sudah benar.
Mengekstrak ID Pengguna/Host dari kolom 'SESSION_ID'...
Mengelompokkan data berdasarkan 'HOST_ID' dan menjumlahkan frekuensi halaman...
Menyimpan Matriks Frekuensi Pengguna (Aggregasi) ke user_page_frequency_matrix_NASA_aggregated.csv...

Berhasil! Matriks Frekuensi Sesi telah digabungkan menjadi Matriks Frekuensi Pengguna.
File hasil disimpan sebagai: user_page_frequency_matrix_NASA_aggregated.csv

Pratinjau Matriks Frekuensi Pengguna (Setiap baris adalah total kunjungan per Host/IP):
                           HOST_ID  PAGE_1  PAGE_2  PAGE_3  PAGE_4  PAGE_5  \
0                      ***.novo.dk       0       0       0       0       0   
1                   007.thegap.com       0       0       0       0       0   
2  01-dynamic-c.wokingham.luna.net       0       0       0       0      