## Web Usage

In [1]:
!pip install pandas



### Filter request html

In [8]:
# ==========================================================
# üì¶ Filter Request URI yang Mengandung .html (VERSI FINAL)
# ==========================================================

import pandas as pd

# 1Ô∏è‚É£ Baca file CSV dengan parser yang lebih toleran
df = pd.read_csv(
    "Data/webusage.csv",
    engine="python",       # parser Python (lebih fleksibel)
    on_bad_lines="skip"    # skip baris yang rusak
)

# 2Ô∏è‚É£ Rapikan nama kolom (hapus spasi & tanda kutip di awal/akhir)
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("=== Info Dataset ===")
print(df.info())
print("\n=== 5 Baris Pertama ===")
print(df.head())

# 3Ô∏è‚É£ Cari kolom yang seharusnya "Request URI"
target_col = None
for col in df.columns:
    if col.strip().strip('"').strip().lower() == "request uri":
        target_col = col
        break

if target_col is None:
    raise KeyError(f"Kolom 'Request URI' tidak ditemukan. Kolom yang ada: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom Request URI terdeteksi sebagai: '{target_col}'")

# 4Ô∏è‚É£ Filter URL yang mengandung '.html'
html_df = df[df[target_col].astype(str).str.contains(r'\.html', case=False, na=False)]

# 5Ô∏è‚É£ Tampilkan contoh hasil
print("\n=== 10 Request URI yang Mengandung .html ===")
print(html_df[target_col].head(10))

# 6Ô∏è‚É£ Hitung total baris hasil filter
print("\nJumlah total URI yang mengandung .html:", len(html_df))

# 7Ô∏è‚É£ Simpan hasil ke file baru (di dalam folder Data)
output_path = "Data/filtered_html_requests.csv"
html_df.to_csv(output_path, index=False)

print(f"\n‚úÖ File hasil filter disimpan sebagai '{output_path}'")


=== Info Dataset ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40158 entries, 0 to 40157
Data columns (total 9 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Remote host                       40158 non-null  object
 1   Remote logname                    40158 non-null  object
 2   Remote user                       40158 non-null  object
 3   Request time                      40158 non-null  object
 4   Request method                    40158 non-null  object
 5   Request URI                       40158 non-null  object
 6   Request Protocol                  40158 non-null  object
 7   Status                            40158 non-null  int64 
 8   Size of response (incl. headers)  40158 non-null  int64 
dtypes: int64(2), object(7)
memory usage: 2.8+ MB
None

=== 5 Baris Pertama ===
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -       

### Filter status mengambil nilai yg 200


In [9]:
# ==========================================================
# üì¶ Filter Status = 200 dari file filtered_html_requests.csv
# ==========================================================

import pandas as pd

# 1Ô∏è‚É£ Baca file (gunakan parser Python agar tidak error)
df = pd.read_csv(
    "Data/filtered_html_requests.csv",
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom agar konsisten
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("=== Info Dataset ===")
print(df.info())
print("\n=== 5 Baris Pertama ===")
print(df.head())

# 3Ô∏è‚É£ Temukan nama kolom 'Status' yang benar
target_col = None
for col in df.columns:
    if col.lower() == "status":
        target_col = col
        break

if target_col is None:
    raise KeyError(f"‚ùå Kolom 'Status' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom Status terdeteksi sebagai: '{target_col}'")

# 4Ô∏è‚É£ Filter baris dengan Status = 200
status_200 = df[df[target_col] == 200]

# 5Ô∏è‚É£ Tampilkan hasil
print("\n=== 10 Baris dengan Status = 200 ===")
print(status_200.head(10))

# 6Ô∏è‚É£ Hitung total baris hasil filter
print("\nJumlah total baris dengan Status = 200:", len(status_200))

# 7Ô∏è‚É£ Simpan hasil ke file baru
output_path = "Data/filtered_status_200.csv"
status_200.to_csv(output_path, index=False)

print(f"\n‚úÖ File hasil filter disimpan sebagai '{output_path}'")


=== Info Dataset ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24069 entries, 0 to 24068
Data columns (total 9 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Remote host                       24069 non-null  object
 1   Remote logname                    24069 non-null  object
 2   Remote user                       24069 non-null  object
 3   Request time                      24069 non-null  object
 4   Request method                    24069 non-null  object
 5   Request URI                       24069 non-null  object
 6   Request Protocol                  24069 non-null  object
 7   Status                            24069 non-null  int64 
 8   Size of response (incl. headers)  24069 non-null  int64 
dtypes: int64(2), object(7)
memory usage: 1.7+ MB
None

=== 5 Baris Pertama ===
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -       

### Filter request method mengambil yang GET


In [10]:
# ==========================================================
# üì¶ Filter Request method = GET dari file filtered_status_200.csv
# ==========================================================

import pandas as pd

# 1Ô∏è‚É£ Baca file hasil filter sebelumnya (aman untuk CSV besar/log)
df = pd.read_csv(
    "Data/filtered_status_200.csv",
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom agar konsisten
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("=== Info Dataset ===")
print(df.info())
print("\n=== 5 Baris Pertama ===")
print(df.head())

# 3Ô∏è‚É£ Temukan kolom Request method yang benar
target_col = None
for col in df.columns:
    if col.lower() == "request method":
        target_col = col
        break

if target_col is None:
    raise KeyError(f"‚ùå Kolom 'Request method' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom Request method terdeteksi sebagai: '{target_col}'")

# 4Ô∏è‚É£ Pastikan datanya string sebelum filter
df[target_col] = df[target_col].astype(str)

# 5Ô∏è‚É£ Filter hanya baris dengan Request method = GET
get_df = df[df[target_col].str.upper() == "GET"]

# 6Ô∏è‚É£ Tampilkan hasil
print("\n=== 10 Baris dengan Request method = GET ===")
print(get_df.head(10))

# 7Ô∏è‚É£ Hitung jumlah total baris hasil filter
print("\nJumlah total baris dengan Request method = GET:", len(get_df))

# 8Ô∏è‚É£ Simpan hasil ke file baru
output_path = "Data/filtered_get_requests.csv"
get_df.to_csv(output_path, index=False)

print(f"\n‚úÖ File hasil filter disimpan sebagai '{output_path}'")


=== Info Dataset ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22359 entries, 0 to 22358
Data columns (total 9 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Remote host                       22359 non-null  object
 1   Remote logname                    22359 non-null  object
 2   Remote user                       22359 non-null  object
 3   Request time                      22359 non-null  object
 4   Request method                    22359 non-null  object
 5   Request URI                       22359 non-null  object
 6   Request Protocol                  22359 non-null  object
 7   Status                            22359 non-null  int64 
 8   Size of response (incl. headers)  22359 non-null  int64 
dtypes: int64(2), object(7)
memory usage: 1.5+ MB
None

=== 5 Baris Pertama ===
      Remote host Remote logname Remote user          Request time  \
0   65.55.147.227              -       

### Merubah Request Time menjadi tanggal dan¬†waktunya¬†saja

In [11]:
# ==========================================================
# ‚è∞ Ubah kolom Request Time menjadi format tanggal & waktu saja
# ==========================================================

import pandas as pd

# 1Ô∏è‚É£ Baca file hasil filter sebelumnya
df = pd.read_csv(
    "Data/filtered_get_requests.csv",
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 3Ô∏è‚É£ Temukan kolom yang benar-benar bernama 'Request time'
target_col = None
for col in df.columns:
    if col.lower() == "request time":
        target_col = col
        break

if target_col is None:
    raise KeyError(f"‚ùå Kolom 'Request time' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom Request time terdeteksi sebagai: '{target_col}'")

# 4Ô∏è‚É£ Konversi kolom ke datetime
df[target_col] = pd.to_datetime(df[target_col], errors="coerce")

# 5Ô∏è‚É£ Format menjadi 'YYYY-MM-DD HH:MM:SS'
df[target_col] = df[target_col].dt.strftime("%Y-%m-%d %H:%M:%S")

# 6Ô∏è‚É£ Tampilkan hasil
print("\n=== 10 Baris Pertama Setelah Konversi ===")
print(df[[target_col]].head(10))

# 7Ô∏è‚É£ Simpan hasil ke file baru
output_path = "Data/converted_request_time.csv"
df.to_csv(output_path, index=False)

print(f"\n‚úÖ Kolom 'Request time' telah dikonversi dan disimpan sebagai '{output_path}'")


=== Nama Kolom Setelah Dirapikan ===
Index(['Remote host', 'Remote logname', 'Remote user', 'Request time',
       'Request method', 'Request URI', 'Request Protocol', 'Status',
       'Size of response (incl. headers)'],
      dtype='object')

‚úÖ Kolom Request time terdeteksi sebagai: 'Request time'

=== 10 Baris Pertama Setelah Konversi ===
          Request time
0  2009-10-15 02:00:24
1  2009-10-15 02:00:58
2  2009-10-15 02:01:41
3  2009-10-15 02:02:09
4  2009-10-15 02:02:13
5  2009-10-15 02:02:51
6  2009-10-15 02:02:54
7  2009-10-15 02:02:55
8  2009-10-15 02:02:56
9  2009-10-15 02:02:55

‚úÖ Kolom 'Request time' telah dikonversi dan disimpan sebagai 'Data/converted_request_time.csv'


### Filter Berdasarkan IP Address(Remote host) dan User Agent(Request¬†Protocol)

In [12]:
# ==========================================================
# üåê Filter berdasarkan IP Address (Remote host) dan Request Protocol
# ==========================================================

import pandas as pd

# 1Ô∏è‚É£ Baca file hasil sebelumnya (aman untuk CSV log)
df = pd.read_csv(
    "Data/converted_request_time.csv",
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 3Ô∏è‚É£ Temukan kolom Remote host & Request Protocol secara aman
col_ip = None
col_protocol = None

for col in df.columns:
    if col.lower() == "remote host":
        col_ip = col
    if col.lower() == "request protocol":
        col_protocol = col

if col_ip is None:
    raise KeyError(f"‚ùå Kolom 'Remote host' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

if col_protocol is None:
    raise KeyError(f"‚ùå Kolom 'Request Protocol' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom Remote host terdeteksi sebagai: '{col_ip}'")
print(f"‚úÖ Kolom Request Protocol terdeteksi sebagai: '{col_protocol}'")

# 4Ô∏è‚É£ Tampilkan nilai unik (opsional, untuk membantu memilih filter)
print("\n=== Contoh Nilai Unik ===")
print("Remote host unik:", df[col_ip].dropna().unique()[:5])
print("Request Protocol unik:", df[col_protocol].dropna().unique())

# 5Ô∏è‚É£ Tentukan nilai filter (silakan ganti sesuai kebutuhan)
target_ip = "66.249.139.233"        # contoh IP
target_protocol = "HTTP/1.1"        # contoh protokol

# 6Ô∏è‚É£ Lakukan filter
filtered_df = df[
    (df[col_ip] == target_ip) &
    (df[col_protocol] == target_protocol)
]

# 7Ô∏è‚É£ Tampilkan hasil
print(f"\n=== Hasil Filter untuk IP {target_ip} & Protocol {target_protocol} ===")
print(filtered_df.head(10))

# 8Ô∏è‚É£ Hitung jumlah total baris hasil filter
print("\nJumlah total hasil filter:", len(filtered_df))

# 9Ô∏è‚É£ Simpan hasil ke file baru
output_path = "Data/filtered_ip_protocol.csv"
filtered_df.to_csv(output_path, index=False)

print(f"\n‚úÖ Hasil filter disimpan sebagai '{output_path}'")


=== Nama Kolom Setelah Dirapikan ===
Index(['Remote host', 'Remote logname', 'Remote user', 'Request time',
       'Request method', 'Request URI', 'Request Protocol', 'Status',
       'Size of response (incl. headers)'],
      dtype='object')

‚úÖ Kolom Remote host terdeteksi sebagai: 'Remote host'
‚úÖ Kolom Request Protocol terdeteksi sebagai: 'Request Protocol'

=== Contoh Nilai Unik ===
Remote host unik: ['65.55.147.227' '65.55.86.34' '148.188.55.88' '66.249.139.233'
 '72.30.50.248']
Request Protocol unik: ['HTTP/1.1' 'HTTP/1.0']

=== Hasil Filter untuk IP 66.249.139.233 & Protocol HTTP/1.1 ===
      Remote host Remote logname Remote user         Request time  \
3  66.249.139.233              -           -  2009-10-15 02:02:09   

  Request method Request URI Request Protocol  Status  \
3            GET   /faq.html         HTTP/1.1     200   

   Size of response (incl. headers)  
3                             17247  

Jumlah total hasil filter: 1

‚úÖ Hasil filter disimpan sebagai

## Dataset NASA

### Filter Link Web HTML

In [13]:
import pandas as pd

# Nama file input
file_name = "Data/data_nasa.csv"

print(f"Memuat data dari {file_name}...")

# 1Ô∏è‚É£ Muat dataset NASA yang memakai separator ';'
df = pd.read_csv(
    file_name,
    sep=';',
    index_col=0,
    engine="python",
    on_bad_lines="skip"  # aman untuk baris rusak
)

# 2Ô∏è‚É£ Rapikan nama kolom (hilangkan spasi & kutip)
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("\n=== Info Data Asli ===")
df.info()

print("\n=== 5 Baris Pertama ===")
print(df.head())

# 3Ô∏è‚É£ Tentukan kolom target (otomatis deteksi kolom 'url')
target_column = None
for col in df.columns:
    if col.lower() == "url":
        target_column = col
        break

if target_column is None:
    raise KeyError(f"‚ùå Kolom 'url' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom URL terdeteksi sebagai: '{target_column}'")

# 4Ô∏è‚É£ Filter: URL yang berakhiran .html (case-insensitive)
#    Termasuk kasus: index.html?ref=abc ‚Üí tetap dihitung
filtered_df = df[df[target_column]
                 .astype(str)
                 .str.contains(r'\.html($|\?)', case=False, regex=True)]

# 5Ô∏è‚É£ Simpan hasil ke CSV baru
output_filename = "Data/html_requests_only_NASA.csv"
filtered_df.to_csv(output_filename, sep=';')

print(f"\n‚úÖ Berhasil menyimpan hasil filter ke: {output_filename}")

print("\n=== Pratinjau Data yang Difilter ===")
print(filtered_df.head())


Memuat data dari Data/data_nasa.csv...

=== Info Data Asli ===
<class 'pandas.core.frame.DataFrame'>
Index: 281729 entries, 0 to 281728
Data columns (total 6 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   host      281729 non-null  object 
 1   time      281729 non-null  int64  
 2   method    281729 non-null  object 
 3   url       281729 non-null  object 
 4   response  281728 non-null  float64
 5   bytes     281728 non-null  float64
dtypes: float64(2), int64(1), object(3)
memory usage: 15.0+ MB

=== 5 Baris Pertama ===
          host       time method                           url  response  \
0  ***.novo.dk  805465029    GET                     /ksc.html     200.0   
1  ***.novo.dk  805465031    GET    /images/ksclogo-medium.gif     200.0   
2  ***.novo.dk  805465051    GET  /images/MOSAIC-logosmall.gif     200.0   
3  ***.novo.dk  805465053    GET     /images/USA-logosmall.gif     200.0   
4  ***.novo.dk  805465054    GET    /images/

  .str.contains(r'\.html($|\?)', case=False, regex=True)]



‚úÖ Berhasil menyimpan hasil filter ke: Data/html_requests_only_NASA.csv

=== Pratinjau Data yang Difilter ===
           host       time method  \
0   ***.novo.dk  805465029    GET   
6   ***.novo.dk  805465068    GET   
12  ***.novo.dk  805465381    GET   
13  ***.novo.dk  807951768    GET   
23  ***.novo.dk  807951938    GET   

                                             url  response    bytes  
0                                      /ksc.html     200.0   7067.0  
6                /shuttle/missions/missions.html     200.0   8678.0  
12     /shuttle/resources/orbiters/columbia.html     200.0   6922.0  
13  /shuttle/missions/sts-69/mission-sts-69.html     200.0  11264.0  
23               /shuttle/countdown/liftoff.html     200.0   4665.0  


### Filter status mengambil nilai yg 200

In [14]:
import pandas as pd

# Nama file input
file_name = "Data/html_requests_only_NASA.csv"

print(f"Memuat data dari {file_name}...")

# 1Ô∏è‚É£ Muat dataset NASA (separator ; wajib)
df = pd.read_csv(
    file_name,
    sep=';',
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom (hapus spasi & kutip)
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("\n=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 3Ô∏è‚É£ Temukan kolom 'response' secara aman
target_column = None
for col in df.columns:
    if col.lower() == "response":
        target_column = col
        break

if target_column is None:
    raise KeyError(f"‚ùå Kolom 'response' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom response terdeteksi sebagai: '{target_column}'")

# 4Ô∏è‚É£ Pastikan kolom adalah numerik (convert otomatis)
df[target_column] = pd.to_numeric(df[target_column], errors="coerce")

# 5Ô∏è‚É£ Filter baris dengan response = 200
print(f"\nMemfilter baris dengan '{target_column}' = 200...")
filtered_df = df[df[target_column] == 200].copy()

# 6Ô∏è‚É£ Simpan hasil ke file baru
output_filename = "Data/status_200_only_NASA.csv"
filtered_df.to_csv(output_filename, sep=';', index=False)

print(f"\n‚úÖ Berhasil disimpan sebagai '{output_filename}'")

# 7Ô∏è‚É£ Tampilkan pratinjau
print("\n=== Pratinjau Data Hasil Filter ===")
print(filtered_df.head())
print("\nJumlah total baris:", len(filtered_df))


Memuat data dari Data/html_requests_only_NASA.csv...



=== Nama Kolom Setelah Dirapikan ===
Index(['Unnamed: 0', 'host', 'time', 'method', 'url', 'response', 'bytes'], dtype='object')

‚úÖ Kolom response terdeteksi sebagai: 'response'

Memfilter baris dengan 'response' = 200...

‚úÖ Berhasil disimpan sebagai 'Data/status_200_only_NASA.csv'

=== Pratinjau Data Hasil Filter ===
   Unnamed: 0         host       time method  \
0           0  ***.novo.dk  805465029    GET   
1           6  ***.novo.dk  805465068    GET   
2          12  ***.novo.dk  805465381    GET   
3          13  ***.novo.dk  807951768    GET   
4          23  ***.novo.dk  807951938    GET   

                                            url  response    bytes  
0                                     /ksc.html     200.0   7067.0  
1               /shuttle/missions/missions.html     200.0   8678.0  
2     /shuttle/resources/orbiters/columbia.html     200.0   6922.0  
3  /shuttle/missions/sts-69/mission-sts-69.html     200.0  11264.0  
4               /shuttle/countdown/liftof

### Filter Request Method mengambil yg GET

In [15]:
import pandas as pd

# Nama file input
file_name = "Data/status_200_only_NASA.csv"
filter_value = "GET"

print(f"Memuat data dari {file_name}...")

# 1Ô∏è‚É£ Muat dataset NASA (pakai ; dan parser aman)
df = pd.read_csv(
    file_name,
    sep=';',
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom (hapus spasi & tanda kutip)
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("\n=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 3Ô∏è‚É£ Temukan kolom 'method' secara aman
target_column = None
for col in df.columns:
    if col.lower() == "method":
        target_column = col
        break

if target_column is None:
    raise KeyError(f"‚ùå Kolom 'method' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom method terdeteksi sebagai: '{target_column}'")

# 4Ô∏è‚É£ Ubah kolom method ke uppercase agar filter lebih stabil
df[target_column] = df[target_column].astype(str).str.upper()

# 5Ô∏è‚É£ Filter baris method = GET
print(f"\nMemfilter baris di mana '{target_column}' adalah '{filter_value}'...")
filtered_df = df[df[target_column] == filter_value].copy()

# 6Ô∏è‚É£ Simpan hasil ke file baru
output_filename = "Data/method_get_only_NASA.csv"
filtered_df.to_csv(output_filename, sep=';', index=False)

print(f"\n‚úÖ Berhasil disimpan sebagai '{output_filename}'")

# 7Ô∏è‚É£ Tampilkan pratinjau
print("\n=== Pratinjau Data Hasil Filter ===")
print(filtered_df.head())

print(f"\nJumlah total baris hasil filter: {len(filtered_df)}")


Memuat data dari Data/status_200_only_NASA.csv...

=== Nama Kolom Setelah Dirapikan ===
Index(['Unnamed: 0', 'host', 'time', 'method', 'url', 'response', 'bytes'], dtype='object')

‚úÖ Kolom method terdeteksi sebagai: 'method'

Memfilter baris di mana 'method' adalah 'GET'...

‚úÖ Berhasil disimpan sebagai 'Data/method_get_only_NASA.csv'

=== Pratinjau Data Hasil Filter ===
   Unnamed: 0         host       time method  \
0           0  ***.novo.dk  805465029    GET   
1           6  ***.novo.dk  805465068    GET   
2          12  ***.novo.dk  805465381    GET   
3          13  ***.novo.dk  807951768    GET   
4          23  ***.novo.dk  807951938    GET   

                                            url  response    bytes  
0                                     /ksc.html     200.0   7067.0  
1               /shuttle/missions/missions.html     200.0   8678.0  
2     /shuttle/resources/orbiters/columbia.html     200.0   6922.0  
3  /shuttle/missions/sts-69/mission-sts-69.html     200.0 

### Merubah Request Time menjadi tanggal dan¬†waktunya¬†saja

In [16]:
import pandas as pd

# Nama file input
file_name = "Data/method_get_only_NASA.csv"

print(f"Memuat data dari {file_name}...")

# 1Ô∏è‚É£ Muat dataset NASA
df = pd.read_csv(
    file_name,
    sep=';',
    engine="python",
    on_bad_lines="skip"
)

# 2Ô∏è‚É£ Rapikan nama kolom (hilangkan spasi, kutip, dll)
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("\n=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 3Ô∏è‚É£ Temukan kolom 'time' otomatis (case-insensitive)
target_column = None
for col in df.columns:
    if col.lower() == "time":
        target_column = col
        break

if target_column is None:
    raise KeyError(f"‚ùå Kolom 'time' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom time terdeteksi sebagai: '{target_column}'")

# 4Ô∏è‚É£ Tampilkan contoh format asli
print(f"\nFormat asli (baris pertama): {df[target_column].iloc[0]}")

# 5Ô∏è‚É£ Konversi kolom timestamp ke datetime
print("\nMengonversi Unix timestamp ke datetime...")

# Pastikan kolom bisa dikonversi ke numerik
df[target_column] = pd.to_numeric(df[target_column], errors="coerce")

# Buat kolom baru yang readable
df["datetime_readable"] = pd.to_datetime(df[target_column], unit="s", errors="coerce")

# 6Ô∏è‚É£ Simpan hasilnya
output_filename = "Data/time_converted_NASA.csv"
df.to_csv(output_filename, index=False, sep=';')

print(f"\n‚úÖ Berhasil mengonversi waktu dan menyimpannya ke '{output_filename}'")

# 7Ô∏è‚É£ Pratinjau hasil
print("\n=== Pratinjau Data Setelah Konversi ===")
print(df[[target_column, "datetime_readable"]].head())


Memuat data dari Data/method_get_only_NASA.csv...

=== Nama Kolom Setelah Dirapikan ===
Index(['Unnamed: 0', 'host', 'time', 'method', 'url', 'response', 'bytes'], dtype='object')

‚úÖ Kolom time terdeteksi sebagai: 'time'

Format asli (baris pertama): 805465029

Mengonversi Unix timestamp ke datetime...

‚úÖ Berhasil mengonversi waktu dan menyimpannya ke 'Data/time_converted_NASA.csv'

=== Pratinjau Data Setelah Konversi ===
        time   datetime_readable
0  805465029 1995-07-11 12:17:09
1  805465068 1995-07-11 12:17:48
2  805465381 1995-07-11 12:23:01
3  807951768 1995-08-09 07:02:48
4  807951938 1995-08-09 07:05:38


### Filter Berdasarkan IP Address(Remote host) dan User Agent(Request¬†Protocol)

In [17]:
import pandas as pd

# 1Ô∏è‚É£ File input
file_name = "Data/time_converted_NASA.csv"

# Nama kolom target yang ingin digunakan
col_ip_raw = "host"               
col_time_raw = "datetime_readable"
new_col_name = "SESSION"

print(f"Memuat data dari {file_name}...")

# 2Ô∏è‚É£ Load CSV NASA dengan separator ';'
df = pd.read_csv(
    file_name,
    sep=';',
    engine="python",
    on_bad_lines="skip",
    parse_dates=[col_time_raw]  # otomatis parse datetime
)

# 3Ô∏è‚É£ Rapikan nama kolom
df.columns = [c.strip().strip('"').strip() for c in df.columns]

print("\n=== Nama Kolom Setelah Dirapikan ===")
print(df.columns)

# 4Ô∏è‚É£ Temukan kolom host dan time secara aman (case-insensitive)
col_ip = None
col_time = None

for col in df.columns:
    if col.lower() == col_ip_raw:
        col_ip = col
    if col.lower() == col_time_raw:
        col_time = col

if col_ip is None or col_time is None:
    raise KeyError(f"‚ùå Kolom '{col_ip_raw}' atau '{col_time_raw}' tidak ditemukan! Kolom tersedia: {df.columns.tolist()}")

print(f"\n‚úÖ Kolom IP   terdeteksi sebagai: '{col_ip}'")
print(f"‚úÖ Kolom Time terdeteksi sebagai: '{col_time}'")

# 5Ô∏è‚É£ Buat kolom SESSION berdasarkan host
print(f"\nMembuat kolom SESSION berdasarkan host unik...")
df[new_col_name] = df[col_ip].astype('category').cat.codes + 1

# 6Ô∏è‚É£ Urutkan berdasarkan SESSION dan waktu
print(f"Mengurutkan data berdasarkan SESSION dan datetime...")
df_sorted = df.sort_values(by=[new_col_name, col_time], ascending=True)

# 7Ô∏è‚É£ Hapus kolom time (timestamp unix) jika ada
if "time" in df_sorted.columns:
    print("Menghapus kolom 'time' (timestamp asli)...")
    df_sorted = df_sorted.drop(columns=["time"])

# 8Ô∏è‚É£ Simpan ke CSV baru (pemisah koma sesuai permintaan)
output_filename = "Data/session_data_full_NASA.csv"
print(f"\nMenyimpan data ke {output_filename} dengan pemisah koma ','...")
df_sorted.to_csv(output_filename, index=False, sep=',')

print("\n‚úÖ Berhasil! Kolom SESSION telah ditambahkan.")
print(f"‚û° File baru disimpan sebagai: {output_filename}")

# 9Ô∏è‚É£ Pratinjau hasil
preview_cols = [new_col_name, col_ip, col_time, "url"] if "url" in df_sorted.columns else [new_col_name, col_ip, col_time]
print("\n=== Pratinjau Data Baru ===")
print(df_sorted[preview_cols].head())


Memuat data dari Data/time_converted_NASA.csv...

=== Nama Kolom Setelah Dirapikan ===
Index(['Unnamed: 0', 'host', 'time', 'method', 'url', 'response', 'bytes',
       'datetime_readable'],
      dtype='object')

‚úÖ Kolom IP   terdeteksi sebagai: 'host'
‚úÖ Kolom Time terdeteksi sebagai: 'datetime_readable'

Membuat kolom SESSION berdasarkan host unik...
Mengurutkan data berdasarkan SESSION dan datetime...
Menghapus kolom 'time' (timestamp asli)...

Menyimpan data ke Data/session_data_full_NASA.csv dengan pemisah koma ','...

‚úÖ Berhasil! Kolom SESSION telah ditambahkan.
‚û° File baru disimpan sebagai: Data/session_data_full_NASA.csv

=== Pratinjau Data Baru ===
   SESSION         host   datetime_readable  \
0        1  ***.novo.dk 1995-07-11 12:17:09   
1        1  ***.novo.dk 1995-07-11 12:17:48   
2        1  ***.novo.dk 1995-07-11 12:23:01   
3        1  ***.novo.dk 1995-08-09 07:02:48   
4        1  ***.novo.dk 1995-08-09 07:05:38   

                                           

In [1]:
import pandas as pd

# 1. Tentukan file input (file yang memiliki 'datetime_readable')
file_name = "Data/time_converted_NASA.csv"

# 2. Tentukan kolom-kolom yang akan kita gunakan
col_ip = "host"               # Kolom untuk mengelompokkan sesi
col_time = "datetime_readable" # Kolom untuk mengurutkan sesi
new_col_name = "SESSION"      # Nama kolom sesi baru

print(f"Memuat data dari {file_name}...")
try:
    # 3. Muat dataset (pemisah asli adalah ';')
    df = pd.read_csv(file_name, sep=';', parse_dates=[col_time])
except FileNotFoundError:
    print(f"Error: File {file_name} tidak ditemukan.")
    print("Pastikan Anda sudah menjalankan skrip konversi 'time' sebelumnya.")
    exit()
except ValueError as e:
    print(f"Error saat membaca {file_name}. Cek kolom '{col_time}'.")
    print(f"Detail: {e}")
    exit()


# 4. Periksa apakah kolom yang diperlukan ada
if col_ip in df.columns and col_time in df.columns:

    # 5. BUAT KOLOM SESSION (Logika yang sama seperti sebelumnya)
    print(f"Membuat kolom '{new_col_name}' berdasarkan '{col_ip}' unik...")
    df[new_col_name] = df[col_ip].astype('category').cat.codes + 1

    # 6. Urutkan data berdasarkan SESSION, lalu WAKTU
    print(f"Mengurutkan data berdasarkan '{new_col_name}' dan '{col_time}'...")
    df_sorted = df.sort_values(by=[new_col_name, col_time], ascending=True)

    # 7. (Langkah menghapus 'time' tidak diperlukan lagi)

    # --- DIUBAH DI SINI ---

    # 8. Tentukan kolom yang ingin disimpan (sesuai permintaan Anda)
    #    Kita tambahkan 'SESSION' ke daftar ini
    columns_to_keep = ['SESSION', 'host', 'datetime_readable', 'url']

    # Buat DataFrame baru HANYA dengan 4 kolom tersebut
    print(f"\nMemfilter data untuk HANYA menyimpan kolom: {columns_to_keep}...")
    df_final_output = df_sorted[columns_to_keep].copy()

    # 9. Simpan DataFrame yang SUDAH DIFILTER
    output_filename = "Data/session_host_time_url_NASA.csv" # Nama file baru

    print(f"Menyimpan data ke {output_filename} dengan pemisah KOMA (',')...")
    df_final_output.to_csv(output_filename, index=False, sep=',')

    # -------------------------

    print(f"\nBerhasil! File baru disimpan sebagai: {output_filename}.")
    print("\nPratinjau data baru (sekarang dengan 4 kolom):")

    # Tampilkan pratinjau dari data final
    print(df_final_output.head())

else:
    print(f"Error: Kolom '{col_ip}' atau '{col_time}' tidak ditemukan di {file_name}.")

Memuat data dari Data/time_converted_NASA.csv...
Membuat kolom 'SESSION' berdasarkan 'host' unik...
Mengurutkan data berdasarkan 'SESSION' dan 'datetime_readable'...

Memfilter data untuk HANYA menyimpan kolom: ['SESSION', 'host', 'datetime_readable', 'url']...
Menyimpan data ke Data/session_host_time_url_NASA.csv dengan pemisah KOMA (',')...

Berhasil! File baru disimpan sebagai: Data/session_host_time_url_NASA.csv.

Pratinjau data baru (sekarang dengan 4 kolom):
   SESSION         host   datetime_readable  \
0        1  ***.novo.dk 1995-07-11 12:17:09   
1        1  ***.novo.dk 1995-07-11 12:17:48   
2        1  ***.novo.dk 1995-07-11 12:23:01   
3        1  ***.novo.dk 1995-08-09 07:02:48   
4        1  ***.novo.dk 1995-08-09 07:05:38   

                                            url  
0                                     /ksc.html  
1               /shuttle/missions/missions.html  
2     /shuttle/resources/orbiters/columbia.html  
3  /shuttle/missions/sts-69/mission-sts-69.html 

In [2]:
import pandas as pd
file_name = "Data/session_data_full_NASA.csv"
df = pd.read_csv(file_name)

url_col = None
for col in df.columns:
    if 'url' in col.lower():
        url_col = col
        break

df['URL_ID'] = df[url_col].astype('category').cat.codes

# =====================
# 3. Buat index user dari Unnamed + Host
# =====================
df['USER_KEY'] = df['Unnamed: 0'].astype(str) + "-" + df['host'].astype(str)

# =====================
# 4. Crosstab biner
# =====================
binary_matrix = pd.crosstab(df['USER_KEY'], df['URL_ID'])

# =====================
# 5. Tampilkan hasil
# =====================
binary_matrix.head(50)

URL_ID,0,1,2,3,4,5,6,7,8,9,...,102,103,104,105,106,107,108,109,110,111
USER_KEY,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0-***.novo.dk,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1000-118.32.med.umich.edu,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100002-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100008-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100014-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100020-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
100023-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100030-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100036-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100037-128.217.62.100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
