# Melihat 5 Data Teratas

In [None]:
df.head()


# Informasi Umum Dataset

In [None]:
df.info()


# Deskripsi Statistik dari Kolom Numerik

In [None]:
df.describe()


# Memeriksa Missing Values

In [None]:
df.isnull().sum()


## Cek Tipe Kolom

In [None]:
print(df.dtypes)

## Cek Nilai yg Sama

In [None]:
duplicates = df['originh'].duplicated(keep=False)  # Tandai semua duplikat

# Hitung jumlah IP unik yang memiliki duplikat
duplicate_ips = df.loc[duplicates, 'originh'].unique()
num_duplicate_ips = len(duplicate_ips)

## Cari Kolom Tipe Data Kategori

In [None]:
categorical_columns = df.select_dtypes(include=['object', 'category']).columns
num_categorical_columns = len(categorical_columns)

# Distribusi Data Kategorikal

In [None]:
df['nama_kolom'].value_counts()


# Visualisasi Korelasi antar Kolom Numerik

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.show()


# Distribusi Kolom Numerik

In [None]:
sns.histplot(df['nama_kolom'], bins=30, kde=True)
plt.show()


# Boxplot untuk Mendeteksi Outliers

In [None]:
sns.boxplot(x=df['nama_kolom'])
plt.show()


# Pairplot untuk Relasi Antar Variabel

In [None]:
sns.pairplot(df)
plt.show()


# Pivot Table / Crosstab untuk Data Kategorikal

In [None]:
pd.crosstab(df['kolom1'], df['kolom2'])


# Group By untuk Meringkas Data

In [None]:
df.groupby('nama_kolom').mean()


# Mendeteksi Skewness

In [None]:
df['nama_kolom'].skew()


# Melihat Kolom dengan Korelasi Tertinggi

In [None]:
df.corr()['target'].sort_values(ascending=False)


# Visualisasi Variabel Kategorikal dengan Countplot

In [None]:
sns.countplot(x='nama_kolom', data=df)
plt.show()


# Histogram untuk Melihat Distribusi Data

In [None]:
df.hist(bins=30, figsize=(15, 10), grid=False)
plt.show()


# Bar Plot untuk Variabel Kategorikal

In [None]:
df['nama_kolom'].value_counts().plot(kind='bar', figsize=(10, 5))
plt.show()


# Scatter Plot untuk Menentukan Hubungan antara Dua Variabel

In [None]:
plt.scatter(df['variabel_x'], df['variabel_y'])
plt.xlabel('Variabel X')
plt.ylabel('Variabel Y')
plt.show()


# Handling Missing Data (Fillna)

In [None]:
df['nama_kolom'].fillna(df['nama_kolom'].mean(), inplace=True)  # Mengisi missing values dengan rata-rata


# Drop Missing Data

In [None]:
df.dropna(inplace=True)


# Melihat Data Unik dalam Kolom Kategorikal

In [None]:
df['nama_kolom'].unique()


# Memeriksa Jumlah Nilai Unik

In [None]:
df['nama_kolom'].nunique()


# Memfilter Data Berdasarkan Kondisi Tertentu

In [None]:
df_filtered = df[df['nama_kolom'] > nilai_tertentu]


# Boxplot untuk Membandingkan Distribusi antar Kelompok

In [None]:
sns.boxplot(x='variabel_kategorikal', y='variabel_numerik', data=df)
plt.show()


# Mengelompokkan Data dengan Quantiles

In [None]:
df['quantile_kolom'] = pd.qcut(df['nama_kolom'], q=4)  # Membuat quartile (4 kelompok)


# Pivot Table untuk Agregasi Data

In [None]:
df.pivot_table(values='nilai', index='kategori', aggfunc='mean')


# Heatmap dari Missing Values

In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.show()


# Menambahkan Kolom Baru Berdasarkan Operasi

In [None]:
df['kolom_baru'] = df['kolom1'] + df['kolom2']  # Contoh: penjumlahan dua kolom


# Encoding Data Kategorikal (One-Hot Encoding)

In [None]:
df_encoded = pd.get_dummies(df, columns=['nama_kolom_kategorikal'])


# Memeriksa Korelasi yang Signifikan

In [None]:
corr_matrix = df.corr()
high_corr = corr_matrix[corr_matrix > 0.7]  # Contoh mencari korelasi > 0.7
sns.heatmap(high_corr, annot=True, cmap='coolwarm')
plt.show()


# Menghitung Z-Score untuk Deteksi Outliers

In [None]:
from scipy import stats
df['zscore'] = stats.zscore(df['nama_kolom'])
df_outliers = df[df['zscore'].abs() > 3]


# Visualisasi Jointplot

In [None]:
sns.jointplot(x='variabel_x', y='variabel_y', data=df, kind='scatter')
plt.show()


# Pairplot dengan Hue untuk Kategori

In [None]:
sns.pairplot(df, hue='nama_kategori')
plt.show()


# KDE Plot untuk Distribusi Probabilitas

In [None]:
sns.kdeplot(df['nama_kolom'], shade=True)
plt.show()


### TAMBAHAN

# membaca 2 dataset
df_train = pd.read_csv("train.csv")
df_test = pd.read_csv("test.csv")

# menambahkan kolom baru sebagai penanda
df_train['set'] = 'train'
df_test['set'] = 'test'

# menggabungkan 2 dataset menjadi 1
df = pd.concat([df_train, df_test], axis=0).reset_index(drop=True)

In [None]:
# mengubah bentuk waktu
df['timestamp'] = pd.to_datetime(df['timestamp'], format='%b %d, %Y @ %H:%M:%S.%f')
df_copy = df.sort_values(by='timestamp').iloc[500:1000]
# Plotting
plt.figure(figsize=(10, 6))

# Plotting a line plot for "non-attack"
plt.plot(df_copy.dropna(subset='rule.mitre.tactic')['timestamp'], df_copy.dropna(subset='rule.mitre.tactic')['rule.mitre.tactic'],marker='o')
# ada 2 dropna. 
# dropna pertama mengahapus value kosong dan mengambil timestamp sebagai sumbu x
# dropna kedua menghapus value kosong dan mengambil rule.mitre.tactic sebagai sumbu y

# visualisasi
plt.xlabel('Timestamp')
plt.ylabel('rule.mitre.tactic')
plt.title('Line Plot by rule.mitre.tactic')
plt.legend()
plt.show()