In [1]:
import pandas as pd

file_path = "Data LogIn-LogOut.xlsx"
data = pd.read_excel(file_path)

# Melihat beberapa baris pertama dari data
print(data.head())

# Mengecek informasi dasar tentang dataset (termasuk tipe data dan jumlah nilai kosong)
print(data.info())

# Mengecek jumlah nilai kosong di setiap kolom
print(data.isnull().sum())


   Unnamed: 0  Unnamed: 1  angk status_akhir      tanggal_keluar  \
0         NaN         NaN  2020        Lulus 2022-08-03 14:24:00   
1         NaN         NaN  2020        Lulus 2022-08-19 17:00:32   
2         NaN         NaN  2020        Lulus 2022-08-26 07:31:41   
3         NaN         NaN  2020        Lulus 2022-08-27 18:13:03   
4         NaN         NaN  2020        Lulus 2022-08-28 12:59:05   

         tanggal_masuk                 lokasi  
0  2022-08-03 15:21:59  Kampus IT Del - Pos 1  
1  2022-08-19 17:41:35  Kampus IT Del - Pos 1  
2  2022-08-26 10:39:39  Kampus IT Del - Pos 1  
3  2022-08-27 19:41:12  Kampus IT Del - Pos 1  
4  2022-08-28 12:59:15  Kampus IT Del - Pos 1  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112044 entries, 0 to 112043
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   Unnamed: 0      0 non-null       float64       
 1   Unnamed: 1      0 non-null   

In [2]:
# Pastikan kolom tanggal memiliki tipe datetime
data['tanggal_keluar'] = pd.to_datetime(data['tanggal_keluar'], errors='coerce')
data['tanggal_masuk'] = pd.to_datetime(data['tanggal_masuk'], errors='coerce')

# Periksa kembali tipe data untuk memastikan kolom tanggal sudah dalam format datetime
print(data.dtypes)

# Tampilkan kembali jumlah nilai yang hilang setelah konversi
print(data.isnull().sum())


Unnamed: 0               float64
Unnamed: 1               float64
angk                       int64
status_akhir              object
tanggal_keluar    datetime64[ns]
tanggal_masuk     datetime64[ns]
lokasi                    object
dtype: object
Unnamed: 0        112044
Unnamed: 1        112044
angk                   0
status_akhir           0
tanggal_keluar         0
tanggal_masuk        237
lokasi                 0
dtype: int64


In [3]:
# Menghapus kolom yang tidak diperlukan
data = data.drop(columns=['Unnamed: 0', 'Unnamed: 1'])

# Menghapus baris dengan nilai kosong di kolom 'tanggal_masuk'
data = data.dropna(subset=['tanggal_masuk'])

# Periksa ulang apakah nilai kosong sudah ditangani
print(data.isnull().sum())
print(data.head())

angk              0
status_akhir      0
tanggal_keluar    0
tanggal_masuk     0
lokasi            0
dtype: int64
   angk status_akhir      tanggal_keluar       tanggal_masuk  \
0  2020        Lulus 2022-08-03 14:24:00 2022-08-03 15:21:59   
1  2020        Lulus 2022-08-19 17:00:32 2022-08-19 17:41:35   
2  2020        Lulus 2022-08-26 07:31:41 2022-08-26 10:39:39   
3  2020        Lulus 2022-08-27 18:13:03 2022-08-27 19:41:12   
4  2020        Lulus 2022-08-28 12:59:05 2022-08-28 12:59:15   

                  lokasi  
0  Kampus IT Del - Pos 1  
1  Kampus IT Del - Pos 1  
2  Kampus IT Del - Pos 1  
3  Kampus IT Del - Pos 1  
4  Kampus IT Del - Pos 1  


In [4]:
# Menghitung Durasi Keluar-Masuk
# durasi_keluar, yang menunjukkan selisih waktu antara tanggal_keluar dan tanggal_masuk.

#Ekstraksi Fitur Waktu
# Hari dalam Seminggu (untuk melihat apakah ada pola keluar-masuk di hari tertentu),
# Jam Keluar dan Jam Masuk (untuk menganalisis waktu aktivitas).

# Menghitung durasi keluar-masuk (dalam menit)
data['durasi_keluar'] = (data['tanggal_masuk'] - data['tanggal_keluar']).dt.total_seconds() / 60  # Durasi dalam menit

# Ekstraksi fitur waktu: hari dalam seminggu, jam keluar, dan jam masuk
data['hari_keluar'] = data['tanggal_keluar'].dt.dayofweek  # 0 = Senin, 6 = Minggu
data['jam_keluar'] = data['tanggal_keluar'].dt.hour
data['jam_masuk'] = data['tanggal_masuk'].dt.hour

print(data.head())


   angk status_akhir      tanggal_keluar       tanggal_masuk  \
0  2020        Lulus 2022-08-03 14:24:00 2022-08-03 15:21:59   
1  2020        Lulus 2022-08-19 17:00:32 2022-08-19 17:41:35   
2  2020        Lulus 2022-08-26 07:31:41 2022-08-26 10:39:39   
3  2020        Lulus 2022-08-27 18:13:03 2022-08-27 19:41:12   
4  2020        Lulus 2022-08-28 12:59:05 2022-08-28 12:59:15   

                  lokasi  durasi_keluar  hari_keluar  jam_keluar  jam_masuk  
0  Kampus IT Del - Pos 1      57.983333            2          14         15  
1  Kampus IT Del - Pos 1      41.050000            4          17         17  
2  Kampus IT Del - Pos 1     187.966667            4           7         10  
3  Kampus IT Del - Pos 1      88.150000            5          18         19  
4  Kampus IT Del - Pos 1       0.166667            6          12         12  


In [5]:
# Ekstrak jam dari kolom 'tanggal_keluar' jika belum dilakukan sebelumnya
data['jam_keluar'] = data['tanggal_keluar'].dt.hour
data['jam_masuk'] = data['tanggal_masuk'].dt.hour

# Menambahkan kolom jenis_izin berdasarkan aturan waktu
def tentukan_jenis_izin(row):
    hari = row['tanggal_keluar'].dayofweek  # 0 = Senin, ..., 6 = Minggu
    jam_keluar = row['jam_keluar']
    jam_masuk = row['jam_masuk']

    # IB (Izin Bermalam)
    if hari == 4 and jam_keluar >= 17:  # Jumat sore
        if hari <= 6 and jam_masuk <= 20:  # Kembali sebelum Minggu 20:00
            return "IB"
    
    # KM (Keluar Masuk)
    if jam_keluar >= 16 and jam_keluar <= 24:  # Setelah jam akademik
        return "KM"
    
    # IK (Izin Keluar) - pagi/siang jam akademik
    if (jam_keluar >= 9 and jam_keluar <= 12) or (jam_keluar >= 13 and jam_keluar <= 17):
        return "IK"
    
    return "Lainnya"  # Jika tidak memenuhi kriteria izin di atas

data['jenis_izin'] = data.apply(tentukan_jenis_izin, axis=1)

# Mengelompokkan durasi berdasarkan interval waktu keluar
def kategori_waktu_keluar(jam_keluar):
    if 6 <= jam_keluar < 12:
        return 'Pagi'
    elif 12 <= jam_keluar < 18:
        return 'Siang'
    elif 18 <= jam_keluar < 21:
        return 'Sore'
    else:
        return 'Malam'

data['kategori_waktu_keluar'] = data['jam_keluar'].apply(kategori_waktu_keluar)

# Periksa hasil
print(data[['tanggal_keluar', 'tanggal_masuk', 'jenis_izin', 'kategori_waktu_keluar']].head())


       tanggal_keluar       tanggal_masuk jenis_izin kategori_waktu_keluar
0 2022-08-03 14:24:00 2022-08-03 15:21:59         IK                 Siang
1 2022-08-19 17:00:32 2022-08-19 17:41:35         IB                 Siang
2 2022-08-26 07:31:41 2022-08-26 10:39:39    Lainnya                  Pagi
3 2022-08-27 18:13:03 2022-08-27 19:41:12         KM                  Sore
4 2022-08-28 12:59:05 2022-08-28 12:59:15         IK                 Siang
