In [1]:
import pandas as pd
import re

# Membaca dataset Data_Mahasiswa.csv dengan pemisah titik koma
data = pd.read_csv('Data_Mahasiswa.csv', sep=';')
# Membersihkan nama kolom dari spasi ekstra
data.columns = data.columns.str.strip()

# Contoh 1: Validasi format email menggunakan regex
def validasi_email(email):
    """
    Fungsi untuk memvalidasi format alamat email.
    
    Parameter:
        email (str): Alamat email yang akan divalidasi.
    Mengembalikan:
        bool: True jika email valid, False jika tidak.
    """
    pola_email = r'^[a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}$'
    if re.match(pola_email, email):
        return True
    else:
        return False

# Menambahkan kolom 'Email_Valid' ke dalam dataset untuk menandai email yang valid
data['Email_Valid'] = data['Email Address'].apply(lambda x: validasi_email(x) if isinstance(x, str) else False)

# Menampilkan beberapa baris untuk verifikasi
print("Contoh validasi email:")
print(data[['Email Address', 'Email_Valid']].head())

# Contoh 2: Ekstraksi angka dari kolom tertentu menggunakan regex
# Misalnya, kolom "Berapa lama waktu yang Anda habiskan menggunakan laptop setiap hari?"
# Di dalamnya terdapat rentang waktu seperti "9 - 11 jam", kita ingin mengekstrak angka-angkanya.
def ekstrak_angka(teks):
    """
    Fungsi untuk mengekstrak semua angka dari sebuah string.
    
    Parameter:
        teks (str): String yang mengandung angka.
    Mengembalikan:
        list: List dari angka-angka yang ditemukan (dalam bentuk string).
    """
    # Pola untuk mencari angka yang mungkin mengandung titik desimal
    pola = r'\d+(?:\.\d+)?'
    angka = re.findall(pola, teks)
    return angka

# Terapkan fungsi ekstrak_angka pada kolom yang relevan (jika nilai bukan NaN)
data['Waktu_Laptop_Angka'] = data['Berapa lama waktu yang Anda habiskan menggunakan laptop setiap hari?'].apply(lambda x: ekstrak_angka(x) if isinstance(x, str) else [])

# Menampilkan contoh ekstraksi angka dari kolom tersebut
print("\nContoh ekstraksi angka dari kolom penggunaan laptop:")
print(data[['Berapa lama waktu yang Anda habiskan menggunakan laptop setiap hari?', 'Waktu_Laptop_Angka']].head())


Contoh validasi email:
  Email Address  Email_Valid
0           NaN        False
1           NaN        False
2           NaN        False
3           NaN        False
4           NaN        False

Contoh ekstraksi angka dari kolom penggunaan laptop:
  Berapa lama waktu yang Anda habiskan menggunakan laptop setiap hari?  \
0                                                NaN                     
1                                         9 - 11 jam                     
2                                          6 - 8 jam                     
3                                          6 - 8 jam                     
4                                          3 - 5 jam                     

  Waktu_Laptop_Angka  
0                 []  
1            [9, 11]  
2             [6, 8]  
3             [6, 8]  
4             [3, 5]  
