<a href="https://colab.research.google.com/github/wputriproject/wputriproject/blob/main/Project_Simple_ETL_with_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Extract, Transform dan Load (ETL) merupakan kumpulan proses untuk "memindahkan" data dari satu tempat ke tempat lain.
Tempat yang dimaksud adalah dari sumber data (bisa berupa database aplikasi, file, logs, database dari 3rd party, dan lainnya) ke data warehouse (baca; https://en.wikipedia.org/wiki/Data_warehouse).

Project yang Akan Dikerjakan:
Dataset ini terdiri dari 5000 baris data (5000 pendaftar) dengan format CSV (Comma-separated values) dan memiliki beberapa kolom diantaranya:
1.	participant_id: ID dari peserta/partisipan hackathon. Kolom ini bersifat unique sehingga antar peserta pasti memiliki ID yang berbeda
2.	first_name: nama depan peserta
3.	last_name: nama belakang peserta
4.	birth_date: tanggal lahir peserta
5.	address: alamat tempat tinggal peserta
6.	phone_number: nomor hp/telepon peserta
7.	country: negara asal peserta
8.	institute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas
9.	occupation: pekerjaan peserta saat ini
10.	register_time: waktu peserta melakukan pendaftaran hackathon dalam second
Namun pada proyek ini nantinya Anda diminta untuk menghasilkan beberapa kolom dengan memanfaatkan kolom-kolom yang ada, sehingga akhir dari proyek ini berupa hasil transformasi data dengan beberapa kolom baru selain dari 10 kolom diatas


# **Extract**

Extract merupakan proses meng-ekstraksi data dari sumber, sumber data ini bisa berupa relational data (SQL) atau tabel, nonrelational (NoSQL) maupun yang lainnya.

In [None]:
#Membaca dataset ini sebagai CSV 

import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
print(df_participant) #jiika ingin melihat tampilan isinya

                            participant_id  ... register_time
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...  1.617634e+09
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...  1.617634e+09
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...  1.617634e+09
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...  1.617634e+09
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...  1.617634e+09
...                                    ...  ...           ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...  1.617634e+09
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...  1.617634e+09
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...  1.617634e+09
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...  1.617634e+09
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...  1.617634e+09

[5000 rows x 10 columns]


outputnya sama
In [1]: import pandas as pd
        df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')


# **Transform**

Transform merupakan proses melakukan transformasi data, atau perubahan terhadap data. Umumnya seperti:
1.	Merubah nilai dari suatu kolom ke nilai baru,
2.	Menciptakan kolom baru dengan memanfaatkan kolom lain,
3.	Transpose baris menjadi kolom (atau sebaliknya),
4.	Mengubah format data ke bentuk yang lebih standard (contohnya, kolom date, maupun datetime yang biasanya memiliki nilai yang tidak standard maupun nomor HP yang biasanya memiliki nilai yang tidak sesuai format standardnya), dan lainnya.

# Transform Bagian I - Kode Pos

buatlah kolom baru bernama postal_code yang memuat informasi mengenai kode pos yang diambil dari alamat peserta (kolom address).
Diketahui bahwa kode pos berada di paling akhir dari alamat tersebut.
Note:
Jika regex yang dimasukkan tidak bisa menangkap pattern dari value kolom address maka akan menghasilkan NaN.

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')

df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$') #Masukkan regex Anda didalam fungsi extract
print(df_participant) #jiika ingin melihat tampilan isinya

                            participant_id  ... postal_code
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...       80734
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...       09434
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...       57739
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...       76156
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...       70074
...                                    ...  ...         ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...       50268
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...       57434
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...       95312
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...       80657
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...       41134

[5000 rows x 11 columns]


# Transform Bagian II - Kota

Untuk menyediakan informasi tersebut, buatlah kolom baru bernama city yang didapat dari kolom address. Diasumsikan bahwa kota merupakan sekumpulan karakter yang terdapat setelah nomor jalan diikuti dengan \n (newline character) atau dalam bahasa lainnya yaitu enter

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')

#Masukkan regex Anda didalam fungsi extract
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)')
print(df_participant) #jiika ingin melihat tampilan isinya

                            participant_id first_name  ... postal_code          city
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a      Citra  ...       80734         Medan
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3       Aris  ...       09434    Prabumulih
2     19582d7f-b824-4fe5-a517-d5bf573fc768   Cornelia  ...       57739         Ambon
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633      Soleh  ...       76156  Lubuklinggau
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27       Vivi  ...       70074        Kediri
...                                    ...        ...  ...         ...           ...
4995  5f084245-58cb-4360-8cff-112f06f7214e      Mitra  ...       50268       Cirebon
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03      Indah  ...       57434         Bogor
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4      Irsad  ...       95312  Tanjungbalai
4998  1c91596e-427c-44a7-b7d0-974f44e18381      Carla  ...       80657        Manado
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a    Darmana  ...       

# Transform Bagian III - Github

Tugas Anda yaitu membuat kolom baru bernama github_profile yang merupakan link profil github dari peserta.
Diketahui bahwa profil github mereka merupakan gabungan dari first_name dan last_name yang sudah di-lowercase.

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
print(df_participant) #jiika ingin melihat tampilan isinya


                            participant_id  ...                        github_profile
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...    https://github.com/citranurdiyanti
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...       https://github.com/arissetiawan
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...  https://github.com/corneliahandayani
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...        https://github.com/solehrajasa
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...         https://github.com/viviastuti
...                                    ...  ...                                   ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...      https://github.com/mitralatupono
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...     https://github.com/indahrahmawati
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...      https://github.com/irsadnajmudin
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...      https://github.com/carlanasyidah
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...     ht

# Transform Bagian IV - Nomor Handphone

Jika kita lihat kembali, ternyata nomor handphone yang ada pada data csv memiliki format yang berbeda-beda. 
Pada kasus ini menggunakan aturan formatnya:
1.	Jika awalan nomor HP berupa angka 62 atau +62 yang merupakan kode telepon Indonesia, maka diterjemahkan ke 0.
2.	Tidak ada tanda baca seperti kurung buka, kurung tutup, strip⟶ ()-
3.	Tidak ada spasi pada nomor HP nama kolom untuk menyimpan hasil cleansing pada nomor HP yaitu cleaned_phone_number

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()

#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')
print(df_participant) #jiika ingin melihat tampilan isinya

                            participant_id  ... cleaned_phone_number
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...          01510812706
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...          00364617027
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...           0898336695
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...          04183294756
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...           0812511835
...                                    ...  ...                  ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...          00507958398
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...         004439630055
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...         004082167689
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...         007513803352
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...          00664148791

[5000 rows x 14 columns]


  
  if __name__ == '__main__':
  # Remove the CWD from sys.path while we load stuff.


# Transform Bagian V - Nama Tim

Diketahui bahwa nama tim merupakan gabungan nilai dari kolom first_name, last_name, country dan institute.
Tugas Anda yakni buatlah kolom baru dengan nama team_name yang memuat informasi nama tim dari peserta.

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')

def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)

df_participant['team_name'] = df_participant.apply(func, axis=1)
print(df_participant) #jiika ingin melihat tampilan isinya


  
  import sys
  


                            participant_id  ...          team_name
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...     CN-Georgia-UPM
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...  AS-Korea Utara-UD
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...      CH-Komoro-UHP
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...     SR-Eritrea-PTY
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...    VA-Aljazair-PHR
...                                    ...  ...                ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...   ML-Hongaria-ITSN
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...   IR-Norwegia-CSHT
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...      IN-Ghana-UKWM
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...     CN-Gambia-CP(T
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...   DM-Singapura-PLK

[5000 rows x 15 columns]


# Transform Bagian VI - Email

Format email sebagai berikut:
Format email:
xxyy@aa.bb.[ac/com].[cc]

Keterangan:
xx -> nama depan (first_name) dalam lowercase
yy -> nama belakang (last_name) dalam lowercase
aa -> nama institusi

Untuk nilai bb, dan cc mengikuti nilai dari aa. Aturannya:
- Jika institusi nya merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .ac yang menandakan akademi/institusi belajar dan diikuti dengan pattern cc
- Jika institusi bukan merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .com. Perlu diketahui bahwa pattern cc tidak berlaku pada kondisi ini

cc -> merupakan negara asal peserta, adapun aturannya:
- Jika banyaknya kata pada negara tersebut lebih dari 1 maka ambil singkatan dari negara tersebut dalam lowercase
- Namun, jika banyaknya kata hanya 1 maka ambil 3 huruf terdepan dari negara tersebut dalam lowercase
  


Contoh:
  Nama depan: Citra
  Nama belakang: Nurdiyanti
  Institusi: UD Prakasa Mandasari
  Negara: Georgia
  Maka,Email nya: citranurdiyanti@upm.geo
  
  Nama depan: Aris
  Nama belakang: Setiawan
  Institusi: Universitas Diponegoro
  Negara: Korea Utara
  Maka, Email nya: arissetiawan@ud.ac.ku

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')

def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0])
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split()))))
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)
df_participant['team_name'] = df_participant.apply(func, axis=1)

def func(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) #Singkatan dari nama perusahaan dalam lowercase

    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1: #Kondisi untuk mengecek apakah jumlah kata dari country lebih dari 1
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)

    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)

df_participant['email'] = df_participant.apply(func, axis=1)
print(df_participant) #jiika ingin melihat tampilan isinya


  
  import sys
  


                            participant_id  ...                      email
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ...    citranurdiyanti@upm.com
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ...      arissetiawan@ud.ac.ku
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ...  corneliahandayani@uhp.com
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ...        solehrajasa@pty.com
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ...         viviastuti@phr.com
...                                    ...  ...                        ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ...     mitralatupono@itsn.com
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ...    indahrahmawati@csht.com
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ...  irsadnajmudin@ukwm.ac.gha
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ...     carlanasyidah@cp(t.com
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ...     darmanamaryadi@plk.com

[5000 rows x 16 columns]


# Transform Bagian VII - Tanggal Lahir

MySQL merupakan salah satu database yang sangat populer dan digunakan untuk menyimpan data berupa tabel, termasuk data hasil pengolahan yang sudah kita lakukan ini nantinya bisa dimasukkan ke MySQL.
Meskipun begitu, ada suatu aturan dari MySQL terkait format tanggal yang bisa mereka terima yaitu YYYY-MM-DD dengan keterangan:
•	YYYY: 4 digit yang menandakan tahun
•	MM: 2 digit yang menandakan bulan
•	DD: 2 digit yang menandakan tanggal
Contohnya yaitu: 2021-04-07
(Lihat lebih detail di: https://www.mysqltutorial.org/mysql-date/).
Oleh karena itu, lakukanlah formatting terhadap kolom birth_date menjadi YYYY-MM-DD dan simpan di kolom yang sama.

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')

def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0])
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split()))))
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)
df_participant['team_name'] = df_participant.apply(func, axis=1)

def func(col):
    first_name_lower = col['first_name'].lower()
last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split())))
    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1:
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)
        
    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)
    
df_participant['email'] = df_participant.apply(func, axis=1)


df_participant['birth_date'] = pd.to_datetime(df_participant['birth_date'], format='%d %b %y')
print(df_participant) #jiika ingin melihat tampilan isinya



  
  import sys
  


# Transform Bagian VII - Tanggal Daftar Kompetisi

Selain punya aturan mengenai format DATE, MySQL juga memberi aturan pada data yang bertipe DATETIME yaitu YYYY-MM-DD HH:mm:ss dengan keterangan:
•	YYYY: 4 digit yang menandakan tahun
•	MM: 2 digit yang menandakan bulan
•	DD: 2 digit yang menandakan tanggal
•	HH: 2 digit yang menandakan jam
•	mm: 2 digit yang menandakan menit
•	ss: 2 digit yang menandakan detik
Contohnya yaitu: 2021-04-07 15:10:55
Karena data kita mengenai waktu registrasi peserta (register_time) belum sesuai format yang seharusnya.
Maka dari itu, tugas Anda yaitu untuk merubah register_time ke format DATETIME sesuai dengan aturan dari MySQL.
Simpanlah hasil tersebut ke kolom register_at

In [None]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$')
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')

def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0])
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split()))))
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)
df_participant['team_name'] = df_participant.apply(func, axis=1)

def func(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split())))
    
    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1:
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)
        
    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)
    
df_participant['email'] = df_participant.apply(func, axis=1)
df_participant['birth_date'] = pd.to_datetime(df_participant['birth_date'], format='%d %b %Y')


df_participant['register_at'] = pd.to_datetime(df_participant['register_time'], unit='s')
print(df_participant) #jika ingin melihat isinya


  
  import sys
  


                            participant_id  ...         register_at
0     bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a  ... 2021-04-05 14:47:26
1     7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3  ... 2021-04-05 14:46:58
2     19582d7f-b824-4fe5-a517-d5bf573fc768  ... 2021-04-05 14:47:15
3     aeb6d817-25f3-4867-8a74-8d92e0a0f633  ... 2021-04-05 14:47:14
4     1fdabdd9-5444-4c97-87b2-fe8833ad0d27  ... 2021-04-05 14:46:50
...                                    ...  ...                 ...
4995  5f084245-58cb-4360-8cff-112f06f7214e  ... 2021-04-05 14:46:16
4996  fc6e142a-3f66-4330-9975-8c1dc7f9bb03  ... 2021-04-05 14:46:48
4997  4521ff9f-4aec-401b-84aa-a4e6fc6549a4  ... 2021-04-05 14:46:06
4998  1c91596e-427c-44a7-b7d0-974f44e18381  ... 2021-04-05 14:46:45
4999  5d682e84-bcb5-43e9-8ce0-615364f5376a  ... 2021-04-05 14:46:51

[5000 rows x 17 columns]


# **Kesimpulan**

Jika dilihat kembali, dataset Anda saat ini sudah berbeda dengan saat proses extract sebelumnya. Ada beberapa kolom tambahan yang memanfaatkan nilai kolom lain.
Dataset Anda saat ini memuat kolom:
1.	participant_id: ID dari peserta/partisipan hackathon. Kolom ini bersifat unique sehingga antar peserta pasti memiliki ID yang berbeda
2.	first_name: nama depan peserta
3.	last_name: nama belakang peserta
4.	birth_date: tanggal lahir peserta (sudah diformat ke YYYY-MM-DD)
5.	address: alamat tempat tinggal peserta
6.	phone_number: nomor hp/telepon peserta
7.	country: negara asal peserta
8.	institute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas
9.	occupation: pekerjaan peserta saat ini
10.	register_time: waktu peserta melakukan pendaftaran hackathon dalam second
11.	team_name: nama tim peserta (gabungan dari nama depan, nama belakang, negara dan institusi)
12.	postal_code: kode pos alamat peserta (diambil dari kolom alamat)
13.	city: kota peserta (diambil dari kolom alamat)
14.	github_profile: link profil github peserta (gabungan dari nama depan, dan nama belakang)
15.	email: alamat email peserta (gabungan dari nama depan, nama belakang, institusi dan negara)
16.	cleaned_phone_number: nomor hp/telepon peserta (sudah lebih sesuai dengan format nomor telepon)
17.	register_at: tanggal dan waktu peserta melakukan pendaftaran (sudah dalam format DATETIME)

# **Referensi**

[ https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html ]
[ https://www.kaggle.com/rafifarraskusuma/data-competition-elimination ]
[ https://docs.python.org/3/library/re.html ]