## Project Overview

Mengolah data pendaftar Hackathon. Dataset ini terdiri dari 5000 baris data atau 5000 pendaftar dengan format CSV dan memiliki beberapa kolom diantaranya:
1. participant_id: ID dari peserta/oartisipan hackathon. Kolom ini bersifat <b>unique</b>.
2. first_name: nama depan peserta
3. last_name: nama belakang peserta
4. birth_date: tanggal lahir peserta
5. address: tempat tinggal peserta
6. phone_number: nomor telepon peserta
7. country: negara asal peserta
8. insitute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas.
9. occupation: pekerjaan peserta saat ini
10. register_name: waktu peserta melakukan pendafataran hackathon (s).

Project ini nantinya akan menghasilkan beberapa kolom dengan memanfaatkan kolom kolom yang ada, sehingga akhir dari project ini berupa hasil transformasi data dengan beberapa kolom baru selain dari 10 kolom diatas.

## Extract
Extract merupakan proses meng-ekstraksi data dari sumber, sumber data ini bisa berupa relational data (SQL) atau tabel, nonrekational (NoSQL) maupun yang lainnya.

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
data = pd.read_csv("dataset/hackathon-participants.csv")

In [3]:
data_copy = data.copy()

In [4]:
data.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0


## Transform
Transform merupakan proses melakukan transformasi data, atau perubahan terhadap data. Umumnya seperti:
1. Merubah nilai dari suatu kolom ke nilai baru
2. Menciptakan kolom baru dengan memanfaatkan kolom lain
3. Transpose baris menjadi kolom atau sebaliknya
4. Mengubah format data ke bentuk yang lebih standard (ex: kolom date, maupun datetime yang biasanya memiliki nilai yang tidak standard maupun nomer HP yang biasanya memiliki nilai yang tidak sesuai dengan format standardnya), dan lainnya.

### Postal Code Column

Tim logistik menyatakan bahwa mereka membutuhkan kode pos dari peserta. Maka dibuatlah kolom baru dengan nama postal_code yang memuat informasi mengenai kode pos yang diambil dari alamat peserta. <br>
<b>Diketahui bahwa kode pos berada paling akhir dari alamat.</b> <br> <br>
<i>Note</i> <br>
Jika regex yang dimasukkan tidak bisa menangkap pattern dari value kolom address maka akan menghasilkan NaN.

Disini saya akan mengambil semua angka / digit terakhir pada tiap baris di kolom alamat menggunakan regex

In [5]:
'''
\d digunakan untuk mencari angka
+ digunakan untuk elemen selanjutnya
$ digunakan untuk mencari elemen dari belakang atau ujung
''' 
data['postal_code'] = data['address'].str.extract(r'(\d+)$')

In [6]:
data.head(3)

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739


### City Column
Selain kode pos, dibutuhkan juga <b>kota</b> asal dari peserta.

Untuk menyelesaikan informasi tersebut, dibuatlah kolom baru bernama city yang didapat dari kolom address. Diasumsikan bahwa kota sekumpulan karakter yang terdapat setelah nomor jalan diikuti dengan \n.

(?<=\n)(\w.+)(?=,)

In [7]:
data['city'] = data['address'].str.extract(r'(?<=\n)(\w.+)(?=,)')

In [8]:
data.head(3)

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon


### Github Column

Salah satu parameter untuk mengetahui project apa saja yang pernah dikerjakan oleh peserta yaitu dari git repository mereka.
Pada kasus ini kita menggunakan profil github sebagai parameternya. Maka dari itu kita akan membuat kolom baru bernama github_profile yang merupakan link profile dari peserta.

Diketahui bahwa profil github mereka merupakan gabungan dari <b>first_name</b> dan <b>last_name</b> yang sudah di lowercase

In [9]:
link = "https://github.com/"

In [10]:
first_name_lower = data['first_name'].str.lower()
last_name_lower = data['last_name'].str.lower()

In [11]:
data['github_profile'] = link + first_name_lower + last_name_lower

In [12]:
data.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti


### Number Handphone Column
Pada kolom nomor handphone yang ada pada data csv, terdapat format yang berbeda-beda. Kita perlu melakukan cleansing pada data ini agar memiliki format yang sama. Rules:
1. Jika awalan nomor HP berupa angka 62 atau +62 yang merupakan kode telepon indonesia, maka diterjemahkan menjadi 0
2. Tidak ada tanda baca seperti kurung, strip dan sebagainya
3. Tidak ada spasi pada nomor HP

In [13]:
data['cleaned_phone_number'] = data['phone_number'].str.replace(r'^62|\+62', '0')
data['cleaned_phone_number'] = data['cleaned_phone_number'].str.replace(r'[()-]', '')
data['cleaned_phone_number'] = data['cleaned_phone_number'].str.replace(r'\s+', '')

In [14]:
data.head(2)

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027


### Team Name Column
Dataset saat ini belum memuat nama tim, dan rupanya dari tim Data Analyst membutuhkan informasi terkait nama tim dari masing-masing peserta.
Diketahui bahwa nama tim merupakan gabungan nilai dari kolom first_name, last_name, country dan institute.

Tugas Anda yakni buatlah kolom baru dengan nama team_name yang memuat informasi nama tim dari peserta.

In [15]:
def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)
data['team_name'] = data.apply(func, axis=1)

In [16]:
data.head(2)

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD


### Column Email
Format Email: xxyy@aa.bb[ac/com].cc

Keterangan:
1. xx = nama depan dalam lowercase
2. yy = nama belakang dalam lowercase
3. aa = nama institusi

Untuk nilai bb, dan cc mengikuti nilai dari aa. Aturannya:
1. Jika institusinya merupakan Universitas, maka bb gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase. Kemudian, diikuti dengan .ac yang menandakan akademi/institusi belajar dan diikuti dengan pattern .cc atau country
2. Jika institusi bukan Universitas, maka bb gabungan dari huruf pertama setiap universitas dalam lowercase dan diikuti dengan .com. pattern .cc disiini tidak diperlukan

cc = merupakan negara asal peserta. Jika banyaknya kata pada negara tersebut lebih dari 1 maka ambil singkatan dari negara tersebut dalam lowercase. namun jika hanya 1 kata, ambil 3 huruf terdepan dari negara tersebut dalam lowercase.

Contoh:
  1. Nama depan: Citra
  2. Nama belakang: Nurdiyanti
  3. Institusi: UD Prakasa Mandasari
  4. Negara: Georgia. Maka,Email nya: citranurdiyanti@upm.com
  -----------------------------------
  1. Nama depan: Aris
  2. Nama belakang: Setiawan
  3. Institusi: Universitas Diponegoro
  4. Negara: Korea Utara, Maka, Email nya: arissetiawan@ud.ac.ku

In [17]:
def func(col):
    first_name_lower = col['first_name'].lower() # Merubah nama pertama menjadi lowercase
    last_name_lower = col['last_name'].lower() # Merubah nama terakhir menjadi lowercase
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) # Mengambil huruf awal pada setiap element
    
    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1:
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)
    
    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)

data['email'] = data.apply(func, axis=1)

In [18]:
data.head(3)

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name,email
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM,citranurdiyanti@upm.com
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD,arissetiawan@ud.ac.ku
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP,corneliahandayani@uhp.com


### Formatting Time
<li>Birth_date = 2021-04-07
<li>register time = 2021-04-07 15:10:55

In [19]:
data['birth_date'] = pd.to_datetime(data['birth_date'], format='%d %b %Y')
data['register_at'] = pd.to_datetime(data['register_time'], unit='s')

In [20]:
data.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name,email,register_at
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,1991-02-05,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM,citranurdiyanti@upm.com,2021-04-05 14:47:26
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,1993-01-11,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD,arissetiawan@ud.ac.ku,2021-04-05 14:46:58
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,1993-07-31,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP,corneliahandayani@uhp.com,2021-04-05 14:47:15
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,1991-11-04,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756,SR-Eritrea-PTY,solehrajasa@pty.com,2021-04-05 14:47:14
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,2003-01-22,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835,VA-Aljazair-PHR,viviastuti@phr.com,2021-04-05 14:46:50


### Kesimpulan
Jika dilihat kembali, dataset Anda saat ini sudah berbeda dengan saat proses extract sebelumnya. Ada beberapa kolom tambahan yang memanfaatkan nilai kolom lain.

Dataset Anda saat ini memuat kolom:

1. participant_id: ID dari peserta/partisipan hackathon. Kolom ini bersifat unique sehingga antar peserta pasti memiliki ID yang berbeda
2. first_name: nama depan peserta
3. last_name: nama belakang peserta
4. birth_date: tanggal lahir peserta (sudah diformat ke YYYY-MM-DD)
5. address: alamat tempat tinggal peserta
6. phone_number: nomor hp/telepon peserta
7. country: negara asal peserta
8. institute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas
9. occupation: pekerjaan peserta saat ini
10. register_time: waktu peserta melakukan pendaftaran hackathon dalam second
11. team_name: nama tim peserta (gabungan dari nama depan, nama belakang, negara dan institusi)
12. postal_code: kode pos alamat peserta (diambil dari kolom alamat)
13. city: kota peserta (diambil dari kolom alamat)
14. github_profile: link profil github peserta (gabungan dari nama depan, dan nama belakang)
15. email: alamat email peserta (gabungan dari nama depan, nama belakang, institusi dan negara)
16. cleaned_phone_number: nomor hp/telepon peserta (sudah lebih sesuai dengan format nomor telepon)
17. register_at: tanggal dan waktu peserta melakukan pendaftaran (sudah dalam format DATETIME)

## Load

Pada bagian load ini, data yang sudah ditransformasi sedemikian rupa sehingga sesuai dengan kebutuhan tim analyst dimasukkan kembali ke database yaitu Data Warehouse. Biasanya, dilakukan pendefinisian skema database terlebih dahulu seperti:

1. Nama kolom
2. Tipe kolom
3. Apakah primary key, unique key, index atau bukan
4. Panjang kolomnya
Karena umumnya Data Warehouse merupakan database yang terstruktur sehingga mereka memerlukan skema sebelum datanya dimasukkan.

Pandas sudah menyediakan fungsi untuk memasukkan data ke database yaitu to_sql().

In [23]:
data['participant_id'].str.replace(r'[a-zA-Z-]', '')

0              96888444908672129
1              73391640476407653
2          195827824455175573768
3         6817253486787489200633
4            1954444978728833027
                  ...           
4995     50842455843608112067214
4996       614236643309975817903
4997          452194401844665494
4998    191596427447709744418381
4999      5682845439806153645376
Name: participant_id, Length: 5000, dtype: object