## Pengantar
Dimasa pandemi seperti ini, kompetisi coding seperti Competitive Programming maupun Hackathon banyak diselenggarakan karena sangat memungkinkan untuk dilakukan secara online.

Hackathon merupakan kompetisi membuat perangkat lunak (software) yang dilaksanakan secara marathon yang biasanya diikuti secara tim. Umumnya, peserta hackathon diminta untuk mengembangkan platform (mobile, web, desktop, dll.) dalam kurun waktu tertentu untuk menyelesaikan permasalahan yang sudah ditetapkan / didefinisikan oleh penyelenggara ataupun berdasarkan tema yang dipilih oleh tim tersebut.

Untuk bisa mengikuti hackathon dari suatu instansi, calon peserta diwajibkan untuk mendaftarkan diri mereka pada situs/form tertentu dengan memasukkan beberapa informasi yang diminta oleh penyelenggara tersebut.

Pada proyek kali ini, Anda diminta untuk mengolah data pendaftar hacktahon yang diselenggarkan oleh DQLab bernama DQThon. Dataset ini terdiri dari 5000 baris data (5000 pendaftar) dengan format CSV (Comma-separated values) dan memiliki beberapa kolom diantaranya:

* participant_id: ID dari peserta/partisipan hackathon. Kolom ini bersifat unique sehingga antar peserta pasti memiliki ID yang berbeda
* first_name: nama depan peserta
* last_name: nama belakang peserta
* birth_date: tanggal lahir peserta
* address: alamat tempat tinggal peserta
* phone_number: nomor hp/telfon peserta
* country: negara asal peserta
* institute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas
* occupation: pekerjaan peserta saat ini
* register_time: waktu peserta melakukan pendaftaran hackathon dalam second

Namun pada proyek ini nantinya Anda diminta untuk menghasilkan beberapa kolom dengan memanfaatkan kolom-kolom yang ada, sehingga akhir dari proyek ini berupa hasil transformasi data dengan beberapa kolom baru selain dari 10 kolom diatas Sebagai pemanasan dalam proyek ini, Anda dipersilakan untuk membuka isi dataset nya dan melihat values nya. Jika sudah siap dengan perjalanan di proyek ini, silakan klik Lanjut

## Extract, Transform, Load
Extract, Transform dan Load (ETL) merupakan kumpulan proses untuk "memindahkan" data dari satu tempat ke tempat lain.
Tempat yang dimaksud adalah dari sumber data (bisa berupa database aplikasi, file, logs, database dari 3rd party, dan lainnya)
ke data warehouse. Apa itu data warehouse? Singkatnya, data warehouse merupakan database yang berisi data-data (tabeltabel) yang sudah siap untuk dilakukan analisis oleh Data Analyst maupun Data Scientist. Lebih lengkapnya bisa dilihat di:
https://en.wikipedia.org/wiki/Data_warehouse. Pada modul ini kita akan mempelajari masing-masing dari proses tersebut.

## Extract
Extract merupakan proses meng-ekstraksi data dari sumber, sumber data ini bisa berupa relational data (SQL) atau tabel, nonrelational (NoSQL) maupun yang lainnya. Tugas Anda adalah baca terlebih dahulu dataset ini sebagai CSV agar nantinya bisa
diolah, file tersebut bisa diakses di path dqthon-participants.csv .

In [5]:
import pandas as pd
df_participant = pd.read_csv("C:/Users/ACER 4736/Documents/d1.csv")
print(df_participant)
type(df_participant)

                          participant_id first_name    last_name   birth_date  \
0   bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a      Citra   Nurdiyanti  05 Feb 1991   
1   7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3       Aris     Setiawan  11 Jan 1993   
2   19582d7f-b824-4fe5-a517-d5bf573fc768   Cornelia    Handayani  31 Jul 1993   
3   aeb6d817-25f3-4867-8a74-8d92e0a0f633      Soleh       Rajasa  04 Nov 1991   
4   1fdabdd9-5444-4c97-87b2-fe8833ad0d27       Vivi       Astuti  22 Jan 2003   
5   f1e8749d-6dec-4ede-be25-efb31ce80f99  Bahuraksa   Mangunsong  13 Nov 1997   
6   707219fa-cb0b-467c-ad32-e99c61603020      Tiara      Maryati  10 Mar 1994   
7   bc4e9cc3-f49b-40a2-905c-3e9dcf3af958      Dimaz      Gunarto  16 Feb 2000   
8   7ca0a2e8-bab0-42a3-b6aa-ef4df35c7800       Zizi    Puspasari  11 Apr 2002   
9   7db879a6-eae5-4cf3-87da-c452df8e99c1      Cecep     Haryanto  15 Jan 1994   
10  ae29b7cb-837c-4f78-957a-f8f7dcd3d6f0      Vanya     Yuliarti  09 Apr 1998   
11  f6abbf84-2979-4f07-ac18-

pandas.core.frame.DataFrame

## Transform
Transform merupakan proses melakukan transformasi data, atau perubahan terhadap data. Umumnya seperti:

1. Merubah nilai dari suatu kolom ke nilai baru
2. Menciptakan kolom baru dengan memanfaatkan kolom lain
3. Transpose baris menjadi kolom (atau sebaliknya)
4. Merubah format data ke bentuk yang lebih standar (contohnya kolom date, maupun datetime yang biasanya memiliki nilai yang tidak standar maupun nomor HP yang biasanya memiliki nilai yang tidak sesuai format standarnya). Dan lain-lain nya.

## Transform Bagian I - Kode Pos
Ada permintaan datang dari tim Logistik bahwa mereka membutuhkan kode pos dari peserta agar pengiriman piala lebih
mudah dan cepat sampai. Maka dari itu buatlah kolom baru bernama postal_code yang memuat informasi mengenai kode pos
yang diambil dari alamat peserta (kolom address). Diketahui bahwa kode pos berada di paling akhir dari alamat tersebut.

Note:
Jika regex yang dimasukkan tidak bisa menangkap pattern dari value kolom address maka akan menghasilkan NaN

In [120]:
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$') #Masukkan regex Anda didalam fungsi extract
df_participant['postal_code'].head()

0    80734
1    09434
2    57739
3    76156
4    70074
Name: postal_code, dtype: object

In [121]:
df_participant['postal_code'] = df_participant['address'].str.extract(r'([0-9]+)$') #Masukkan regex Anda didalam fungsi extract
df_participant['postal_code'].head()

0    80734
1    09434
2    57739
3    76156
4    70074
Name: postal_code, dtype: object

## Transform Bagian II - Kota
Selain kode pos, mereka juga membutuhkan kota dari peserta. Untuk menyediakan informasi tersebut, buatlah kolom baru
bernama city yang didapat dari kolom address. Diasumsikan bahwa kota merupakan sekumpulan karakter yang terdapat
setelah nomor jalan diikuti dengan \n (newline character) atau dalam bahasa lainnya yaitu enter.

In [None]:
df_participant['city'] = df_participant['address'].str.extract(r'\n(.+),') #Masukkan regex Anda didalam fungsi extract
df_participant['city'].head(20)

In [228]:
df_participant['city'] = df_participant['address'].str.extract(r'\n(.*),') #Masukkan regex Anda didalam fungsi extract
df_participant['city'].head(20)

0                               Medan
1                          Prabumulih
2                               Ambon
3                        Lubuklinggau
4                              Kediri
5                            Denpasar
6                           Samarinda
7                            Parepare
8                               Medan
9                              Bitung
10                             Kediri
11                            Bau-Bau
12                          Gorontalo
13                              Batam
14                          Pagaralam
15                   Tidore Kepulauan
16    Kota Administrasi Jakarta Barat
17                            Tarakan
18                              Depok
19                       Palangkaraya
Name: city, dtype: object

In [3]:
df_participant['city'] = df_participant['address'].str.extract(r'(?:\d+)\n+(\w+)') #Masukkan regex Anda didalam fungsi extract
df_participant['city'].head()

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
Name: city, dtype: object

In [None]:
df_participant['city'] = df_participant['address'].str.extract(r'(.+),') #Masukkan regex Anda didalam fungsi extract
df_participant['city'].head(20)

## Transform Bagian III - Github
Salah satu parameter untuk mengetahui proyek apa saja yang pernah dikerjakan oleh peserta yaitu dari git repository
mereka. Pada kasus ini kita menggunakan profil github sebagai parameter nya. Tugas Anda yaitu membuat kolom baru
bernama github_profile yang merupakan link profil github dari peserta. Diketahui bahwa profil github mereka merupakan
gabungan dari first_name dan last_name yang sudah di-lowercase

In [123]:
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()

In [124]:
print(df_participant['github_profile'].head())

0      https://github.com/citranurdiyanti
1         https://github.com/arissetiawan
2    https://github.com/corneliahandayani
3          https://github.com/solehrajasa
4           https://github.com/viviastuti
Name: github_profile, dtype: object


## Transform Bagian IV - Nomor Handphone
Jika kita lihat kembali, ternyata nomor handphone yang ada pada data csv kita memiliki format yang berbeda-beda. Maka dari itu, kita perlu untuk melakukan cleansing pada data nomor handphone agar memiliki format yang sama. Anda sebagai Data Engineer diberi privilege untuk menentukan format nomor handphone yang benar. Pada kasus ini mari kita samakan format nya dengan aturan:

1. Jika awalan nomor HP berupa angka 62 atau +62 yang merupakan kode telepon Indonesia, maka diterjemahkan ke 0 2.
2. Tidak ada tanda baca seperti kurung buka, kurung tutup, strip⟶ ()-
3. Tidak ada spasi pada nomor HP Nama kolom untuk menyimpan hasil cleansing pada nomor HP yaitu cleaned_phone_number

In [132]:
print(df_participant['phone_number'][1])

+62 (036) 461 7027


In [167]:
a=['+62 (036) 461 7027','62 (036) 461 7027','+62(001)4617027']
c=pd.DataFrame(a)
b="+62 (036) 461 7027"
print(c[0].astype("str").replace("+62","0"))
print(a[0])
print(a[0].replace("+62","0"))

0    +62 (036) 461 7027
1     62 (036) 461 7027
2       +62(001)4617027
Name: 0, dtype: object
+62 (036) 461 7027
0 (036) 461 7027


In [None]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'(+?62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'(\s)', '')

In [None]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'(+?62)', '0')
#df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
#df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'(\s)', '')
print(df_participant['cleaned_phone_number'].head())

In [226]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'[+]?62', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'(\s)', '')
print(df_participant[['phone_number','cleaned_phone_number']].head(20))

          phone_number cleaned_phone_number
0      (0151) 081 2706          01510812706
1   +62 (036) 461 7027          00364617027
2         089 833 6695           0898336695
3   +62 (418) 329-4756          04183294756
4           0812511835           0812511835
5    +62 (11) 369-7082           0113697082
6      (0244) 430 7220          02444307220
7   +62 (056) 931-9059          00569319059
8    +62 (11) 826-1289           0118261289
9    +62 (86) 156 1327           0861561327
10  +62 (004) 561 6831          00045616831
11    +62-304-075-1010          03040751010
12    +62-766-738-4901          07667384901
13     +62-57-926-3059           0579263059
14  +62 (447) 608 1087          04476081087
15      (093) 063-0588           0930630588
16  +62 (857) 263-5384          08572635384
17  +62 (631) 363 8240          06313638240
18    +62-783-529-5810          07835295810
19        083 504 5393           0835045393


In [13]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')
print(df_participant[['phone_number','cleaned_phone_number']].head(20))

          phone_number cleaned_phone_number
0      (0151) 081 2706          01510812706
1   +62 (036) 461 7027          00364617027
2         089 833 6695           0898336695
3   +62 (418) 329-4756          04183294756
4           0812511835           0812511835
5    +62 (11) 369-7082           0113697082
6      (0244) 430 7220          02444307220
7   +62 (056) 931-9059          00569319059
8    +62 (11) 826-1289           0118261289
9    +62 (86) 156 1327           0861561327
10  +62 (004) 561 6831          00045616831
11    +62-304-075-1010          03040751010
12    +62-766-738-4901          07667384901
13     +62-57-926-3059           0579263059
14  +62 (447) 608 1087          04476081087
15      (093) 063-0588           0930630588
16  +62 (857) 263-5384          08572635384
17  +62 (631) 363 8240          06313638240
18    +62-783-529-5810          07835295810
19        083 504 5393           0835045393


## Transform Bagian V - Nama Tim
Dataset saat ini belum memuat nama tim, dan rupanya dari tim Data Analyst membutuhkan informasi terkait nama tim dari
masing-masing peserta. Diketahui bahwa nama tim merupakan gabungan nilai dari kolom first_name, last_name, country dan
institute.
Tugas Anda yakni buatlah kolom baru dengan nama team_name yang memuat informasi nama tim dari peserta.

In [172]:
def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda x: x[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)

df_participant['team_name'] = df_participant.apply(func, axis=1)

In [179]:
def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)

df_participant['team_name'] = df_participant.apply(func, axis=1)


In [180]:
print(df_participant['team_name'].head())

0       CN-Georgia-UPM
1    AS-Korea Utara-UD
2        CH-Komoro-UHP
3       SR-Eritrea-PTY
4      VA-Aljazair-PHR
Name: team_name, dtype: object


## Transform Bagian VI - Email
Setelah dilihat kembali dari data peserta yang dimiliki, ternyata ada satu informasi yang penting namun belum tersedia, yaitu
email. Anda sebagai Data Engineer diminta untuk menyediakan informasi email dari peserta dengan aturan bahwa format
email sebagai berikut:
```
Format email:
xxyy@aa.bb.[ac/com].[cc]

Keterangan:
xx -> nama depan (first_name) dalam lowercase
yy -> nama belakang (last_name) dalam lowercase
aa -> nama institusi

Untuk nilai bb, dan cc mengikuti nilai dari aa. Aturannya:
- Jika institusi nya merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .ac yang menandakan akademi/institusi belajar dan diikuti dengan pattern cc
- Jika institusi bukan merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .com. Perlu diketahui bahwa pattern cc tidak berlaku pada kondisi ini

cc -> merupakan negara asal peserta, adapun aturannya:
- Jika banyaknya kata pada negara tersebut lebih dari 1 maka ambil singkatan dari negara tersebut dalam lowercase
- Namun, jika banyaknya kata hanya 1 maka ambil 3 huruf terdepan dari negara tersebut dalam lowercase

Contoh:
  Nama depan: Citra
  Nama belakang: Nurdiyanti
  Institusi: UD Prakasa Mandasari
  Negara: Georgia
  Maka,Email nya: citranurdiyanti@upm.geo
  -----------------------------------
  Nama depan: Aris
  Nama belakang: Setiawan
  Institusi: Universitas Diponegoro
  Negara: Korea Utara
  Maka, Email nya: arissetiawan@ud.ac.ku
```

In [188]:
def func(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) #Singkatan dari nama perusahaan dalam lowercase

    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1: #Kondisi untuk mengecek apakah jumlah kata dari country lebih dari 1
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)

    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)

df_participant['email'] = df_participant.apply(func, axis=1)

In [190]:
df_participant['email'].head(10)

0        citranurdiyanti@upm.com
1          arissetiawan@ud.ac.ku
2      corneliahandayani@uhp.com
3            solehrajasa@pty.com
4             viviastuti@phr.com
5    bahuraksamangunsong@cmh.com
6           tiaramaryati@uiw.com
7            dimazgunarto@pp.com
8       zizipuspasari@ubs.ac.gam
9         cecepharyanto@pppt.com
Name: email, dtype: object

## Transform Bagian VII - Tanggal Lahir
MySQL merupakan salah satu database yang sangat populer dan digunakan untuk menyimpan data berupa tabel, termasuk data hasil pengolahan yang sudah kita lakukan ini nantinya bisa dimasukkan ke MySQL. Meskipun begitu, ada suatu aturan dari MySQL terkait format tanggal yang bisa mereka terima yaitu YYYY-MM-DD dengan keterangan:

* YYYY: 4 digit yang menandakan tahun
* MM: 2 digit yang menandakan bulan
* DD: 2 digit yang menandakan tanggal

Contohnya yaitu: 2021-04-07

Jika kita lihat kembali pada kolom tanggal lahir terlihat bahwa nilai nya belum sesuai dengan format DATE dari MySQL (Lihat lebih detail di: https://www.mysqltutorial.org/mysql-date/). Oleh karena itu, lakukanlah formatting terhadap kolom birth_date menjadi YYYY-MM-DD dan simpan di kolom yang sama.

In [193]:
df_participant['birth_date'] = pd.to_datetime(df_participant['birth_date'], format='%d %b %Y')

In [194]:
print(df_participant['birth_date'].head())

0   1991-02-05
1   1993-01-11
2   1993-07-31
3   1991-11-04
4   2003-01-22
Name: birth_date, dtype: datetime64[ns]


## Transform Bagian VII - Tanggal Daftar Kompetisi
Selain punya aturan mengenai format DATE, MySQL juga memberi aturan pada data yang bertipe DATETIME yaitu YYYY-MM-DD HH:mm:ss dengan keterangan:

* YYYY: 4 digit yang menandakan tahun
* MM: 2 digit yang menandakan bulan
* DD: 2 digit yang menandakan tanggal
* HH: 2 digit yang menandakan jam
* mm: 2 digit yang menandakan menit
* ss: 2 digit yang menandakan detik

_Contohnya yaitu: 2021-04-07 15:10:55_

Karena data kita mengenai waktu registrasi peserta (register_time) belum sesuai format yang seharusnya, maka dari itu Tugas Anda yaitu untuk merubah register_time ke format DATETIME sesuai dengan aturan dari MySQL. Simpanlah hasil tersebut ke kolom register_at.

In [208]:
df_participant['register_at'] = pd.to_datetime(df_participant['register_time'], unit='s')

In [209]:
print(df_participant['register_time'].head())

0    1.620000e+09
1    1.620000e+09
2    1.620000e+09
3    1.620000e+09
4    1.620000e+09
Name: register_time, dtype: float64


## Kesimpulan
Dengan begitu, tibalah kita di penghujung dari modul bagian Transform ini. Jika dilihat kembali, dataset Anda saat ini sudah berbeda dengan saat proses extract sebelumnya. Ada beberapa kolom tambahan yang memanfaatkan nilai kolom lain. Dataset Anda saat ini memuat kolom:

1. participant_id: ID dari peserta/partisipan hackathon. Kolom ini bersifat unique sehingga antar peserta pasti memiliki ID yang berbeda
2. first_name: nama depan peserta
3. last_name: nama belakang peserta
4. birth_date: tanggal lahir peserta (sudah diformat ke YYYY-MM-DD)
5. address: alamat tempat tinggal peserta
6. phone_number: nomor hp/telfon peserta
7. country: negara asal peserta
8. institute: institusi peserta saat ini, bisa berupa nama perusahaan maupun nama universitas
9. occupation: pekerjaan peserta saat ini
10. register_time: waktu peserta melakukan pendaftaran hackathon dalam second
11. team_name: nama tim peserta (gabungan dari nama depan, nama belakang, negara dan institusi)
12. postal_code: kode pos alamat peserta (diambil dari kolom alamat)
13. city: kota peserta (diambil dari kolom alamat)
14. github_profile: link profil github peserta (gabungan dari nama depan, dan nama belakang)
15. email: alamat email peserta (gabungan dari nama depan, nama belakang, institusi dan negara)
16. cleaned_phone_number: nomor hp/telfon peserta (sudah lebih sesuai dengan format nomor telfon)
17. register_at: tanggal dan waktu peserta melakukan pendaftaran (sudah dalam format DATETIME)

## Load
Pada bagian load ini, data yang sudah ditransformasi sedemikian rupa sehingga sesuai dengan kebutuhan tim Analyst dimasukkan kembali ke database yaitu Data Warehouse DWH. Biasanya, dilakukan pendefinisian skema database terlebih dahulu seperti:

1. Nama kolom
2. Tipe kolom
3. Apakah primary key, unique key, index atau bukan
4. Panjang kolomnya

Karena umumnya Data Warehouse merupakan database yang terstruktur sehingga mereka memerlukan skema sebelum data nya dimasukkan.

Pandas sudah menyediakan fungsi untuk memasukkan data ke database yaitu to_sql() . Detail dari fungsi tersebut bisa dilihat pada dokumentasi Pandas: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html