# Project Simple ETL with Pandas
Created by: Hilman Singgih Wicaksana, S.Kom<br>
Masters Student of Information Systems at Diponegoro University

# Import Library

In [1]:
import pandas as pd

# Load the Data

In [2]:
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')
df_participant

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1.617634e+09
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1.617634e+09
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1.617634e+09
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1.617634e+09
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1.617634e+09
...,...,...,...,...,...,...,...,...,...,...
4995,5f084245-58cb-4360-8cff-112f06f7214e,Mitra,Latupono,27 Apr 2000,"Jl. Monginsidi No. 5\nCirebon, BB 50268",+62 (050) 795-8398,Hongaria,Institut Teknologi Sepuluh Nopember,Business Intelligence Engineer,1.617634e+09
4996,fc6e142a-3f66-4330-9975-8c1dc7f9bb03,Indah,Rahmawati,06 Mar 1996,"Gang Joyoboyo No. 73\nBogor, BT 57434",+62 (0443) 963 0055,Norwegia,CV Safitri Hastuti Tbk,Data Engineer,1.617634e+09
4997,4521ff9f-4aec-401b-84aa-a4e6fc6549a4,Irsad,Najmudin,14 Feb 2003,"Jalan PHH. Mustofa No. 0\nTanjungbalai, MU 95312",+62 (0408) 216-7689,Ghana,Universitas Katolik Widya Manadala,Fullstack Engineer,1.617634e+09
4998,1c91596e-427c-44a7-b7d0-974f44e18381,Carla,Nasyidah,22 Aug 1994,"Jl. H.J Maemunah No. 955\nManado, Kepulauan Ba...",+62 (0751) 380 3352,Gambia,CV Permadi (Persero) Tbk,Fullstack Engineer,1.617634e+09


# Transform Bagian I - Kode Pos
Ada permintaan datang dari tim logistik bahwa mereka membutuhkan kode pos dari peserta agar pengiriman piala lebih mudah dan cepat sampai. Maka dari itu buatlah kolom baru bernama postal_code yang memuat informasi mengenai kode pos yang diambil dari alamat peserta (kolom address).

Diketahui bahwa kode pos berada di paling akhir dari alamat tersebut.

Note:
Jika regex yang dimasukkan tidak bisa menangkap pattern dari value kolom address maka akan menghasilkan NaN.

In [3]:
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$') #Masukkan regex Anda didalam fungsi extract
df_participant['postal_code']

0       80734
1       09434
2       57739
3       76156
4       70074
        ...  
4995    50268
4996    57434
4997    95312
4998    80657
4999    41134
Name: postal_code, Length: 5000, dtype: object

# Transform Bagian II - Kota
Selain kode pos, mereka juga membutuhkan kota dari peserta.

Untuk menyediakan informasi tersebut, buatlah kolom baru bernama city yang didapat dari kolom address. Diasumsikan bahwa kota merupakan sekumpulan karakter yang terdapat setelah nomor jalan diikuti dengan \n (newline character) atau dalam bahasa lainnya yaitu enter.

In [4]:
#Masukkan regex Anda didalam fungsi extract
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)') 
df_participant['city']

0              Medan
1         Prabumulih
2              Ambon
3       Lubuklinggau
4             Kediri
            ...     
4995         Cirebon
4996           Bogor
4997    Tanjungbalai
4998          Manado
4999         Bontang
Name: city, Length: 5000, dtype: object

# Transform Bagian III - Github
Salah satu parameter untuk mengetahui proyek apa saja yang pernah dikerjakan oleh peserta yaitu dari git repository mereka.

Pada kasus ini kita menggunakan profil github sebagai parameternya. Tugas Anda yaitu membuat kolom baru bernama github_profile yang merupakan link profil github dari peserta.

Diketahui bahwa profil github mereka merupakan gabungan dari first_name dan last_name yang sudah di-lowercase. 

In [5]:
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['github_profile']

0         https://github.com/citranurdiyanti
1            https://github.com/arissetiawan
2       https://github.com/corneliahandayani
3             https://github.com/solehrajasa
4              https://github.com/viviastuti
                        ...                 
4995        https://github.com/mitralatupono
4996       https://github.com/indahrahmawati
4997        https://github.com/irsadnajmudin
4998        https://github.com/carlanasyidah
4999       https://github.com/darmanamaryadi
Name: github_profile, Length: 5000, dtype: object

# Transform Bagian IV - Nomor Handphone
Jika kita lihat kembali, ternyata nomor handphone yang ada pada data csv kita memiliki format yang berbeda-beda. Maka dari itu, kita perlu untuk melakukan cleansing pada data nomor handphone agar memiliki format yang sama. Anda sebagai Data Engineer diberi privilege untuk menentukan format nomor handphone yang benar. Pada kasus ini mari kita samakan formatnya dengan aturan:
1. Jika awalan nomor HP berupa angka 62 atau +62 yang merupakan kode telepon Indonesia, maka diterjemahkan ke 0. 
2. Tidak ada tanda baca seperti kurung buka, kurung tutup, strip⟶ ()-
3. Tidak ada spasi pada nomor HP nama kolom untuk menyimpan hasil cleansing pada nomor HP yaitu cleaned_phone_number





In [6]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number']

  


0         (0151) 081 2706
1        0 (036) 461 7027
2            089 833 6695
3        0 (418) 329-4756
4              0812511835
              ...        
4995     0 (050) 795-8398
4996    0 (0443) 963 0055
4997    0 (0408) 216-7689
4998    0 (0751) 380 3352
4999     0 (066) 414 8791
Name: cleaned_phone_number, Length: 5000, dtype: object

In [7]:
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number']

  """Entry point for launching an IPython kernel.


0         0151 081 2706
1        0 036 461 7027
2          089 833 6695
3         0 418 3294756
4            0812511835
             ...       
4995      0 050 7958398
4996    0 0443 963 0055
4997     0 0408 2167689
4998    0 0751 380 3352
4999     0 066 414 8791
Name: cleaned_phone_number, Length: 5000, dtype: object

In [8]:
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')
df_participant['cleaned_phone_number']

  """Entry point for launching an IPython kernel.


0        01510812706
1        00364617027
2         0898336695
3        04183294756
4         0812511835
            ...     
4995     00507958398
4996    004439630055
4997    004082167689
4998    007513803352
4999     00664148791
Name: cleaned_phone_number, Length: 5000, dtype: object

# Transform Bagian V - Nama Tim
Dataset saat ini belum memuat nama tim, dan rupanya dari tim Data Analyst membutuhkan informasi terkait nama tim dari masing-masing peserta.

Diketahui bahwa nama tim merupakan gabungan nilai dari kolom first_name, last_name, country dan institute.

Tugas Anda yakni buatlah kolom baru dengan nama team_name yang memuat informasi nama tim dari peserta.

In [9]:
def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)

df_participant['team_name'] = df_participant.apply(func, axis=1)
df_participant['team_name']

0          CN-Georgia-UPM
1       AS-Korea Utara-UD
2           CH-Komoro-UHP
3          SR-Eritrea-PTY
4         VA-Aljazair-PHR
              ...        
4995     ML-Hongaria-ITSN
4996     IR-Norwegia-CSHT
4997        IN-Ghana-UKWM
4998       CN-Gambia-CP(T
4999     DM-Singapura-PLK
Name: team_name, Length: 5000, dtype: object

# Transform Bagian VI - Email
Setelah dilihat kembali dari data peserta yang dimiliki, ternyata ada satu informasi yang penting namun belum tersedia, yaitu email.

Anda sebagai Data Engineer diminta untuk menyediakan informasi email dari peserta dengan aturan bahwa format email sebagai berikut:

> Format email:<br>
xxyy@aa.bb.[ac/com].[cc]

> Keterangan:<br>
xx -> nama depan (first_name) dalam lowercase<br>
yy -> nama belakang (last_name) dalam lowercase<br>
aa -> nama institusi<br>

>  Nama depan: Citra<br>
  Nama belakang: Nurdiyanti<br>
  Institusi: UD Prakasa Mandasari<br>
  Negara: Georgia<br>
  Maka,Email nya: citranurdiyanti@upm.geo
  
>  Nama depan: Aris<br>
  Nama belakang: Setiawan<br>
  Institusi: Universitas Diponegoro<br>
  Negara: Korea Utara<br>
  Maka, Email nya: arissetiawan@ud.ac.ku

In [10]:
def func(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) #Singkatan dari nama perusahaan dalam lowercase

    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1: #Kondisi untuk mengecek apakah jumlah kata dari country lebih dari 1
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)

    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)

df_participant['email'] = df_participant.apply(func, axis=1)
df_participant['email']

0         citranurdiyanti@upm.com
1           arissetiawan@ud.ac.ku
2       corneliahandayani@uhp.com
3             solehrajasa@pty.com
4              viviastuti@phr.com
                  ...            
4995       mitralatupono@itsn.com
4996      indahrahmawati@csht.com
4997    irsadnajmudin@ukwm.ac.gha
4998       carlanasyidah@cp(t.com
4999       darmanamaryadi@plk.com
Name: email, Length: 5000, dtype: object

# Transform Bagian VII - Tanggal Lahir
MySQL merupakan salah satu database yang sangat populer dan digunakan untuk menyimpan data berupa tabel, termasuk data hasil pengolahan yang sudah kita lakukan ini nantinya bisa dimasukkan ke MySQL.

Meskipun begitu, ada suatu aturan dari MySQL terkait format tanggal yang bisa mereka terima yaitu YYYY-MM-DD dengan keterangan:
* YYYY: 4 digit yang menandakan tahun
* MM: 2 digit yang menandakan bulan
* DD: 2 digit yang menandakan tanggal
Contohnya yaitu: 2021-04-07

Jika kita lihat kembali pada kolom tanggal lahir terlihat bahwa nilainya belum sesuai dengan format DATE dari MySQL.

Oleh karena itu, lakukanlah formatting terhadap kolom birth_date menjadi YYYY-MM-DD dan simpan di kolom yang sama.

In [11]:
df_participant['birth_date'] = pd.to_datetime(df_participant['birth_date'], format='%d %b %Y')
df_participant['birth_date']

0      1991-02-05
1      1993-01-11
2      1993-07-31
3      1991-11-04
4      2003-01-22
          ...    
4995   2000-04-27
4996   1996-03-06
4997   2003-02-14
4998   1994-08-22
4999   2002-02-09
Name: birth_date, Length: 5000, dtype: datetime64[ns]

# Transform Bagian VII - Tanggal Daftar Kompetisi
Selain punya aturan mengenai format DATE, MySQL juga memberi aturan pada data yang bertipe DATETIME yaitu YYYY-MM-DD HH:mm:ss dengan keterangan:

* YYYY: 4 digit yang menandakan tahun
* MM: 2 digit yang menandakan bulan
* DD: 2 digit yang menandakan tanggal
* HH: 2 digit yang menandakan jam
* mm: 2 digit yang menandakan menit
* ss: 2 digit yang menandakan detik

Contohnya yaitu: 2021-04-07 15:10:55

Karena data kita mengenai waktu registrasi peserta (register_time) belum sesuai format yang seharusnya.

Maka dari itu, tugas Anda yaitu untuk merubah register_time ke format DATETIME sesuai dengan aturan dari MySQL.

Simpanlah hasil tersebut ke kolom register_at.

In [12]:
df_participant['register_at'] = pd.to_datetime(df_participant['register_time'], unit='s')
df_participant['register_at']

0      2021-04-05 14:47:26
1      2021-04-05 14:46:58
2      2021-04-05 14:47:15
3      2021-04-05 14:47:14
4      2021-04-05 14:46:50
               ...        
4995   2021-04-05 14:46:16
4996   2021-04-05 14:46:48
4997   2021-04-05 14:46:06
4998   2021-04-05 14:46:45
4999   2021-04-05 14:46:51
Name: register_at, Length: 5000, dtype: datetime64[ns]