# Simple ETL with Pandas

# Extract

Extract merupakan proses ekstrasi data dari sumber. Sumber data ini bisa berupa relational data (SQL) atau tabel, non-relational (NoSQL), maupun yang lainnya.

## Import Library & Dataset

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('D:/Development/Projects/Simple ETL with Pandas/Dataset/dqthon-participants.csv')

## Data Overview

In [3]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   participant_id  5000 non-null   object 
 1   first_name      5000 non-null   object 
 2   last_name       5000 non-null   object 
 3   birth_date      5000 non-null   object 
 4   address         5000 non-null   object 
 5   phone_number    5000 non-null   object 
 6   country         5000 non-null   object 
 7   institute       5000 non-null   object 
 8   occupation      5000 non-null   object 
 9   register_time   5000 non-null   float64
dtypes: float64(1), object(9)
memory usage: 390.8+ KB


# Transform

Transform merupakan proses melakukan transformasi data, atau perubahan data. Umumnya seperti:
1. Mengubah nilai dari suatu kolom ke nilai baru.
2. Menciptakan kolom baru dengan memanfaatkan kolom lain.
3. *Transpose* baris menjadi kolom (atau sebaliknya).
4. Mengubah format data ke bentuk yang lebih standard (contohnya, kolom *date*, maupun *datetime* yang biasanya memiliki nilai yang tidak standard maupun nomor HP yang biasanya memiliki nilai yang tidak sesuai format standardnya), dan lainnya.

## Transform Part 1 - Kode Pos

Ada permintaan datang dari tim logistik bahwan mereka membutuhkan kode pos dari peserta agar pengiriman piala leih mudah dan cepat sampai. Maka dari itu buatlah kolom baru bernama `postal_code` yang memuat informasi mengenai kode pos yang diambil dari alamat peserta (kolom `address`).

Diketahui bahwa kode pos berada di paling akhir dari alamat terssebut.

*Note: Jika regex yang dimasukkan tidak bisa menangkap pattern dari value kolom `address` maka akan menghasilkan `NaN`*

In [5]:
# Memasukkan regex didalam fungsi extract
df['postal_code'] = df['address'].str.extract(r'(\d+)$')

In [6]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074


## Transform Part 2 - Kota

Selain kode pos, mereka juga membutuhkan kota dari peserta.

Untuk menyediakan informasi tersbeut, buatlah kolom baru bernama `city` yang didapat dari kolom `address`. Diasumsikan bahwa kota merupakan sekumpulan karakter yang etrdapat setelah nomor jalan diikuti dengan \n *(newline character)* atau dalam bahasa lainnya yaitu *enter*.

In [7]:
# Memasukkan regex didalam fungsi extract
df['city'] = df['address'].str.extract(r'(?<=\n)(\w.+)(?=,)')

In [8]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri


## Transform Part 3 - Github

Salah satu parameter untuk mengetahui proyek apa saja yang pernah dikerjakan oleh peserta yaitu dari *git repository* mereka.

Pada kasus ini kita menggunakan profil *github* sebagai parameternya. Tugas Anda yaitu membuat kolom baru bernama `github_profile` yang merupakan *link* profil *github* dari peserta.

Diketahui bahwa profil *github* mereka merupakan gabungan dari `first_name` dan `last_name` yang sudah **lowercase**

In [9]:
df['github_profile'] = 'https://github.com/' + df['first_name'].str.lower() + df['last_name'].str.lower()

In [10]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti


## Transform Part 4 - Nomor Handphone

Jika kita lihat kembali, ternyata nomor *handphone* yang ada pada data *csv* kita memiliki format yang berbeda-beda. Maka dari itu, kita perlu untuk melakukan *cleansing* pada data nomor *handphone* agar memiliki format yang sama. Anda sebagai Data Engineer diberi *privilege* untuk menentukan format nomor handphone yang benar. Pada kasus ini mari kita samakan formatnya dengan aturan:
1. Jika awalan nomor HP berupa angka `62` atau `+62` yang merupakan kode telepon Indonesia, maka diterjemahkan ke `0`.
2. Tidak ada tanda baca seperti kurung buka, kurung tutup, strip‚ü∂ `()-`.
3. Tidak ada spasi pada nomor HP nama kolom untuk menyimpan hasil cleansing pada nomor HP yaitu `cleaned_phone_number`.

In [11]:
# Memasukkan regex pada parameter pertama dari fungsi replace
df['cleaned_phone_number'] = df['phone_number'].str.replace(r'^(\+62|62)', '0')
df['cleaned_phone_number'] = df['cleaned_phone_number'].str.replace(r'[()-]', '')
df['cleaned_phone_number'] = df['cleaned_phone_number'].str.replace(r'\s+', '')

  df['cleaned_phone_number'] = df['phone_number'].str.replace(r'^(\+62|62)', '0')
  df['cleaned_phone_number'] = df['cleaned_phone_number'].str.replace(r'[()-]', '')
  df['cleaned_phone_number'] = df['cleaned_phone_number'].str.replace(r'\s+', '')


In [12]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835


## Transform Part 5 - Nama Tim

Dataset saat ini belum memuat nama tim, dan rupanya dari tim *Data Analyst* membutuhkan informasi terkait nama tim dari masing-masing peserta.

Diketahui bahwa nama tim merupakan gabungan nilai dari kolom `first_name`, `last_name`, `country`, dan `institute`.

Tugas Anda yakni buatlah kolom baru dengan nama `team_name` yang memuat informasi nama tim dari peserta.

In [13]:
def team_name(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) # Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) # Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name, country, abbrev_institute)

df['team_name'] = df.apply(team_name, axis=1)

In [14]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756,SR-Eritrea-PTY
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835,VA-Aljazair-PHR


## Transform Part 6 - Email

Setelah dilihat kembali dari data peserta yang dimiliki, ternyata ada satu informasi yang penting namun belum tersedia, yaitu *email*.

Anda sebagai Data Engineer diminta untuk menyediakan informasi *email* dari peserta dengan aturan bahwa format *email* sebagai berikut:

Format email:
xxyy@aa.bb.[ac/com].[cc]

Keterangan:
- xx -> nama depan (first_name) dalam lowercase
- yy -> nama belakang (last_name) dalam lowercase
- aa -> nama institusi

Untuk nilai bb, dan cc mengikuti nilai dari aa. Aturannya:
- Jika institusi nya merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .ac yang menandakan akademi/institusi belajar dan diikuti dengan pattern cc
- Jika institusi bukan merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .com. Perlu diketahui bahwa pattern cc tidak berlaku pada kondisi ini

cc -> merupakan negara asal peserta, adapun aturannya:
- Jika banyaknya kata pada negara tersebut lebih dari 1 maka ambil singkatan dari negara tersebut dalam *lowercase*.
- Namun, jika banyaknya kata hanya 1 maka ambil 3 huruf terdepan dari negara tersebut dalam *lowercase*.

Contoh:
  - Nama depan: Citra
  - Nama belakang: Nurdiyanti
  - Institusi: UD Prakasa Mandasari
  - Negara: Georgia
  - Maka, Email nya: citranurdiyanti@upm.geo
  -----------------------------------
  - Nama depan: Aris
  - Nama belakang: Setiawan
  - Institusi: Universitas Diponegoro
  - Negara: Korea Utara
  - Maka, Email nya: arissetiawan@ud.ac.ku

In [15]:
def email(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) # Singkatan dari nama perusahaan dalam lowercase

    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1: # Kondisi untuk mengecek apakah jumlah kata dari country lebih dari 1
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower, last_name_lower, institute, country)

    return "%s%s@%s.com"%(first_name_lower, last_name_lower, institute)

df['email'] = df.apply(email, axis=1)

In [16]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name,email
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,05 Feb 1991,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM,citranurdiyanti@upm.com
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,11 Jan 1993,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD,arissetiawan@ud.ac.ku
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,31 Jul 1993,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP,corneliahandayani@uhp.com
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,04 Nov 1991,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756,SR-Eritrea-PTY,solehrajasa@pty.com
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,22 Jan 2003,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835,VA-Aljazair-PHR,viviastuti@phr.com


## Transform Part 7 - Tanggal Lahir

MySQL merupakan salah satu database yang sangat populer dan digunakan untuk menyimpan data berupa tabel, termasuk data hasil pengolahan yang sudah kita lakukan ini nantinya bisa dimasukkan ke MySQL.

Meskipun begitu, ada suatu aturan dari MySQL terkait format tanggal yang bisa mereka terima yaitu YYYY-MM-DD dengan keterangan:

- YYYY: 4 digit yang menandakan tahun
- MM: 2 digit yang menandakan bulan
- DD: 2 digit yang menandakan tanggal

Contohnya yaitu: 2021-04-07

Jika kita lihat kembali pada kolom tanggal lahir terlihat bahwa nilainya belum sesuai dengan format `DATE` dari MySQL

(Lihat lebih detail di [sini](https://www.mysqltutorial.org/mysql-date/).).

Oleh karena itu, lakukanlah formatting terhadap kolom `birth_date` menjadi YYYY-MM-DD dan simpan di kolom yang sama.

In [17]:
def birth_date(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split())))
    
    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1:
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower, last_name_lower, institute, country)
        
    return "%s%s@%s.com"%(first_name_lower, last_name_lower, institute)
    
df['email'] = df.apply(birth_date, axis=1)


df['birth_date'] = pd.to_datetime(df['birth_date'], format='%d %b %Y')

In [18]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name,email
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,1991-02-05,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM,citranurdiyanti@upm.com
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,1993-01-11,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD,arissetiawan@ud.ac.ku
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,1993-07-31,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP,corneliahandayani@uhp.com
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,1991-11-04,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756,SR-Eritrea-PTY,solehrajasa@pty.com
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,2003-01-22,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835,VA-Aljazair-PHR,viviastuti@phr.com


## Transform Part 8 - Tanggal Daftar Kompetisi

Selain punya aturan mengenai format `DATE`, MySQL juga memberi aturan pada data yang bertipe `DATETIME` yaitu YYYY-MM-DD HH:mm:ss dengan keterangan:

- YYYY: 4 digit yang menandakan tahun
- MM: 2 digit yang menandakan bulan
- DD: 2 digit yang menandakan tanggal
- HH: 2 digit yang menandakan jam
- mm: 2 digit yang menandakan menit
- ss: 2 digit yang menandakan detik

Contohnya yaitu: 2021-04-07 15:10:55

Karena data kita mengenai waktu registrasi peserta (`register_time`) belum sesuai format yang seharusnya.

Maka dari itu, tugas Anda yaitu untuk merubah `register_time` ke format `DATETIME` sesuai dengan aturan dari MySQL.

Simpanlah hasil tersebut ke kolom `register_at`.

In [19]:
df['register_at'] = pd.to_datetime(df['register_time'], unit='s')

In [20]:
df.head()

Unnamed: 0,participant_id,first_name,last_name,birth_date,address,phone_number,country,institute,occupation,register_time,postal_code,city,github_profile,cleaned_phone_number,team_name,email,register_at
0,bd9b6f88-b84f-4c4d-90f8-b67fe2f1a29a,Citra,Nurdiyanti,1991-02-05,"Gg. Monginsidi No. 08\nMedan, Aceh 80734",(0151) 081 2706,Georgia,UD Prakasa Mandasari,Business Intelligence Engineer,1617634000.0,80734,Medan,https://github.com/citranurdiyanti,1510812706,CN-Georgia-UPM,citranurdiyanti@upm.com,2021-04-05 14:47:26
1,7dfe3391-6f40-47b6-b4db-0c76ebaf5fc3,Aris,Setiawan,1993-01-11,"Gg. Rajawali Timur No. 7\nPrabumulih, MA 09434",+62 (036) 461 7027,Korea Utara,Universitas Diponegoro,Frontend Engineer,1617634000.0,9434,Prabumulih,https://github.com/arissetiawan,364617027,AS-Korea Utara-UD,arissetiawan@ud.ac.ku,2021-04-05 14:46:58
2,19582d7f-b824-4fe5-a517-d5bf573fc768,Cornelia,Handayani,1993-07-31,"Jalan Kebonjati No. 0\nAmbon, SS 57739",089 833 6695,Komoro,UD Hardiansyah Puspasari,Business Analyst,1617634000.0,57739,Ambon,https://github.com/corneliahandayani,898336695,CH-Komoro-UHP,corneliahandayani@uhp.com,2021-04-05 14:47:15
3,aeb6d817-25f3-4867-8a74-8d92e0a0f633,Soleh,Rajasa,1991-11-04,"Jl. Yos Sudarso No. 109\nLubuklinggau, SR 76156",+62 (418) 329-4756,Eritrea,Perum Tampubolon Yuliarti,DevOps Engineer,1617634000.0,76156,Lubuklinggau,https://github.com/solehrajasa,4183294756,SR-Eritrea-PTY,solehrajasa@pty.com,2021-04-05 14:47:14
4,1fdabdd9-5444-4c97-87b2-fe8833ad0d27,Vivi,Astuti,2003-01-22,"Jalan Gardujati No. 53\nKediri, Sulawesi Tenga...",0812511835,Aljazair,PT Hardiansyah Rahimah,Data Analyst,1617634000.0,70074,Kediri,https://github.com/viviastuti,812511835,VA-Aljazair-PHR,viviastuti@phr.com,2021-04-05 14:46:50


# Load

Pada bagian load ini, data yang sudah ditransformasi sedemikian rupa sehingga sesuai dengan kebutuhan tim analyst dimasukkan kembali ke database yaitu *Data Warehouse (DWH)*. Biasanya, dilakukan pendefinisian skema database terlebih dahulu seperti:

1. Nama kolom
2. Tipe kolom
3. Apakah *primary key*, *unique key*, *index* atau bukan
4. Panjang kolomnya

Karena umumnya *Data Warehouse* merupakan database yang terstruktur sehingga mereka memerlukan skema sebelum datanya dimasukkan.

Pandas sudah menyediakan fungsi untuk memasukkan data ke database yaitu `to_sql()`.

Detail dari fungsi tersebut bisa dilihat pada dokumentasi Pandas: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html