# ETL Simple Project Pandas

## Load data

In [1]:
import pandas as pd
df_participant = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/dqthon-participants.csv')

## Extract postal code and city from address

In [3]:
df_participant['postal_code'] = df_participant['address'].str.extract(r'(\d+)$') #Masukkan regex Anda didalam fungsi extract

#Masukkan regex Anda didalam fungsi extract
df_participant['city'] = df_participant['address'].str.extract(r'(?<=\n)(\w.+)(?=,)')

## Transform github profile

In [5]:
df_participant['github_profile'] = 'https://github.com/' + df_participant['first_name'].str.lower() + df_participant['last_name'].str.lower()
df_participant['github_profile']

0         https://github.com/citranurdiyanti
1            https://github.com/arissetiawan
2       https://github.com/corneliahandayani
3             https://github.com/solehrajasa
4              https://github.com/viviastuti
                        ...                 
4995        https://github.com/mitralatupono
4996       https://github.com/indahrahmawati
4997        https://github.com/irsadnajmudin
4998        https://github.com/carlanasyidah
4999       https://github.com/darmanamaryadi
Name: github_profile, Length: 5000, dtype: object

## Phone number transform
1. Change +62 to 0
2. Remove (),-
3. Remove space

In [6]:
#Masukkan regex anda pada parameter pertama dari fungsi replace
df_participant['cleaned_phone_number'] = df_participant['phone_number'].str.replace(r'^(\+62|62)', '0')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'[()-]', '')
df_participant['cleaned_phone_number'] = df_participant['cleaned_phone_number'].str.replace(r'\s+', '')
df_participant['cleaned_phone_number']

  
  This is separate from the ipykernel package so we can avoid doing imports until
  after removing the cwd from sys.path.


0        01510812706
1        00364617027
2         0898336695
3        04183294756
4         0812511835
            ...     
4995     00507958398
4996    004439630055
4997    004082167689
4998    007513803352
4999     00664148791
Name: cleaned_phone_number, Length: 5000, dtype: object

## Team Name transform

In [7]:
def func(col):
    abbrev_name = "%s%s"%(col['first_name'][0],col['last_name'][0]) #Singkatan dari Nama Depan dan Nama Belakang dengan mengambil huruf pertama
    country = col['country']
    abbrev_institute = '%s'%(''.join(list(map(lambda word: word[0], col['institute'].split())))) #Singkatan dari value di kolom institute
    return "%s-%s-%s"%(abbrev_name,country,abbrev_institute)

df_participant['team_name'] = df_participant.apply(func, axis=1)
df_participant['team_name'].head()


0       CN-Georgia-UPM
1    AS-Korea Utara-UD
2        CH-Komoro-UHP
3       SR-Eritrea-PTY
4      VA-Aljazair-PHR
Name: team_name, dtype: object

## Email Transform
Format email:
xxyy@aa.bb.[ac/com].[cc]

Keterangan:
xx -> nama depan (first_name) dalam lowercase
yy -> nama belakang (last_name) dalam lowercase
aa -> nama institusi

Untuk nilai bb, dan cc mengikuti nilai dari aa. Aturannya:
- Jika institusi nya merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .ac yang menandakan akademi/institusi belajar dan diikuti dengan pattern cc
- Jika institusi bukan merupakan Universitas, maka
  bb -> gabungan dari huruf pertama pada setiap kata dari nama Universitas dalam lowercase
  Kemudian, diikuti dengan .com. Perlu diketahui bahwa pattern cc tidak berlaku pada kondisi ini

cc -> merupakan negara asal peserta, adapun aturannya:
- Jika banyaknya kata pada negara tersebut lebih dari 1 maka ambil singkatan dari negara tersebut dalam lowercase
- Namun, jika banyaknya kata hanya 1 maka ambil 3 huruf terdepan dari negara tersebut dalam lowercase

In [8]:
def func(col):
    first_name_lower = col['first_name'].lower()
    last_name_lower = col['last_name'].lower()
    institute = ''.join(list(map(lambda word: word[0], col['institute'].lower().split()))) #Singkatan dari nama perusahaan dalam lowercase

    if 'Universitas' in col['institute']:
        if len(col['country'].split()) > 1: #Kondisi untuk mengecek apakah jumlah kata dari country lebih dari 1
            country = ''.join(list(map(lambda word: word[0], col['country'].lower().split())))
        else:
            country = col['country'][:3].lower()
        return "%s%s@%s.ac.%s"%(first_name_lower,last_name_lower,institute,country)

    return "%s%s@%s.com"%(first_name_lower,last_name_lower,institute)

df_participant['email'] = df_participant.apply(func, axis=1)

In [10]:
df_participant['email'].head()

0      citranurdiyanti@upm.com
1        arissetiawan@ud.ac.ku
2    corneliahandayani@uhp.com
3          solehrajasa@pty.com
4           viviastuti@phr.com
Name: email, dtype: object

## Birthdate transform
Change format from birthdate

In [11]:
df_participant['birth_date'] = pd.to_datetime(df_participant['birth_date'], format='%d %b %Y')

## Register Date Transform

In [13]:
df_participant['register_at'] = pd.to_datetime(df_participant['register_time'], unit='s') #unit s untuk dalam waktu second
df_participant[['birth_date','register_at']].head()

Unnamed: 0,birth_date,register_at
0,1991-02-05,2021-04-05 14:47:26
1,1993-01-11,2021-04-05 14:46:58
2,1993-07-31,2021-04-05 14:47:15
3,1991-11-04,2021-04-05 14:47:14
4,2003-01-22,2021-04-05 14:46:50
