# HOMEWORK ETL with Python
#INDRA RAHMAWAN

#Web Scraping (Extract Process)

In [49]:
import pandas as pd
import logging

logging.basicConfig(level=logging.INFO)

In [50]:
url =  "https://id.wikipedia.org/wiki/Daftar_miliarder_Forbes"

In [51]:
def scrape(url):
  logging.info(f"Scraping website with url: '{url}' ...")
  return pd.read_html(url, header=None)

In [52]:
df = scrape(url)[1]

INFO:root:Scraping website with url: 'https://id.wikipedia.org/wiki/Daftar_miliarder_Forbes' ...


In [53]:
df

Unnamed: 0,No.,Nama,Kekayaan bersih (USD),Usia,Kebangsaan,Sumber kekayaan
0,,Jeff Bezos,$177 miliar,57,Amerika Serikat,Amazon
1,,Elon Musk,$151 miliar,49,Amerika Serikat,"Tesla, SpaceX"
2,,Bernard Arnault & keluarga,$150 miliar,72,Prancis,LVMH
3,,Bill Gates,$124 miliar,65,Amerika Serikat,Microsoft
4,,Mark Zuckerberg,$97 miliar,36,Amerika Serikat,Meta Platforms
5,,Warren Buffett,$96 miliar,90,Amerika Serikat,Berkshire Hathaway
6,,Larry Ellison,$93 miliar,76,Amerika Serikat,Oracle Corporation
7,,Larry Page,$91.5 miliar,48,Amerika Serikat,Alphabet Inc.
8,,Sergey Brin,$89 miliar,47,Amerika Serikat,Alphabet Inc.
9,,Mukesh Ambani,$84.5 miliar,63,India,Reliance Industries


#Data Cleaning (Transform Process)

In [54]:
import re

In [55]:
def is_money_miliar(string_money):
    # akan return True jika terdeteksi data yang berakhiran miliar
    return string_money.lower().endswith("miliar")

In [56]:
def transform_money_format(string_money):
    # mengganti koma menjadi titik dan menghilangkan spasi
    half_clean_string = string_money.lower().replace("$","").replace(" ", "")
    # mendeteksi string M atau miliar dan J atau juta dan menggantinya dengan string kosong
    return re.sub(r"[?\[M\]miliar|\[J\]juta]", "", half_clean_string)

In [57]:
def transform(df, tahun):
    logging.info("Transforming DataFrame ...")

    columns_mapping = {
        "No.": "nomor",
        "Nama": "nama",
        "Kekayaan bersih (USD)": "kekayaan_bersih_usd",
        "Usia" : "usia",
        "Kebangsaan": "kebangsaan",
        "Sumber kekayaan" : "sumber_kekayaan"
    }

    # mengganti nama2 column sebelumnya sesuai kebutuhan
    renamed_df = df.rename(columns=columns_mapping)

    # menambahkan column tahun dan memberinya value yang berasal dari parameter tahun
    renamed_df["tahun"] = tahun
    
    # Memberi nilai pada kekayaan_bersih_usd_juta dgn percabangan if else
    # Jika terdeteksi string miliar (is_money_miliar), maka dikali 1000 dan string miliar atau juta dihilangkan
    # Jika tidak, maka hanya menghilangkan string juta saja
    renamed_df["kekayaan_bersih_usd_juta"] = renamed_df["kekayaan_bersih_usd"].apply(
        lambda value: float(transform_money_format(value)) * 1000 if is_money_miliar(value) else float(transform_money_format(value))
    )

    return renamed_df[["nomor", "nama", "kekayaan_bersih_usd_juta", "usia", "kebangsaan","sumber_kekayaan", "tahun"]]

In [58]:
df_2021 = transform(df, 2021)

INFO:root:Transforming DataFrame ...


In [59]:
df_2021

Unnamed: 0,nomor,nama,kekayaan_bersih_usd_juta,usia,kebangsaan,sumber_kekayaan,tahun
0,,Jeff Bezos,177000.0,57,Amerika Serikat,Amazon,2021
1,,Elon Musk,151000.0,49,Amerika Serikat,"Tesla, SpaceX",2021
2,,Bernard Arnault & keluarga,150000.0,72,Prancis,LVMH,2021
3,,Bill Gates,124000.0,65,Amerika Serikat,Microsoft,2021
4,,Mark Zuckerberg,97000.0,36,Amerika Serikat,Meta Platforms,2021
5,,Warren Buffett,96000.0,90,Amerika Serikat,Berkshire Hathaway,2021
6,,Larry Ellison,93000.0,76,Amerika Serikat,Oracle Corporation,2021
7,,Larry Page,91500.0,48,Amerika Serikat,Alphabet Inc.,2021
8,,Sergey Brin,89000.0,47,Amerika Serikat,Alphabet Inc.,2021
9,,Mukesh Ambani,84500.0,63,India,Reliance Industries,2021


In [60]:
df_2021_fix = df_2021.insert(0, 'nomor_urut', range(1, 1 + len(df)))

df_2021_fix = df_2021.drop(['nomor'], axis=1)

In [61]:
df_2021_fix

Unnamed: 0,nomor_urut,nama,kekayaan_bersih_usd_juta,usia,kebangsaan,sumber_kekayaan,tahun
0,1,Jeff Bezos,177000.0,57,Amerika Serikat,Amazon,2021
1,2,Elon Musk,151000.0,49,Amerika Serikat,"Tesla, SpaceX",2021
2,3,Bernard Arnault & keluarga,150000.0,72,Prancis,LVMH,2021
3,4,Bill Gates,124000.0,65,Amerika Serikat,Microsoft,2021
4,5,Mark Zuckerberg,97000.0,36,Amerika Serikat,Meta Platforms,2021
5,6,Warren Buffett,96000.0,90,Amerika Serikat,Berkshire Hathaway,2021
6,7,Larry Ellison,93000.0,76,Amerika Serikat,Oracle Corporation,2021
7,8,Larry Page,91500.0,48,Amerika Serikat,Alphabet Inc.,2021
8,9,Sergey Brin,89000.0,47,Amerika Serikat,Alphabet Inc.,2021
9,10,Mukesh Ambani,84500.0,63,India,Reliance Industries,2021


#Storing DataFrame to Database (Load Process)

In [62]:
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.3-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[?25l[K     |                                | 10 kB 21.6 MB/s eta 0:00:01[K     |▏                               | 20 kB 26.6 MB/s eta 0:00:01[K     |▎                               | 30 kB 31.4 MB/s eta 0:00:01[K     |▍                               | 40 kB 30.6 MB/s eta 0:00:01[K     |▌                               | 51 kB 22.7 MB/s eta 0:00:01[K     |▋                               | 61 kB 25.6 MB/s eta 0:00:01[K     |▊                               | 71 kB 25.4 MB/s eta 0:00:01[K     |▉                               | 81 kB 26.4 MB/s eta 0:00:01[K     |█                               | 92 kB 28.3 MB/s eta 0:00:01[K     |█                               | 102 kB 27.7 MB/s eta 0:00:01[K     |█▏                              | 112 kB 27.7 MB/s eta 0:00:01[K     |█▎                              | 122 kB 27.7 MB/s eta 0:00:01[K     

In [63]:
from sqlalchemy import create_engine

In [66]:
DB_NAME = "postgres"
DB_USER = "user1"
DB_PASSWORD = "user1"
DB_HOST = "104.197.148.144"
DB_PORT = "5432"
CONNECTION_STRING = f"postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
TABLE_NAME = "IndraRahmawan_orang_terkaya_forbes"

In [67]:
CONNECTION_STRING

'postgresql://user1:user1@104.197.148.144:5432/postgres'

In [68]:
def write_to_postgres(df, db_name, table_name, connection_string):
    engine = create_engine(connection_string)
    logging.info(f"Writing dataframe to database: '{db_name}', table: '{table_name}' ...")
    df.to_sql(name = table_name, con=engine, if_exists="replace", index=False)

In [69]:
write_to_postgres(df=df_2021_fix, db_name=DB_NAME, table_name=TABLE_NAME, connection_string=CONNECTION_STRING)

INFO:root:Writing dataframe to database: 'postgres', table: 'IndraRahmawan_orang_terkaya_forbes' ...


#Read Data From Database

In [70]:
def read_from_postgres(db_name, table_name, connection_string):
    engine = create_engine(connection_string)

    logging.info(f"Reading postgres database: '{db_name}', table: '{table_name}' ...")
    return pd.read_sql_table(table_name, con=engine)

In [71]:
result_df = read_from_postgres(db_name=DB_NAME, table_name=TABLE_NAME, connection_string=CONNECTION_STRING)

INFO:root:Reading postgres database: 'postgres', table: 'IndraRahmawan_orang_terkaya_forbes' ...


In [72]:
print("Daftar Orang Terkaya Forbes:")
print(result_df.to_string())

Daftar Orang Terkaya Forbes:
   nomor_urut                        nama  kekayaan_bersih_usd_juta  usia       kebangsaan      sumber_kekayaan  tahun
0           1                  Jeff Bezos                  177000.0    57  Amerika Serikat               Amazon   2021
1           2                   Elon Musk                  151000.0    49  Amerika Serikat        Tesla, SpaceX   2021
2           3  Bernard Arnault & keluarga                  150000.0    72          Prancis                 LVMH   2021
3           4                  Bill Gates                  124000.0    65  Amerika Serikat            Microsoft   2021
4           5             Mark Zuckerberg                   97000.0    36  Amerika Serikat       Meta Platforms   2021
5           6              Warren Buffett                   96000.0    90  Amerika Serikat   Berkshire Hathaway   2021
6           7               Larry Ellison                   93000.0    76  Amerika Serikat   Oracle Corporation   2021
7           8      