## Web Scraping

In [1]:
import pandas as pd
import logging #untuk menampilkan log di terminal

logging.basicConfig(level=logging.INFO)

In [2]:
url =  "https://id.wikipedia.org/wiki/Daftar_orang_terkaya_di_Indonesia"

In [3]:
def scrape(url):
    logging.info(f"Scraping website with url: '{url}' ...")
    return pd.read_html(url, header=None)

    #header = none artinya tidak ada scenario yang dikhususkan, artinya none ini brarti headernya langsung ambil di web

In [4]:
dfs = scrape(url)[7] #7 adalah index, jadi nanti ngmabil data yang 2020

INFO:root:Scraping website with url: 'https://id.wikipedia.org/wiki/Daftar_orang_terkaya_di_Indonesia' ...


In [5]:
dfs

Unnamed: 0,Nomor Urut,Nama,Perusahaan,Kekayaan Bersih (US$)
0,1,Robert Budi Hartono dan Michael Bambang Hartono,Djarum,38.8 miliar
1,2,Widjaja family,Sinar Mas Group,11.9 miliar
2,3,Prajogo Pangestu,Barito Pacific,6 miliar
3,4,Anthony Salim,Salim Group,5.9 miliar
4,5,Sri Prakash Lohia,Indorama Corporation,"5,6 miliar"
5,6,Susilo Wonowidjojo,Gudang Garam,5.3 miliar
6,7,Jogi Hendra Atmadja,Mayora Indah,4.3 miliar
7,8,Boenjamin Setiawan,Kalbe Farma,4.1 miliar
8,9,Chairul Tanjung,CT Corp,3.9 miliar
9,10,Tahir,Mayapada Group,3.3 miliar


In [6]:
dfs.head()

Unnamed: 0,Nomor Urut,Nama,Perusahaan,Kekayaan Bersih (US$)
0,1,Robert Budi Hartono dan Michael Bambang Hartono,Djarum,38.8 miliar
1,2,Widjaja family,Sinar Mas Group,11.9 miliar
2,3,Prajogo Pangestu,Barito Pacific,6 miliar
3,4,Anthony Salim,Salim Group,5.9 miliar
4,5,Sri Prakash Lohia,Indorama Corporation,"5,6 miliar"


### Practice
Lakukan Web scraping pandas read_html seperti diatas

# Cleaning Data


In [7]:
import re #ini regex

In [8]:
def is_money_miliar(string_money):
    return string_money.lower().endswith("miliar") #untuk detect yang akhirannya miliar

In [9]:
def transform_money_format(string_money):
  #mengganti koma jadi titik dan menghilangkan spasi
    half_clean_string = string_money.lower().replace(",", ".").replace(" ", "")
    # mendeteksi string M atau miliar dan J atau juta dan mengganti dengan string kosong
    return re.sub(r"[?\[M\]miliar|\[J\]juta]", "", half_clean_string) #re.sub adalah fungsi untuk search and replace

In [10]:
#transform dataframe

def transform(df, tahun):
    logging.info("Transforming DataFrame ...")

    columns_mapping = {
        "Nomor Urut": "nomor_urut",
        "Nama": "nama",
        "Perusahaan": "perusahaan",
        "Kekayaan Bersih (US$)": "kekayaan_bersih_usd"
    }

#mengganti nama column sebelumnya sesuai kebutuhan
    renamed_df = df.rename(columns=columns_mapping)

#menambhakan colom tahun dan memberinya value yang berasal dari parameter tahun
    renamed_df["tahun"] = tahun

#memberi nilai pada kekayaan_bersih_usd_juta dgn percabangan if else
#jika kedetect string miliar (is money miliar), maka dikali 1000 dan string "miliar" atau "juta" dihilangkan
#jika tidak maka meghilangkan string "juta" saja
    renamed_df["kekayaan_bersih_usd_juta"] = renamed_df["kekayaan_bersih_usd"].apply(
        lambda value: float(transform_money_format(value)) * 1000 if is_money_miliar(value) else float(transform_money_format(value))
    )

    return renamed_df[["nomor_urut", "tahun", "nama", "perusahaan", "kekayaan_bersih_usd_juta"]]

In [11]:
df_2020 = transform(dfs, 2020)

INFO:root:Transforming DataFrame ...


In [12]:
df_2020

Unnamed: 0,nomor_urut,tahun,nama,perusahaan,kekayaan_bersih_usd_juta
0,1,2020,Robert Budi Hartono dan Michael Bambang Hartono,Djarum,38800.0
1,2,2020,Widjaja family,Sinar Mas Group,11900.0
2,3,2020,Prajogo Pangestu,Barito Pacific,6000.0
3,4,2020,Anthony Salim,Salim Group,5900.0
4,5,2020,Sri Prakash Lohia,Indorama Corporation,5600.0
5,6,2020,Susilo Wonowidjojo,Gudang Garam,5300.0
6,7,2020,Jogi Hendra Atmadja,Mayora Indah,4300.0
7,8,2020,Boenjamin Setiawan,Kalbe Farma,4100.0
8,9,2020,Chairul Tanjung,CT Corp,3900.0
9,10,2020,Tahir,Mayapada Group,3300.0


### Practice
Lakukan Cleaning Data seperti diatas

# Storing Data to Database

In [13]:
pip install psycopg2-binary==2.8.6

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting psycopg2-binary==2.8.6
  Downloading psycopg2_binary-2.8.6-cp37-cp37m-manylinux1_x86_64.whl (3.0 MB)
[K     |████████████████████████████████| 3.0 MB 4.3 MB/s 
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.8.6


In [14]:
from sqlalchemy import create_engine

In [19]:
DB_NAME = "postgres"
DB_USER = "xxxxx"
DB_PASSWORD = "xxxxx"
DB_HOST = "34.xxx.xx.xx"
DB_PORT = "5xxx"
CONNECTION_STRING = f"postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}" #urutannya harus spt ini
TABLE_NAME = "orang_terkaya_indonesia_shofa"

In [20]:
CONNECTION_STRING

'postgresql://user1:user1@34.171.63.89:5432/postgres'

In [21]:
#menulis dataframe

def write_to_postgres(df, db_name, table_name, connection_string):
    engine = create_engine(connection_string)

    logging.info(f"Writing dataframe to database: '{db_name}', table: '{table_name}' ...")
    df.to_sql(name = table_name, con=engine, if_exists="replace", index=False) #ini untuk insert


In [22]:
write_to_postgres(df=df_2020, db_name=DB_NAME, table_name=TABLE_NAME, connection_string=CONNECTION_STRING)

#setelah ini maka table akan ke load ke DB, cek di dbeaver

INFO:root:Writing dataframe to database: 'postgres', table: 'orang_terkaya_indonesia_shofa' ...


### Practice
Storing Data ke PostgreSQL seperti diatas

# Read Data from Database

In [23]:
def read_from_postgres(db_name, table_name, connection_string):
    engine = create_engine(connection_string)

    logging.info(f"Reading postgres database: '{db_name}', table: '{table_name}' ...")
    return pd.read_sql_table(table_name, con=engine)

In [24]:
result_df = read_from_postgres(db_name=DB_NAME, table_name=TABLE_NAME, connection_string=CONNECTION_STRING)

INFO:root:Reading postgres database: 'postgres', table: 'orang_terkaya_indonesia_shofa' ...


In [25]:
print("Daftar Orang Terkaya di Indonesia:")
print(result_df.to_string())

#nanti hasilnya adalah tabel yang sudah di load ke database, ini ngebaca dari DB ya :D

Daftar Orang Terkaya di Indonesia:
    nomor_urut  tahun                                             nama                 perusahaan  kekayaan_bersih_usd_juta
0            1   2020  Robert Budi Hartono dan Michael Bambang Hartono                     Djarum                   38800.0
1            2   2020                                   Widjaja family            Sinar Mas Group                   11900.0
2            3   2020                                 Prajogo Pangestu             Barito Pacific                    6000.0
3            4   2020                                    Anthony Salim                Salim Group                    5900.0
4            5   2020                                Sri Prakash Lohia       Indorama Corporation                    5600.0
5            6   2020                               Susilo Wonowidjojo               Gudang Garam                    5300.0
6            7   2020                              Jogi Hendra Atmadja               Mayora Indah

### Practice
Read Data dari PostgreSQL seperti diatas

# Unittest

In [None]:
import unittest

class TestTransformer(unittest.TestCase):
    def test_is_money_miliar_when_string_money_contains_miliar(self):
        string_money = "35.5 miliar"
        actual = is_money_miliar(string_money)

        self.assertTrue(string_money)
    
    
    def test_is_money_miliar_when_string_money_not_contains_miliar(self):
        string_money = "980 juta"
        actual = is_money_miliar(string_money)

        self.assertFalse(actual)
    
    
    def test_transform_money_format_when_money_is_juta(self):
        string_money = "980 Juta"
        actual = transform_money_format(string_money)

        self.assertEqual(actual, "980")
    

    def test_transform_money_format_when_money_is_miliar(self):
        string_money = "35.6 miliar"
        actual = transform_money_format(string_money)

        self.assertEqual(actual, "35.5")
    

    def test_transform_money_format_when_money_contains_comma(self):
        string_money = "35,5 miliar"
        actual = transform_money_format(string_money)

        self.assertEqual(actual, "35.5")

unittest.main(argv=[''], verbosity=2, exit=False)

### Practice
Lakukan Unittest seperti diatas