## Web Scrapping Tiket.com
**Tiket.com** adalah website resmi dari luar negeri yan menyediakan banyak sekali reservasi hotel, tiket wisata, tiket pesawat atau transportasi, dan lainnya. Namun, kali ini akan terfokus pada reservasi Hotel.


# Case Study
Adapun data yang saya gunakan nantinya untuk pengambilan scrapping, sekaligus penggunaannya di real life dan manfaat di Postgresql bagaimana:

- **Jenis data** : Nama Hotel/Vila/Apartment, Reviewnya berapa banyak, Rating dari suatu properties Hotel/Apartmenet/Villa bagaiamana, Alamatnya dimana secara spesifik, dan Harga baik itu sebelum dan sesudah diskon.
- **Penggunaan dunia nyata** :
  
  a) Data ini dapat digunakan untuk aplikasi pemesanan hotel yang memungkinkan pengguna memilih penginapan berdasarkan preferensi harga, lokasi, atau fasilitas yang tersedia. Aplikasi/website ini dapat memberikan rekomendasi kepada pengguna berdasarkan ulasan atau rating hotel. Sehingga, user dapat mempertimbangkan penginapan yang akan direservasi berdasarkan ratingnya atau kondisi harganya, atau lokasi terdekatnya.
  
  b) Untuk perusahaan -> untuk mengoptimalkan harga penginapan, berdasarkan analisis tren permintaan dan harga pesaing, atau tingkat daya tampungnya secara historis, sehingga dapat merencanakan harga yang berubah-ubah untuk waktu-waktu tertentu, seperti musim liburan atau hari kerja biasa atau event-event tertentu.
  
  c) Dapat digunakan untuk rancangan promosi tertentu berdasarkan preferensi dan kebiasaan user.

  
- **Manfaat di PostgreSQL** :

  a) Database PostgreSQL dapat digunakan untuk mengelola data hotel secara efisien, memungkinkan pencarian cepat berdasarkan filter seperti harga, rating, atau lokasi.
  
  b) Selain itu, dapat memudahkan analisis tentang tren harga atau tingkat okupansi hotel.
  
  c) PostgresQL mampu menangani data besar, terutama data penginapan ini yang pastinya cukup besar sekali datanya, karena datanya bisa update secara historis (misalkan: setiap rentang tertentu ada update harga atau penambahan penginapan baru, dan lainnya). Bahkan, juga terdapat historis penginapan yang mencakup beberapa tahun atau data dari berbagai cabang atau jaringan hotel.
  
  d) Data penginapan sangat penting untuk proses pemesanan dan pengalaman pengguna, PostgreSQL memberikan fitur keamanan yang kuat.
  
  e) Dalam hal relasional database, data penginapan bisa terhubung dengan data lainnya, seperti data pengguna, pemesanan, dan ulasan, ataupun lainnya.

  f) Dengan PostgreSQL, data penginapan dapat disimpan secara terstruktur dan dapat di-query dengan cepat.


## Library Scrapping

In [None]:
!pip install selenium



In [None]:
# import library yang dibutuhkan
import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver
import pandas as pd
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
import os
pd.options.display.max_colwidth = 300

## Konfigurasi Scrapping

In [None]:
url_tiket = "https://www.tiket.com/hotel/"  # Ganti URL dengan URL sebenarnya

In [None]:
# jika running di local, maka code option dibawah ini ga perlu di running lagi, cukup 1x diatas saja
option = webdriver.ChromeOptions()
option.add_argument("--start-maximized")

tiket_hotel = webdriver.Chrome(options=option)
tiket_hotel.get(url_tiket)
# Membuat objek BeautifulSoup dari konten HTML
soup = BeautifulSoup(tiket_hotel.page_source, "html.parser")

## Scrapping Tiket
Pada **Tiket.com** akan dilakukan scrapping terkait Judul hotel reservasi, ulasan/rating, jumlah review, alamat, harga sebelum fiksasi, dan harga setelah fiksasi.

## Title/Judul Hotel Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
titles= []
for container in divvv_container:
    review = container.find('h2', attrs ={ 'class': "product-name_product_name__TCQ_N Text_text__PMNQZ Text_size_b2__H27gp"})
    if review:

        titles.append(review.text.strip())
# Membuat dataframe dari list judul
df_tiket_title = pd.DataFrame({'Nama Hotel/Villa': titles})
print('total properties yang didapat : ', len(df_tiket_title)) #validation data
# Menampilkan dataframe
df_tiket_title.head(500)

total properties yang didapat :  44


Unnamed: 0,Nama Hotel/Villa
0,Golden Tulip Essential Tangerang
1,Novotel Tangerang
2,"VIVERE Hotel, ARTOTEL Curated"
3,Episode Gading Serpong
4,Atria Hotel Gading Serpong
5,Padina Soho and Residence
6,Potato Head Suites & Studios
7,The Capital Hotel and Resort Seminyak
8,Svarna Suite Seminyak
9,Lloyds Inn Bali


## Alamat Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
alamat= []
for container in divvv_container:
    address = container.find('span', attrs ={ 'class': "product-info_info_text__Bdfaq"})
    if address:

        alamat.append(address.text.strip())
# Membuat dataframe dari list judul
df_tiket_alamat = pd.DataFrame({'Alamat': alamat})
print('total properties yang didapat : ', len(df_tiket_alamat)) #validation data
# Menampilkan dataframe
df_tiket_alamat.head(500)

total properties yang didapat :  44


Unnamed: 0,Alamat
0,"Tangerang, Tangerang"
1,"Tangerang, Tangerang"
2,"Medang, Tangerang"
3,"Gading Serpong, Tangerang"
4,"Curug, Tangerang"
5,"Batuceper, Tangerang"
6,"Seminyak, Badung"
7,"Seminyak, Badung"
8,"Seminyak, Badung"
9,"Seminyak, Badung"


## Rating Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
rating= []
for container in divvv_container:
    ratings = container.find('span', attrs ={ 'class': ""})
    if ratings:

        rating.append(ratings.text.strip())
# Membuat dataframe dari list judul
df_tiket_rating = pd.DataFrame({'Rating': rating})
print('total properties yang didapat : ', len(df_tiket_rating)) #validation data
# Menampilkan dataframe
df_tiket_rating.head(500)

total properties yang didapat :  44


Unnamed: 0,Rating
0,"4,3/5"
1,"4,5/5"
2,"4,7/5"
3,"4,7/5"
4,"4,4/5"
5,"4,5/5"
6,"4,8/5"
7,"4,3/5"
8,"4,3/5"
9,"4,4/5"


## Jumlah Review Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
review = []
for container in divvv_container:
    reviews = container.find('span', attrs ={ 'class': "product-info_review_count__im6ZN Text_text__PMNQZ"})
    if reviews:

        review.append(reviews.text.strip())
# Membuat dataframe dari list judul
df_tiket_review = pd.DataFrame({'Jumlah Review': review})
print('total properties yang didapat : ', len(df_tiket_review)) #validation data
# Menampilkan dataframe
df_tiket_review.head(500)

total properties yang didapat :  44


Unnamed: 0,Jumlah Review
0,1.5rb Review
1,681 Review
2,464 Review
3,1.7rb Review
4,1.6rb Review
5,318 Review
6,498 Review
7,727 Review
8,40 Review
9,828 Review


## Harga Sebelum Fiksasi Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
harga_asli = []
for container in divvv_container:
    harggaa = container.find('div', attrs ={ 'class': "Text_text__PMNQZ Text_variant_lowEmphasis__SpdCR Text_size_b3__xDIF_ Text_align_left__IbT8t"})
    if harggaa:

        harga_asli.append(harggaa.text.strip())
# Membuat dataframe dari list judul
df_tiket_harga_asli = pd.DataFrame({'Harga Asli Sebelum Diskon': harga_asli})
print('total properties yang didapat : ', len(df_tiket_harga_asli)) #validation data
# Menampilkan dataframe
df_tiket_harga_asli.head(500)

total properties yang didapat :  44


Unnamed: 0,Harga Asli Sebelum Diskon
0,
1,
2,
3,IDR 1.137.272
4,
5,IDR 699.637
6,IDR 4.535.536
7,
8,
9,IDR 1.637.405


# Fix Harga Scrapping

In [None]:
divvv_container = soup.findAll('div', attrs={'class':"ProductCard_content_container__46OfE"})
harga = []
for container in divvv_container:
    hargga = container.find('div', attrs ={ 'class': "Text_text__PMNQZ Text_variant_price__sQ_5O Text_size_b2__H27gp Text_align_left__IbT8t Text_weight_bold__ukOCJ"})
    if hargga:

        harga.append(hargga.text.strip())
# Membuat dataframe dari list judul
df_tiket_harga = pd.DataFrame({'Harga Fiksasi Setelah ada Diskon/Tidak': harga})
print('total properties yang didapat : ', len(df_tiket_harga)) #validation data
# Menampilkan dataframe
df_tiket_harga.head(500)

total properties yang didapat :  44


Unnamed: 0,Harga Fiksasi Setelah ada Diskon/Tidak
0,IDR 379.202
1,IDR 904.959
2,IDR 789.302
3,IDR 1.136.446
4,IDR 774.518
5,IDR 360.312
6,IDR 4.041.163
7,IDR 709.091
8,IDR 388.435
9,IDR 925.076


# Transformasi Data After Scrapping

## Penggabungan Dataframe Scrapping Tiket.com


In [None]:
df_tiketcom = pd.concat([df_tiket_title, df_tiket_alamat, df_tiket_rating, df_tiket_review, df_tiket_harga_asli, df_tiket_harga], axis=1)
print('total properties yang didapat : ', len(df_tiketcom))
df_tiketcom.head(100)

total properties yang didapat :  44


Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,,IDR 379.202
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,,IDR 904.959
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,,IDR 789.302
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,,IDR 774.518
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,,IDR 709.091
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,,IDR 388.435
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076


In [None]:
df_tiketcom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 6 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0   Nama Hotel/Villa                        44 non-null     object
 1   Alamat                                  44 non-null     object
 2   Rating                                  44 non-null     object
 3   Jumlah Review                           44 non-null     object
 4   Harga Asli Sebelum Diskon               44 non-null     object
 5   Harga Fiksasi Setelah ada Diskon/Tidak  44 non-null     object
dtypes: object(6)
memory usage: 2.2+ KB


## Pembersihan Data Teks

In [None]:
import re

### 1. Menambahkan Kata ', Bali' Pada Alamat yang terdapat Kata 'Villa dan Cabin'

In [None]:
df_tiketcom['Alamat'] = df_tiketcom['Alamat'].apply(lambda x: re.sub(r'\b(Villa|Cabin)\b', 'Bali', x))
df_tiketcom

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,,IDR 379.202
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,,IDR 904.959
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,,IDR 789.302
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,,IDR 774.518
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,,IDR 709.091
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,,IDR 388.435
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076


Pada data tersebut awalnya data baris ke 28 hingga 32 hanya bertuliskan Villa atau Cabin tidak ada spesifik merujuk pada
daerah tertentu, maka ketika saya cek penginapan-penginapan tersebut berada di Bali, maka saya melakukan fungsi `re.sub(r'\b(Villa|Cabin)\b', 'Bali', x)` untuk mengganti kata Cabin atau Villa menjadi **Bali**.

### 2. a) Memilih pada rating yaitu angka ratingnya saja

In [None]:
df_tiketcom['Angka Rating'] = df_tiketcom['Rating'].str.extract(r'^([\d,]+)')[0]
df_tiketcom['Angka Rating'] = df_tiketcom['Angka Rating'].str.replace(',', '.').astype(float)
df_tiketcom.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak,Angka Rating
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,,IDR 379.202,4.3
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,,IDR 904.959,4.5
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,,IDR 789.302,4.7
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446,4.7
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,,IDR 774.518,4.4
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312,4.5
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163,4.8
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,,IDR 709.091,4.3
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,,IDR 388.435,4.3
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076,4.4


In [None]:
df_tiketcom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 7 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   Nama Hotel/Villa                        44 non-null     object 
 1   Alamat                                  44 non-null     object 
 2   Rating                                  44 non-null     object 
 3   Jumlah Review                           44 non-null     object 
 4   Harga Asli Sebelum Diskon               44 non-null     object 
 5   Harga Fiksasi Setelah ada Diskon/Tidak  44 non-null     object 
 6   Angka Rating                            44 non-null     float64
dtypes: float64(1), object(6)
memory usage: 2.5+ KB


Pada kolom **'Rating'** masih bentuknya object atau string dan ingin mengextract dengan mengambil angka ratingnya saja, seperti 4,5/5 -> yang diambil adalah 4,5 (bentuk tipenya float). sehingga dengan menggunakan:
- Fungsi `str.extract(r'^([\d,]+)')[0]` akan mengambil angka sebelum tanda '/'.
- Fungsi `str.replace(',', '.').astype(float)` akan mengubah tipe data menjadi numerik.

Sehingga, pada kolom **'Angka Rating'** muncul output dari angka ratingnya saja.

### 2. b) Pada kolom review akan diextract ke numeriknya saja

In [None]:
def extract_review(review):
    import re
    match = re.match(r'([\d.]+)(rb)?', review) #untuk menangkap kata yang ada 'rb'
    if match:
        number = float(match.group(1))          # untuk angka float
        if match.group(2) == 'rb':             # Jika ada 'rb', kalikan 1000
            number *= 1000
        return number
    return None  # Jika tidak cocok, kembalikan None

# Terapkan fungsi ke kolom 'Review'
df_tiketcom['Total Review Fix'] = df_tiketcom['Jumlah Review'].apply(extract_review)
df_tiketcom.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak,Angka Rating,Total Review Fix
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,,IDR 379.202,4.3,1500.0
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,,IDR 904.959,4.5,681.0
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,,IDR 789.302,4.7,464.0
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446,4.7,1700.0
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,,IDR 774.518,4.4,1600.0
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312,4.5,318.0
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163,4.8,498.0
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,,IDR 709.091,4.3,727.0
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,,IDR 388.435,4.3,40.0
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076,4.4,828.0


In [None]:
df_tiketcom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Data columns (total 8 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   Nama Hotel/Villa                        38 non-null     object 
 1   Alamat                                  38 non-null     object 
 2   Rating                                  38 non-null     object 
 3   Jumlah Review                           38 non-null     object 
 4   Harga Asli Sebelum Diskon               38 non-null     object 
 5   Harga Fiksasi Setelah ada Diskon/Tidak  38 non-null     object 
 6   Angka Rating                            38 non-null     float64
 7   Total Review Fix                        38 non-null     float64
dtypes: float64(2), object(6)
memory usage: 2.5+ KB


Pada kolom **'Jumlah Review'** masih terlihat object tipe datanya karena terdapat kata **'Review'**, Nah dengan membuat fungsi:
- `(rb)?`: Menangkap opsional kata "rb" setelah angka (jika ada). Selain itu, `([\d.]+)`: Menangkap angka (\d) dan tanda desimal (.). Kemudian, `re.match()` digunakan untuk mencocokkan pola dengan string/object.
- Kemudian, melakukan kondisional case dimana
  `if match:
        number = float(match.group(1))          # untuk angka float
        if match.group(2) == 'rb':             # Jika ada 'rb', kalikan 1000
            number *= 1000
        return number
    return None  # Jika tidak cocok, kembalikan None`
  artinya mengubah tipenya menjadi **float** dan melakukan pencarian ketika ada imbuhan 'rb' maka akan dikali 1000 supaya menjadi suatu angka.

Sehingga, pada kolom **'Total Review'** akan menampilkan output angka dari hasil fungsi **extract_review** dimana angka jumlah review pada penginapan tersebut.

### 3. a) Pada Kolom 'Harga Asli Sebelum Diskon' ingin mengubah yang Kosong menjadi Harga Fiksasi setelah ada Diskon

In [None]:
print(df_tiketcom['Harga Asli Sebelum Diskon'].unique())

['' 'IDR 1.137.272' 'IDR 699.637' 'IDR 4.535.536' 'IDR 1.637.405'
 'IDR 1.427.726' 'IDR 273.222' 'IDR 2.950.413' 'IDR 2.024.256'
 'IDR 1.907.228' 'IDR 3.557.062' 'IDR 3.347.816' 'IDR 3.567.320'
 'IDR 1.983.856' 'IDR 1.935.345' 'IDR 3.034.068' 'IDR 1.930.879'
 'IDR 7.204.364' 'IDR 1.877.685' 'IDR 981.598' 'IDR 2.231.404'
 'IDR 5.312.245' 'IDR 816.243']


Fungsinya untuk melihat value yang unik apa dan juga tipe kosongnya ini null, none atau ''. Ternyata bentuknya '' (object).

In [None]:
def mengisi_angka (row):
    if row['Harga Asli Sebelum Diskon'] == '':  # Jika kosong
        return row['Harga Fiksasi Setelah ada Diskon/Tidak']  # Gunakan Harga Fiksasi
    return row['Harga Asli Sebelum Diskon']  # Tetap gunakan nilai asli jika ada

# Terapkan fungsi ke kolom
df_tiketcom['Harga Asli Sebelum Diskon'] = df_tiketcom.apply(mengisi_angka, axis=1)
df_tiketcom.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak,Angka Rating,Total Review Fix
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,IDR 379.202,IDR 379.202,4.3,1500.0
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,IDR 904.959,IDR 904.959,4.5,681.0
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,IDR 789.302,IDR 789.302,4.7,464.0
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446,4.7,1700.0
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,IDR 774.518,IDR 774.518,4.4,1600.0
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312,4.5,318.0
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163,4.8,498.0
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,IDR 709.091,IDR 709.091,4.3,727.0
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,IDR 388.435,IDR 388.435,4.3,40.0
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076,4.4,828.0


Fungsi `if row['Harga Asli Sebelum Diskon'] == '':  # Jika kosong
        return row['Harga Fiksasi Setelah ada Diskon/Tidak']  # Gunakan Harga Fiksasi
    return row['Harga Asli Sebelum Diskon']  # Tetap gunakan nilai asli jika ada` menunjukkan bahwa mengisi nilai yang kosong jika harga pada **Harga Asli Sebelum Diskon** itu sama dengan harga **Harga Fiksasi Setelah ada Diskon/Tidak** maka nilainya yang diisi adalah dari harga **Harga Fiksasi Setelah ada Diskon/Tidak**. Sedangkan, jika berbeda kondisinya, maka valuenya itu sendiri. Sehingga, data pada kolom yang kosong di **Harga Asli Sebelum Diskon** sudah terisi.

### 3. b) Mengambil nilai/angkanya saja pada Harga sebelum diskon dan Harga fiksasi untuk menjadi tipe data numerik.

In [None]:
#fungsi
def clean_harga (teks):
    if teks:
        return int(teks.replace('IDR', '').replace('.', '').strip())
    return None
df_tiketcom['Harga Asli Fix'] = df_tiketcom['Harga Asli Sebelum Diskon'].apply(clean_harga)
df_tiketcom['Harga Sesudah Fix'] = df_tiketcom['Harga Fiksasi Setelah ada Diskon/Tidak'].apply(clean_harga)
df_tiketcom.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak,Angka Rating,Total Review Fix,Harga Asli Fix,Harga Sesudah Fix
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,IDR 379.202,IDR 379.202,4.3,1500.0,379202,379202
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,IDR 904.959,IDR 904.959,4.5,681.0,904959,904959
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,IDR 789.302,IDR 789.302,4.7,464.0,789302,789302
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446,4.7,1700.0,1137272,1136446
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,IDR 774.518,IDR 774.518,4.4,1600.0,774518,774518
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312,4.5,318.0,699637,360312
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163,4.8,498.0,4535536,4041163
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,IDR 709.091,IDR 709.091,4.3,727.0,709091,709091
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,IDR 388.435,IDR 388.435,4.3,40.0,388435,388435
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076,4.4,828.0,1637405,925076


Fungsi `int(teks.replace('IDR', '').replace('.', '').strip())` digunakan untuk menghapus kata IDR kemudian menghilangkan tanda titik (.) menggunakan fungsi replace(). Kemudian, setelah dihilangkan, akan mengambil **angka numeriknya dan dijadikan tipe integer**. Sehingga, kolom baru yaitu 'Harga Asli Fix' dan 'Harga Sesudah Fix' sudah menjadi nilai harga yang sifatnya integer.

### 3. c) Membuat kategori jika harga tersebut Diskon atau Tidak Diskon dan membuat kolom 'Diskon' yang isinya berapa persentasenya

In [None]:
#fungsi
def kategori (teks):
    if teks['Harga Asli Fix'] == teks ['Harga Sesudah Fix']:
        return 'Harga Tidak Diskon'
    else:
        return 'Harga Diskon'
df_tiketcom['Kategori Harga'] = df_tiketcom.apply(kategori, axis = 1)

def persentase (teks):
    if teks['Harga Asli Fix'] == teks ['Harga Sesudah Fix']:
        return 0
    else:
       return round(((teks['Harga Asli Fix'] - teks['Harga Sesudah Fix'])/(teks['Harga Asli Fix'])*100), 2)

df_tiketcom['Diskon (%)'] = df_tiketcom.apply(persentase, axis = 1)
df_tiketcom.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Rating,Jumlah Review,Harga Asli Sebelum Diskon,Harga Fiksasi Setelah ada Diskon/Tidak,Angka Rating,Total Review Fix,Harga Asli Fix,Harga Sesudah Fix,Kategori Harga,Diskon (%)
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang","4,3/5",1.5rb Review,IDR 379.202,IDR 379.202,4.3,1500.0,379202,379202,Harga Tidak Diskon,0.0
1,Novotel Tangerang,"Tangerang, Tangerang","4,5/5",681 Review,IDR 904.959,IDR 904.959,4.5,681.0,904959,904959,Harga Tidak Diskon,0.0
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang","4,7/5",464 Review,IDR 789.302,IDR 789.302,4.7,464.0,789302,789302,Harga Tidak Diskon,0.0
3,Episode Gading Serpong,"Gading Serpong, Tangerang","4,7/5",1.7rb Review,IDR 1.137.272,IDR 1.136.446,4.7,1700.0,1137272,1136446,Harga Diskon,0.07
4,Atria Hotel Gading Serpong,"Curug, Tangerang","4,4/5",1.6rb Review,IDR 774.518,IDR 774.518,4.4,1600.0,774518,774518,Harga Tidak Diskon,0.0
5,Padina Soho and Residence,"Batuceper, Tangerang","4,5/5",318 Review,IDR 699.637,IDR 360.312,4.5,318.0,699637,360312,Harga Diskon,48.5
6,Potato Head Suites & Studios,"Seminyak, Badung","4,8/5",498 Review,IDR 4.535.536,IDR 4.041.163,4.8,498.0,4535536,4041163,Harga Diskon,10.9
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung","4,3/5",727 Review,IDR 709.091,IDR 709.091,4.3,727.0,709091,709091,Harga Tidak Diskon,0.0
8,Svarna Suite Seminyak,"Seminyak, Badung","4,3/5",40 Review,IDR 388.435,IDR 388.435,4.3,40.0,388435,388435,Harga Tidak Diskon,0.0
9,Lloyds Inn Bali,"Seminyak, Badung","4,4/5",828 Review,IDR 1.637.405,IDR 925.076,4.4,828.0,1637405,925076,Harga Diskon,43.5


- Pada fungsi Pertama 'kategori' digunakan untuk membuat kategori berdasarkan kolom **'Harga Asli Fix'** dan **'Harga Sesudah Fix'** dimana jika harga asli dengan harga sesudah itu nilainya sama maka kategorinya **Harga Tidak Diskon**, begitu sebaliknya jika berbeda maka kategorinya **Harga Diskon**.
- Pada fungi Kedua 'persentase' digunakan untuk menghitung persentase diskon yang didapatkan berdasarkan kolom **'Harga Asli Fix'** dan **'Harga Sesudah Fix'** dengan rumus `((Harga Asli - Harga Sesudah( /( Harga Asli)) * 100` dan dilakukan pembulatan menggunakan `round()` sebanyak 2 digit belakang koma.

Sehingga, hasilnya sudah dilakukan pada kolom baru **'Kategori Harga' dan 'Diskon %'**

# Penyimpanan Dataframe menjadi csv

In [None]:
df_tiketcom.columns

Index(['Nama Hotel/Villa', 'Alamat', 'Rating', 'Jumlah Review',
       'Harga Asli Sebelum Diskon', 'Harga Fiksasi Setelah ada Diskon/Tidak',
       'Angka Rating', 'Total Review Fix', 'Harga Asli Fix',
       'Harga Sesudah Fix', 'Kategori Harga', 'Diskon (%)'],
      dtype='object')

In [None]:
tiketcom_bersih_data = df_tiketcom[['Nama Hotel/Villa', 'Alamat', 'Angka Rating', 'Total Review Fix','Harga Asli Fix',
       'Harga Sesudah Fix', 'Kategori Harga', 'Diskon (%)']]
tiketcom_bersih_data.head(100)

Unnamed: 0,Nama Hotel/Villa,Alamat,Angka Rating,Total Review Fix,Harga Asli Fix,Harga Sesudah Fix,Kategori Harga,Diskon (%)
0,Golden Tulip Essential Tangerang,"Tangerang, Tangerang",4.3,1500.0,379202,379202,Harga Tidak Diskon,0.0
1,Novotel Tangerang,"Tangerang, Tangerang",4.5,681.0,904959,904959,Harga Tidak Diskon,0.0
2,"VIVERE Hotel, ARTOTEL Curated","Medang, Tangerang",4.7,464.0,789302,789302,Harga Tidak Diskon,0.0
3,Episode Gading Serpong,"Gading Serpong, Tangerang",4.7,1700.0,1137272,1136446,Harga Diskon,0.07
4,Atria Hotel Gading Serpong,"Curug, Tangerang",4.4,1600.0,774518,774518,Harga Tidak Diskon,0.0
5,Padina Soho and Residence,"Batuceper, Tangerang",4.5,318.0,699637,360312,Harga Diskon,48.5
6,Potato Head Suites & Studios,"Seminyak, Badung",4.8,498.0,4535536,4041163,Harga Diskon,10.9
7,The Capital Hotel and Resort Seminyak,"Seminyak, Badung",4.3,727.0,709091,709091,Harga Tidak Diskon,0.0
8,Svarna Suite Seminyak,"Seminyak, Badung",4.3,40.0,388435,388435,Harga Tidak Diskon,0.0
9,Lloyds Inn Bali,"Seminyak, Badung",4.4,828.0,1637405,925076,Harga Diskon,43.5


In [None]:
# Reset indeks dan buat mulai dari 1
tiketcom_bersih_data_reset = tiketcom_bersih_data.reset_index(drop=True)  # Menghapus indeks lama
tiketcom_bersih_data_reset.index += 1  # Mulai dari 1

tiketcom_bersih_data_reset.to_csv('C:/Users/acer/Downloads/Data Tiketcom Reservasi Hotel.csv', index_label='No')

-- FINISH --