In [23]:
import pandas as pd
import numpy as np
import seaborn as sns
import warnings
import missingno as ms
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import matplotlib as mpl
import matplotlib.patches as mpatches 
from matplotlib.colors import LinearSegmentedColormap

warnings.filterwarnings('ignore')
sns.set(style='whitegrid')
plt.style.use('Solarize_Light2')


# Data Preparation 

In [24]:
package_tourism = pd.read_csv("data/package_tourism.csv")

package_tourism.head(10)

Unnamed: 0,Package,City,Place_Tourism1,Place_Tourism2,Place_Tourism3,Place_Tourism4,Place_Tourism5
0,1,Jakarta,Pasar Tanah Abang,Taman Ayodya,Museum Tekstil,,
1,2,Jakarta,Pasar Tanah Abang,Pasar Taman Puring,Pasar Petak Sembilan,,
2,3,Jakarta,Perpustakaan Nasional,Monas,Masjid Istiqlal,,
3,4,Jakarta,Pulau Tidung,Pulau Bidadari,Pulau Pari,Pulau Pramuka,Pulau Pelangi
4,5,Jakarta,Museum Satria Mandala,Museum Wayang,Museum Bahari Jakarta,Museum Macan (Modern and Contemporary Art in N...,
5,6,Jakarta,Waterboom PIK (Pantai Indah Kapuk),Jakarta Aquarium dan Safari,SnowBay Waterpark,,
6,7,Jakarta,Alive Museum Ancol,Ocean Ecopark,SnowBay Waterpark,,
7,8,Jakarta,Kota Tua,Museum Bank Indonesia,Monas,Perpustakaan Nasional,Masjid Istiqlal
8,9,Jakarta,Galeri Nasional Indonesia,Museum Seni Rupa dan Kramik,Galeri Indonesia Kaya,,
9,10,Jakarta,Taman Impian Jaya Ancol,Kota Tua,Museum Bank Indonesia,Museum Fatahillah,Museum Wayang


In [25]:
tourism_rating = pd.read_csv("data/tourism_rating.csv")

tourism_rating.head(10)

Unnamed: 0,User_Id,Place_Id,Place_Ratings
0,1,179,3
1,1,344,2
2,1,5,5
3,1,373,3
4,1,101,4
5,1,312,2
6,1,258,5
7,1,20,4
8,1,154,2
9,1,393,5


In [26]:
tourism_information = pd.read_csv("data/tourism_with_id.csv")

tourism_information.head(10)

Unnamed: 0,Place_Id,Place_Name,Description,Category,City,Price,Rating,Time_Minutes,Coordinate,Lat,Long,Unnamed: 11,Unnamed: 12
0,1,Monumen Nasional,Monumen Nasional atau yang populer disingkat d...,Budaya,Jakarta,20000,4.6,15.0,"{'lat': -6.1753924, 'lng': 106.8271528}",-6.175392,106.827153,,1
1,2,Kota Tua,"Kota tua di Jakarta, yang juga bernama Kota Tu...",Budaya,Jakarta,0,4.6,90.0,"{'lat': -6.137644799999999, 'lng': 106.8171245}",-6.137645,106.817125,,2
2,3,Dunia Fantasi,Dunia Fantasi atau disebut juga Dufan adalah t...,Taman Hiburan,Jakarta,270000,4.6,360.0,"{'lat': -6.125312399999999, 'lng': 106.8335377}",-6.125312,106.833538,,3
3,4,Taman Mini Indonesia Indah (TMII),Taman Mini Indonesia Indah merupakan suatu kaw...,Taman Hiburan,Jakarta,10000,4.5,,"{'lat': -6.302445899999999, 'lng': 106.8951559}",-6.302446,106.895156,,4
4,5,Atlantis Water Adventure,Atlantis Water Adventure atau dikenal dengan A...,Taman Hiburan,Jakarta,94000,4.5,60.0,"{'lat': -6.12419, 'lng': 106.839134}",-6.12419,106.839134,,5
5,6,Taman Impian Jaya Ancol,Taman Impian Jaya Ancol merupakan sebuah objek...,Taman Hiburan,Jakarta,25000,4.5,10.0,"{'lat': -6.117333200000001, 'lng': 106.8579951}",-6.117333,106.857995,,6
6,7,Kebun Binatang Ragunan,Kebun Binatang Ragunan adalah sebuah kebun bin...,Cagar Alam,Jakarta,4000,4.5,,"{'lat': -6.3124593, 'lng': 106.8201865}",-6.312459,106.820187,,7
7,8,Ocean Ecopark,Ocean Ecopark Salah satu zona rekreasi Ancol y...,Taman Hiburan,Jakarta,180000,4.0,,"{'lat': -6.125801699999999, 'lng': 106.8363249}",-6.125802,106.836325,,8
8,9,Pelabuhan Marina,Pelabuhan Marina Ancol berada di kawasan Taman...,Bahari,Jakarta,175000,4.4,,"{'lat': 1.07888, 'lng': 103.931398}",1.07888,103.931398,,9
9,10,Pulau Tidung,Pulau Tidung adalah salah satu kelurahan di ke...,Bahari,Jakarta,150000,4.5,,"{'lat': -5.803205300000001, 'lng': 106.5237907}",-5.803205,106.523791,,10


In [27]:
tourism_user = pd.read_csv("data/user.csv")

tourism_user.head(10)

Unnamed: 0,User_Id,Location,Age
0,1,"Semarang, Jawa Tengah",20
1,2,"Bekasi, Jawa Barat",21
2,3,"Cirebon, Jawa Barat",23
3,4,"Bekasi, Jawa Barat",21
4,5,"Lampung, Sumatera Selatan",20
5,6,"Jakarta Utara, DKI Jakarta",18
6,7,"Jakarta Selatan, DKI Jakarta",39
7,8,"Bandung, Jawa Barat",40
8,9,"Surabaya, Jawa Timur",38
9,10,"Bekasi, Jawa Barat",39


In [28]:
print(f"Number of places in the datasets : {len(tourism_information.Place_Id.unique())}")
print(f"Number of users : {len(tourism_user.User_Id.unique())}")
print(f"The number of ratings given by the user to the dataset : {len(tourism_rating.User_Id)}")

Number of places in the datasets : 437
Number of users : 300
The number of ratings given by the user to the dataset : 10000


Assesing Data

In [33]:
#Information Table Tourism 
tourism_information.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 437 entries, 0 to 436
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Place_Id      437 non-null    int64  
 1   Place_Name    437 non-null    object 
 2   Description   437 non-null    object 
 3   Category      437 non-null    object 
 4   City          437 non-null    object 
 5   Price         437 non-null    int64  
 6   Rating        437 non-null    float64
 7   Time_Minutes  205 non-null    float64
 8   Coordinate    437 non-null    object 
 9   Lat           437 non-null    float64
 10  Long          437 non-null    float64
 11  Unnamed: 11   0 non-null      float64
 12  Unnamed: 12   437 non-null    int64  
dtypes: float64(5), int64(3), object(5)
memory usage: 44.5+ KB


- Place_Id (int64): ID unik untuk setiap destinasi wisata. Terdiri dari 437 nilai yang tidak null (non-null).
- Place_Name (object): Nama dari destinasi wisata. Terdiri dari 437 nilai yang tidak null.
- Description (object): Deskripsi dari destinasi wisata. Terdiri dari 437 nilai yang tidak null.
- Category (object): Kategori dari destinasi wisata (misalnya alam, budaya, dll.). Terdiri dari 437 nilai yang tidak null.
- City (object): Kota di mana destinasi wisata berada. Terdiri dari 437 nilai yang tidak null.
- Price (int64): Harga masuk ke destinasi wisata (jika ada). Terdiri dari 437 nilai yang tidak null.
- Rating (float64): Rating atau penilaian dari destinasi wisata. Terdiri dari 437 nilai yang tidak null.
- Time_Minutes (float64): Waktu yang dibutuhkan untuk mengunjungi destinasi tersebut dalam menit Terdiri dari 205 nilai yang tidak null, artinya ada banyak nilai yang hilang (missing).
- Coordinate (object): Koordinat dari destinasi wisata, biasanya dalam bentuk string. Terdiri dari 437 nilai yang tidak null.
- Lat (float64): Lintang (latitude) dari destinasi wisata. Terdiri dari 437 nilai yang tidak null.
- Long (float64): Bujur (longitude) dari destinasi wisata. Terdiri dari 437 nilai yang tidak null.
- Unnamed: 11 (float64): Kolom ini tidak memiliki nama dan semua nilainya adalah null (0 nilai yang tidak null).
- Unnamed: 12 (int64): Kolom ini tidak memiliki nama, tetapi memiliki 437 nilai yang tidak null. 
- Nilainya tidak diketahui dari output ini, tetapi mungkin memiliki informasi yang tidak diberi label dengan baik.

In [34]:
print("DataFrame Tourism Information : ")
print(tourism_information.isna().sum())

DataFrame Tourism Information : 
Place_Id          0
Place_Name        0
Description       0
Category          0
City              0
Price             0
Rating            0
Time_Minutes    232
Coordinate        0
Lat               0
Long              0
Unnamed: 11     437
Unnamed: 12       0
dtype: int64


In [35]:
# Information Table tourism user
tourism_user.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   User_Id   300 non-null    int64 
 1   Location  300 non-null    object
 2   Age       300 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 7.2+ KB


- Terdapat 300 entri dalam dataset ini.
- Kolom User_Id memiliki 300 nilai value.
- Kolom Location memiliki 300 nilai value.
- Kolom Age memiliki 300 nilai value.
- Data ini memiliki beberapa tipe data, termasuk objek (string) dan integer.

In [36]:
print("DataFrame Tourism User : ")
print(tourism_user.isna().sum())

DataFrame Tourism User : 
User_Id     0
Location    0
Age         0
dtype: int64


In [37]:
# information table tourism rating
tourism_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   User_Id        10000 non-null  int64
 1   Place_Id       10000 non-null  int64
 2   Place_Ratings  10000 non-null  int64
dtypes: int64(3)
memory usage: 234.5 KB


- Terdapat 10000 entri dalam dataset ini.
- kolom User_Id memiliki 10000 nilai value.
- kolom Place_Id memiliki 10000 nilai value.
- kolom Place_Ratings 10000
- Data ini memmiliki tipe data hanya integer.

In [38]:
print("DataFrame Tourism User : ")
print(tourism_rating.isna().sum())

DataFrame Tourism User : 
User_Id          0
Place_Id         0
Place_Ratings    0
dtype: int64
