# Menggabungkan Data Tempat Wisata dari Semua Provinsi

Notebook ini akan menggabungkan semua file JSON tempat wisata dari setiap provinsi dan menambahkan kolom ID untuk setiap tempat wisata

In [2]:
import json
import pandas as pd
from pathlib import Path

In [3]:
# mendapatkan daftar semua file json di folder json
json_dir = Path('../Scrape_data/json')
json_files = list(json_dir.glob('tempat_wisata_*.json'))
print(f"jumlah file JSON yang ditemukan: {len(json_files)}")

jumlah file JSON yang ditemukan: 37


In [4]:
# membaca dan menggabungkan semua file JSON
all_data = []
current_id = 1

for json_file in json_files:
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
        # menambahkan ID ke setiap tempat wisata
        for item in data:
            item['id'] = current_id
            current_id += 1
        all_data.extend(data)

print(f"Total tempat wisata yang digabungkan: {len(all_data)}")

Total tempat wisata yang digabungkan: 1169


In [12]:
# membuat dataframe dari data yang digabungkan
df = pd.DataFrame(all_data)

# mengatur ulang urutan kolom dengan 'id' di urutan pertama
columns = ['id'] + [col for col in df.columns if col != 'id']
df = df[columns]

# menampilkan informasi dataframe
print("\nInformasi DataFrame:")
print(df.info())

# menampilkan beberapa baris pertama dataframe
print("\nContoh data:")
print(df.head())


Informasi DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1169 entries, 0 to 1168
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             1169 non-null   int64 
 1   nama           1169 non-null   object
 2   alamat         1169 non-null   object
 3   rating         1169 non-null   object
 4   jumlah_review  1169 non-null   object
 5   deskripsi      1169 non-null   object
 6   koordinat      1169 non-null   object
 7   url            1169 non-null   object
 8   provinsi       1169 non-null   object
 9   foto           1169 non-null   object
 10  kategori       1169 non-null   object
dtypes: int64(1), object(10)
memory usage: 100.6+ KB
None

Contoh data:
   id                           nama                               alamat  \
0   1          Pantai Tebing Lampuuk         Meunasah Balee, Kec. Lhoknga   
1   2                  Pantai Sawang          Sawang, Kec. Samudera, Aceh   
2   3  No

In [13]:
# mengubah data untuk disimpan ke JSON dengan urutan yang benar
ordered_data = []
for _, row in df.iterrows():
    ordered_data.append(row.to_dict())

In [14]:
# menyimpan hasil ke file JSON baru
output_file = 'tempat_wisata_indonesia.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(ordered_data, f, indent=2, ensure_ascii=False)

print(f"Data berhasil disimpan ke {output_file}")

Data berhasil disimpan ke tempat_wisata_indonesia.json


In [15]:
# menyimpan hasil ke file CSV
csv_file = 'tempat_wisata_indonesia.csv'
df.to_csv(csv_file, index=False, encoding='utf-8')

print(f"Data berhasil disimpan ke {csv_file}")

Data berhasil disimpan ke tempat_wisata_indonesia.csv
