### Connect to drive and move to directory

In [None]:
from google.colab import drive
drive.mount('/content/gdrive/', force_remount=True)

Mounted at /content/gdrive/


In [None]:
%cd /content/gdrive/My Drive/Colab_Notebooks/Bangkit_Capstone/Dataset

/content/gdrive/My Drive/Colab_Notebooks/Bangkit_Capstone/Dataset


In [None]:
import pandas as pd
import random

In [None]:
# Read the dataset
mountain_data = pd.read_csv("gunung_modified.csv")
user_data_dummy = pd.read_csv("genz_dummy_test.csv")
#user_data = pd.read_csv("user_modified.csv")

In [None]:
# Count number of rows for mountain
mountain_rows_count = mountain_data.count()[0]
mountain_rows_count = mountain_data[mountain_data.columns[0]].count()
print('Number of Mountain Rows count is:', mountain_rows_count )

# Count number of rows for user dummy
rows_count = user_data_dummy.count()[0]
rows_count = user_data_dummy[user_data_dummy.columns[0]].count()
print('Number of User Rows count is:', rows_count )

Number of Mountain Rows count is: 251
Number of User Rows count is: 5000


### Showing original dataset

In [None]:
user_data_dummy.head()

Unnamed: 0,userID,name,keahlian
0,1,Mazikee Cortez,Mahir
1,2,Zayn Norris,Sedang
2,3,Arielle Cunningham,Sedang
3,4,Alejandro Chapman,Sedang
4,5,Zuri Arias,Sedang


In [None]:
mountain_data.head()

Unnamed: 0,gunungID,nama_gunung,ketinggian,kota,provinsi,tingkat_kesulitan
0,1,Arjuno,3339,Malang,Jawa Timur,Sulit
1,2,Argopuro,3088,Bondowoso,Jawa Timur,Sulit
2,3,Bromo,2392,Probolinggo,Jawa Timur,Sedang
3,4,Butak,2868,Tulungagung,Jawa Timur,Sulit
4,5,Cemoro Sewu,3339,Lumajang,Jawa Timur,Sulit


In [None]:
# Preview nama_gunung sama but different ID (suspected as duplicate)
# Find duplicate nama_gunung with different gunungID
duplicate_df = mountain_data[mountain_data.duplicated(subset='nama_gunung', keep=False)]

# Sort the nama_gunung column
duplicate_df = duplicate_df.sort_values(by='nama_gunung')

#print(duplicate_df)
duplicate_df

In [None]:
# Remove leading and trailing spaces in kota column
mountain_data['kota'] = mountain_data['kota'].str.strip()

In [None]:
# Take kota from mountain dataset
column_values = mountain_data['kota']
unique_values = column_values.unique()
print(unique_values)

['Malang' 'Bondowoso' 'Probolinggo' 'Tulungagung' 'Lumajang' 'Kediri'
 'Banyuwangi' 'Magetan' 'Pasuruan' 'Boyolali' 'Purworejo' 'Salatiga'
 'Karanganyar' 'Purwodadi' 'Rembang' 'Temanggung' 'Kebumen' 'Kudus'
 'Brebes' 'Dieng' 'Banjarnegara' 'Purbalingga' 'Tempuran' 'Magelang'
 'Semarang' 'Wonosobo' 'Banyumas' 'Cilacap' 'Kuningan' 'Batang' 'Sleman'
 'Temangg' 'Garut' 'Tasikmalaya' 'Purwakarta' 'Cianjur' 'Bogor'
 'Kota Bandung' 'Bandung' 'Sukabumi' 'Bandung Barat' 'Karo' 'Toba Samosir'
 'Simalungun' 'Deli Serdang' 'Pidie' 'Gayo Lues' 'Kota Banda Aceh'
 'Aceh Jaya' 'Aceh Tengah' 'Aceh Tenggara' 'Agam' 'Solok Selatan' 'Solok'
 'Kerinci' 'Kota Padang' 'Tanah Datar' 'Pagaralam' 'Ogan Komering Ulu'
 'Lahat' 'Empat Lawang' 'Kota Batam' 'Bengkalis' 'Rokan Hulu' 'Makassar'
 'Enrekang' 'Luwu Utara' 'Minahasa' 'Tomohon' 'Toraja Utara' 'Bacan'
 'Ternate' 'Donggala' 'Sangihe' 'Morowali' 'Pangkajene Islands' 'Gowa'
 'Luwu Timur' 'Tana Toraja' 'Sitaro' 'Bolaang Mongondow' 'Gorontalo'
 'Boalemo' 'Murung

In [None]:
# Choose random kota for user
random_column = random.choices(unique_values, k=len(user_data_dummy))
user_data_dummy['kota'] = random_column

In [None]:
# Preview user_data
user_data_dummy.head()

Unnamed: 0,userID,name,keahlian,kota
0,1,Mazikee Cortez,Mahir,Donggala
1,2,Zayn Norris,Sedang,Luwu Timur
2,3,Arielle Cunningham,Sedang,Gowa
3,4,Alejandro Chapman,Sedang,Magetan
4,5,Zuri Arias,Sedang,Bajawa


In [None]:
# This cell is to map city to province
mapping = {
    'Malang': 'Jawa Timur',
    'Bondowoso': 'Jawa Timur',
    'Probolinggo': 'Jawa Timur',
    'Tulungagung': 'Jawa Timur',
    'Lumajang': 'Jawa Timur',
    'Kediri': 'Jawa Timur',
    'Banyuwangi': 'Jawa Timur',
    'Magetan': 'Jawa Timur',
    'Pasuruan': 'Jawa Timur',
    'Boyolali': 'Jawa Tengah',
    'Purworejo': 'Jawa Tengah',
    'Salatiga': 'Jawa Tengah',
    'Karanganyar': 'Jawa Tengah',
    'Purwodadi': 'Jawa Tengah',
    'Rembang': 'Jawa Tengah',
    'Temangg' : 'Temanggung',
    'Temanggung': 'Jawa Tengah',
    'Kebumen': 'Jawa Tengah',
    'Kudus': 'Jawa Tengah',
    'Brebes': 'Jawa Tengah',
    'Dieng': 'Jawa Tengah',
    'Banjarnegara': 'Jawa Tengah',
    'Purbalingga': 'Jawa Tengah',
    'Tempuran': 'Jawa Tengah',
    'Magelang': 'Jawa Tengah',
    'Semarang': 'Jawa Tengah',
    'Wonosobo': 'Jawa Tengah',
    'Banyumas': 'Jawa Tengah',
    'Cilacap': 'Jawa Tengah',
    'Kuningan': 'Jawa Barat',
    'Batang': 'Jawa Tengah',
    'Sleman': 'Daerah Istimewa Yogyakarta',
    'Garut': 'Jawa Barat',
    'Tasikmalaya': 'Jawa Barat',
    'Purwakarta': 'Jawa Barat',
    'Cianjur': 'Jawa Barat',
    'Bogor': 'Jawa Barat',
    'Kota Bandung': 'Jawa Barat',
    'Bandung': 'Jawa Barat',
    'Sukabumi': 'Jawa Barat',
    'Bandung Barat': 'Jawa Barat',
    'Karo': 'Sumatera Utara',
    'Toba Samosir': 'Sumatera Utara',
    'Simalungun': 'Sumatera Utara',
    'Deli Serdang': 'Sumatera Utara',
    'Pidie': 'Aceh',
    'Gayo Lues': 'Aceh',
    'Kota Banda Aceh': 'Aceh',
    'Aceh Jaya': 'Aceh',
    'Aceh Tengah': 'Aceh',
    'Aceh Tenggara': 'Aceh',
    'Agam': 'Sumatera Barat',
    'Solok Selatan': 'Sumatera Barat',
    'Solok': 'Sumatera Barat',
    'Kerinci': 'Jambi',
    'Kota Padang': 'Sumatera Barat',
    'Tanah Datar': 'Sumatera Barat',
    'Pagaralam': 'Sumatera Selatan',
    'Ogan Komering Ulu': 'Sumatera Selatan',
    'Lahat': 'Sumatera Selatan',
    'Empat Lawang': 'Sumatera Selatan',
    'Kota Batam': 'Kepulauan Riau',
    'Bengkalis': 'Kepulauan Riau',
    'Rokan Hulu': 'Riau',
    'Makassar': 'Sulawesi Selatan',
    'Enrekang': 'Sulawesi Selatan',
    'Luwu Utara': 'Sulawesi Selatan',
    'Minahasa': 'Sulawesi Utara',
    'Tomohon': 'Sulawesi Utara',
    'Toraja Utara': 'Sulawesi Selatan',
    'Bacan': 'Maluku Utara',
    'Ternate': 'Maluku Utara',
    'Donggala': 'Sulawesi Tengah',
    'Sangihe': 'Sulawesi Utara',
    'Morowali': 'Sulawesi Tengah',
    'Pangkajene Islands': 'Sulawesi Selatan',
    'Gowa': 'Sulawesi Selatan',
    'Luwu Timur': 'Sulawesi Selatan',
    'Tana Toraja': 'Sulawesi Selatan',
    'Sitaro': 'Sulawesi Utara',
    'Bolaang Mongondow': 'Sulawesi Utara',
    'Gorontalo': 'Gorontalo',
    'Boalemo': 'Gorontalo',
    'Murung Raya': 'Kalimantan Tengah',
    'Katingan': 'Kalimantan Tengah',
    'Hulu Sungai Tengah': 'Kalimantan Selatan',
    'Kutai Barat': 'Kalimantan Timur',
    'Bengkayang': 'Kalimantan Barat',
    'Kubu Raya': 'Kalimantan Barat',
    'Banjar': 'Kalimantan Selatan',
    'Tanah Bumbu': 'Kalimantan Selatan',
    'Paser': 'Kalimantan Timur',
    'Kaur': 'Bengkulu',
    'Sintang': 'Kalimantan Barat',
    'Malinau': 'Kalimantan Utara',
    'Kotabaru': 'Kalimantan Selatan',
    'Karangasem': 'Bali',
    'Lombok Utara': 'Nusa Tenggara Barat',
    'Dompu': 'Nusa Tenggara Barat',
    'Bima': 'Nusa Tenggara Barat',
    'Sumbawa': 'Nusa Tenggara Barat',
    'Bajawa': 'Nusa Tenggara Timur',
    'Maumere': 'Nusa Tenggara Timur',
    'Ende': 'Nusa Tenggara Timur',
    'Kupang': 'Nusa Tenggara Timur',
    'Mbay': 'Nusa Tenggara Timur',
    'Seram Bagian Barat': 'Maluku',
    'Banda': 'Maluku',
    'Halmahera': 'Maluku Utara',
    'Ambon': 'Maluku',
    'Wolo': 'Sulawesi Tengah',
    'Mamberamo Tengah': 'Papua',
    'Pegunungan Bintang': 'Papua',
    'Tolikara': 'Papua'
}

# Create a new column 'Province' by mapping the values from 'City' column
user_data_dummy['provinsi_user'] = user_data_dummy['kota'].map(mapping)

In [None]:
nan_counts = user_data_dummy.isna().sum()
print(nan_counts)

userID           0
name             0
keahlian         0
kota             0
provinsi_user    0
dtype: int64


In [None]:
# Export user_data
user_data_dummy.to_csv('last_user_data.csv')

### Read updated dataset

In [None]:
mountain_df = pd.read_csv("gunung_update.csv")
user_df = pd.read_csv("last_user_data.csv")

In [None]:
# Trying to find mountain in the same city
def find_mountains_same_city(dataset, city):
    city_mountains = dataset[dataset['kota'] == city]
    return city_mountains

# Example usage
# Assuming your dataset is stored in a pandas DataFrame called 'mountains_df'
# And the 'kota' column represents the city

# Load the dataset
mountains_df = pd.read_csv('gunung_update.csv')

# Specify the city you want to search for
city_name = 'Bondowoso'
# Find mountains in the same city
mountains_same_city = find_mountains_same_city(mountains_df, city_name)

# Print the resulting mountains in the same city
# print(mountains_same_city)

In [None]:
mountains_same_city

Unnamed: 0,gunungID,nama_gunung,ketinggian,kota,provinsi_gunung,tingkat_kesulitan
1,2,Argopuro,3088,Bondowoso,Jawa Timur,Sulit
17,18,Raung,3344,Bondowoso,Jawa Timur,Sulit


### Merged user and mountain data

In [None]:
merged_df = pd.merge(mountain_df, user_df, on='kota', how='inner')
merged_df = merged_df.drop('Unnamed: 0', axis=1)
merged_df

Unnamed: 0,gunungID,nama_gunung,ketinggian,kota,provinsi_gunung,tingkat_kesulitan,userID,name,keahlian,provinsi_user
0,1,Arjuno,3339,Malang,Jawa Timur,Sulit,43,Everleigh Cain,Pemula,Jawa Timur
1,1,Arjuno,3339,Malang,Jawa Timur,Sulit,133,Elise Winters,Pemula,Jawa Timur
2,1,Arjuno,3339,Malang,Jawa Timur,Sulit,464,Thomas Farley,Sedang,Jawa Timur
3,1,Arjuno,3339,Malang,Jawa Timur,Sulit,483,Milana Wu,Sedang,Jawa Timur
4,1,Arjuno,3339,Malang,Jawa Timur,Sulit,495,Genevieve Gillespie,Pemula,Jawa Timur
...,...,...,...,...,...,...,...,...,...,...
6008,248,Pantai Siombak,3700,Tolikara,Papua,Sulit,4542,Jovanni Case,Pemula,Papua
6009,248,Pantai Siombak,3700,Tolikara,Papua,Sulit,4583,Mavis Reyna,Mahir,Papua
6010,248,Pantai Siombak,3700,Tolikara,Papua,Sulit,4743,Bridget Prince,Mahir,Papua
6011,248,Pantai Siombak,3700,Tolikara,Papua,Sulit,4817,Maryam Sweeney,Mahir,Papua


In [None]:
# Check nan values in dataset
nan_counts = merged_df.isna().sum()
print(nan_counts)

gunungID             0
nama_gunung          0
ketinggian           0
kota                 0
provinsi_gunung      0
tingkat_kesulitan    0
userID               0
name                 0
keahlian             0
provinsi_user        0
dtype: int64


In [None]:
# Rearrange dataset column
merged_df = merged_df[['gunungID', 'nama_gunung', 'ketinggian', 'kota', 'provinsi_gunung', 'provinsi_user', 'userID', 'name', 'keahlian', 'tingkat_kesulitan']]
merged_df

Unnamed: 0,gunungID,nama_gunung,ketinggian,kota,provinsi_gunung,provinsi_user,userID,name,keahlian,tingkat_kesulitan
0,1,Arjuno,3339,Malang,Jawa Timur,Jawa Timur,43,Everleigh Cain,Pemula,Sulit
1,1,Arjuno,3339,Malang,Jawa Timur,Jawa Timur,133,Elise Winters,Pemula,Sulit
2,1,Arjuno,3339,Malang,Jawa Timur,Jawa Timur,464,Thomas Farley,Sedang,Sulit
3,1,Arjuno,3339,Malang,Jawa Timur,Jawa Timur,483,Milana Wu,Sedang,Sulit
4,1,Arjuno,3339,Malang,Jawa Timur,Jawa Timur,495,Genevieve Gillespie,Pemula,Sulit
...,...,...,...,...,...,...,...,...,...,...
6008,248,Pantai Siombak,3700,Tolikara,Papua,Papua,4542,Jovanni Case,Pemula,Sulit
6009,248,Pantai Siombak,3700,Tolikara,Papua,Papua,4583,Mavis Reyna,Mahir,Sulit
6010,248,Pantai Siombak,3700,Tolikara,Papua,Papua,4743,Bridget Prince,Mahir,Sulit
6011,248,Pantai Siombak,3700,Tolikara,Papua,Papua,4817,Maryam Sweeney,Mahir,Sulit


In [None]:
merged_df.to_csv('last_merged_data.csv', index=False)

### Filter to match keahlian with tingkat_keahlian

In [None]:
# Load the existing dataset
df = pd.read_csv('last_merged_data.csv')

# Define the filtering criteria
filter_criteria = (
    (df['tingkat_kesulitan'] == 'Mudah') & (df['keahlian'] == 'Pemula')
) | (
    (df['tingkat_kesulitan'] == 'Sedang') & (df['keahlian'] == 'Sedang')
) | (
    (df['tingkat_kesulitan'] == 'Sulit') & (df['keahlian'] == 'Mahir')
)

# Apply the filter criteria
new_df = df[filter_criteria]

# Reset the index
new_df = new_df.reset_index(drop=True)


In [None]:
new_df.sort_values(by=['keahlian'])
new_df

In [None]:
nan_counts = new_df.isna().sum()
print(nan_counts)

gunungID             0
nama_gunung          0
ketinggian           0
kota                 0
provinsi_gunung      0
provinsi_user        0
userID               0
name                 0
keahlian             0
tingkat_kesulitan    0
dtype: int64


In [None]:
new_df.to_csv('last_used_data.csv', index=False)

####Next step:
1. Coba samakan jumlah dataset

  1.1. Tambah sampel user sampai 251

  1.2. Ketemu ditengah (hapus sebagian data gunung dan tambah data user sampai jumlahnya sama) ±125 ~150

  1.3. Hapus data gunung sejumlah user, tapi hilang banyak (kota, gunung)

2. Lakukan proses diatas, liat data finalnya berapa
3. Coba input merged / filtered dataset ke model