<h1>Data Understanding</h1>

In [4]:
import pandas as pd

df = pd.read_csv("clean_dataset.csv")
df.head(5)

Unnamed: 0,Kota,Name,Address,Header_image,Rating,Category,Detail_URL,Tags,Latitude,Longitude,Website,Phone,Review,Description
0,bulukumba,kawasan adat kajang ammatoa,"Tanah Toa, Kec. Kajang, Kabupaten Bulukumba, S...",https://lh5.googleusercontent.com/p/AF1QipPCW4...,4.7,religi,https://www.google.com/maps/place/Kawasan+Adat...,"\n""Wisata Budaya yang paling berkesan, udara ...",-53219881,1202959252,,,"budaya,pakaian,adat istiadat,teknologi,kaki,li...",Kawasan Adat Kajang Ammatoa adalah sebuah kawa...
1,bulukumba,pantai marumasa,"Darubiah, Kec. Bonto Bahari, Kabupaten Bulukum...",https://lh5.googleusercontent.com/p/AF1QipOFb3...,4.4,pantai,https://www.google.com/maps/place/Pantai+Marum...,"\n""Yang suka wisata pantai, ini juga keren""",-55753658,1204593842,https://pantaitebingmarumasa.wordpress.com/201...,0813-5583-8483,"pantainya,foto,pemandangan,tebing,sampah,keind...",Pantai Marumasa adalah sebuah pantai indah yan...
2,bulukumba,"pantai bara, bulukumba","Bira, Kec. Bonto Bahari, Kabupaten Bulukumba, ...",https://lh5.googleusercontent.com/p/AF1QipNvH_...,4.6,danau,"https://www.google.com/maps/place/Pantai+Bara,...","\n""Tempat wisata yang menyenangkan.""",-56082681,1204389893,,,"pasir,air,pemandangan,parkir,banana boat,malam...",Pantai Bara adalah pantai menakjubkan lainnya ...
3,bulukumba,pantai pulau liukang loe,"Bira, Kec. Bonto Bahari, Kabupaten Bulukumba, ...",https://lh5.googleusercontent.com/p/AF1QipPdqP...,4.6,pantai,https://www.google.com/maps/place/Pantai+Pulau...,"\n""Di pulau ini terdapat penangkaran penyu Da...",-56409546,1204332732,,0822-9126-2332,"snorkling,penyu,pantai tanjung bira,perahu,pen...",Pantai Pulau Liukang Loe adalah pantai indah y...
4,bulukumba,puncak pua' janggo',"Bira, Kec. Bonto Bahari, Kabupaten Bulukumba, ...",https://lh5.googleusercontent.com/p/AF1QipP2nE...,4.3,alam,https://www.google.com/maps/place/Puncak+Pua%2...,,-56083071,1204602636,,0813-1412-1220,"pemandangan,pantai tanjung bira,pelabuhan,moto...",Puncak Pua' Janggo' adalah puncak gunung yang ...


<h2>Drop coloum yang tidak terpakai</h2>
<p>Melakukan drop coloum yang tidak akan dilatih supaya menghidari bias yang tinggi</p>
<ul>
<li>Address</li>
<li>Header_image</li> 
<li>Detail_URL</li>
<li> Tags </li>
<li>Latitude</li>
<li>Longitude</li> 
<li>Website</li> 
<li>Review</li>
<li>Phone</li>
</ul>

In [5]:
df = df.drop(columns=["Address", "Header_image", "Detail_URL", "Tags", "Latitude", "Longitude", "Website", "Review", "Phone"], axis=1)

In [6]:
df["Description"] = df["Description"].str.lower()

<h2>Membuang simbol</h2>
<p>example code:</br>
kalimat = "Ini &adalah [contoh] kalimat? {dengan} tanda. baca?!!"</br>
hasil = kalimat.translate(str.maketrans("","", string.punctuation))</br>
</p>

In [7]:
import string

translator = str.maketrans("", "", string.punctuation)
df['Description'] = df['Description'].apply(lambda x: str(x).translate(translator))

In [8]:
df.head()

Unnamed: 0,Kota,Name,Rating,Category,Description
0,bulukumba,kawasan adat kajang ammatoa,4.7,religi,kawasan adat kajang ammatoa adalah sebuah kawa...
1,bulukumba,pantai marumasa,4.4,pantai,pantai marumasa adalah sebuah pantai indah yan...
2,bulukumba,"pantai bara, bulukumba",4.6,danau,pantai bara adalah pantai menakjubkan lainnya ...
3,bulukumba,pantai pulau liukang loe,4.6,pantai,pantai pulau liukang loe adalah pantai indah y...
4,bulukumba,puncak pua' janggo',4.3,alam,puncak pua janggo adalah puncak gunung yang in...


<h1>Modeling</h1>
<p>Modeling with content base filte</p>

In [9]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from sklearn.feature_extraction.text import TfidfVectorizer

#create stemmer
stemmer = StemmerFactory().create_stemmer()
stopWord = StopWordRemoverFactory().create_stop_word_remover()
#create TfidfVectorizer
tv = TfidfVectorizer(max_features=5000)

<h2>Processing data</h2>
<p>Procssing data berguna untuk menyesuaikan data untuk nantinya dimasukkan kedalam model</p>

In [10]:
def preprocessing(data):
    data = data.lower()
    data = stemmer.stem(data)
    data = stopWord.remove(data)
    return data

In [11]:
df.Description = df.Description.apply(preprocessing)
df

Unnamed: 0,Kota,Name,Rating,Category,Description
0,bulukumba,kawasan adat kajang ammatoa,4.7,religi,kawasan adat kajang ammatoa buah kawasan buday...
1,bulukumba,pantai marumasa,4.4,pantai,pantai marumasa buah pantai indah letak buluku...
2,bulukumba,"pantai bara, bulukumba",4.6,danau,pantai bara pantai takjub letak bulukumba sula...
3,bulukumba,pantai pulau liukang loe,4.6,pantai,pantai pulau liukang loe pantai indah letak pu...
4,bulukumba,puncak pua' janggo',4.3,alam,puncak pua janggo puncak gunung indah letak su...
...,...,...,...,...,...
207,gowa,taman wisata holyland malino,4.4,alam,taman wisata holyland malino buah taman letak ...
208,gowa,raja ampat bollangi gowa,4.6,alam,raja ampat bollangi gowa buah tempat wisata le...
209,enrekang,buttu macca,4.4,alam,buttu macca rupa buah gunung milik pandang ala...
210,enrekang,wisata cekong,4.4,alam,wisata cekong rupa salah satu tempat wisata al...


<h3>Model</h3>

In [12]:
vector = tv.fit_transform(df["Description"]).toarray()
vector

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.11873717, 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [13]:
from sklearn.metrics.pairwise import cosine_similarity

similarity = cosine_similarity(vector)
similarity[0][1:10]

array([0.04607794, 0.01263839, 0.04315457, 0.04233602, 0.04083529,
       0.02330976, 0.02804309, 0.16844074, 0.1200717 ])

In [14]:
def recomended_content_base_filtering(nama_tempat):
    nama_tempat_index = df[(df["Name"] == nama_tempat) | (df["Category"] == nama_tempat) | (df["Description"])].index[0]
    distance = similarity[nama_tempat_index]
    nama_tempat_list = sorted(list(enumerate(distance)), key=lambda x : x[0], reverse=True)[0:10]

    recomended_nama_tempat = []
    for i in nama_tempat_list:
        recomended_nama_tempat.append([df.iloc[i[0]].Name])
    return recomended_nama_tempat

In [15]:
recomended_content_base_filtering("pantai yang indah")

[['dante pine'],
 ['wisata cekong'],
 ['buttu macca'],
 ['raja ampat bollangi gowa'],
 ['taman wisata holyland malino'],
 ['taman turatea'],
 ['wisata hutan pinus rombeng'],
 ['jeneponto waterpark'],
 ['sunari beach resort selayar'],
 ['taman indah']]