# Project Overview

Menurut Sanjoyo (2010), sistem rekomendasi adalah sistem yang bertujuan untuk memperkirakan informasi yang menarik bagi pengguna dan juga membantu user dalam menentukan pilihannya [[1]](https://jursistekni.nusaputra.ac.id/article/download/63/38/). Sistem rekomendasi bisa menjadi sebuah solusi dalam peningkatan peluang khususnya dalam dunia bisnis. Menurut CNBC tahun 2016-2018 menyatakan peningkatan sepatu sneakers mencapai 50-70% [[2]](https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/download/18073/17702), dari peningkatan tersebut banyak konsumen bingung memilih jenis sneakers apa yang cocok baginya. Disinilah peran sistem rekomendasi sebagai sang "pelayan ajaib", dengan bantuan teknologi yang memumpuni konsumen dapat mudah mengetahui jenis sneakers yang baik baginya dan sang perusahaan dapat memberikan pelayanan serta peningkatan bisnis. 

Sistem rekomendasi sangat berguna dalam kehidupan sehari-hari dan pada penelitian ini berusaha untuk memberikan rekomendasi nama planet berdasarkan namanya. Hal ini dasarkan membantu meningkatkan minat rakyat Indonesia terhadap dunia astronomi

# Business Understanding

**Pada pernyataan yang telah dijelaskan, sehingga masalah yang diangkat adalah**
- Bagaimana implemntasi sistem rekomendasi berbasis *content based filtering?*
- Bagaimana kemampuan content based filtering dalam memberikan rekomendasi?

**Tujuan dari masalah yang diangkat adalah**
- Mengetahui cara implementasi sistem rekomendasi berbasis *content based filtering*
- Mengetahui kemampuan *content based filtering* dalam melakukan rekomendasi

**Solusi Statements**

Solusi yang dapat dilakukan
- Menggunakan library seaborns sklearn
- Menggunakan cosine similarity
- Menggunakan pandas dan numpy
- Menggunakan precision sebagai evaluasi

# Data Understanding


Dataset yang digunakan pada penelitian ini adalah dataset astronomi tentang planet yang didapatkan dari [Kaggle](https://www.kaggle.com/datasets/amit1235813/gaia-astronomical-data). Adapun kolom-kolom pada dataset ini, antara lain:
- type : tipe-tipe dari planet yang tersedia
- name : nama dari planet-planet
- glon : Foto pengguna
- glat : Lamanya Session pengguna pada sistem yang tercatat
- distance (parsecs) : Lamanya penggunaan aplikasi perusahaan oleh pengguna
- x (parsecs)  
- y (parsecs)
- z (parsecs)
- radius (parsecs)
- log10 age (years)
- Arm (masers)
- Source : Sumber perhitungan.

Note : parsecs adalah satuan jarak tertua dimana perhitungan tersebut memanfaatkan trigonometri dengan bumi sebagai titik awal sudutnya. Sehingga, x, y, z dan radius merupakan perhitungan trigono "mentahannya"

Pada kolom diatas, **kolom** yang digunakan adalah kolom 'type','name', 'distance (parsecs)' dengan name sebagai kolom yang sebagai yang akan direkomendasi dengan ukuran data 2557 baris dan 12 kolom


Tahapan yang dilakukan untuk memahami data adalah.
- Pemilihan kolom dan cek nilai null pada kolom yang dipilih dengan pandas

# Data Preparation

### Univariate Exploratory

In [2]:
os = 'G:\Kumpulan Dataset\Astronomi'

star = pd.read_csv(os+'/map_object_list.csv')

In [3]:
star

Unnamed: 0,type,name,glon,glat,distance (parsecs),x (parsecs),y (parsecs),z (parsecs),radius (parsecs),log10 age (years),Arm (masers),Source
0,maser,G351.44+00.65,351.440000,0.650000,1329.000000,1314.111083,-197.802309,15.076703,,,Sgr,2019ApJ...874...94W
1,maser,G011.49-01.48,11.490000,-1.480000,1250.000000,1224.540716,248.913063,-32.285001,,,Sgr,2019ApJ...874...94W
2,maser,G014.33-00.64,14.330000,-0.640000,1119.000000,1084.116100,276.942332,-12.499090,,,Sgr,2019ApJ...874...94W
3,maser,G014.63-00.57,14.630000,-0.570000,1831.000000,1771.545918,462.443798,-18.215177,,,Sgr,2019ApJ...874...94W
4,maser,G015.03-00.67,15.030000,-0.670000,2004.000000,1935.311186,519.651302,-23.433653,,,Sgr,2019ApJ...874...94W
...,...,...,...,...,...,...,...,...,...,...,...,...
2552,ob association,SCO OB1,343.464464,1.389996,1529.261420,1466.016362,-435.243053,37.107179,,,,1978ApJS...38..309H
2553,ob association,HD 156154,351.196497,1.369037,1489.704232,1472.154067,-227.993641,35.602076,,,,1978ApJS...38..309H
2554,ob association,SCO OB4,352.465040,3.119684,1128.317216,1118.574236,-147.957489,61.496259,,,,1978ApJS...38..309H
2555,ob association,R 105,332.997923,1.851210,2433.451109,2168.180764,-1104.842284,78.651451,,,,1978ApJS...38..309H


In [5]:
star.isna().sum()

type                  0
name                  0
distance (parsecs)    0
dtype: int64

Data tidak memiliki data NaN dari 2557 data yang tersedia.

Setelah mengubah data dari list (dengan setiap panjang data ialah 2557) akan dimasukkan kedalam dataframe dalam bentuk dictionary dengan variable "astronom"

In [8]:
print(len(typee))
print(len(name))
print(len(distance))

2557
2557
2557


In [10]:
astronom

Unnamed: 0,type,name,distance
0,maser,G351.44+00.65,1329.000000
1,maser,G011.49-01.48,1250.000000
2,maser,G014.33-00.64,1119.000000
3,maser,G014.63-00.57,1831.000000
4,maser,G015.03-00.67,2004.000000
...,...,...,...
2552,ob association,SCO OB1,1529.261420
2553,ob association,HD 156154,1489.704232
2554,ob association,SCO OB4,1128.317216
2555,ob association,R 105,2433.451109


Disini akan melakukan **TF-IDF** untuk menghitung bobot dari setiap tipe menggunakan library sklearn

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

Membuat variable baru dengan nama data yang menyimpan dataframe sebelumnya dan variable **tf** sebagai fungsi TF-IDF

Melakukan extract dan get feature dari tipe planet yang ada pada data


['association', 'cluster', 'hii', 'maser', 'ob', 'open', 'region']


Setelah melakukan get feature yang tersedia, maka ditransformasikan menjadi kolom dan apabila di shape akan mendapatkan menjadi 2557 baris dan 7 kolom

In [17]:
pd.DataFrame(
            tfidf_matrix.todense(),
            columns=tf.get_feature_names(),
            index = data.name
            )

Unnamed: 0_level_0,association,cluster,hii,maser,ob,open,region
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
G351.44+00.65,0.000000,0.0,0.0,1.0,0.000000,0.0,0.0
G011.49-01.48,0.000000,0.0,0.0,1.0,0.000000,0.0,0.0
G014.33-00.64,0.000000,0.0,0.0,1.0,0.000000,0.0,0.0
G014.63-00.57,0.000000,0.0,0.0,1.0,0.000000,0.0,0.0
G015.03-00.67,0.000000,0.0,0.0,1.0,0.000000,0.0,0.0
...,...,...,...,...,...,...,...
SCO OB1,0.707107,0.0,0.0,0.0,0.707107,0.0,0.0
HD 156154,0.707107,0.0,0.0,0.0,0.707107,0.0,0.0
SCO OB4,0.707107,0.0,0.0,0.0,0.707107,0.0,0.0
R 105,0.707107,0.0,0.0,0.0,0.707107,0.0,0.0


Setelah melakukan extract fitur dan melakukan transform, selanjutnya akan dihitung cosine similarity nya. Nah ini lah tahapan bagaimana model akan menjadi "Pelayan Ajaib". Fungsi ini digunakan untuk menghitung kemiripan antar data, semakin mendekati 1 maka data tersebut semakin mirip dan sebaliknya. 

Fungsi cosine similarity yang digunakan disini berasala dari sklearn dan hasil tersebut akan dibuatkan data frame dengan :
 - kolom sebagai nama planet
 - baris sebagai nama planet

Hal ini dikarenakan memetakan data untuk menghitung kemiripan antar nama planet

In [20]:
cosine_sim_df = pd.DataFrame(cosine_sim, columns = data['name'], index = data['name'])
print('Shape:', cosine_sim_df.shape)

Shape: (2557, 2557)


In [21]:
cosine_sim_df.sample(10, axis=1).sample(5, axis=0)

name,UBC 219,UPK_642,UPK_418,ASCC_21,FSR_0282,G049.48-00.38,Berkeley_36,NGC_7128,Berkeley_5,Ruprecht_79
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
UBC 119,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0
UBC 580,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0
G122.01-07.08,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
UBC 135,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0
G208.99-19.38,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


Hasil diatas dapat dilihat bahwa data memiliki tingkat kemiripan yang tinggi. 

Contoh UBC 119 memiliki tingkat kemiripan antara lain UPK_642, UBC 219, NGC_7218. Tetapi dengan G049.48-00.38 tingkat kemiripannya adalah 0 (nol)

# Modeling and Results

## Modeling 

In [26]:
def planet_recommendations(name, similarity_data=cosine_sim_df, items= data[['name', 'type', 'distance']], k=3):
    index = similarity_data.loc[:,name].to_numpy().argpartition(
        range(-1, -k, -1))
    
    closest = similarity_data.columns[index[-1:-(k+2):-1]]
    
    closest = closest.drop(name, errors='ignore')
    
    return pd.DataFrame(closest).merge(items).tail(3)

Modelling diatas bekerja dengan memanfaatkan hasil perhitungan cosine similarity dengan pengambilan data terakhir hal tersebut dikarenakan dengan fungsi *tail* akan mengambil data terakhir dari hasil dataframe
Kurang lebih alur model tersebut sebagai berikut :
1. Membuat parameter name, similiratiy_data (berisi dataframe cosine_sim_df), items = dataframe tanpa cosine, dan k (sebagai pengambil 3 data) yang parameter-parameter ini dibalut dengan fungsi.
2. Cari similarity dengan kata kunci name yang diinputkan dengan bantuan fungsi argpartition dengan mengambil index data yang sama
3. Setelah didapatkan, akan diambil kolom-kolom tersebut
4. Untuk mencegah data yang kita cari tetap muncul, maka data dengan "name" (sebagai input) akan di drop
5. kembalikan data dalam bentuk dataframe

## Results 

![ab](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/data_eq.PNG?raw=True)

![result](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/result.PNG?raw=True)

# Evalution

Matrik evaluasi yang digunakan disini adalah presisi. Berdasarkan penelitian yang dilakukan oleh Nastiti, Putri [[3]](https://www.researchgate.net/publication/334320752_Penerapan_Metode_Content_Based_Filtering_Dalam_Implementasi_Sistem_Rekomendasi_Tanaman_Pangan/fulltext/5d248983458515c11c1f7ab8/Penerapan-Metode-Content-Based-Filtering-Dalam-Implementasi-Sistem-Rekomendasi-Tanaman-Pangan.pdf?origin=publication_detail) yang membahas sistem rekomendasi contetnt based filtering dalam tanaman pangan menyatakan hasil model yang dibuat akan dievaluasi dengan metrik presisi. Dengan penelitian yang sama, presisi adalah teknik perbandingan hasil rekomendasi dengan teknik sebenarnya. Presisi merupakan salah satu tahapan evaluasi dalam *confusion matrix*. Evaluasi pada confusion matrix yang sering digunakan adalah accuracy, precision, recall
![formula](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/formula.jpg?raw=True)

Pada hasil rekomendasi, tidak diketahui TP, TN, FP, FN. Nah disini saya membuat sebuah relevant yang bersumber dari [[4]](https://towardsdatascience.com/recommendation-systems-models-and-evaluation-84944a84fb8e) sehingga formula yang didapatkan ialah seperti berikut
![tp_tn_fp_fn_coding](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/tp_tn_fp_fn_ala_recom.PNG?raw=True)
![formula_coding](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/formula_acc_preci_recall.PNG?raw=True)

Hasil rekomendasi dapat dilihat bahwa tipe perhitungan dengan open cluster yang sama dengan UBC 119 adalah 10 data dari ke 10 data. Hal ini dapat dilakukan perhitungan bahwasanya hasil akurasi, precisi, rekal dan ialah 100%. Perhitungan dapat dilihat dibawah ini
![result](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/result_acc_precisisi_recall.PNG?raw=True)


Jika dilakukan perhitungan manual, diilustrasikan seperti dibawah ini
![hasil_perhitungan_presisi](https://github.com/Adib-AI/Data_Science/blob/main/Recom_System/hasil_perhitungan_presisi.PNG?raw=True)

Note: Dikali 100% untuk mendapatkan hasil dalam bentuk % (persen)