# Sentence Similarity
Menjelaskan mengenai bagaimana cara kemiripan dua kalimat dapat ditentukan berdasarkan jarak kosinus.

Berikut merupakan potongan kode yang dimaksud
```python
def sentence_similarity(sentence1, sentence2):
        sentence1 = [word for word in sentence1]
        sentence2 = [word for word in sentence2]
        all_words = list(set(sentence1+sentence2))
        vector1 = [0] * len(all_words)
        vector2 = [0] * len(all_words)
        for w in sentence1:
            vector1[all_words.index(w)] += 1
        for w in sentence2:
            vector2[all_words.index(w)] += 1
        return 1 - cosine_distance(vector1, vector2)
```

```python
sentence1 = [word for word in sentence1]
```
Potongan kode ini digunakan untuk memecahkan sebuah kalimat menjadi masing-masing kata yang terdapat didalamnya.
Potongan kode dibawah merupakan contoh keluaran dari potongan kode yang dimaksud.

In [25]:

sentence = "For oil spots on the floor, nothing beats parking a motorbike in the lounge. Tom got a small piece of pie. The hand sanitizer was actually clear glue. He decided to count all the sand on the beach as a hobby.".split() ## assume that the sentence is already tokenized
sentence1 = [word for word in sentence]
print(sentence1)


['For', 'oil', 'spots', 'on', 'the', 'floor,', 'nothing', 'beats', 'parking', 'a', 'motorbike', 'in', 'the', 'lounge.', 'Tom', 'got', 'a', 'small', 'piece', 'of', 'pie.', 'The', 'hand', 'sanitizer', 'was', 'actually', 'clear', 'glue.', 'He', 'decided', 'to', 'count', 'all', 'the', 'sand', 'on', 'the', 'beach', 'as', 'a', 'hobby.']


```python3
all_words = list(set(sentence1+sentence2))
```
Potongan kode diatas digunakan untuk menggabungkan seluruh kata **unik** yang berada dalam kalimat.
Keluaran dari potongan kode ini dapat dilihat pada keluaran dibawah

In [26]:
sentence2 = "Here's the thing. She doesn't have anything to prove, but she is going to anyway. That's just her character. She knows she doesn't have to, but she still will just to show you that she can. Doubt her more and she'll prove she can again. We all already know this and you will too.".split()
sentence2 = [word for word in sentence2]
all_words = list(set(sentence1+sentence2))
print(all_words)

['thing.', 'floor,', 'actually', 'character.', 'too.', 'piece', 'of', 'already', 'in', 'was', 'motorbike', 'Doubt', 'on', 'and', 'more', 'pie.', 'glue.', 'decided', 'sand', 'a', 'nothing', 'all', 'her', "doesn't", 'have', 'still', 'spots', 'got', 'The', 'is', 'He', 'She', "That's", 'count', 'anything', 'going', 'knows', 'can.', 'know', 'prove', 'beats', 'prove,', 'to', 'anyway.', 'will', 'show', 'We', 'but', 'you', 'the', 'that', "she'll", 'can', 'hand', 'hobby.', 'to,', 'just', 'sanitizer', 'small', 'she', 'For', 'as', "Here's", 'oil', 'Tom', 'beach', 'again.', 'parking', 'lounge.', 'clear', 'this']


```python
vector1 = [0] * len(all_words)
```
Potongan kode diatas digunakan untuk menciptakan sebuah vektor yang bernilai nol (**zero vector**) dengan ukuran sebesar panjang variabel `all_words`.
Keluaran dari potongan kode diatas dapat dilihat dibawah ini. 

In [27]:
vector1 = [0] * len(all_words)
vector2 = [0] * len(all_words)
print(f"Nilai vector: {vector1}, Panjang all_words {len(all_words)}, Panjang vector: {len(vector1)}")

Nilai vector: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], Panjang all_words 71, Panjang vector: 71


```python
for w in sentence1:
    vector1[all_words.index(w)] += 1
```
Potongan kode diatas digunakan untuk menentukan frekuensi kata dalam kalimat yang diberikan.
Frekuensi setiap kata akan dimasukkan kedalam indeks vektor, sehingga vektor yang awalnya berisikan nilai nol, berubah menjadi vektor bernilai (**non-zero vector**). *Non-zero vector* merupakan bagian penting dalam algoritma `cosine_distance`.

Keluaran dari potongan kode diatas dapat dilihat dibawah ini.


In [28]:
for w in sentence:
    vector1[all_words.index(w)] += 1
for w in sentence2:
    vector2[all_words.index(w)] += 1
print(vector1, vector2)

[0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 0, 1, 1, 1, 1, 3, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0] [1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 2, 1, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 1, 0, 0, 0, 1, 0, 2, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 3, 1, 2, 1, 1, 2, 2, 1, 1, 1, 1, 0, 0, 1, 2, 0, 0, 5, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1]


Kini, potongan terakhir dari fungsi `sentence_similarity` adalah:
```python
return 1 - cosine_distance(vector1, vector2)
```
Potongan kode diatas bertujuan untuk mengubah hasil dari `cosine_distance` yang didapatkan melalui nilai dari kedua vektor yang diberikan menjadi sebuah *cosine similarity* dengan cara mengurangi 1 dengan hasil dari `cosine_distance`. 
Keluaran dari potongan kode diatas dapat dilihat dibawah ini

In [30]:
from nltk.cluster.util import cosine_distance
print(1 - cosine_distance(vector1, vector2))

0.1034694240485926
