## Tujuan pembelajaran
  - Mengubah dokumen menjadi ruang model untuk melakukan analisa lebih lanjut
  - Mempelajari beberapa bentuk ruang model fitur dari teks

## Representasi text
Algoritma pembelajaran mesin beroperasi pada ruang fitur numerik, oleh karena itu input text dinyatakan sebagai array dua dimensi dengan baris sebagai objek(instance) dan kolom sebagai fitur. Untuk melakukan pembelajaran mesin pada teks, kita perlu mengubah dokumen menjadi representasi vektor sehingga kita dapat menerapkan pembelajaran mesin. Proses ini disebut ekstraksi fitur atau lebih sederhananya, vektorisasi, dan merupakan langkah penting pertama menuju analisis pada text.

Representasi dokumen secara numerik memberi kita kemampuan untuk melakukan analisis  dan juga menjadi dataset dapat dilatih pada algoritma embelajaran mesin. Dalam analisis teks, misalkan  dokumen atau ekpresi kutipan, panjangnya dapat bervariasi  tetapi vektornya harus selalu memiliki panjang yang sama agar dapat dilatih pada algoritma pembelajaran. Setiap karakteristik objek merepresentasi vektor fitur. Untuk teks, fitur mewakili atribut meta atribut, seperti panjang dokumen teks, penulis, sumber, dan tanggal publikasi serta karakteristik content dari dokumen. Sehingga fitur-fitur dokumen berada pada  ruang fitur multidimensi.

Oleh karena itu, kita kini harus berfikir bagaimana merubah bahasa dari rangkaian kata ke titik-titik yang menempati ruang semantik berdimensi tinggi. Titik-titik dalam ruang bisa berdekatan atau berjauhan, berkerumun rapat, atau tersebar merata. Oleh karena itu, ruang semantik dipetakan sedemikian rupa sehingga dokumen-dokumen yang memiliki makna serupa saling berdekatan dan dokumen-dokumen berbeda berjauhan. Dengan mengkodekan similaritas objek sebagai jarak, kita dapat  memperoleh komponen utama dokumen dan batasan batasan keputusan dalam ruang semantik.

![picture](https://docs.google.com/drawings/d/e/2PACX-1vTPyQj3JYT3daSIYmxvj6xJS5JkVLVelwXyiCdK5jQa45VDSSnti6y-ciGBXnTPh6gWgJ_8-4TrhM-A/pub?w=472&h=196)

In [None]:
%%capture
!pip install nltk

In [None]:
import nltk
import string

# Tokenization function
def tokenize(text):
    stem = nltk.stem.SnowballStemmer('english')
    text = text.lower()

    for token in nltk.word_tokenize(text):
        if token in string.punctuation: continue
        yield stem.stem(token)


# The corpus object
corpus = [
    "The elephant sneezed at the sight of potatoes.",
    "Bats can see via echolocation. See the bat sight sneeze!",
    "Wondering, she opened the door to the studio.",
]

Kita akan bahas  vector encoding
- frequency
- one-hot
- TF–IDF
- distributed representations

Menentukan mana yang harus dipilih bergantung kepada ruang lingkup masalahnya dan model yang dipilih.



Model pengkodean vektor yang paling sederhana adalah  mengisi vektor dengan frekuensi kemunculan kata dalam dokumen. Dalam skema pengkodean ini, setiap dokumen direpresentasikan sebagai multitoken yang menyusunnya dan nilai elemen dari vektor adalah frequenci kemunculan kata dari masing masing kata  dalam dokumen. Representasi ini dapat berupa pengkodean integer seperti yang ditunjukkan pada gambar atau pengkodean yang dinormalisasi di mana setiap kata diberi bobot berdasarkan jumlah total kata dalam dokumen.
![picture](https://docs.google.com/drawings/d/e/2PACX-1vSH12i5kPFESXm8a4ZAvqwLN4CUJM5BilvH635so8UAZMrYgwYzo182ldxSelal_mJMKT31tWXVmLZI/pub?w=472&h=196)

In [None]:
def nltk_frequency_vectorize(corpus):

    # The NLTK frequency vectorize method
    from collections import defaultdict

    def vectorize(doc):
        features = defaultdict(int)

        for token in tokenize(doc):
            features[token] += 1

        return features

    return map(vectorize, corpus)
vectnltk=nltk_frequency_vectorize(corpus)
type(vectnltk)

map

In [None]:
def sklearn_frequency_vectorize(corpus):
    # The Scikit-Learn frequency vectorize method
    from sklearn.feature_extraction.text import CountVectorizer

    vectorizer = CountVectorizer()
    return vectorizer.fit_transform(corpus)
vectsklen=sklearn_frequency_vectorize(corpus)
print(vectsklen)

  (0, 16)	2
  (0, 6)	1
  (0, 14)	1
  (0, 0)	1
  (0, 12)	1
  (0, 7)	1
  (0, 9)	1
  (1, 16)	1
  (1, 12)	1
  (1, 2)	1
  (1, 3)	1
  (1, 10)	2
  (1, 18)	1
  (1, 5)	1
  (1, 1)	1
  (1, 13)	1
  (2, 16)	2
  (2, 19)	1
  (2, 11)	1
  (2, 8)	1
  (2, 4)	1
  (2, 17)	1
  (2, 15)	1


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

#coun_vect = CountVectorizer()
coun_vect = CountVectorizer(stop_words= ['at','can','of'])
count_matrix = coun_vect.fit_transform(corpus)
count_array = count_matrix.toarray()
df = pd.DataFrame(data=count_array,columns = coun_vect.vocabulary_.keys())
df

Unnamed: 0,the,elephant,sneezed,sight,potatoes,bats,see,via,echolocation,bat,sneeze,wondering,she,opened,door,to,studio
0,0,0,0,0,1,0,1,0,0,1,0,1,0,2,0,0,0
1,1,1,0,1,0,0,0,2,0,1,1,0,0,1,0,1,0
2,0,0,1,0,0,1,0,0,1,0,0,0,1,2,1,0,1


In [None]:
print(len(count_array[0]))

17


In [None]:
import numpy as np
data =[]
for i in range(len(count_array)):
  for j in range(len(count_array[0])):

      if (count_array[i,j]> 0):
        c=count_array[i,j]
        count_array[i,j]=np.log(count_array[i,j]+1)
      else :
         count_array[i,j]= 0

print(count_array)

[[0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]]
