<a href="https://colab.research.google.com/github/IndraMadika/ML_Study/blob/main/Representasi%20Data/Metode_Representasi_Numerik_pada_Data_Objek.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Feature vectors, embeddings, dan hashing adalah tiga metode yang umum digunakan dalam machine learning untuk merepresentasikan data dalam bentuk numerik.**

1. Feature Vectors: Feature vectors adalah representasi numerik dari fitur-fitur dalam suatu dataset, di mana setiap fitur direpresentasikan sebagai nilai numerik. Ini adalah metode yang paling sederhana dan umum digunakan untuk merepresentasikan data dalam machine learning. Fitur-fitur ini dapat berasal dari berbagai jenis data, seperti teks, gambar, atau audio.

2. Embedding: Embedding adalah teknik representasi numerik yang biasanya digunakan untuk merepresentasikan data teks atau data yang mempunyai struktur kompleks, seperti graf atau jaringan sosial. Ini menghasilkan representasi yang lebih kompak dan ekspresif dari data, di mana setiap fitur direpresentasikan sebagai vektor numerik dalam ruang fitur yang lebih rendah. Embedding biasanya dihasilkan melalui proses pembelajaran pada dataset yang besar menggunakan algoritma seperti Word2Vec atau GloVe.

3. Hashing: Hashing adalah teknik representasi numerik yang digunakan untuk merepresentasikan data teks atau data dengan dimensi yang sangat besar. Ini adalah metode yang paling sederhana dan cepat untuk merepresentasikan data dalam bentuk numerik. Dalam hashing, setiap fitur direpresentasikan sebagai bilangan integer yang dihasilkan dari suatu fungsi hash.

--> Perbedaan utama antara feature vectors, embeddings, dan hashing adalah pada cara representasi data yang dihasilkan. Feature vectors mempresentasikan setiap fitur sebagai nilai numerik, embeddings menghasilkan vektor numerik dalam ruang fitur yang lebih rendah, sedangkan hashing menghasilkan bilangan integer yang dihasilkan dari suatu fungsi hash.

--> Manfaat dari feature vectors adalah mudah dipahami dan dapat diimplementasikan dengan mudah. Embedding sangat berguna untuk merepresentasikan data yang mempunyai struktur kompleks, dan dapat menghasilkan representasi yang lebih kompak dan ekspresif dari data. Hashing sangat berguna untuk mengatasi masalah dimensi yang sangat besar pada data dan dapat menghasilkan representasi yang lebih efisien dan mudah dihitung.

Dalam keseluruhan, pilihan metode representasi data yang tepat tergantung pada jenis data yang digunakan dan tujuan pengolahan datanya.

**1. Feature Vectors**

In [1]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# Contoh data teks
corpus = ['Ini adalah contoh kalimat pertama', 'Ini adalah contoh kalimat kedua', 'Ini adalah contoh kalimat ketiga']

# Membuat objek CountVectorizer
vectorizer = CountVectorizer()

# Mengubah teks menjadi feature vectors
feature_vectors = vectorizer.fit_transform(corpus)

# Menampilkan hasil
print(feature_vectors.toarray())

[[1 1 1 1 0 0 1]
 [1 1 1 1 1 0 0]
 [1 1 1 1 0 1 0]]


**2. Embedding**

In [3]:
import tensorflow as tf

# Contoh data teks
corpus = ['Ini adalah contoh kalimat pertama', 'Ini adalah contoh kalimat kedua', 'Ini adalah contoh kalimat ketiga']

# Membuat objek tokenizer
tokenizer = tf.keras.preprocessing.text.Tokenizer()

# Menghitung frekuensi kemunculan setiap kata dalam corpus
tokenizer.fit_on_texts(corpus)

# Mengubah teks menjadi sequences
sequences = tokenizer.texts_to_sequences(corpus)

# Menampilkan hasil tokenisasi
print('Tokenization Result:')
print(tokenizer.word_index)
print(sequences)

# Membuat objek embedding layer
embedding_layer = tf.keras.layers.Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=32)

# Mengubah sequences menjadi embedding vectors
embedding_vectors = embedding_layer(tf.constant(sequences))

# Menampilkan hasil embedding vectors
print('\nEmbedding Result:')
print(embedding_vectors.numpy())

Tokenization Result:
{'ini': 1, 'adalah': 2, 'contoh': 3, 'kalimat': 4, 'pertama': 5, 'kedua': 6, 'ketiga': 7}
[[1, 2, 3, 4, 5], [1, 2, 3, 4, 6], [1, 2, 3, 4, 7]]

Embedding Result:
[[[-1.7934989e-02  4.8949372e-02 -3.3395339e-02 -3.6279570e-02
   -1.9988848e-02  4.6885561e-02 -2.8623231e-03 -4.6275653e-02
    1.9392382e-02  2.9187631e-02  4.9417447e-02 -3.0143607e-02
   -4.2205263e-02 -3.8082562e-02 -1.2003899e-02 -1.4891826e-02
   -2.7538121e-02  1.2469530e-02 -2.2566319e-04 -2.5711274e-02
   -1.3294108e-03  3.8911104e-03  3.7217978e-02  2.7907122e-02
   -3.8968813e-02 -9.8674297e-03 -7.5428598e-03 -4.8725497e-02
    3.6052261e-02 -1.4723349e-02 -2.6681472e-02  6.7257509e-03]
  [ 4.8631791e-02  2.0469371e-02  4.0728059e-02  3.0944157e-02
    7.0341676e-04  4.1835878e-02  1.8650517e-03  2.5173176e-02
    3.1205203e-02 -4.6008017e-02 -2.9802775e-02  2.6278745e-02
   -2.3842264e-02  3.9823320e-02 -1.2305189e-02 -1.8074155e-02
    1.6726885e-02  1.7290507e-02  2.5879335e-02  1.5008736e-0

3. Hashing

In [4]:
from sklearn.feature_extraction.text import HashingVectorizer

# Contoh data teks
corpus = ['Ini adalah contoh kalimat pertama', 'Ini adalah contoh kalimat kedua', 'Ini adalah contoh kalimat ketiga']

# Membuat objek HashingVectorizer
vectorizer = HashingVectorizer(n_features=10)

# Mengubah teks menjadi feature vectors
feature_vectors = vectorizer.transform(corpus)

# Menampilkan hasil
print(feature_vectors.toarray())

[[ 0.          0.          0.          0.          0.90453403  0.
  -0.30151134  0.          0.          0.30151134]
 [ 0.          0.          0.          0.          0.9701425   0.
   0.          0.          0.          0.24253563]
 [ 0.         -0.30151134  0.          0.          0.90453403  0.
   0.          0.          0.          0.30151134]]
