# Language Embeddings

A <b>vector embedding</b>, or simply an <b>"embedding"</b> is a vector created as the numerical representation of typically non-numerical data objects such as Natural Language, Image, Sound, or Video.

<i>(Vector Embedding là một vectơ được tạo dưới dạng biểu diễn số của các đối tượng dữ liệu phi số thông thường như Ngôn ngữ tự nhiên, Hình ảnh, Âm thanh hoặc Video.)</i>

- Embeddings capture the inherent properties and relationships of the original data in a numerical vector format and are often used in Machine Learning use cases. <i>(Embeddings nắm bắt các thuộc tính và mối quan hệ vốn có của dữ liệu gốc ở định dạng vectơ số và thường được sử dụng trong các trường hợp sử dụng Machine Learning.)</i>
- In the case of NLP,  embedding vectors capture the semantic and syntactic senses.<i>(Trong trường hợp NLP, embedding vectors nắm bắt được ý nghĩa ngữ nghĩa và cú pháp.)</i>
- The transformation process from the original data is performed by what's known as an "embedding model" and involves complex machine learning techniques, including sophisticated neural networks.<i>(Quá trình chuyển đổi từ dữ liệu gốc được thực hiện bằng cái được gọi là "mô hình nhúng" và bao gồm các kỹ thuật học máy phức tạp, bao gồm cả mạng lưới thần kinh phức tạp.)</i>

![embedding](embedding.png)

## Text Embeddings
Text embedding captures the semantic meaning of words and their relationships within a language. For example, they could encode semantic similarities between words, such as "king" being closer to "queen" than to "car".

<i>(Text embedding nắm bắt ý nghĩa ngữ nghĩa của các từ và mối quan hệ của chúng trong một ngôn ngữ. Ví dụ: họ có thể mã hóa những điểm tương đồng về ngữ nghĩa giữa các từ, chẳng hạn như "vua" gần với "nữ hoàng" hơn là "xe hơi".)</i>

<b>Common Text Embedding Models used for generating text embedding vectors include:</b>

- <b>TF-IDF (Term Frequency - Inverse Document Frequency)</b> creates sparse embeddings by assigning weights to words based on their occurrence frequency in a document relative to their prevalence across the entire dataset. → <i>(TF-IDF (Tần suất thuật ngữ - Tần suất tài liệu nghịch đảo) tạo ra các phần nhúng thưa thớt bằng cách gán trọng số cho các từ dựa trên tần suất xuất hiện của chúng trong tài liệu so với mức độ phổ biến của chúng trên toàn bộ tập dữ liệu.)</i>

- <b>Word2Vec</b> creates dense vector representations that capture semantic relationships by training a neural network to predict words in context. → <i>(Word2Vec tạo ra các biểu diễn vectơ dày đặc nhằm nắm bắt các mối quan hệ ngữ nghĩa bằng cách huấn luyện mạng lưới thần kinh để dự đoán các từ trong ngữ cảnh.)</i>

- <b>BERT (Bidirectional Encoder Representations from Transformers)</b> creates context-rich embeddings that capture bidirectional dependencies by using a transformer model to predict masked words in sentences. → <i>(BERT (Biểu diễn bộ mã hóa hai chiều từ Transformers) tạo ra các phần nhúng giàu ngữ cảnh để nắm bắt các mối phụ thuộc hai chiều bằng cách sử dụng transformers model để dự đoán các từ bị ẩn trong câu.)</i>

<b>What can we do with these vector embeddings once we have obtained them?</b>
(Chúng ta có thể làm gì với các vectơ nhúng này sau khi đã có được chúng?)

- <b>Similarity search</b>: Use embeddings to measure the similarity between different instances. For example, in NLP, you can find similar documents or identify related words based on their embeddings. → <i>(Sử dụng các phần nhúng để đo lường sự giống nhau giữa các phiên bản khác nhau. Ví dụ: trong NLP, bạn có thể tìm thấy các tài liệu tương tự hoặc xác định các từ liên quan dựa trên phần nhúng của chúng.)</i>
- <b>Clustering and classification</b>: Use embeddings as the input features for clustering and classification models to train machine-learning algorithms to group similar instances and classify objects. → <i>(Sử dụng các phần nhúng làm tính năng đầu vào cho các mô hình phân cụm và phân loại để huấn luyện các thuật toán học máy để nhóm các trường hợp tương tự và phân loại các đối tượng.)</i>
- <b>Information retrieval</b>: Use embeddings to build powerful search engines to find relevant documents or media based on user requirements. → <i>(Sử dụng phần nhúng để xây dựng các công cụ tìm kiếm mạnh mẽ để tìm các tài liệu hoặc phương tiện có liên quan dựa trên yêu cầu của người dùng.)</i>
- <b>Recommendation systems</b>: leverage embeddings to recommend related products, articles, or media based on user preferences and historical data. → <i>(Tận dụng tính năng nhúng để đề xuất các sản phẩm, bài viết hoặc phương tiện liên quan dựa trên sở thích của người dùng và dữ liệu lịch sử.)</i>
- <b>Visualizations</b>: visualize embeddings in lower-dimensional spaces to gain insights into the relationships and patterns within the data. → <i>(Trực quan hóa các phần nhúng trong không gian có chiều thấp hơn để hiểu rõ hơn về các mối quan hệ và mẫu trong dữ liệu.)</i>
- <b>Transfer learning</b>: Use pre-trained embeddings as a starting point for new tasks, allowing you to leverage existing knowledge and reduce the need for extensive training. → <i>(Sử dụng các phần nhúng được đào tạo trước làm điểm khởi đầu cho các nhiệm vụ mới, cho phép bạn tận dụng kiến thức hiện có và giảm nhu cầu đào tạo chuyên sâu.
)</i>

# Vector Databases