mindsdb · QuantumPlumber · Mar 25, 2024 · Mar 26, 2024 · Mar 26, 2024 · Mar 26, 2024
diff --git a/mindsdb/integrations/handlers/langchain_embedding_handler/langchain_embedding_handler.py b/mindsdb/integrations/handlers/langchain_embedding_handler/langchain_embedding_handler.py
@@ -161,7 +161,7 @@ def predict(self, df: DataFrame, args) -> DataFrame:
         embeddings = model.embed_documents(df_texts.tolist())
 
         # create a new dataframe with the embeddings
-        df_embeddings = df.copy().assign(**{target: embeddings})
+        df_embeddings = df.copy().assign(**{'embedding_context': df_texts, target: embeddings})
 
         return df_embeddings
 

diff --git a/mindsdb/integrations/handlers/sentence_transformers_handler/sentence_transformers_handler.py b/mindsdb/integrations/handlers/sentence_transformers_handler/sentence_transformers_handler.py
@@ -63,7 +63,10 @@ def predict(self, df, args=None):
 
         embeddings = model.embed_documents(texts=content)
 
-        embeddings_df = pd.DataFrame(data={"content": content, "embeddings": embeddings, "metadata": metadata})
+        embeddings_df = pd.DataFrame(data={"content": content,
+                                           "embedding_context": content,
+                                           "embeddings": embeddings,
+                                           "metadata": metadata})
 
         return embeddings_df
 

diff --git a/mindsdb/integrations/libs/vectordatabase_handler.py b/mindsdb/integrations/libs/vectordatabase_handler.py
@@ -35,6 +35,7 @@ class TableField(Enum):
 
     ID = "id"
     CONTENT = "content"
+    CONTEXT = "embedding_context"
     EMBEDDINGS = "embeddings"
     METADATA = "metadata"
     SEARCH_VECTOR = "search_vector"
@@ -139,7 +140,7 @@ def _is_columns_allowed(self, columns: List[str]) -> bool:
         return set(columns).issubset(allowed_columns)
 
     def _is_condition_allowed(self, condition: FilterCondition) -> bool:
-        allowed_field_values = set([field.value for field in TableField])
+        allowed_field_values = set([field['name'] for field in self.SCHEMA])
         if condition.column in allowed_field_values:
             return True
         else:

diff --git a/mindsdb/interfaces/knowledge_base/controller.py b/mindsdb/interfaces/knowledge_base/controller.py
@@ -19,6 +19,8 @@
 from mindsdb.integrations.libs.vectordatabase_handler import TableField
 from mindsdb.utilities.exception import EntityExistsError, EntityNotExistsError
 
+from mindsdb.utilities import log
+logger = log.getLogger(__name__)
 
 class KnowledgeBaseTable:
     """
@@ -126,6 +128,15 @@ def insert(self, df: pd.DataFrame):
         df_emb = self._df_to_embeddings(df)
         df = pd.concat([df, df_emb], axis=1)
 
+        # drop original 'content' column if it exists
+        if TableField.CONTENT.value in df.columns:
+            df = df.rename(columns={TableField.CONTENT.value: "original_context"})
+
+        # rename model's 'embedding_context' column to 'content'
+        df = df.rename(
+            columns={TableField.CONTEXT.value: TableField.CONTENT.value}
+        )
+
         # send to vector db
         db_handler = self._get_vector_db()
         db_handler.do_upsert(self._kb.vector_database_table, df)
@@ -185,7 +196,7 @@ def _df_to_embeddings(self, df: pd.DataFrame) -> pd.DataFrame:
             if target != TableField.EMBEDDINGS.value:
                 # adapt output for vectordb
                 df_out = df_out.rename(columns={target: TableField.EMBEDDINGS.value})
-            df_out = df_out[[TableField.EMBEDDINGS.value]]
+            df_out = df_out[[TableField.CONTEXT.value, TableField.EMBEDDINGS.value]]
 
         return df_out