Add tfidf retriever parameters #3291

go5paopao · 2023-04-21T10:46:33Z

I would like to add some new features to the TfidfRetriever in the retriever library.

The TfidfRetriever currently uses TfidfVectorizer from scikit-learn, which has many optional parameters that can affect the result of the tfidf and retrieval processes.

For instance, if we want to use the TfidfRetriever with a different language, we may need to add an original tokenization process. In the case of Japanese, we need to pass tokenizer parameters to TfidfVectorizer as shown below:

import MeCab
from sklearn.feature_extraction.text import TfidfVectorizer

def mecab_tokenizer(text):
    mecab = MeCab.Tagger("-Owakati")
    return mecab.parse(text).split()

vectorizer = TfidfVectorizer(tokenizer=mecab_tokenizer)

I have submitted this pull request so that we can support this feature.

In addition, I have added a simple unit test code. Since there was no TfidfRetriever test code previously, I have created a new file.

This is my first time submitting a pull request, so if there is anything insufficient or incorrect, please let me know.

dev2049 · 2023-04-21T17:30:29Z

langchain/retrievers/tfidf.py

+        if tfidf_params is None:
+            vectorizer = TfidfVectorizer()
+        else:
+            vectorizer = TfidfVectorizer(**tfidf_params)


tfidf_params = tfidf_params or {} vectorizer = TfidfVectorizer(**tfidf_params)

@dev2049
Thank you for review comment.
It is smart way, I just updated!

dev2049 · 2023-04-23T22:05:19Z

looks great, thanks @go5paopao!

go5paopao · 2023-04-24T10:35:03Z

I just fix import error of scikit-learn by adding scikit-learn library to poetry.
I think it is currently resolved.

KyoHattori added 2 commits April 21, 2023 19:30

add tfidf param and test

3c4d2d4

apply make format

bc26d5d

go5paopao changed the title ~~Add tfidf retriever params~~ Add tfidf retriever parameters Apr 21, 2023

dev2049 reviewed Apr 21, 2023

View reviewed changes

update tfidf_params by reviewer comment

936f87f

KyoHattori and others added 4 commits April 24, 2023 13:30

apply black

14ed7ec

add scikit-learn in poetry

5d9e6a2

Merge branch 'master' into add_tfidf_retriever_params

6ec1242

update poetry.lock for sklearn

90be33b

hwchase17 changed the base branch from master to harrison/tfidf-parameters April 25, 2023 02:48

hwchase17 merged commit 1ddbf28 into langchain-ai:harrison/tfidf-parameters Apr 25, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add tfidf retriever parameters #3291

Add tfidf retriever parameters #3291

go5paopao commented Apr 21, 2023

dev2049 Apr 21, 2023

go5paopao Apr 22, 2023

dev2049 commented Apr 23, 2023 •

edited

go5paopao commented Apr 24, 2023

Add tfidf retriever parameters #3291

Add tfidf retriever parameters #3291

Conversation

go5paopao commented Apr 21, 2023

dev2049 Apr 21, 2023

Choose a reason for hiding this comment

go5paopao Apr 22, 2023

Choose a reason for hiding this comment

dev2049 commented Apr 23, 2023 • edited

go5paopao commented Apr 24, 2023

dev2049 commented Apr 23, 2023 •

edited