[NeuralChat] Fix pydub library import issues (#1285)

intel · Feb 20, 2024 · c37dab2 · c37dab2
1 parent 39064aa
commit c37dab2
Show file tree

Hide file tree

Showing 3 changed files with 9 additions and 2 deletions.
diff --git a/intel_extension_for_transformers/neural_chat/README.md b/intel_extension_for_transformers/neural_chat/README.md
@@ -228,6 +228,12 @@ NeuralChat includes support for various plugins to enhance its capabilities:
 - [**Caching**](./pipeline/plugins/caching/README.md)
 - [**Named Entity Recognition (NER)**](./pipeline/plugins/ner/README.md)
 
+Please be aware that additional libraries are required for various plugins. You can locate a 'requirements.txt' file in each plugin directory. Navigate to the plugin directory and execute 'pip install -r requirements.txt'. For instance, to enable the RAG plugin, run the following commands:
+```shell
+cd ./pipeline/plugins/retrieval/
+pip install -r requirements.txt
+```
+
 ### Multimodal APIs
 
 In addition to the text-based chat RESTful API, NeuralChat offers several helpful plugins in its RESTful API lineup to aid users in building multimodal applications. NeuralChat supports the following RESTful APIs:

diff --git a/intel_extension_for_transformers/neural_chat/server/restful/faceanimation_api.py b/intel_extension_for_transformers/neural_chat/server/restful/faceanimation_api.py
@@ -19,7 +19,6 @@
 from typing import Optional
 from ...cli.log import logger
 from fastapi import File, UploadFile, Form
-from pydub import AudioSegment
 from ...config import GenerationConfig
 import base64
 import torch
@@ -86,6 +85,7 @@ async def handle_talkingbot_face_animation(image: UploadFile = File(...),
         with open("tmp_audio_bytes", 'wb') as fout:
             content = await audio.read()
             fout.write(content)
+        from pydub import AudioSegment
         audio = AudioSegment.from_file("tmp_audio_bytes")
         audio = audio.set_frame_rate(16000)
         # bytes to wav

diff --git a/intel_extension_for_transformers/neural_chat/server/restful/plugin_audio_api.py b/intel_extension_for_transformers/neural_chat/server/restful/plugin_audio_api.py
@@ -20,7 +20,6 @@
 from typing import Optional, List
 from ...cli.log import logger
 from fastapi import File, UploadFile
-from pydub import AudioSegment
 from ...plugins import plugins, get_plugin_instance
 import base64
 import torch
@@ -90,6 +89,7 @@ async def handle_talkingbot_asr(file: UploadFile = File(...), language: str = "a
     with open("tmp_audio_bytes", 'wb') as fout:
         content = await file.read()
         fout.write(content)
+    from pydub import AudioSegment
     audio = AudioSegment.from_file("tmp_audio_bytes")
     audio = audio.set_frame_rate(16000)
     # bytes to wav
@@ -122,6 +122,7 @@ async def create_speaker_embedding(file: UploadFile = File(...)):
     with open(f"tmp_spk_{file_name}", 'wb') as fout:
         content = await file.read()
         fout.write(content)
+    from pydub import AudioSegment
     audio = AudioSegment.from_file(f"tmp_spk_{file_name}")
     audio.export(f"{spk_id}", format="mp3")