In [3]:
import os
from dotenv import load_dotenv

# Tải biến môi trường từ tệp .env
load_dotenv()

# Lấy khóa API từ biến môi trường
google_api_key = os.getenv("GOOGLE_API_KEY")

In [2]:
# Import libraries
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import PromptTemplate 
from langchain.text_splitter import TextSplitter
from langchain import LLMChain
import requests
from bs4 import BeautifulSoup

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# Define prompt templates
extract_conversation_prompt = PromptTemplate(
    input_variables=["text"],
    template="This is a conversation between people:\n{text}"
)

summarize_conversation_prompt = PromptTemplate(
    input_variables=["text"],
    template="Summarize the most important information from the conversation: {text}"
)

In [5]:
def summarize_conversation_from_file(filename):
    """
    Summarizes conversation from a text file using LangChain and Gemini.

    Args:
        filename: Path to the file containing the conversation.
    """
    # Load conversation text
    with open(filename, "r") as f:
        conversation_text = f.read()
    
    return summarize_conversation(conversation_text)

In [6]:

def summarize_conversation_from_input():
    """
    Summarizes conversation input from the keyboard using LangChain and Gemini.
    """
    # Load conversation text from user input
    conversation_text = input("Please enter the conversation text: ")
    
    return summarize_conversation(conversation_text)

In [7]:
def summarize_conversation_from_url(url):
    """
    Summarizes conversation from a web page using LangChain and Gemini.

    Args:
        url: URL of the web page containing the conversation.
    """
    # Fetch the web page content
    response = requests.get(url)
    if response.status_code == 200:
        # Parse the web page content
        soup = BeautifulSoup(response.text, 'html.parser')
        # Extract the main text (this can vary depending on the structure of the web page)
        paragraphs = soup.find_all('p')
        conversation_text = '\n'.join([para.get_text() for para in paragraphs])
        return summarize_conversation(conversation_text)
    else:
        print(f"Failed to fetch the webpage. Status code: {response.status_code}")
        return None

In [8]:
def summarize_conversation(conversation_text):
    """
    Summarizes the given conversation text using LangChain and Gemini.

    Args:
        conversation_text: Text of the conversation to summarize.
    """
    # Create LangChain pipeline
    llm = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key=google_api_key)
    
    # Create the chains for extracting and summarizing the conversation
    extract_chain = LLMChain(llm=llm, prompt=extract_conversation_prompt)
    summarize_chain = LLMChain(llm=llm, prompt=summarize_conversation_prompt)
    
    try:
        # Run the extraction chain
        extracted_result = extract_chain.run(text=conversation_text)
        # Ensure the extracted result is in the correct format
        extracted_text = extracted_result['text'] if isinstance(extracted_result, dict) else extracted_result

        # Run the summarization chain on the extracted text
        summary_result = summarize_chain.run(text=extracted_text)
        summary_text = summary_result['text'] if isinstance(summary_result, dict) else summary_result
        
        return summary_text
    except Exception as e:
        print(f"Error summarizing conversation: {e}")
        return None

In [10]:
if __name__ == "__main__":
    choice = input("Do you want to summarize a conversation from a file or from input? (file/input): ").strip().lower()
    
    if choice == "file":
        filename = input("Please enter the filename: ").strip()
        summary = summarize_conversation_from_file(filename)
    elif choice == "input":
        summary = summarize_conversation_from_input()
    elif choice == "url":
        url = input("Please enter the URL: ").strip()
        summary = summarize_conversation_from_url(url)
    else:
        print("Invalid choice. Please enter 'file', 'input', or 'url'.")
        summary = None

    if summary:
        print(f"Summary: {summary}")

  warn_deprecated(
  warn_deprecated(


Summary: **Mở Tài Khoản**

* Chỉ khách hàng Nhật Bản từ 18 tuổi trở lên sinh sống và làm việc tại Việt Nam mới có thể mở tài khoản.
* Yêu cầu giấy tờ: Passport, VISA hoặc giấy tạm trú, hợp đồng lao động, giấy phép lao động.
* Không thể đăng ký mở tài khoản từ Nhật Bản hoặc qua internet/bưu điện.
* Có thể phát hành thẻ phụ cho người không cư trú tại Việt Nam.

**Thay Đổi Thông Tin/ Báo Mất/ Phát Hành Thẻ**

* Liên hệ tổng đài tiếng Nhật của Vietinbank để báo mất thẻ.
* Có thể phát hành lại thẻ ở bất kỳ chi nhánh nào của Vietinbank.
* Không thể sử dụng thẻ cũ sau khi phát hành thẻ mới.
* Cần liên hệ chi nhánh để đăng ký sử dụng lại thẻ cũ nếu tìm thấy sau khi báo mất.
* Đến chi nhánh hỗ trợ VSBP để thay đổi thông tin.

**Visa Debit Card**

* Đến chi nhánh với hộ chiếu, thẻ tạm trú, giấy phép lao động để phát hành lại thẻ hết hạn.
* Có thể sử dụng thẻ visa debit để thanh toán trực tuyến sau khi đăng ký Internet Payment.

**Internet Banking (iPay)**

* Đăng ký tại chi nhánh Vietinbank hoặc

### Clean Text

In [18]:
import re

In [19]:
def clean_text(text):
    """
    Cleans the text by removing special characters.

    Args:
        text: Text to be cleaned.
    """
    # Remove special characters
    cleaned_text = re.sub(r'[^A-Za-z0-9\s]+', '', text)
    return cleaned_text

In [20]:
texts_cleaning = clean_text(summary)

In [13]:
from langchain_community.embeddings.sentence_transformer import (
    SentenceTransformerEmbeddings,
)
from langchain_chroma import Chroma

In [12]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [14]:
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False,
)

In [21]:
texts = text_splitter.create_documents([texts_cleaning])
print(texts[0])
print(texts[1])

page_content='M Ti Khon'
page_content='Ch khch hng Nht Bn t 18 tui tr ln sinh sng v lm vic ti Vit Nam mi c th m ti khon'


In [17]:
text_splitter.split_text(summary)

['**Mở Tài Khoản**',
 '* Chỉ khách hàng Nhật Bản từ 18 tuổi trở lên sinh sống và làm việc tại Việt Nam mới có thể mở tài',
 'mới có thể mở tài khoản.',
 '* Yêu cầu giấy tờ: Passport, VISA hoặc giấy tạm trú, hợp đồng lao động, giấy phép lao động.',
 '* Không thể đăng ký mở tài khoản từ Nhật Bản hoặc qua internet/bưu điện.',
 '* Có thể phát hành thẻ phụ cho người không cư trú tại Việt Nam.',
 '**Thay Đổi Thông Tin/ Báo Mất/ Phát Hành Thẻ**',
 '* Liên hệ tổng đài tiếng Nhật của Vietinbank để báo mất thẻ.',
 '* Có thể phát hành lại thẻ ở bất kỳ chi nhánh nào của Vietinbank.',
 '* Không thể sử dụng thẻ cũ sau khi phát hành thẻ mới.',
 '* Cần liên hệ chi nhánh để đăng ký sử dụng lại thẻ cũ nếu tìm thấy sau khi báo mất.',
 '* Đến chi nhánh hỗ trợ VSBP để thay đổi thông tin.',
 '**Visa Debit Card**',
 '* Đến chi nhánh với hộ chiếu, thẻ tạm trú, giấy phép lao động để phát hành lại thẻ hết hạn.',
 '* Có thể sử dụng thẻ visa debit để thanh toán trực tuyến sau khi đăng ký Internet Payment.',
 '**I

In [None]:
def save_summary_to_chromadb(summary_text):
    """
    Saves the summary text to ChromaDB with embeddings.

    Args:
        summary_text: Text of the summary to be saved.
    """
    # Initialize the Chroma client
    chroma_client = ChromaClient()
    
    # Use SentenceTransformer for embeddings
    model_name = "all-MiniLM-L6-v2"
    embedder = SentenceTransformer(model_name)
    embedding = embedder.encode(summary_text).tolist()
    
    # Save to ChromaDB
    chroma_client.add_vector(vector_id="summary_1", vector=embedding, metadata={"summary": summary_text})
    print("Summary saved to ChromaDB.")