## Chunking

In [None]:
from langchain import LLMChain, PromptTemplate
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA

In [None]:
text = """
NGHỊ ĐỊNH

Sửa đổi, bổ sung một số điều của các Nghị định liên quan đến quản lý hoạt động vận tải bằng xe ô tô, dịch vụ đào tạo lái xe ô tô và dịch vụ sát hạch lái xe

5. Sửa đổi, bổ sung Điều 11 (được sửa đổi tại điểm a khoản 1 Điều 2 Nghị định số 70/2022/NĐ-CP ngày 27 tháng 9 năm 2022) như sau:

"Điều 11. Giấy phép xe tập lái và thẩm quyền cấp Giấy phép xe tập lái

1. Sở Giao thông vận tải cấp Giấy phép xe tập lái cho xe tập lái của cơ sở đào tạo do địa phương quản lý theo mẫu quy định tại Mẫu số 01, Mẫu số 02 Phụ lục VII kèm theo Nghị định này; có hiệu lực trong ứng với thời gian được phép lưu hành ghi trên Giấy Chứng nhận kiểm định an toàn kỹ thuật và bảo vệ môi trường xe cơ giới do đơn vị đăng kiểm thuộc Bộ Giao thông vận tải cấp đối với xe tập lái.

2. Giấy phép xe tập lái bị thu hồi trong các trường hợp sau:

a) Các cơ sở đào tạo lái không đáp ứng một trong điều kiện quy định tại khoản 2 Điều 3 và khoản 2 Điều 6 Nghị định này;

b) Bị tẩy xóa, sửa chữa;

c) Cơ sở đào tạo lái xe không còn nhu cầu sử dụng xe tập lái;

d) Không bảo đảm các yêu cầu an toàn kỹ thuật và bảo vệ môi trường;

đ) Giấy phép xe tập lái đã được cấp lại, đổi, thay thế;

e) Xe tập lái đã hết thời hạn sử dụng theo quy định.

3. Cơ quan cấp thẩm quyền cấp Giấy phép xe tập lái, thu hồi, cấp lại, đổi, thay thế Giấy phép xe tập lái trong các trường hợp sau:

a) Thu hồi Giấy phép xe tập lái đối với các trường hợp quy định tại khoản 2 Điều này;

b) Cấp lại Giấy phép xe tập lái đối với các trường hợp Giấy phép xe tập lái bị mất, hư hỏng;

c) Đổi Giấy phép xe tập lái khi Giấy phép xe tập lái bị tẩy xóa, sửa chữa hoặc có nhu cầu đổi Giấy phép xe tập lái của cơ sở đào tạo lái xe;

d) Thay thế Giấy phép xe tập lái đã hết hạn sử dụng xe tập lái bằng Giấy phép xe tập lái mới.

Trường hợp các cơ quan đã tiếp nhận hồ sơ thu hồi Giấy phép xe tập lái của cơ sở đào tạo lái xe, đơn vị đăng kiểm sẽ ngừng việc kiểm định đối với các xe tập lái của cơ sở đào tạo lái xe đã bị thu hồi Giấy phép xe tập lái theo quy định."
"""


In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=50
)
texts = text_splitter.split_text(text)

texts


In [None]:
OPENAI_KEY = "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"

In [None]:
embeddings = OpenAIEmbeddings(api_key=OPENAI_KEY)

In [None]:
%env OPENAI_API_KEY="sk-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"

In [None]:
from langchain.llms import OpenAI
import os

# Initialize the OpenAI language model
your_language_model = OpenAI(openai_api_key=os.environ["OPENAI_API_KEY"], model_name="gpt-4o-mini")  # or any other model you prefer

In [None]:
texts

In [None]:
prompt_template = """
Given the following text chunk, identify the main topic and detect if there is a topic change compared to the previous chunk.

Text Chunk: {text_chunk}

Main Topic: {main_topic}
Topic Change: {topic_change}
"""
prompt = PromptTemplate(template=prompt_template, input_variables=["text_chunk", "main_topic", "topic_change"])

In [None]:
llm_chain = LLMChain(prompt=prompt, llm=your_language_model)
topic_changes = []

for i, text_chunk in enumerate(texts):
    if i == 0:
        previous_topic = "None"
    else:
        previous_topic = topic_changes[-1]["main_topic"]

    response = llm_chain.run({
        "text_chunk": text_chunk,
        "main_topic": previous_topic,
        "topic_change": "No"
    })
    topic_changes.append(response)

## Correct words

In [None]:
# importing the nltk suite
import nltk

# importing edit distance
from nltk.metrics.distance  import edit_distance

In [None]:
# Downloading and importing package 'words'
nltk.download('words')
from nltk.corpus import words
correct_words = words.words()

In [None]:
correct_words

In [None]:
import time
start_time = time.time()


wrong_word = "nhappy"

edit_distances = []

for correct_word in correct_words:
    if len(wrong_word) - 2 <= len(correct_word) and  len(correct_word) <= len(wrong_word) + 2 :
        e = edit_distance(wrong_word, correct_word)
        edit_distances.append((correct_word, e))

result = sorted(edit_distances, key = lambda item:item[1])

end_time = time.time()


# Print the results and timing
print(f"Time taken: {end_time - start_time:.4f} seconds")

In [None]:
edit_distances[:2]

In [None]:
# that need to be corrected
incorrect_words=['happpy', 'azmaing', 'intelliengt']

# loop for finding correct spellings
# based on edit distance and
# printing the correct words
for word in incorrect_words:
    temp = [(edit_distance(word, w),w) for w in correct_words if w[0]==word[0]]
    print('sorted(temp, key = lambda val:val[0])[0]', sorted(temp, key = lambda val:val[0])[0])
    print(sorted(temp, key = lambda val:val[0])[0][1])

In [None]:
from nltk.metrics.distance import jaccard_distance
from nltk.util import ngrams

# list of incorrect spellings
# that need to be corrected
incorrect_words=['nứg', 'azmaing', 'intelliengt']

# loop for finding correct spellings
# based on jaccard distance
# and printing the correct word
for word in incorrect_words:
    temp = [(jaccard_distance(set(ngrams(word, 2)),
                              set(ngrams(w, 2))),w)
            for w in correct_words if w[0]==word[0]]
    print(sorted(temp, key = lambda val:val[0])[0][1])

## High-speed lemmatization

In [None]:
import requests

url = "https://storage.googleapis.com/protonx-cloud-storage/datasets/IMDB%20Dataset.csv"
response = requests.get(url)

with open("IMDB Dataset.csv", "wb") as file:
    file.write(response.content)

In [None]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Download necessary NLTK data
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

In [None]:
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

In [None]:
def process_text(text):
    # tokenize the text
    tokens = nltk.word_tokenize(text)
    # lemmatize and remove stop words
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens if token.lower() not in stop_words]

    return ' '.join(lemmatized_tokens)  

In [None]:
df = pd.read_csv("IMDB Dataset.csv")

df.head()

In [None]:
df['processed_review'] = df['review'].apply(process_text)
df.head()

In [None]:
df['numeric_sentiment'] = df['sentiment'].map({'positive': 1, 'negative': 0})

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from datasets import load_dataset

# Download necessary NLTK data
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

# Initialize stop words and lemmatizer
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

# Define the preprocessing function
def preprocess_text(example):
    # Tokenize the text
    tokens = nltk.word_tokenize(example['review'])
    # Lemmatize and remove stop words
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens if token.lower() not in stop_words]
    # Re-join tokens into a string
    example['text'] = ' '.join(lemmatized_tokens)

    # Convert the label 'positive' -> 1, 'negative' -> 0
    example['label'] = 1 if example['sentiment'] == 'positive' else 0

    return example

# Load the IMDB dataset CSV using Hugging Face's load_dataset function
dataset = load_dataset('csv', data_files='/content/IMDB Dataset.csv')

# Apply the preprocessing function using map
processed_dataset = dataset['train'].map(preprocess_text)

# Remove unnecessary columns
processed_dataset = processed_dataset.remove_columns(['review', 'sentiment'])

# Display a sample of the processed dataset
print(processed_dataset)

# Save the processed Hugging Face Dataset to disk if needed
processed_dataset.save_to_disk('processed_imdb_hf_dataset')

## Using dataset

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from datasets import load_dataset

# Download necessary NLTK data
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

# Initialize stop words and lemmatizer
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

# Define the preprocessing function
def preprocess_text(example):
    # Tokenize the text
    tokens = nltk.word_tokenize(example['review'])
    # Lemmatize and remove stop words
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens if token.lower() not in stop_words]
    # Re-join tokens into a string
    example['text'] = ' '.join(lemmatized_tokens)

    # Convert the label 'positive' -> 1, 'negative' -> 0
    example['label'] = 1 if example['sentiment'] == 'positive' else 0

    return example

In [None]:
dataset = load_dataset('csv', data_files='IMDB Dataset.csv')

In [7]:
processed_dataset = dataset['train'].map(preprocess_text)

In [8]:
# Remove unnecessary columns
processed_dataset = processed_dataset.remove_columns(['review', 'sentiment'])

# Display a sample of the processed dataset
print(processed_dataset)

processed_dataset.save_to_disk('processed_imdb_hf_dataset')

Dataset({
    features: ['text', 'label'],
    num_rows: 50000
})


Saving the dataset (0/1 shards):   0%|          | 0/50000 [00:00<?, ? examples/s]