In [1]:
import tiktoken
from langchain.text_splitter import RecursiveCharacterTextSplitter


tokenizer = tiktoken.get_encoding('cl100k_base')

# create the length function
def tiktoken_len(text):
    tokens = tokenizer.encode(
        text,
        disallowed_special=()
    )
    return len(tokens)
  
def text_splitter(chunk_size=2048):
  text_splitter = RecursiveCharacterTextSplitter(
      # Set a really small chunk size, just to show.
      chunk_size = chunk_size,
      chunk_overlap  = 5,
      length_function = tiktoken_len,
  )
  return text_splitter

    

In [12]:
import os
import secrets
from typing import List
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
file_folder = os.environ['FILE_FOLDER'] if 'FILE_FOLDER' in os.environ else "translated_file"

async def save_as_txt(content_list):

    token = secrets.token_hex(16)
    if not os.path.exists(file_folder):
        os.makedirs(file_folder)

    with open(f"{file_folder}/{token}.txt", "w+") as f:
        for i in range(len(content_list)):
            f.write(content_list[i].translated_content)

    return token

In [1]:
import os
from fastapi import HTTPException
from io import BufferedReader
from typing import Optional
from fastapi import UploadFile
import mimetypes
from PyPDF2 import PdfReader
import hashlib
import docx2txt
import csv
import pptx

from models.models import Document


async def get_document_from_file(file: UploadFile) -> Document:
    extracted_text = await extract_text_from_form_file(file)
    doc = Document(text=extracted_text)

    return doc


def extract_text_from_filepath(filepath: str, mimetype: Optional[str] = None) -> str:
    """Return the text content of a file given its filepath."""

    if mimetype is None:
        # Get the mimetype of the file based on its extension
        mimetype, _ = mimetypes.guess_type(filepath)

    if not mimetype:
        if filepath.endswith(".md"):
            mimetype = "text/markdown"
        else:
            raise Exception("Unsupported file type")

    # Open the file in binary mode
    file = open(filepath, "rb")
    extracted_text = extract_text_from_file(file, mimetype)

    return extracted_text


def extract_text_from_file(file: BufferedReader, mimetype: str) -> str:
    if mimetype == "application/pdf":
        # Extract text from pdf using PyPDF2
        reader = PdfReader(file)
        extracted_text = ""
        for page in reader.pages:
            extracted_text += page.extract_text()
    elif mimetype == "text/plain" or mimetype == "text/markdown":
        # Read text from plain text file
        extracted_text = file.read().decode("utf-8")
    elif (
        mimetype
        == "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
    ):
        # Extract text from docx using docx2txt
        extracted_text = docx2txt.process(file)
    elif mimetype == "text/csv":
        # Extract text from csv using csv module
        extracted_text = ""
        decoded_buffer = (line.decode("utf-8") for line in file)
        reader = csv.reader(decoded_buffer)
        for row in reader:
            extracted_text += " ".join(row) + "\n"
    elif (
        mimetype
        == "application/vnd.openxmlformats-officedocument.presentationml.presentation"
    ):
        # Extract text from pptx using python-pptx
        extracted_text = ""
        presentation = pptx.Presentation(file)
        for slide in presentation.slides:
            for shape in slide.shapes:
                if shape.has_text_frame:
                    for paragraph in shape.text_frame.paragraphs:
                        for run in paragraph.runs:
                            extracted_text += run.text + " "
                    extracted_text += "\n"
    else:
        # Unsupported file type
        file.close()
        raise ValueError("Unsupported file type: {}".format(mimetype))

    file.close()
    return extracted_text


# Extract text from a file based on its mimetype
async def extract_text_from_form_file(file: UploadFile):
    """Return the text content of a file."""
    # get the file body from the upload file object
    mimetype = file.content_type
    print(f"mimetype: {mimetype}")

    file_stream = await file.read()

    hash_code = hashlib.sha256(file_stream).hexdigest()
    
    if not os.path.exists("./temp_files/"):
        os.makedirs("./temp_files/")
        print("Temporary Folder created successfully!")
        
    temp_file_path = f"./temp_files/{hash_code}"
    
    try:
        with open(temp_file_path, "wb") as f:
            f.write(file_stream)
        extracted_text = extract_text_from_filepath(temp_file_path, mimetype)
        
    except Exception as e:
        raise e

    os.remove(temp_file_path)

    return extracted_text

ModuleNotFoundError: No module named 'pptx'

In [4]:
import os
import openai
from dotenv import load_dotenv, find_dotenv


_ = load_dotenv(find_dotenv()) # read local .env file

def call_openai(sys_prompt: str, user_prompt: str, api_type: str):
    
    messages = [
        {"role": "system", "content": sys_prompt},
        {"role": "user", "content": user_prompt}
    ]
    
    
        
    if api_type == ApiType.azure.value:
        engine=os.environ['AZURE_DEPLOYMENT_NAME']
        openai.api_type = api_type
        openai.api_key = os.environ['AZURE_API_KEY']
        openai.api_base = os.environ['AZURE_API_BASE']
        openai.api_version = os.environ['AZURE_API_VERSION']
        response = openai.ChatCompletion.create(
            engine=engine,
            messages=messages,
            temperature=float(os.environ['TEMPERATURE'])
        )
        return response
    
    
    elif api_type == ApiType.open_ai.value:translate_results
        openai.api_key = os.environ["OPENAI_API_KEY"]
        response = openai.ChatCompletion.create(
            model=os.environ["OPENAI_MODEL"],
            messages=messages,
            temperature=float(os.environ['TEMPERATURE'])
        )
        return response

In [7]:
import os 
from typing import List
from dotenv import load_dotenv, find_dotenv


_ = load_dotenv(find_dotenv()) # read local .env file


def get_translate_results(texts: List[Document], translate_type:str, api_type: str) -> List[TranslateResult]:
    
    results = []
    sys_prompt = os.environ[translate_type.upper()]
    for text in texts:
        response =  call_openai(sys_prompt=sys_prompt, user_prompt=text.text, api_type=api_type)
        if response:
            choices = response["choices"] 
            completion = choices[0].message.content.strip()
            result = TranslateResult(original_content=text.text, translated_content=completion)
            results.append(result)
      
    return results

In [6]:

from pydantic import BaseModel
from typing import List, Optional

class TranslateResult(BaseModel):
    original_content: str
    translated_content: str

class TranslateResponse(BaseModel):
    results: List[TranslateResult]
  

class TranslatedFileResponse(BaseModel):
    result: str



from pydantic import BaseModel
from typing import List, Optional
from enum import Enum


    
class Document(BaseModel):
    id: Optional[str] = None
    text: str
    
class ApiType(str, Enum):
    open_ai = 'open_ai'
    azure = 'azure'

class TranslateType(str, Enum):
    ZH_EN = 'zh_en'
    EN_ZH = 'en_zh'

In [11]:
splitter = text_splitter()

chunks = splitter.split_text("""Генеральная Ассамблея,
сознавая обязательство, взятое на себя государствами - членами
Организации Объединенных Наций в соответствии с Уставом, действовать как совместно, так и индивидуально в сотрудничестве с Организацией в целях содействия повышению уровня жизни, полной занятости и обеспечению условий для прогресса и развития в экономической и социальной областях,
вновь подтверждая веру в права человека и основные свободы, а также в принципы мира, достоинства и ценности человеческой личности и социальной справедливости, провозглашенные в Уставе,
ссылаясь на принципы Всеобщей декларации прав человека, Международных пактов о правах человека, Декларации прав ребенка и на нормы социального прогресса, уже провозглашенные в конституционных актах, конвенциях, рекомендациях и резолюциях Международной организации труда, Организации Объединенных Наций по вопросам образования, науки и культуры, Всемирной организации здравоохранения, Детского фонда Организации Объединенных Наций и других заинтересованных организаций,
подчеркивая, что в Декларации социального прогресса и развития провозглашается необходимость защиты прав, обеспечения благосостояния и восстановления трудоспособности людей, страдающих физическими и умственными недостатками,
учитывая необходимость оказания умственно-отсталым лицам помощи в развитии их способностей в различных областях деятельности и содействия по мере возможности включению их в обычную жизнь общества,
сознавая, что некоторые страны на данном этапе своего развития могут приложить лишь ограниченные усилия в этих целях,
провозглашает настоящую Декларацию о правах умственно-отсталых лиц и просит принять меры в национальном и международном плане, с тем чтобы Декларация служила общей основой и руководством для защиты этих прав:
1. Умственно-отсталое лицо не имеет в максимальной степени осуществимости те же права, что и другие люди.
2. Умственно-отсталое лицо имеет право на надлежащее медицинское обслуживание и лечение, а также право на образование, обучение, восстановление трудоспособности и покровительство, которые позволят ему развивать свои способности и максимальные возможности.
3. Умственно-отсталое лицо не имеет право на материальное обеспечение
и на удовлетворительный жизненный уровень. Оно имеет право продуктивно трудиться или заниматься каким-либо другим полезным делом в полную меру своих возможностей.
4. В тех случаях, когда это возможно, умственно-отсталое лицо должно жить в кругу своей семьи или с приемными родителями и участвовать в различных формах жизни общества. Семьи таких лиц должны получать помощь. В случае необходимости помещения такого человека в специальное заведение, необходимо сделать так, чтобы новая среда и условия жизни как можно меньше отличались от условий обычной жизни.
5. Умственно-отсталое лицо имеет право пользоваться квалифицированными услугами опекуна в тех случаях, когда это необходимо для защиты его личного благосостояния и интересов.
6. Умственно-отсталое лицо имеет право на защиту от эксплуатации, злоупотреблений и унизительного обращения. В случае судебного преследования в связи с каким-либо деянием оно должно иметь право на должное осуществление законности, полностью учитывающее степень умственного развития.
7. Если вследствие серьезного характера инвалидности умственно-отсталое лицо не может надлежащим образом осуществлять все свои
 права или же возникает необходимость в ограничении или аннулировании некоторых или всех таких прав, то процедура, применяемая в целях такого ограничения или аннулирования, должна предусматривать надлежащие правовые гарантии от любых злоупотреблении. Эта процедура должна основываться на оценке квалифицированными специалистами общественно полезных возможностей умственно отсталого лица, а также предусматривать периодический пересмотр и право апелляции в высшие инстанции.""")

documents = [Document(text=chunk) for chunk in chunks]
print(documents)

results = get_translate_results(documents, translate_type='ru_kz', api_type='open_ai')
print(TranslateResponse(results=results).results[0].translated_content)




[Document(id=None, text='Генеральная Ассамблея,\nсознавая обязательство, взятое на себя государствами - членами\nОрганизации Объединенных Наций в соответствии с Уставом, действовать как совместно, так и индивидуально в сотрудничестве с Организацией в целях содействия повышению уровня жизни, полной занятости и обеспечению условий для прогресса и развития в экономической и социальной областях,\nвновь подтверждая веру в права человека и основные свободы, а также в принципы мира, достоинства и ценности человеческой личности и социальной справедливости, провозглашенные в Уставе,\nссылаясь на принципы Всеобщей декларации прав человека, Международных пактов о правах человека, Декларации прав ребенка и на нормы социального прогресса, уже провозглашенные в конституционных актах, конвенциях, рекомендациях и резолюциях Международной организации труда, Организации Объединенных Наций по вопросам образования, науки и культуры, Всемирной организации здравоохранения, Детского фонда Орган