In [None]:
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv("/content/drive/MyDrive/ARM/ResultData/result.csv")
data = data.dropna()
#data = data.drop_duplicates(subset='Context')
data = data[10000:10500]
data

Unnamed: 0,Context,Question,Answer
20655,این حال برای پنل جلو، اندکی این موضوع جبران شد...,آیا در گوشی آنر X5 از نمایشگر TFT استفاده شده ...,بله
20656,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,کدام گوشی دارای طول عمر باتری بهتری است؟,گلکسی زد فلیپ ۵
20657,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,چه استانداردی در مقابل آب و گرد و غبار دارد؟,گلکسی زد فلیپ ۵
20658,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای دوربین ۲۰۰...,بله
20659,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای شاشه OLED ...,نامشخص
...,...,...,...
21150,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه قیمتی برای آیفون ۱۴ پرو و ۱۴ پرو مکس تعیین ...,۹۹۹ و ۱۰۹۹ دلار
21151,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,آیا اپل برنامهای برای تغییر مدلهای آیفون ۱۵ و ...,نه، برگردان
21152,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,کدامیک از آیفون ۱۵ پرو و ۱۵ پرو مکس دارای پورت...,هیچکدام
21153,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه رنگهایی در آیفون ۱۵ پرو مکس موجود است؟,نامعلوم


In [None]:
from typing import Optional

from transformers import AutoTokenizer, AutoModel
import numpy as np
import os

import torch
from torch import Tensor
from transformers import BatchEncoding, PreTrainedTokenizerBase
import json

class ModelUtils :
    def __init__(self, model_root) :
        self.model_root = model_root
        self.model_path = os.path.join(model_root, "model")
        self.tokenizer_path = os.path.join(model_root, "tokenizer")

    def download_model (self) :
        BASE_MODEL = "HooshvareLab/bert-fa-zwnj-base"
        tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
        model = AutoModel.from_pretrained(BASE_MODEL)

        tokenizer.save_pretrained(self.tokenizer_path)
        model.save_pretrained(self.model_path)

    def make_dirs (self) :
        if not os.path.isdir(self.model_root) :
            os.mkdir(self.model_root)
        if not os.path.isdir(self.model_path) :
            os.mkdir(self.model_path)
        if not os.path.isdir(self.tokenizer_path) :
            os.mkdir(self.tokenizer_path)

class Preprocess :
    def __init__(self, model_root) :
        self.model_root = model_root
        self.model_path = os.path.join(model_root, "model")
        self.tokenizer_path = os.path.join(model_root, "tokenizer")
        self.device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

    def vectorize (self, text) :
        model = AutoModel.from_pretrained(self.model_path).to(self.device)
        tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_path)
        ids, masks = self.transform_single_text(text, tokenizer, 510, stride=510, minimal_chunk_length=0, maximal_text_length=None)
        # ids = torch.cat(ids, dim=0)
        # masks = torch.cat(masks, dim=0)
        tokens = {'input_ids': ids.to(self.device), 'attention_mask': masks.to(self.device)}

        output = model(**tokens)
        last_hidden_states = output.last_hidden_state

        # first token embedding of shape <1, hidden_size>
        # first_token_embedding = last_hidden_states[:,0,:]

        # pooled embedding of shape <1, hidden_size>
        mean_pooled_embedding = last_hidden_states.mean(axis=1)

        result = mean_pooled_embedding.flatten().cpu().detach().numpy()
        # print(result.shape)
        # print(result)
        # Convert the list to JSON
        json_data = json.dumps(result.tolist())

        return json_data



    def transform_list_of_texts(
        self,
        texts: list[str],
        tokenizer: PreTrainedTokenizerBase,
        chunk_size: int,
        stride: int,
        minimal_chunk_length: int,
        maximal_text_length: Optional[int] = None,
    ) -> BatchEncoding:
        model_inputs = [
            self.transform_single_text(text, tokenizer, chunk_size, stride, minimal_chunk_length, maximal_text_length)
            for text in texts
        ]
        input_ids = [model_input[0] for model_input in model_inputs]
        attention_mask = [model_input[1] for model_input in model_inputs]
        tokens = {"input_ids": input_ids, "attention_mask": attention_mask}
        return input_ids, attention_mask


    def transform_single_text(
        self,
        text: str,
        tokenizer: PreTrainedTokenizerBase,
        chunk_size: int,
        stride: int,
        minimal_chunk_length: int,
        maximal_text_length: Optional[int],
    ) -> tuple[Tensor, Tensor]:
        """Transforms (the entire) text to model input of BERT model."""
        if maximal_text_length:
            tokens = self.tokenize_text_with_truncation(text, tokenizer, maximal_text_length)
        else:
            tokens = self.tokenize_whole_text(text, tokenizer)
        input_id_chunks, mask_chunks = self.split_tokens_into_smaller_chunks(tokens, chunk_size, stride, minimal_chunk_length)
        self.add_special_tokens_at_beginning_and_end(input_id_chunks, mask_chunks)
        self.add_padding_tokens(input_id_chunks, mask_chunks)
        input_ids, attention_mask = self.stack_tokens_from_all_chunks(input_id_chunks, mask_chunks)
        return input_ids, attention_mask


    def tokenize_whole_text(self, text: str, tokenizer: PreTrainedTokenizerBase) -> BatchEncoding:
        """Tokenizes the entire text without truncation and without special tokens."""
        tokens = tokenizer(text, add_special_tokens=False, truncation=False, return_tensors="pt")
        return tokens


    def tokenize_text_with_truncation(
        self, text: str, tokenizer: PreTrainedTokenizerBase, maximal_text_length: int
    ) -> BatchEncoding:
        """Tokenizes the text with truncation to maximal_text_length and without special tokens."""
        tokens = tokenizer(
            text, add_special_tokens=False, max_length=maximal_text_length, truncation=True, return_tensors="pt"
        )
        return tokens


    def split_tokens_into_smaller_chunks(
        self,
        tokens: BatchEncoding,
        chunk_size: int,
        stride: int,
        minimal_chunk_length: int,
    ) -> tuple[list[Tensor], list[Tensor]]:
        """Splits tokens into overlapping chunks with given size and stride."""
        input_id_chunks = self.split_overlapping(tokens["input_ids"][0], chunk_size, stride, minimal_chunk_length)
        mask_chunks = self.split_overlapping(tokens["attention_mask"][0], chunk_size, stride, minimal_chunk_length)
        return input_id_chunks, mask_chunks


    def add_special_tokens_at_beginning_and_end(self, input_id_chunks: list[Tensor], mask_chunks: list[Tensor]) -> None:
        """
        Adds special CLS token (token id = 101) at the beginning.
        Adds SEP token (token id = 102) at the end of each chunk.
        Adds corresponding attention masks equal to 1 (attention mask is boolean).
        """
        for i in range(len(input_id_chunks)):
            # adding CLS (token id 101) and SEP (token id 102) tokens
            input_id_chunks[i] = torch.cat([Tensor([101]), input_id_chunks[i], Tensor([102])])
            # adding attention masks  corresponding to special tokens
            mask_chunks[i] = torch.cat([Tensor([1]), mask_chunks[i], Tensor([1])])


    def add_padding_tokens(self, input_id_chunks: list[Tensor], mask_chunks: list[Tensor]) -> None:
        """Adds padding tokens (token id = 0) at the end to make sure that all chunks have exactly 512 tokens."""
        for i in range(len(input_id_chunks)):
            # get required padding length
            pad_len = 512 - input_id_chunks[i].shape[0]
            # check if tensor length satisfies required chunk size
            if pad_len > 0:
                # if padding length is more than 0, we must add padding
                input_id_chunks[i] = torch.cat([input_id_chunks[i], Tensor([0] * pad_len)])
                mask_chunks[i] = torch.cat([mask_chunks[i], Tensor([0] * pad_len)])


    def stack_tokens_from_all_chunks(self, input_id_chunks: list[Tensor], mask_chunks: list[Tensor]) -> tuple[Tensor, Tensor]:
        """Reshapes data to a form compatible with BERT model input."""
        input_ids = torch.stack(input_id_chunks)
        attention_mask = torch.stack(mask_chunks)

        return input_ids.long(), attention_mask.int()


    def split_overlapping(self, tensor: Tensor, chunk_size: int, stride: int, minimal_chunk_length: int) -> list[Tensor]:
        """Helper function for dividing 1-dimensional tensors into overlapping chunks."""
        self.check_split_parameters_consistency(chunk_size, stride, minimal_chunk_length)
        result = [tensor[i : i + chunk_size] for i in range(0, len(tensor), stride)]
        if len(result) > 1:
            # ignore chunks with less than minimal_length number of tokens
            result = [x for x in result if len(x) >= minimal_chunk_length]
        return result


    def check_split_parameters_consistency(self, chunk_size: int, stride: int, minimal_chunk_length: int) -> None:
        if chunk_size > 510:
            raise RuntimeError("Size of each chunk cannot be bigger than 510!")
        if minimal_chunk_length > chunk_size:
            raise RuntimeError("Minimal length cannot be bigger than size!")
        if stride > chunk_size:
            raise RuntimeError(
                "Stride cannot be bigger than size! Chunks must overlap or be near each other!"
            )


In [None]:
modelu = ModelUtils('/content')
modelu.make_dirs()
modelu.download_model()
p = Preprocess("/content")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/292 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/565 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/426k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.11M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/134 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/473M [00:00<?, ?B/s]

Some weights of BertModel were not initialized from the model checkpoint at HooshvareLab/bert-fa-zwnj-base and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
from tqdm import tqdm

def changeToVec(text):
    return p.vectorize(text)

# Apply the function with tqdm progress bar
tqdm.pandas()  # This line enables tqdm for pandas

data["result"] = data["Question"].progress_apply(changeToVec)
data


100%|██████████| 500/500 [12:02<00:00,  1.44s/it]


Unnamed: 0,Context,Question,Answer,result
20655,این حال برای پنل جلو، اندکی این موضوع جبران شد...,آیا در گوشی آنر X5 از نمایشگر TFT استفاده شده ...,بله,"[-0.4108814001083374, -0.8499479293823242, 1.3..."
20656,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,کدام گوشی دارای طول عمر باتری بهتری است؟,گلکسی زد فلیپ ۵,"[-1.5593451261520386, -0.5858017802238464, -0...."
20657,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,چه استانداردی در مقابل آب و گرد و غبار دارد؟,گلکسی زد فلیپ ۵,"[-1.1008870601654053, -0.9019820094108582, 1.0..."
20658,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای دوربین ۲۰۰...,بله,"[-0.13149845600128174, -0.07401025295257568, 0..."
20659,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای شاشه OLED ...,نامشخص,"[-0.16259422898292542, -0.1720031052827835, 0...."
...,...,...,...,...
21150,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه قیمتی برای آیفون ۱۴ پرو و ۱۴ پرو مکس تعیین ...,۹۹۹ و ۱۰۹۹ دلار,"[-0.6965210437774658, -0.6225684285163879, 0.6..."
21151,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,آیا اپل برنامهای برای تغییر مدلهای آیفون ۱۵ و ...,نه، برگردان,"[-1.1679091453552246, -0.46528908610343933, 0...."
21152,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,کدامیک از آیفون ۱۵ پرو و ۱۵ پرو مکس دارای پورت...,هیچکدام,"[-0.09302042424678802, -0.02551291510462761, 0..."
21153,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه رنگهایی در آیفون ۱۵ پرو مکس موجود است؟,نامعلوم,"[-0.6493637561798096, -1.0314455032348633, 1.0..."


In [None]:
data.to_csv("/content/drive/MyDrive/ARM/ResultData/vecData[10000-10500].csv")

In [None]:
data = pd.read_csv("/content/drive/MyDrive/ARM/ResultData/vecData[10000-10500].csv")
data.set_index(np.arange(0, len(data), 1), inplace=True)
data

Unnamed: 0.1,Unnamed: 0,Context,Question,Answer,result
0,20655,این حال برای پنل جلو، اندکی این موضوع جبران شد...,آیا در گوشی آنر X5 از نمایشگر TFT استفاده شده ...,بله,"[-0.4108814001083374, -0.8499479293823242, 1.3..."
1,20656,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,کدام گوشی دارای طول عمر باتری بهتری است؟,گلکسی زد فلیپ ۵,"[-1.5593451261520386, -0.5858017802238464, -0...."
2,20657,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,چه استانداردی در مقابل آب و گرد و غبار دارد؟,گلکسی زد فلیپ ۵,"[-1.1008870601654053, -0.9019820094108582, 1.0..."
3,20658,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای دوربین ۲۰۰...,بله,"[-0.13149845600128174, -0.07401025295257568, 0..."
4,20659,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای شاشه OLED ...,نامشخص,"[-0.16259422898292542, -0.1720031052827835, 0...."
...,...,...,...,...,...
495,21150,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه قیمتی برای آیفون ۱۴ پرو و ۱۴ پرو مکس تعیین ...,۹۹۹ و ۱۰۹۹ دلار,"[-0.6965210437774658, -0.6225684285163879, 0.6..."
496,21151,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,آیا اپل برنامهای برای تغییر مدلهای آیفون ۱۵ و ...,نه، برگردان,"[-1.1679091453552246, -0.46528908610343933, 0...."
497,21152,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,کدامیک از آیفون ۱۵ پرو و ۱۵ پرو مکس دارای پورت...,هیچکدام,"[-0.09302042424678802, -0.02551291510462761, 0..."
498,21153,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه رنگهایی در آیفون ۱۵ پرو مکس موجود است؟,نامعلوم,"[-0.6493637561798096, -1.0314455032348633, 1.0..."


In [None]:
def findList(x):
  return json.loads(x)

data["result"] = data["result"].apply(findList)
data

Unnamed: 0.1,Unnamed: 0,Context,Question,Answer,result
0,20655,این حال برای پنل جلو، اندکی این موضوع جبران شد...,آیا در گوشی آنر X5 از نمایشگر TFT استفاده شده ...,بله,"[-0.4108814001083374, -0.8499479293823242, 1.3..."
1,20656,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,کدام گوشی دارای طول عمر باتری بهتری است؟,گلکسی زد فلیپ ۵,"[-1.5593451261520386, -0.5858017802238464, -0...."
2,20657,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,چه استانداردی در مقابل آب و گرد و غبار دارد؟,گلکسی زد فلیپ ۵,"[-1.1008870601654053, -0.9019820094108582, 1.0..."
3,20658,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای دوربین ۲۰۰...,بله,"[-0.13149845600128174, -0.07401025295257568, 0..."
4,20659,ی‌کند. بدین ترتیب شما دیگر آن حال و هوای طبیعی...,آیا گوشی ردمی نوت ۱۲ پرو پلاس دارای شاشه OLED ...,نامشخص,"[-0.16259422898292542, -0.1720031052827835, 0...."
...,...,...,...,...,...
495,21150,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه قیمتی برای آیفون ۱۴ پرو و ۱۴ پرو مکس تعیین ...,۹۹۹ و ۱۰۹۹ دلار,"[-0.6965210437774658, -0.6225684285163879, 0.6..."
496,21151,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,آیا اپل برنامهای برای تغییر مدلهای آیفون ۱۵ و ...,نه، برگردان,"[-1.1679091453552246, -0.46528908610343933, 0...."
497,21152,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,کدامیک از آیفون ۱۵ پرو و ۱۵ پرو مکس دارای پورت...,هیچکدام,"[-0.09302042424678802, -0.02551291510462761, 0..."
498,21153,ائومی استفاده می‌کند. بنابراین بدون شک گوشی پو...,چه رنگهایی در آیفون ۱۵ پرو مکس موجود است؟,نامعلوم,"[-0.6493637561798096, -1.0314455032348633, 1.0..."


In [None]:
import pandas as pd


# Create a new dataframe with columns for each number in the lists
new_df = pd.DataFrame(data['result'].tolist(), columns=[f'result_{i+1}' for i in range(len(data['result'].iloc[0]))])

new_df = new_df.dropna(axis=1, how='any')
new_df


Unnamed: 0,result_1,result_2,result_3,result_4,result_5,result_6,result_7,result_8,result_9,result_10,...,result_759,result_760,result_761,result_762,result_763,result_764,result_765,result_766,result_767,result_768
0,-0.410881,-0.849948,1.385033,-0.643941,-0.027278,0.172282,-0.561046,0.747236,-0.172754,0.425429,...,1.276980,0.754974,-1.177199,-0.218125,-0.338566,0.498774,0.136426,-0.421218,0.200573,-0.647519
1,-1.559345,-0.585802,-0.195570,-0.588202,-0.764363,0.079458,-0.041535,0.754576,0.019696,-0.479140,...,0.981331,-0.527038,0.081586,-0.313529,0.121204,-0.490885,-0.335097,-1.043088,0.306089,-1.883893
2,-1.100887,-0.901982,1.099581,-0.346268,0.505647,-0.113054,0.955032,0.426763,0.320757,0.329697,...,0.394408,-0.811202,-0.922703,-0.322627,-1.068512,0.012046,-0.227429,-0.298215,-0.681828,-0.529739
3,-0.131498,-0.074010,0.629513,-1.111618,-0.035318,-0.627857,-0.131715,0.442638,-0.367387,0.467479,...,1.369133,1.053263,-0.464719,-1.057150,-0.138418,0.033525,-0.901654,-0.107992,0.214673,-0.388810
4,-0.162594,-0.172003,0.529141,-0.878721,0.218522,-0.365350,-0.106082,0.538340,-0.242032,0.535314,...,1.371852,1.186612,-0.870059,-0.737372,-0.172144,0.044493,-0.719303,-0.319174,0.390428,-0.267322
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,-0.696521,-0.622568,0.608865,-0.844902,0.812559,-0.069153,-0.297143,0.280826,-0.339374,-0.020027,...,0.021945,-0.094962,0.102187,-0.770232,-0.704527,0.501893,0.309308,-0.004347,-0.673485,-0.971909
496,-1.167909,-0.465289,0.241890,-1.022213,0.420210,-0.456975,0.751048,0.663157,-0.737328,0.559068,...,-0.519663,-0.279205,-0.637880,0.301069,-0.073981,-0.033440,-0.138918,-0.552615,-0.313948,-0.815884
497,-0.093020,-0.025513,0.847533,-0.759957,0.417549,0.008607,-0.401301,0.902814,0.052850,0.442091,...,0.180415,0.447084,0.620417,0.006233,0.459933,0.911187,-0.350390,0.459283,-0.539650,-0.644390
498,-0.649364,-1.031446,1.030788,-0.380318,0.157929,0.724015,-0.325830,0.901755,-0.076813,-0.027646,...,0.179654,0.246287,-1.109228,-0.100022,-0.366130,-0.004931,0.097207,-0.127670,-0.406997,-0.427958


In [None]:
exm = np.array(json.loads (p.vectorize("بهترین طول عمر باطری در گوشی ها کدام است ؟")))

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

cossim = cosine_similarity(exm.reshape(1, -1), new_df)

In [None]:
data_flat = cossim.flatten()

# Get the indices of the top 3 elements
top_indices = np.argsort(data_flat)[-1:]

print("Indices of the top 3 elements:", top_indices)

Indices of the top 3 elements: [414]


In [None]:
# List of indexes to retrieve
indexes = top_indices

# Filter rows by specified indexes
result_rows = data.loc[indexes]

result_rows

Unnamed: 0.1,Unnamed: 0,Context,Question,Answer,result
414,21069,ه حداکثر به ۴۰ درجه سلسیوس می‌رسد)\nباتری پوکو...,عمر باتری پوکو F5 در استفاده روزانه چقدر است؟,تا پایان روز دوم,"[-1.0316178798675537, -0.7596027851104736, -0...."


In [None]:
result_rows["Context"][236]

' اصطلاح جزیره پویا استفاده می\u200cکند. حالا امسال مدل\u200cهای استاندارد هم این مشخصه را دریافت کرده\u200cاند.\n\nاندازه\u200cی نمایشگر در تمام مدل\u200cهای سری آیفون ۱۵ هیچ تفاوتی با نسل قبلی ندارد. بنابراین آیفون ۱۵ و ۱۵ پرو دارای نمایشگر ۶.۱ اینچی هستند و ۱۵ پلاس و ۱۵ پرو مکس با نمایشگر ۶.۷ اینچی راهی بازار می\u200cشوند. البته ضخامت حاشیه\u200cهای اطراف نمایشگر مدل\u200cهای پرو کمی کمتر شده و به همین خاطر درصد نسبت نمایشگر به پنل جلویی این دو گوشی، حدود ۱ درصد افزایش پیدا کرده است.\n\nامسال آیفون ۱۵ و ۱۵ پلاس دیگر از پنل پشتی براق استفاده نمی\u200cکنند و بخش براق فقط به ماژول دوربین محدود شده است. در ضمن اپل مدعی شده شیشه\u200cی استفاده شده در پنل پشتی هم دوام بیشتری پیدا کرده تا کاربران نگرانی کمتری بابت آسیب رسیدن به این پنل داشته باشند.\n\nمدل\u200cهای پرو آیفون ۱۵ حالا از فریم تیتانیومی استفاده می\u200cکنند که در کنار مقاومت بیشتر نسبت به فریم مبتنی بر فولاد ضد زنگ، وزن کمتری هم دارد. از طرف دیگر تیتانیوم بهتر گرما را پخش می\u200cکند و بنابراین در صورت استفاده\u200cی سنگین طول

In [None]:
!pip install openai

Collecting openai
  Downloading openai-1.10.0-py3-none-any.whl (225 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m225.1/225.1 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.26.0-py3-none-any.whl (75 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
Collecting typing-extensions<5,>=4.7 (from openai)
  Downloading typing_extensions-4.9.0-py3-none-any.whl (32 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.2-py3-none-any.whl (76 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[

In [None]:
import pandas as pd
import numpy as np
import re
import csv
from openai import OpenAI
import os
import pandas as pd
import json
from ast import literal_eval


ImportError: cannot import name 'Iterator' from 'typing_extensions' (/usr/local/lib/python3.10/dist-packages/typing_extensions.py)

In [None]:
import csv
from openai import OpenAI
import os
import pandas as pd
import json
from ast import literal_eval

def convertToDataFrame(completion, context):
  # Input text
  data_string = completion


  # Remove unnecessary escape characters
  data_string = data_string.replace('\\n', '').replace('\\u200c', '')

  pattern = r'"question":\s*"([^"]+)",\s*"answer":\s*"([^"]+)"'
  matches = re.findall(pattern, data_string, re.DOTALL)
  pattern = r'"question": "(.*?)",\\n"answer": "(.*?)"'
  matches2 = re.findall(pattern, data_string, re.DOTALL)


  # Extracted questions and answers
  if matches:
    questions, answers = zip(*matches)
    contexts = [context]*len(questions)
    df = pd.DataFrame({"Context": contexts,"Question": questions, "Answer": answers})
  elif matches2:
    questions, answers = zip(*matches2)
    contexts = [context]*len(questions)
    df = pd.DataFrame({"Context": contexts, "Question": questions, "Answer": answers})
  else:
    print("No matches found.")

  try:
    tempData = pd.read_csv("/content/drive/MyDrive/ARM/Data/mobile_mag.csv")
    tempData = tempData.append(df, ignore_index=True)
  except:
    tempData = df

  return tempData


for i in range(0,len(data),5000):

  context = data[i:i+5000]
  os.environ["OPENAI_API_KEY"] = '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'
  client = OpenAI()
  prompt = "Extract seven 'questions' with 'answers' from the text below in Farsi and return them in 'json format' : "
  try:
    completion = client.chat.completions.create(
      model="gpt-3.5-turbo",
      messages=[
        {"role": "system", "content":prompt + context}
      ]
    )
  except:
    print("Done")
    break

  ann = completion.choices[0].message
  print(str(ann))
  try:
    temp = convertToDataFrame(str(ann), context)
  except:
    pass

  print ('\n {}'.format(i))

  temp.to_csv("/content/drive/MyDrive/ARM/Data/mobile_mag.csv",index = False)


ImportError: cannot import name 'Iterator' from 'typing_extensions' (/usr/local/lib/python3.10/dist-packages/typing_extensions.py)