In [3]:
import numpy as np 
import pandas as pd 
from sklearn.metrics.pairwise import linear_kernel
from imblearn.over_sampling import RandomOverSampler
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
from nltk.corpus import stopwords
import re
import string

In [5]:
trainning_df = pd.read_excel('/kaggle/input/gov-tn/Classeur1.xltx')

In [6]:
trainning_df.head()

Unnamed: 0,website,paragraph,question
0,http://www.finances.gov.tn/fr/,Le décret n° 75-316 du 30 mai 1975 fixe les at...,C'est quoi le ministère de la finance et quell...
1,,Création :\nLe CNF est crée par l’article 4 du...,C'est quoi le sonseil national de la fiscalité...
2,,Mme Sihem Boughdiri Nemsia nommée par le prési...,Qui est la minitstre des finances
3,,Le conseil supérieur de comptabilité a été cré...,C'est quoi le conseil de comptabilité ?
4,,Le Conseil National de la Comptabilité est com...,Quelle est la composition du conseil de la com...


In [7]:
trainning_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   website    5 non-null      object
 1   paragraph  227 non-null    object
 2   question   227 non-null    object
dtypes: object(3)
memory usage: 5.4+ KB


In [8]:
trainning_df.isnull().sum()

website      222
paragraph      0
question       0
dtype: int64

In [9]:
trainning_question_ls = list(trainning_df['question'])
trainning_answer_ls = list(trainning_df['paragraph'])


In [10]:
print(len(trainning_answer_ls))
print(len(trainning_question_ls))

227
227


answerdata augmentation 

In [11]:
ros = RandomOverSampler()
train_x, train_y = ros.fit_resample(np.array(trainning_question_ls).reshape(-1, 1), np.array(trainning_answer_ls).reshape(-1, 1));
train_os = pd.DataFrame(list(zip([x[0] for x in train_x], train_y)), columns = ['question', 'answer']);

In [12]:
#train_os.info()

In [13]:
#train_os.head()

In [14]:
# Eliminer les stop words: les mots très fréquents en anglais
nltk.download('stopwords')
final_stopwords_list = stopwords.words('english') + stopwords.words('french')

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [15]:
def cleaning_stopwords(text):
    return " ".join([word for word in str(text).split() if not (word.lower() in final_stopwords_list)])

In [16]:
#Eliminer les ponctuations
english_punctuations = string.punctuation
punctuations_list = english_punctuations
def cleaning_punctuations(text):
    translator = str.maketrans('', '', punctuations_list)
    return text.translate(translator)

In [17]:
#Eliminer les nombres
def cleaning_numbers(data):
    return re.sub('[0-9]+','', data)

In [18]:
def strip_entities(text): 
    text = text.replace('\r', '').replace('\n', ' ').replace('\t', ' ').lower() #remove \n and \r and lowercase
    text = re.sub(r"(?:\@|https?\://)\S+", "", text) #remove links and mentions
    banned_list= string.punctuation +'±'+'ã'+'¼'+'â'+'»'+'§'
    table = str.maketrans('', '', banned_list)
    text = text.translate(table)
    return text

In [19]:
keywords=list()
for item in train_os['answer'] :
    item_num=cleaning_numbers(item)
    item_semi_clean=cleaning_punctuations(item_num)
    item_semi=strip_entities(item_semi_clean)
    item_clean=cleaning_stopwords(item_semi)
    # Initialize the TfidfVectorizer
    tfidf_vectorizer = TfidfVectorizer(stop_words=final_stopwords_list)

    # Fit the TfidfVectorizer to the text
    tfidf_vectorizer.fit([item_clean])

    # Get the feature names and their corresponding scores
    feature_names = tfidf_vectorizer.get_feature_names_out() 
    feature_scores = tfidf_vectorizer.idf_

    # Combine the feature names and their corresponding scores into a dictionary
    feature_dict = dict(zip(feature_names, feature_scores))

    # Sort the dictionary by the feature scores in descending order
    sorted_features = sorted(feature_dict.items(), key=lambda x: x[1], reverse=True)
    keywords.append(sorted_features[0][0]+','+sorted_features[1][0]+','+sorted_features[2][0])

In [20]:
print(keywords)

['accorde,accords,administratif', 'agriculture,article,artisanat', 'administration,afférentes,ailleurs', 'article,attribué,composition', 'administratif,banque,bvmt', 'auprès,auxiliaires,besoin', 'amélioration,application,avis', 'accordé,accounting,adoptée', 'accorder,achat,activité', 'adéquates,ainsi,appréciation', 'approbation,arrêtés,cadre', 'affaires,affectés,archives', 'affaires,agricole,ainsi', 'agence,agricole,alcools', 'accès,administratif,ar', 'acquis,administration,admis', 'ainsi,aligner,amélioration', 'afférentes,ainsi,application', 'administration,administrative,adopte', 'ajouté,août,approbation', 'ar,cette,commission', 'avis,cnncp,collectivités', 'accès,action,adapter', 'avis,cnncp,comptes', 'année,besoins,budget', 'ajoutée,assurances,certains', 'abattements,absence,accordés', 'acomptes,actions,actionsau', 'acceptés,accompagnement,achats', 'ad,alcool,alcoolisées', 'accompagnée,accordés,acheter', 'agricoles,assurance,autres', 'activité,affaires,aménagement', 'ajoutée,août,av

In [21]:
df = pd.DataFrame(columns=['question','answer','Keywords'])
df['question'] =['question: '+item for item in train_os['question']]
df['answer'] = ['answer: '+item for item in train_os['answer']]
df['Keywords']=[' Keywords : '+ keyword for keyword in keywords]

In [22]:
df_final = pd.DataFrame(columns=['question','answer'])
df_final['question'] = trainning_question_ls
df_final['answer']=df['answer']+ df['Keywords']

In [23]:
df_final['answer'][0]

'answer: Le décret n° 75-316 du 30 mai 1975 fixe les attributions du Ministère des Finances qui a pour mission essentielle l’élaboration et la mise en œuvre de la politique de l’Etat en matière financière, monétaire et fiscale. Dans ce cadre, il participe à la conception des objectifs de la politique économique et à la définition des moyens de réalisation appropriés. \n\nLe Ministère des Finances a aussi pour mission :\n\nD’élaborer les projets des lois de finances et de veiller, conformément à la législation et à la réglementation en vigueur à l’exécution du budget de l’Etat, des budgets annexes, des budgets des établissements publics à caractère administratif, ainsi que des fonds spéciaux du trésor. A ce titre, il est consulté sur toutes les questions ayant une incidence budgétaire et notamment celles afférentes aux rémunérations publiques ;\nDe préparer les projets de textes à caractère fiscal et douanier et assure l’exécution de la législation dans ce domaine ;\nDe préparer les pro

In [24]:
df.head()

Unnamed: 0,question,answer,Keywords
0,question: C'est quoi le ministère de la financ...,answer: Le décret n° 75-316 du 30 mai 1975 fix...,"Keywords : accorde,accords,administratif"
1,question: C'est quoi le sonseil national de la...,answer: Création :\nLe CNF est crée par l’arti...,"Keywords : agriculture,article,artisanat"
2,question: Qui est la minitstre des finances,answer: Mme Sihem Boughdiri Nemsia nommée par ...,"Keywords : administration,afférentes,ailleurs"
3,question: C'est quoi le conseil de comptabilité ?,answer: Le conseil supérieur de comptabilité a...,"Keywords : article,attribué,composition"
4,question: Quelle est la composition du conseil...,answer: Le Conseil National de la Comptabilité...,"Keywords : administratif,banque,bvmt"


In [25]:
df_final.head()

Unnamed: 0,question,answer
0,C'est quoi le ministère de la finance et quell...,answer: Le décret n° 75-316 du 30 mai 1975 fix...
1,C'est quoi le sonseil national de la fiscalité...,answer: Création :\nLe CNF est crée par l’arti...
2,Qui est la minitstre des finances,answer: Mme Sihem Boughdiri Nemsia nommée par ...
3,C'est quoi le conseil de comptabilité ?,answer: Le conseil supérieur de comptabilité a...
4,Quelle est la composition du conseil de la com...,answer: Le Conseil National de la Comptabilité...


**MODEL**

In [26]:
!pip install transformers==4.14.1 -q
!pip install bitsandbytes-cuda111==0.26.0 -q
!pip install datasets==1.16.1 -q

  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mBuilding wheel for tokenizers [0m[1;32m([0m[32mpyproject.toml[0m[1;32m)[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m [31m[51 lines of output][0m
  [31m   [0m running bdist_wheel
  [31m   [0m running build
  [31m   [0m running build_py
  [31m   [0m creating build
  [31m   [0m creating build/lib.linux-x86_64-cpython-310
  [31m   [0m creating build/lib.linux-x86_64-cpython-310/tokenizers
  [31m   [0m copying py_src/tokenizers/__init__.py -> build/lib.linux-x86_64-cpython-310/tokenizers
  [31m   [0m creating build/lib.linux-x86_64-cpython-310/tokenizers/models
  [31m   [0m copying py_src/tokenizers/models/__init__.py -> build/lib.linux-x86_64-cpython-310/tokenizers/models
  [31m   [0m creating build/lib.linux-x86_64-cpython-310/tokenizers/decoders
  [31m   [0m copying py_src/tokenizers/decoders/__init__.py -> build/lib.linux-x86_64-cpython-310/tok

In [27]:
from sklearn.model_selection import train_test_split
import transformers
import torch
import torch.nn.functional as F
from torch import nn
from torch.cuda.amp import custom_fwd, custom_bwd
from tqdm.auto import tqdm

In [28]:
class FrozenBNBLinear(nn.Module):
    def __init__(self, weight, absmax, code, bias=None):
        assert isinstance(bias, nn.Parameter) or bias is None
        super().__init__()
        self.out_features, self.in_features = weight.shape
        self.register_buffer("weight", weight.requires_grad_(False))
        self.register_buffer("absmax", absmax.requires_grad_(False))
        self.register_buffer("code", code.requires_grad_(False))
        self.adapter = None
        self.bias = bias
 
    def forward(self, input):
        output = DequantizeAndLinear.apply(input, self.weight, self.absmax, self.code, self.bias)
        if self.adapter:
            output += self.adapter(input)
        return output
 
    @classmethod
    def from_linear(cls, linear: nn.Linear) -> "FrozenBNBLinear":
        weights_int8, state = quantize_blockise_lowmemory(linear.weight)
        return cls(weights_int8, *state, linear.bias)
 
    def __repr__(self):
        return f"{self.__class__.__name__}({self.in_features}, {self.out_features})"
 
 
class DequantizeAndLinear(torch.autograd.Function): 
    @staticmethod
    @custom_fwd
    def forward(ctx, input: torch.Tensor, weights_quantized: torch.ByteTensor,
                absmax: torch.FloatTensor, code: torch.FloatTensor, bias: torch.FloatTensor):
        weights_deq = dequantize_blockwise(weights_quantized, absmax=absmax, code=code)
        ctx.save_for_backward(input, weights_quantized, absmax, code)
        ctx._has_bias = bias is not None
        return F.linear(input, weights_deq, bias).clone()
 
    @staticmethod
    @custom_bwd
    def backward(ctx, grad_output: torch.Tensor):
        assert not ctx.needs_input_grad[1] and not ctx.needs_input_grad[2] and not ctx.needs_input_grad[3]
        input, weights_quantized, absmax, code = ctx.saved_tensors
        # grad_output: [*batch, out_features]
        weights_deq = dequantize_blockwise(weights_quantized, absmax=absmax, code=code)
        grad_input = grad_output @ weights_deq
        grad_bias = grad_output.flatten(0, -2).sum(dim=0) if ctx._has_bias else None
        return grad_input, None, None, None, grad_bias
 
 
class FrozenBNBEmbedding(nn.Module):
    def __init__(self, weight, absmax, code):
        super().__init__()
        self.num_embeddings, self.embedding_dim = weight.shape
        self.register_buffer("weight", weight.requires_grad_(False))
        self.register_buffer("absmax", absmax.requires_grad_(False))
        self.register_buffer("code", code.requires_grad_(False))
        self.adapter = None
 
    def forward(self, input, **kwargs):
        with torch.no_grad():
            # note: both quantuized weights and input indices are *not* differentiable
            weight_deq = dequantize_blockwise(self.weight, absmax=self.absmax, code=self.code)
            output = F.embedding(input, weight_deq, **kwargs)
        if self.adapter:
            output += self.adapter(input)
        return output 
 
    @classmethod
    def from_embedding(cls, embedding: nn.Embedding) -> "FrozenBNBEmbedding":
        weights_int8, state = quantize_blockise_lowmemory(embedding.weight)
        return cls(weights_int8, *state)
 
    def __repr__(self):
        return f"{self.__class__.__name__}({self.num_embeddings}, {self.embedding_dim})"
 
 
def quantize_blockise_lowmemory(matrix: torch.Tensor, chunk_size: int = 2 ** 20):
    assert chunk_size % 4096 == 0
    code = None
    chunks = []
    absmaxes = []
    flat_tensor = matrix.view(-1)
    for i in range((matrix.numel() - 1) // chunk_size + 1):
        input_chunk = flat_tensor[i * chunk_size: (i + 1) * chunk_size].clone()
        quantized_chunk, (absmax_chunk, code) = quantize_blockwise(input_chunk, code=code)
        chunks.append(quantized_chunk)
        absmaxes.append(absmax_chunk)
 
    matrix_i8 = torch.cat(chunks).reshape_as(matrix)
    absmax = torch.cat(absmaxes)
    return matrix_i8, (absmax, code)
 
 
def convert_to_int8(model):
    """Convert linear and embedding modules to 8-bit with optional adapters"""
    for module in list(model.modules()):
        for name, child in module.named_children():
            if isinstance(child, nn.Linear):
                print(name, child)
                setattr(
                    module,
                    name,
                    FrozenBNBLinear(
                        weight=torch.zeros(child.out_features, child.in_features, dtype=torch.uint8),
                        absmax=torch.zeros((child.weight.numel() - 1) // 4096 + 1),
                        code=torch.zeros(256),
                        bias=child.bias,
                    ),
                )
            elif isinstance(child, nn.Embedding):
                setattr(
                    module,
                    name,
                    FrozenBNBEmbedding(
                        weight=torch.zeros(child.num_embeddings, child.embedding_dim, dtype=torch.uint8),
                        absmax=torch.zeros((child.weight.numel() - 1) // 4096 + 1),
                        code=torch.zeros(256),
                    )
                )

In [29]:
class GPTJBlock(transformers.models.gptj.modeling_gptj.GPTJBlock):
    def __init__(self, config):
        super().__init__(config)

        convert_to_int8(self.attn)
        convert_to_int8(self.mlp)


class GPTJModel(transformers.models.gptj.modeling_gptj.GPTJModel):
    def __init__(self, config):
        super().__init__(config)
        convert_to_int8(self)
        

class GPTJForCausalLM(transformers.models.gptj.modeling_gptj.GPTJForCausalLM):
    def __init__(self, config):
        super().__init__(config)
        convert_to_int8(self)


transformers.models.gptj.modeling_gptj.GPTJBlock = GPTJBlock

In [30]:
class T5ForConditionalGeneration(transformers.models.t5.modeling_t5.T5ForConditionalGeneration):
    def __init__(self, config):
        super().__init__(config)
        convert_to_int8(self)

transformers.models.t5.modeling_t5.T5ForConditionalGeneration = T5ForConditionalGeneration

In [31]:
config = transformers.GPTJConfig.from_pretrained("EleutherAI/gpt-j-6B")
tokenizer = transformers.AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")

Downloading (…)lve/main/config.json:   0%|          | 0.00/930 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/619 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.37M [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/4.04k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/357 [00:00<?, ?B/s]

In [32]:
config.pad_token_id = config.eos_token_id
tokenizer.pad_token = config.pad_token_id

In [33]:
#gpt = GPTJForCausalLM.from_pretrained("hivemind/gpt-j-6B-8bit", low_cpu_mem_usage=True)
gpt = GPTJForCausalLM.from_pretrained("gustavecortal/fr-boris-8bit", low_cpu_mem_usage=True) 

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.01k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/6.18G [00:00<?, ?B/s]

k_proj Linear(in_features=4096, out_features=4096, bias=False)
v_proj Linear(in_features=4096, out_features=4096, bias=False)
q_proj Linear(in_features=4096, out_features=4096, bias=False)
out_proj Linear(in_features=4096, out_features=4096, bias=False)
fc_in Linear(in_features=4096, out_features=16384, bias=True)
fc_out Linear(in_features=16384, out_features=4096, bias=True)
k_proj Linear(in_features=4096, out_features=4096, bias=False)
v_proj Linear(in_features=4096, out_features=4096, bias=False)
q_proj Linear(in_features=4096, out_features=4096, bias=False)
out_proj Linear(in_features=4096, out_features=4096, bias=False)
fc_in Linear(in_features=4096, out_features=16384, bias=True)
fc_out Linear(in_features=16384, out_features=4096, bias=True)
k_proj Linear(in_features=4096, out_features=4096, bias=False)
v_proj Linear(in_features=4096, out_features=4096, bias=False)
q_proj Linear(in_features=4096, out_features=4096, bias=False)
out_proj Linear(in_features=4096, out_features=4096, 

In [34]:
!gdown --id 1Q1WMjny26VHLKb71iTCHIS5zvdm9c-wz

/bin/bash: gdown: command not found


In [35]:
data=pd.DataFrame()
data['sentence'] = '[Sentence]:'+'en Tunisie,'+train_os['question']+'\n[Paraphrase]:'+'en Tunisie,'+train_os['answer']
data=data['sentence']
train, test = train_test_split(data, test_size=0.05) 
train.to_csv('/kaggle/working/train_pgbp_example.csv', index=False)
test.to_csv('/kaggle/working/test_pgbp_example.csv', index=False)
data.head()

0    [Sentence]:en Tunisie,C'est quoi le ministère ...
1    [Sentence]:en Tunisie,C'est quoi le sonseil na...
2    [Sentence]:en Tunisie,Qui est la minitstre des...
3    [Sentence]:en Tunisie,C'est quoi le conseil de...
4    [Sentence]:en Tunisie,Quelle est la compositio...
Name: sentence, dtype: object

In [36]:
from datasets import load_dataset
dataset = load_dataset('csv', data_files={'train': '/kaggle/working/train_pgbp_example.csv',
                                              'test': '/kaggle/working/test_pgbp_example.csv'})

Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-619df89e0752d736/0.0.0/bf68a4c4aefa545d0712b2fcbb1b327f905bbe2f6425fbc5e8c25234acb9e14a...


  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-619df89e0752d736/0.0.0/bf68a4c4aefa545d0712b2fcbb1b327f905bbe2f6425fbc5e8c25234acb9e14a. Subsequent calls will reuse this data.


  csv_file_reader = pd.read_csv(file, iterator=True, dtype=dtype, **self.config.read_csv_kwargs)
  csv_file_reader = pd.read_csv(file, iterator=True, dtype=dtype, **self.config.read_csv_kwargs)


  0%|          | 0/2 [00:00<?, ?it/s]

In [37]:
def tokenize_function(examples):
    return tokenizer(examples["sentence"], padding=True, truncation=True, max_length= 128)

tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets = tokenized_datasets.remove_columns(["sentence"])
tokenized_datasets.set_format("torch")

  0%|          | 0/1 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

In [38]:
from torch.utils.data import DataLoader

full_train_dataset = tokenized_datasets["train"]
train_dataloader = DataLoader(full_train_dataset, shuffle=False, batch_size=8)

In [39]:
def add_adapters(model, adapter_dim=4, p = 0.1):
    assert adapter_dim > 0

    for name, module in model.named_modules():
      if isinstance(module, FrozenBNBLinear):
          if "attn" in name or "mlp" in name or "head" in name:
              print("Adding adapter to", name)
              module.adapter = nn.Sequential(
                nn.Linear(module.in_features, adapter_dim, bias=False),
                nn.Dropout(p=p),
                nn.Linear(adapter_dim, module.out_features, bias=False),
            )
              print("Initializing", name)
              nn.init.zeros_(module.adapter[2].weight)

          else:
              print("Not adding adapter to", name)
      elif isinstance(module, FrozenBNBEmbedding):
          print("Adding adapter to", name)
          module.adapter = nn.Sequential(
                nn.Embedding(module.num_embeddings, adapter_dim),
                nn.Dropout(p=p),
                nn.Linear(adapter_dim, module.embedding_dim, bias=False),
            )
          print("Initializing", name)
          nn.init.zeros_(module.adapter[2].weight)

add_adapters(gpt)
device = 'cuda' if torch.cuda.is_available() else 'cpu'
gpt.to(device)

Adding adapter to transformer.wte
Initializing transformer.wte
Adding adapter to transformer.h.0.attn.k_proj
Initializing transformer.h.0.attn.k_proj
Adding adapter to transformer.h.0.attn.v_proj
Initializing transformer.h.0.attn.v_proj
Adding adapter to transformer.h.0.attn.q_proj
Initializing transformer.h.0.attn.q_proj
Adding adapter to transformer.h.0.attn.out_proj
Initializing transformer.h.0.attn.out_proj
Adding adapter to transformer.h.0.mlp.fc_in
Initializing transformer.h.0.mlp.fc_in
Adding adapter to transformer.h.0.mlp.fc_out
Initializing transformer.h.0.mlp.fc_out
Adding adapter to transformer.h.1.attn.k_proj
Initializing transformer.h.1.attn.k_proj
Adding adapter to transformer.h.1.attn.v_proj
Initializing transformer.h.1.attn.v_proj
Adding adapter to transformer.h.1.attn.q_proj
Initializing transformer.h.1.attn.q_proj
Adding adapter to transformer.h.1.attn.out_proj
Initializing transformer.h.1.attn.out_proj
Adding adapter to transformer.h.1.mlp.fc_in
Initializing transfor

GPTJForCausalLM(
  (transformer): GPTJModel(
    (wte): FrozenBNBEmbedding(50400, 4096)
    (drop): Dropout(p=0.0, inplace=False)
    (h): ModuleList(
      (0-27): 28 x GPTJBlock(
        (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
        (attn): GPTJAttention(
          (attn_dropout): Dropout(p=0.0, inplace=False)
          (resid_dropout): Dropout(p=0.0, inplace=False)
          (k_proj): FrozenBNBLinear(4096, 4096)
          (v_proj): FrozenBNBLinear(4096, 4096)
          (q_proj): FrozenBNBLinear(4096, 4096)
          (out_proj): FrozenBNBLinear(4096, 4096)
        )
        (mlp): GPTJMLP(
          (fc_in): FrozenBNBLinear(4096, 16384)
          (fc_out): FrozenBNBLinear(16384, 4096)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.0, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): FrozenBNBLinear(4096, 50400)
)

In [40]:
!pip install bitsandbytes

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Collecting bitsandbytes
  Downloading bitsandbytes-0.38.1-py3-none-any.whl (104.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.3/104.3 MB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.38.1
[0m

In [41]:
from bitsandbytes.functional import quantize_blockwise, dequantize_blockwise


Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
bin /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda113.so
CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 7.5
CUDA SETUP: Detected CUDA version 113
CUDA SETUP: Loading binary /opt/conda/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda113.so...


  warn(msg)


In [42]:
from bitsandbytes.optim import Adam8bit

gpt.gradient_checkpointing_enable()
optimizer = Adam8bit(gpt.parameters(), lr=1e-5, weight_decay=0.01)

In [43]:
num_epochs = 5
num_training_steps = num_epochs * len(train_dataloader)

In [44]:
lr_scheduler = transformers.get_linear_schedule_with_warmup(
    optimizer, int(num_training_steps*0.1), num_training_steps
)

In [45]:
filepath = '/kaggle/working/model.pt'

In [46]:
from tqdm.auto import tqdm

scaler = torch.cuda.amp.GradScaler()
progress_bar = tqdm(range(num_training_steps))
gpt.train()
gpt.gradient_checkpointing_enable()
k = 0

for epoch in range(num_epochs):
    for batch in train_dataloader:

        k = k + 1
        if k % 500 == 0:
          print(k)
          state = {'k' : k, 'epoch': num_epochs, 'lr_scheduler': lr_scheduler.state_dict(), 'state_dict': gpt.state_dict(), 'optimizer': optimizer.state_dict()}
          torch.save(state, filepath)

        batch = {k: v.to(device) for k, v in batch.items()}

        optimizer.zero_grad()

        with torch.cuda.amp.autocast():
          out = gpt.forward(**batch,)

          loss = F.cross_entropy(out.logits[:, :-1, :].flatten(0, -2), batch['input_ids'][:, 1:].flatten(),
                                reduction='mean', label_smoothing=0.1)
          
        print(loss)

        scaler.scale(loss).backward()
        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(gpt.parameters(), 1.0)
        scaler.step(optimizer)
        scaler.update()

        lr_scheduler.step()
        progress_bar.update(1)

  0%|          | 0/270 [00:00<?, ?it/s]

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...


tensor(5.0153, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.3284, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.1454, device='cuda:0', grad_fn=<AddBackward0>)
tensor(3.7534, device='cuda:0', grad_fn=<AddBackward0>)
tensor(3.8018, device='cuda:0', grad_fn=<AddBackward0>)
tensor(5.0680, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.4448, device='cuda:0', grad_fn=<AddBackward0>)
tensor(5.1306, device='cuda:0', grad_fn=<AddBackward0>)
tensor(3.9682, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.0548, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.3508, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.4443, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.6572, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.0568, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.0162, device='cuda:0', grad_fn=<AddBackward0>)
tensor(3.8606, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.0689, device='cuda:0', grad_fn=<AddBackward0>)
tensor(4.1443, device='cuda:0', grad_fn=<AddBack

set the question !!!! 

In [47]:
# Compute TF-IDF matrix
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(train_os['answer'])

In [48]:
def TopN(tfidf_matrix,question): 
    gpt.eval()
    with torch.no_grad():
         prompt = tokenizer(question, truncation=True, padding=True, max_length=128, return_tensors='pt')
         prompt = {key: value.to(device) for key, value in prompt.items()}
         out = gpt.generate(**prompt, max_length=128, top_k=50, top_p=0.9, temperature=1.0, do_sample=True, repetition_penalty = 1.2, num_beams=1)
         user_input=tokenizer.decode(out[0])
         # Transform user input into TF-IDF features
         user_tfidf = tfidf.transform([user_input])

         # Compute cosine similarity between user input and listings
         cosine_similarities = linear_kernel(user_tfidf, tfidf_matrix).flatten()

        # Get indices of top 3 listings with highest similarity scores
         top_indices = cosine_similarities.argsort()[:-4:-1]

        # Recommend the most suitable listings
         recommended_listings = df.loc[top_indices]
         topN=' '.join(recommended_listings['answer'])
         # Display the recommended listings
         for index, listing in recommended_listings.iterrows():
             print("Choix: {}".format(index))
             print("Answer: {}".format(listing['answer']))
             print("-----------------------")    

    return topN

In [50]:
# Display the recommended listings
#for index, listing in recommended_listings.iterrows():
   # print("Choix: {}".format(index))
   # print("Answer: {}".format(listing['answer']))
    #print("-----------------------")

Choix: 49
Answer: answer: Le cadre légal et règlementaire dans lequel opère la comptabilité publique est très vaste compte tenu de la multitude et de la variété des opérations financières et comptables induites par l'activité des entités publiques. Les textes les plus importants sont :

Textes législatifs :

Code de la comptabilité publique promulgué par la loi n°73-81 du 31 décembre 1973, tel que modifié notamment par la loi des finances pour la gestion 2010;
Loi n°67-53 du 8 décembre 1967 portant loi organique du budget telle que modifiée notamment par la loi n°2004-42 du 13 mai 2004;
Loi 75-35 du 14 mai 1975 portant loi organique du budget des collectivités locales telle que modifiée notamment par la loi organique n°2007-65 du 18 décembre 2007;
Loi 68-8 du 8 mars 1968 portant organisation de la cour des comptes telle que modifiée notamment par la loi organique n°2008-3 du 29 janvier 2008;
Code de la TVA promulgué par la loi N°88-61 du 2 Juin 1988;
Loi N°88-62 du 2 Juin 1988 Portant 

In [49]:
test.values[0].split('[Paraphrase]:')[0].strip()

"[Sentence]:en Tunisie,qu'est ce qu'une banque d'affaire ?"

In [50]:
gpt.eval()
for sentence in test.values:
  st = sentence.split('[Paraphrase]:')[0].strip()
  phrase=str(st)
  with torch.no_grad():
    prompt = tokenizer(st+TopN(tfidf_matrix,phrase), truncation=True, padding=True, max_length=128, return_tensors='pt')
    prompt = {key: value.to(device) for key, value in prompt.items()}
    out = gpt.generate(**prompt, max_length=512, top_k=50, top_p=0.9, temperature=1.0, do_sample=True, repetition_penalty = 1.2, num_beams=1)
    print('\n')
    print(tokenizer.decode(out[0]))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 219
Answer: answer: Non : En vertu de l’article 44 du code des assurances, l’assurance des résidents et des risques situés en Tunisie ne peut être souscrite qu’auprès d’une entreprise d’assurances Tunisienne et ce à l’exception de l’assurance de la responsabilité civile de l’armateur et du transporteur maritime.
-----------------------
Choix: 402
Answer: answer: Non : En vertu de l’article 44 du code des assurances, l’assurance des résidents et des risques situés en Tunisie ne peut être souscrite qu’auprès d’une entreprise d’assurances Tunisienne et ce à l’exception de l’assurance de la responsabilité civile de l’armateur et du transporteur maritime.
-----------------------
Choix: 106
Answer: answer: Créée le 19 septembre 1958, la Banque Centrale de Tunisie est un établissement public doté de la personnalité civile et de l'autonomie financière. La loi n° 2016-35 du 25 Avril 2016 portant fixation du statut de la  Banque Centrale a attribué à la banque pour objectif principal d’as

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,qu'est ce qu'une banque d'affaire?answer: Non : En vertu de l’article 44 du code des assurances, l’assurance des résidents et des risques situés en Tunisie ne peut être souscrite qu’auprès d’une entreprise d’assurances Tunisienne et ce à l’exception de l’assurance de la responsabilité civile de l’armateur et du transporteur maritime. answer: Non : En vertue de l’article 41 de la loi n°96-59 portant réforme de la monnaier, l’importation et l’ exportation de devises sont soumises au timbre à hauteur minimum de 500 dinars par lot d’effets importés ou exportés à destination de la Tunisie et ce par personne ou par entité financière ou mixte ayant une activité économique.<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 373
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel global est égal ou supérieur à 100.000D à l’exclusion des produits suivants :
produits alimentaires,
Les produits soumis au régime de l’homologation administrative des prix (carburants, alcool, tabac, allumettes, cahiers scolaires, …),
Les Opérations Imposables à la TVA par option
Les entreprises qui réalisent des  opérations hors champ  d’application de la TVA ou exonérées de ladite taxe et ce au titre :

De la totalité de l’activité pour les opérations hors champ de ladite taxe ;
D’une partie de l’activité pour les produits exonérés destinés à l’exportation ou à l’approvisionnement des assujettis.
Les opérations hors 

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Est-ce que les factures d’avoir doivent être déclarées dans les déclarations mensuelles de TVA?answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires, manufacturés,
Les ventes faites par les concessionnaires,
Les opérations relatives aux transports routiers et maritimes internationaux.




<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 85
Answer: answer: Les bons du trésor à zéro coupon ont été crée en 2006 (Décret n°2006-1208 du 24-04-2006). L’émission des BTZc s’inscrit dans le cadre de la poursuite de la modernisation du marché des titres de l’Etat et l’élargissement de la base des investisseurs dans ces titres.

Caractéristiques:

Les Bons du Trésor à zéro coupon BTZc sont émis mensuellement par voie d'adjudication pour un nominal de 1000 D, pour une durée égale ou supérieure à 2 ans. Ils sont remboursés en une seule fois à l'échéance et les intérêts y afférents sont payés à l'émission (précomptés). Ces obligations assimilables ne délivrent pas de coupons annuels et sont remboursés en valeur nominal une seule fois à l'échéance finale.

Adjudication:

Une semaine avant la date de l’adjudication, qui aura lieu le premier mardi de chaque mois, le Trésor annonce via Reuters le montant indicatif à lever et les lignes de BTZc à ouvrir. Les offres sont présentées en prix pied de coupon exprimé en pourcentage du n

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,qu'est ce que Les Bons du Trésor à Zéro Coupon (BTZc)?answer: Les bons du trésor à zéro coupon ont été crée en 2006 (Décret n°2006-1208 du 24-04-2006). L’émission des BTZc s’inscrit dans le cadre de la poursuite de la modernisation du marché des titres de l’Etat et l’élargissement de la base des investisseurs. Cet emprunt s’effectue par émission d’un nombreau minimum et un maximum à échéance (5 ans et 10 ans). La date indicative de règlement est fixée au 15 du mois qui suit la date de jouissance.
[Paraphrase]:en Tunisie,Les bons du Trésor à zéro Coupon (BTZC) : Montant minimal et maximal
Émetteur :La Banque Centrale de Tunisia
Domiciliation : BCT
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 451
Answer: answer: le contentieux fiscal est soumis aux procédures prévues par le code de procédure civile et commerciale et aux procédures particulières prévues par le code des droits et procédures fiscaux, et qui sont notamment :
-----------------------
Choix: 177
Answer: answer: le contentieux fiscal est soumis aux procédures prévues par le code de procédure civile et commerciale et aux procédures particulières prévues par le code des droits et procédures fiscaux, et qui sont notamment :
-----------------------
Choix: 159
Answer: answer: L'administration peut procéder à la vérification des impôts dans la limite des délais de prescription qui suivent : 4 ans pour les impôts déclarés, 10 ans en cas de défaut de déclaration de l'impôt, 10 ans pour les droits de timbre dans tous les cas.
-----------------------


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quels sont les agents habilités à procéder à la vérification fiscale?answer: le contentieux fiscal est soumis aux procédures prévues par le code de procédure civile et commerciale et aux procédures particulières prévues par le code des droits et procédures fiscaux, et qui sont notamment : answer: le contentieux fiscal est soumis aux procédures prévues par le code de procédure civilde et commerciale,et auxprocèd es particulièresetnotament celles prévues par ledécret n° 94-1881 du 17 mars 1994 portant codification des procédures applicables en matière d'administration fiscale.
[Paraphrase]:en Tunisie,Les agents des impôts sont des agents publics chargés de l'assiette, de la perception, et de la récupération des divers impôts auprès des contribuables.
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 373
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel global est égal ou supérieur à 100.000D à l’exclusion des produits suivants :
produits alimentaires,
Les produits soumis au régime de l’homologation administrative des prix (carburants, alcool, tabac, allumettes, cahiers scolaires, …),
Les Opérations Imposables à la TVA par option
Les entreprises qui réalisent des  opérations hors champ  d’application de la TVA ou exonérées de ladite taxe et ce au titre :

De la totalité de l’activité pour les opérations hors champ de ladite taxe ;
D’une partie de l’activité pour les produits exonérés destinés à l’exportation ou à l’approvisionnement des assujettis.
Les opérations hors 

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Les opérations de ventes de biens par un importateur avant le dédouanement sont-elles imposables à la TVA?answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail autre que celui de produits alimentaires, et ce, dans les conditions fixées par les textes en vigueur. (
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 206
Answer: answer: Les assujettis à la TVApar option bénéficient d’un crédit de départ égal 
-----------------------
Choix: 358
Answer: answer: Les assujettis à la TVApar option bénéficient d’un crédit de départ égal 
-----------------------
Choix: 28
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel global est égal ou supérieur à 100.000D à l’exclusion des produits suivants :
produits alimentaires,
Les produits soumis au régime de l’homologation administrative des prix (carburants, alcool, tabac, allumettes, cahiers scolaires, …),
Les Opérations Imposables à la TVA par option
Les entreprises qui réalisent des  opérations hors champ  d’application de la TVA ou exonérées d

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Est-ce que les assujettis à la TVA par option peuvent bénéficier d’un crédit de départ au titre des biens détenus à la date de l’option?answer: Les assujettis à la TVApar option bénéficient d’un crédit de départ égal  answer: Les assujettis à la TVApar option bénéficient d’un crédit de départ égal  answer: Les opérations de l’exercice peuvent bénéficier d’un credit de départ égal à100 % du solde écuador à l’ouvertured’exercice du revenur yearnly.
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 384
Answer: answer: Les services de l'enseignement et les services connexes sont soumis à la TVA au taux de 6 % à partir du 1er septembre 2016.
-----------------------
Choix: 193
Answer: answer: Les services de l'enseignement et les services connexes sont soumis à la TVA au taux de 6 % à partir du 1er septembre 2016.
-----------------------
Choix: 408
Answer: answer: Personnes Imposables
Sous réserve de certaines exonérations, l’IS est dû notamment par :

les sociétés de capitaux et assimilées établies en Tunisie,
les entreprises étrangères établies en Tunisie,
les coopératives et les établissements publics à caractère non administratif ayant un but lucratif,
les personnes morales non résidentes et non établies en Tunisie à raison de certains revenus de source tunisienne.
Détermination du bénéfice imposable
Le bénéfice imposable est déterminé sur la base d’une comptabilité conforme à la législation comptable des entreprises et après déduction de toutes les dépenses et charges pr

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quel est le régime en matière de TVA des écoles privées?answer: Les services de l'enseignement et les services connexes sont soumis à la TVA au taux de 6 % à partir du 1er septembre 2016. answer: Les services de l'enseignement et les services connexes sont soumis à la TVA au taux de 6 % à partir du 1er septembre 2016. answer: Personnes Imposables
Sous réserve de remplacement des immeubles soumis aux droits d’enregistrement, de la taxe sur les immeuBlement, du droit d’hypothèque immobilière et du prélèvement sur les biens hypothéqués, les établissements d’enseignement privés soumis à TVA, sont imposable au taux de 6%.
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 302
Answer: answer: La TVA s’applique sur le prix principal et toutes les charges augmentatives du prix. A titre d’exemple , les intérêts pour paiement à terme ou pour retard de payement portés ou non sur la facture, arrêtés lors de la vente ou postérieurement font partie intégrante de l'assiette  taxable.
-----------------------
Choix: 209
Answer: answer: La TVA s’applique sur le prix principal et toutes les charges augmentatives du prix. A titre d’exemple , les intérêts pour paiement à terme ou pour retard de payement portés ou non sur la facture, arrêtés lors de la vente ou postérieurement font partie intégrante de l'assiette  taxable.
-----------------------
Choix: 373
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le comme

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Les majorations de prix pour rapidité d'exécution font –elles partie de l’assiette de la TVA?answer: La TVA s’applique sur le prix principal et toutes les charges augmentatives du prix. A titre d’exemple, les intérêts pour paiement à terme ou pour retard de payement portés ou non sur la facture, arrêtés lors de la vente ou postérieurement font partie intégrante du chiffre d’affaires.<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 100
Answer: answer: Conférence de sensibilisation sur l’Accord de la Zone de Libre-échange continentale africaine (ZLECAf)
Sous le haut patronage de Son Excellence Madame Sihem Boughdiri Nemsia, Ministre des finances, et Son Excellence Madame Kalthoum BEN Rejeb Guezzah la Ministre du Commerce et du Développement des Exportations, la Direction générale des douanes en partenariat avec le Ministère du commerce et du développement des exportations et la Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) à travers son projet « Appui aux accords Commerciaux avec l’Afrique » (AACA) mandaté par le Ministère fédéral de la Coopération économique et du Développement (BMZ), vous invitent à la Conférence de sensibilisation sur l’Accord de la Zone de Libre-échange continentale africaine (ZLECAf) au profit de ses cadres et agents, sous le thème: « Accélération de la mise-en-œuvre de la ZLECAf en Tunisie : Quel est le rôle des douanes ? ».

Cet évènement s’inscrit dans le cadre de la

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,que sont les points important sur la conférences de sensibilisation sur l’Accord de la Zone de Libre-échange continentale africaine (ZLECAf)?answer: Conférence de sensibilisation sur l’Accord de la Zone de Libre-échange continentale africaine (ZLECAf)
Sous le haut patronage de Son Excellence Madame Sihem Boughdiri Nemsia, Ministre des finances, et Son Excellence Madame Kalthoum BEN Rejeb Guezzah, ministre de l'Equipement, du Transport et des Technologies de LInformation et de la Communication, la Direction générale du commerce a pris part à la première conférences de sensiblisation sur l'accord de la Zlecaf le vendredi 28 février 2020 à Carthage. 


 

<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 445
Answer: answer: Toute personne physique ou morale doit à la fin de l'activité déposer une déclaration de cessation dans un délai de 15 jours à partir de la date de la cession ou de la fermeture définitive de l'entreprise avec paiement des droits dus. La cessation n'est prononcée qu'après vérification fiscale pour la période non prescrite.
-----------------------
Choix: 140
Answer: answer: Toute personne physique ou morale doit à la fin de l'activité déposer une déclaration de cessation dans un délai de 15 jours à partir de la date de la cession ou de la fermeture définitive de l'entreprise avec paiement des droits dus. La cessation n'est prononcée qu'après vérification fiscale pour la période non prescrite.
-----------------------
Choix: 351
Answer: answer: Les SVT sont choisis par le Ministère des Finances parmi les intermédiaires en bourse personnes morales, les Banques et les Etablissements financiers adhérant à la STICODEVAM qui disposent d’un compte auprès de la Banque 

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quelles sont les obligations déclaratives à la fin de l'activité?answer: Toute personne physique ou morale doit à la fin de l'activité déposer une déclaration de cessation dans un délai de 15 jours à partir de la date de la cession ou de la fermeture définitive de l'entreprise avec paiement des droits dus. La cessation n'est prononcée qu'après vérification fiscale pour la période sous revue
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 89
Answer: answer: Définition du contrat d'assurance
Définition
Est une convention par laquelle une entreprise d’assurances s’engage, en cas de réalisation du risque ou au terme fixé au contrat, à fournir à l’assuré une prestation pécuniaire en contrepartie d’une rémunération appelée prime ou cotisation.

Caractéristiques
Un contrat aléatoire : Soit la réalisation du risque garanti est aléatoire (exemple : assurance contre l’incendie, le vol ou la grêle) soit la date de sa réalisation est aléatoire (exemple : l’assurance en cas de décès étant donné que la date du décès est inconnue).
Un contrat consensuel : Il suppose le consentement des parties.
Un contrat à titre onéreux : L’assuré est tenu de payer la prime en contrepartie de la promesse du paiement du capital assuré en cas de sinistre.
Un contrat synallagmatique : Il comporte des obligations réciproques à la charge de chacune des parties.
Un contrat d’adhésion : Les conditions générales sont établies exclusivement par l’assu

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quels sont les droits d’enregistrement exigibles sur un contrat de location d’immeuble à usage professionnel?answer: Définition du contrat d'assurance
Définition
Est une convention par laquelle une entreprise d’assurances s’engage, en cas de réalisation du risque ou au terme fixé au contrat, à fournir à l’assuré une prestation pécuniaire en contrepartie d’une prime payée par ce dernier. (2): -------------
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 0
Answer: answer: Le décret n° 75-316 du 30 mai 1975 fixe les attributions du Ministère des Finances qui a pour mission essentielle l’élaboration et la mise en œuvre de la politique de l’Etat en matière financière, monétaire et fiscale. Dans ce cadre, il participe à la conception des objectifs de la politique économique et à la définition des moyens de réalisation appropriés. 

Le Ministère des Finances a aussi pour mission :

D’élaborer les projets des lois de finances et de veiller, conformément à la législation et à la réglementation en vigueur à l’exécution du budget de l’Etat, des budgets annexes, des budgets des établissements publics à caractère administratif, ainsi que des fonds spéciaux du trésor. A ce titre, il est consulté sur toutes les questions ayant une incidence budgétaire et notamment celles afférentes aux rémunérations publiques ;
De préparer les projets de textes à caractère fiscal et douanier et assure l’exécution de la législation dans ce domaine ;
De prépar

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Doit-on présenter sa comptabilité aux agents de l'administration fiscale?answer: Le décret n° 75-316 du 30 mai 1975 fixe les attributions du Ministère des Finances qui a pour mission essentielle l’élaboration et la mise en œuvre de la politique de l’Etat en matière financière, monétaire et fiscale. Dans ce cadre, il participe à la conception des objectifs de l’exercice des missions dus par les différents départements ministériels, et notamment celles relatives à la gestion et à la comptabilité. Il est chargé de procéder à l’analyse de cette gestion, des opérations de régularisation, des investigations financières, des audits comptables, financiers et organisationnels. En outre, il établit les rôles pour le recouvrement du taux progressif de la taxe sur la valeur ajoutée et la taxe sur les bénéfices des sociétés. Il peut également, dans le domaine comptable et fiscal, assurer la tutelle de toute institution ou entité chargée d’une mission de service public, d’exp

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 270
Answer: answer: Délais de paiement de la taxe de circulation (vignette):
Les délais de paiement de la taxe de circulation (vignette) sont fixés comme suit :

5 Février pour les véhicules appartenant à des personnes morales y compris l'Etat, les établissements publics et les collectivités locales.
5 Mars pour les véhicules appartenant à des personnes physiques et portant des numéros d'immatriculation pairs.
5 Avril pour les véhicules appartenant à des personnes physiques et portant des numéros d'immatriculation impairs ainsi que pour les motocycles.
-----------------------
Choix: 67
Answer: answer: Délais de paiement de la taxe de circulation (vignette):
Les délais de paiement de la taxe de circulation (vignette) sont fixés comme suit :

5 Février pour les véhicules appartenant à des personnes morales y compris l'Etat, les établissements publics et les collectivités locales.
5 Mars pour les véhicules appartenant à des personnes physiques et portant des numéros d'immatriculati

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,quelles sont les tarifications des vigniettes (taxes de circulations) pour les Motocyclettes (personnes physiques et morales)?answer: Délais de paiement de la taxe de circulation (vignette):
Les délais de paiement de la taxe de circulation (vignette) sont fixés comme suit :

5 Février pour les véhicules appartenant à des personnes morales y compris l'Etat, les établissements publics, les sociétés d’économie mixte,les entreprises nationales ou les entreprises privées bénéficiaires du code des incitations aux investissements.
14 Janvier pour les autres véhicularitées (auto- concessionnelles, véhicles appartenants à des professions libérales ou des artisans).
1er Septembre de l’année pour les véhicularités appartenant à d'autres catégories. (<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 28
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel global est égal ou supérieur à 100.000D à l’exclusion des produits suivants :
produits alimentaires,
Les produits soumis au régime de l’homologation administrative des prix (carburants, alcool, tabac, allumettes, cahiers scolaires, …),
Les Opérations Imposables à la TVA par option
Les entreprises qui réalisent des  opérations hors champ  d’application de la TVA ou exonérées de ladite taxe et ce au titre :

De la totalité de l’activité pour les opérations hors champ de ladite taxe ;
D’une partie de l’activité pour les produits exonérés destinés à l’exportation ou à l’approvisionnement des assujettis.
Les opérations hors c

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,quelles sont les fiscalités des valeurs du trésor?answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel n’excède pas trois millions dinars (MD),
Les ventes à caractère industriel,
Les locations soumises à la TVA. (Les opérations soumises à la TVA) 
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 98
Answer: answer: Coopération Tuniso-Marocaine
 

Dans le cadre du programme de coopération et d'échange d'expériences entre le Comité Général des Assurances – CGA Tunisie - et la Direction Générale des Assurances et de la Prévoyance Sociale au Maroc, , un séminaire a été organisé à Marrakech au cours du mois d'octobre 2013, sur le thème : «Les Normes Internationales de Supervision», auquel ont participé certains cadres du CGA, et ce en vue de la préparation du programme de travail du Comité relatif au renforcement du contrôle du secteur des assurances inscrit dans le cadre de l'étude en cours portant sur l’évaluation des normes nationales et leur conformité aux normes internationales.
-----------------------
Choix: 257
Answer: answer: Coopération Tuniso-Marocaine
 

Dans le cadre du programme de coopération et d'échange d'expériences entre le Comité Général des Assurances – CGA Tunisie - et la Direction Générale des Assurances et de la Prévoyance Sociale au Maroc, , un séminai

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,quelle est la coopération tuniso-marocaine des assurances?answer: Coopération Tuniso-Marocaine
 

Dans le cadre du programme de coopération et d'échange d'expériences entre le Comité Général des Assurances – CGA Tunisie - et la Direction Générale des Assurances et de la Prévoyance Sociale au Maroc,, un séminaire a été organisé à Marrakech au cours du mois d’avril 2017. This meeting had two main objectives : The first one was to exchange information and experience on the insurance market in both countries. The second one aimed to take stock of the existing cooperation framework between CGA Tunisia and Maro<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 409
Answer: answer: Personnes imposables
L’IRPP est dû par toute personne physique ayant sa résidence habituelle en Tunisie. Les non-résidents sont également soumis à l’impôt sur le revenu au titre de leurs revenus de source tunisienne.

Catégories de Revenus Imposables
Les catégories de revenus imposables sont :

les bénéfices industriels et commerciaux; 
les bénéfices des professions non commerciales; 
les bénéfices des exploitations agricoles et de pêche; 
les traitements, salaires, pensions et rentes viagères;
les revenus de valeurs mobilières et les revenus de capitaux mobiliers;
les revenus fonciers ;
les autres revenus : les revenus de source étrangère s'ils n’ont pas subi l’impôt dans le pays de la source, les revenus réalisés des jeux de pari, de hasard et de loterie, les revenus déterminés selon les dépenses personnelles ostensibles et notoires et selon l’accroissement du patrimoine en cas de non réalisation de revenus dans la catégorie des bénéfices industriels et com

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quelles sont les obligations comptables des personnes physiques bénéficiaires du régime forfaitaire de détermination du revenu au titre des revenus non commerciaux et fonciers?answer: Personnes imposables
L’IRPP est dû par toute personne physique ayant sa résidence habituelle en Tunisie. Les non-résidents sont également soumis à l’impôt sur le revenu au titre de leurs revenus de source tunisienne.
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 297
Answer: answer: L'opposition à l'arrêté de taxation d'office s'effectue dans un délai de 60 jours à compter de la date de la notification de l'arrêté, et ce, devant le tribunal de première instance dans la circonscription duquel se trouve le service de l'administration fiscale en charge du dossier, l'acceptation de l'opposition n'est pas conditionnée par le paiement de 20% du montant de l'impôt en principal objet de l'opposition ou par la production d'une caution bancaire pour le même montant.
-----------------------
Choix: 175
Answer: answer: L'opposition à l'arrêté de taxation d'office s'effectue dans un délai de 60 jours à compter de la date de la notification de l'arrêté, et ce, devant le tribunal de première instance dans la circonscription duquel se trouve le service de l'administration fiscale en charge du dossier, l'acceptation de l'opposition n'est pas conditionnée par le paiement de 20% du montant de l'impôt en principal objet de l'opposition ou par la production d

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Peut-on suspendre l'exécution de l'arrêté de taxation d'office?answer: L'opposition à l'arrêté de taxation d'office s'effectue dans un délai de 60 jours à compter de la date de la notification de l'arrêté, et ce, devant le tribunal de première instance dans la circonscription duquel se trouve le service de l'administration fiscale en charge du dossier, l'acceptation de l'opposition ne suspend pas l'exécution des mesures édictées par l'arrêté de taxation et non contestées devant les juges.
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 0
Answer: answer: Le décret n° 75-316 du 30 mai 1975 fixe les attributions du Ministère des Finances qui a pour mission essentielle l’élaboration et la mise en œuvre de la politique de l’Etat en matière financière, monétaire et fiscale. Dans ce cadre, il participe à la conception des objectifs de la politique économique et à la définition des moyens de réalisation appropriés. 

Le Ministère des Finances a aussi pour mission :

D’élaborer les projets des lois de finances et de veiller, conformément à la législation et à la réglementation en vigueur à l’exécution du budget de l’Etat, des budgets annexes, des budgets des établissements publics à caractère administratif, ainsi que des fonds spéciaux du trésor. A ce titre, il est consulté sur toutes les questions ayant une incidence budgétaire et notamment celles afférentes aux rémunérations publiques ;
De préparer les projets de textes à caractère fiscal et douanier et assure l’exécution de la législation dans ce domaine ;
De prépar

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,quel est le cadre reglementaire de l'emission et de gestion des dettes publiques?answer: Le décret n° 75-316 du 30 mai 1975 fixe les attributions du Ministère des Finances qui a pour mission essentielle l’élaboration et la mise en œuvre de la politique de l’Etat en matière financière, monétaire et fiscale. Dans ce cadre, il participe à la conception des objectifs de la gestion macro-financière, gère la Trésorerie Générale de la république, sous l’autorité du ministre des finances et des comptables majors et secondaires. Il gère le budget général de l’État, établit et surveille la liquidation et le paiement des recettes et des dépenses. Par ailleurs, il évalue les entrées des capitaux, liquide les dettes et sert les recouvrements.
[Paraphrase]:en Tunisiela gestion des dettes publiqueseffectue dans le respect des préoccupations d'approvisionnement en monnaie nationale de la trésorerie générale de la républiuqesyctématisme de l'ensemble des opérations de financemen

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 338
Answer: answer: Le conseil supérieur de comptabilité a été crée en vertu du décret 846 du 3 décembre 1975.Il a été réorganisée par le décret n° 1017 du 01 juillet 1991 qui lui a attribué la mission de préparation du système comptable des entreprises. Ensuite, la loi n°96-112 du 30 décembre 1996 relative au système comptable des entreprises a énoncé, en vertu de son article 5, la création du conseil national de comptabilité qui a éliminé l'ancien conseil supérieur de comptabilité. Le décret n°2007-1096 du 2 mai 2007 fixe la composition et les règles d'organisation du Conseil National de la Comptabilité.
-----------------------
Choix: 3
Answer: answer: Le conseil supérieur de comptabilité a été crée en vertu du décret 846 du 3 décembre 1975.Il a été réorganisée par le décret n° 1017 du 01 juillet 1991 qui lui a attribué la mission de préparation du système comptable des entreprises. Ensuite, la loi n°96-112 du 30 décembre 1996 relative au système comptable des entreprises a én

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,C'est quoi le conseil de comptabilité?answer: Le conseil supérieur de comptabilité a été crée en vertu du décret 846 du 3 décembre 1975.Il a été réorganisée par le décret n° 1017 du 01 juillet 1991 qui lui a attribué la mission de préparation du système comptable des entreprises. Ensuite, la loi n°96-112 du 30Décembre 1997 portant loi de finances pour 1998 l’a chargé de l’examen et du contrôle des comptes de toutes les personnes physiques ou morales assujetties à la TVA et soumises à la tenue d’une comptabilité régulière.
[Paraphrase]:en Tunisie,Le conseilsuperievaluateur de comptabilité a pour objet d’assister le Ministredans l’exercicede ses attributions dans le secteur socioéconomique. Il évalue l’activité de l’Etat et des collectivités locales, des entreprises nationales, et des institutions sociales et socioeconomiques, ainsi que de tout autres personnes morales assujetties à la TVA en vuede fournir au ministedans les meilleures conditions le maximum des in

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 308
Answer: answer: La durée de la vérification ne doit pas dépasser 6 mois à partir de la date du commencement effectif de la vérification lorsque la vérification s'effectue sur la base d'une comptabilité et une année dans les autres cas.
-----------------------
Choix: 164
Answer: answer: La durée de la vérification ne doit pas dépasser 6 mois à partir de la date du commencement effectif de la vérification lorsque la vérification s'effectue sur la base d'une comptabilité et une année dans les autres cas.
-----------------------
Choix: 157
Answer: answer: La vérification approfondie de la situation fiscale porte sur tout ou partie de la situation fiscale du contribuable. Elle est subordonnée à la notification d'un avis préalable au contribuable dans un délai minimum de 15 jours avant son commencement.
-----------------------


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quelle est la durée de la vérification fiscale approfondie?answer: La durée de la vérification ne doit pas dépasser 6 mois à partir de la date du commencement effectif de la vérification lorsque la vérification s'effectue sur la base d'une comptabilité et une année dans les autres cas. answer: La durée de la vérification ne doit pas dépasser 6 mois à partir de la date du commencement effectif de la vérification lorsque la vérification est effectuée sur la base des déclarations souscrites par le contribuable et une période égale à la périodedu exercice de la personne morale soumise àl'IS ou d'un groupe,
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 427
Answer: answer: Saisie de plus de 400 tonnes de cuivre à Monastir
Les services de la Garde douanière de Monastir ont saisi, en coordination avec la brigade des enquêtes de la garde nationale, une importante quantité de cuivre d’origine inconnue, sous forme de lingots et de déchets, et ce lors d’une descente dans un entrepôt dans la région de Monastir.

Ce sont 90 tonnes de déchets de cuivre qui ont été saisies dans un premier temps, pour défaut de justification d’origine, avant de procéder à une saisie conservatoire de la marchandise restante, estimée à plus de 310 tonnes et ce en attendant de statuer sur sa situation légale.
-----------------------
Choix: 102
Answer: answer: Saisie de plus de 400 tonnes de cuivre à Monastir
Les services de la Garde douanière de Monastir ont saisi, en coordination avec la brigade des enquêtes de la garde nationale, une importante quantité de cuivre d’origine inconnue, sous forme de lingots et de déchets, et ce lors d’une descente dans un ent

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,qu'est ce qu'a été saisie à monastir?answer: Saisie de plus de 400 tonnes de cuivre à Monastir
Les services de la Garde douanière de Monastir ont saisi, en coordination avec la brigade des enquêtes de la garde nationale, une importante quantité de cuivre d’origine inconnue, sous forme de lingots et de déchets, et ce lors d’une descente dans un entrepôt d’un marchand local.
[Paraphrase]:en Tunisie,Diverses infractions liées au domaine de la criminalité économique et fiscale ont été constatées lors de divers opérations menées par les services de la Garde nationale de Monastir
Le 28 mars 2016 les services de la Garde nationale deMonastir ont procédé à la fouille du véhicule appartenant à un commerçantaïbi et chargé d’articles à usage multiple. Les agents ont découvert au niveau de son capot,un nombre impressionnant de batteries en état d’utilisation et dissimulées à son insu. Lors de la perquisition du domiciledu suspect il a été trouvé :

<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 60
Answer: answer: REFERENCES JURIDIQUES:
Décret n° 2000-2475 en date du 31 octobre 2000 relatif à la formalité unique pour la création des projets individuels tel que modifié par le décret n° 2008-733 du 24 mars 2008.

CONDITIONS D'OBTENTION:
Le projet doit être réalisé par une personne physique qui se charge de la gestion de façon individuelle ;
Le projet ne doit pas revêtir la forme d'une société ;
L'exercice de la profession ne doit pas nécessiter une aptitude scientifique spécifique et être soumis au contrôle du conseil ou de l'ordre professionnel concerné et ce, conformément aux règlements y afférents.
LIEU DE DEPOT ET D'OBTENTION:
A la recette des finances dont le lieu d'installation du projet relève de sa compétence.

PIECES A FOURNIR:
Un imprimé à remplir en un seul exemplaire signé par le promoteur du projet à retirer soit directement auprès des services de la recette des finances soit en ligne.
Faire accompagner la déclaration selon le cas, des pièces ci-après :
Une c

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.




[Sentence]:en Tunisie,Quelle est la date limite de dépôt de la liste des factures d’achat relative aux bons de commande utilisés durant le 2ième trimestre pour une société totalement exportatrice?answer: REFERENCES JURIDIQUES:
Décret n° 2000-2475 en date du 31 octobre 2000 relatif à la formalité unique pour la création des projets individuels tel que modifié par le décret n°2004-1706 du 21 decembreet la loi de finances 2001
<|endoftext|>


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 28
Answer: answer: Les opérations imposables
Le champ d’application de la TVA couvre :

Les importations sous réserve des exonérations,
La production industrielle, artisanale et les services,
Les opérations relevant des professions libérales,
Le commerce de gros autre que celui des produits alimentaires,
Le commerce de détail lorsque le chiffre d’affaires annuel global est égal ou supérieur à 100.000D à l’exclusion des produits suivants :
produits alimentaires,
Les produits soumis au régime de l’homologation administrative des prix (carburants, alcool, tabac, allumettes, cahiers scolaires, …),
Les Opérations Imposables à la TVA par option
Les entreprises qui réalisent des  opérations hors champ  d’application de la TVA ou exonérées de ladite taxe et ce au titre :

De la totalité de l’activité pour les opérations hors champ de ladite taxe ;
D’une partie de l’activité pour les produits exonérés destinés à l’exportation ou à l’approvisionnement des assujettis.
Les opérations hors c

In [53]:
gpt.eval()
with torch.no_grad():
  prompt = tokenizer("question : en tunisie quels sont les impôts ? , Exemple of answer : "+TopN(tfidf_matrix,"en tunisie quels sont les impôts ?") , truncation=True, padding=True, max_length=128, return_tensors='pt')
  prompt = {key: value.to(device) for key, value in prompt.items()}
  out = gpt.generate(**prompt, max_length=512, top_k=50, top_p=0.9, temperature=1.0, do_sample=True, repetition_penalty = 1.2, num_beams=1)
  user_input=tokenizer.decode(out[0])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Choix: 159
Answer: answer: L'administration peut procéder à la vérification des impôts dans la limite des délais de prescription qui suivent : 4 ans pour les impôts déclarés, 10 ans en cas de défaut de déclaration de l'impôt, 10 ans pour les droits de timbre dans tous les cas.
-----------------------
Choix: 290
Answer: answer: L'administration peut procéder à la vérification des impôts dans la limite des délais de prescription qui suivent : 4 ans pour les impôts déclarés, 10 ans en cas de défaut de déclaration de l'impôt, 10 ans pour les droits de timbre dans tous les cas.
-----------------------
Choix: 409
Answer: answer: Personnes imposables
L’IRPP est dû par toute personne physique ayant sa résidence habituelle en Tunisie. Les non-résidents sont également soumis à l’impôt sur le revenu au titre de leurs revenus de source tunisienne.

Catégories de Revenus Imposables
Les catégories de revenus imposables sont :

les bénéfices industriels et commerciaux; 
les bénéfices des professions 