# 資料集載入(CSV)與上傳(Huggice Face Hub)

## 套件引入

In [1]:
from datasets import load_dataset
from tw_textforge.config.settings import setting
from tw_textforge.dataset.format import gen_text_pre_format
from tw_textforge.data.GSAT.csv import GSAT_114 # Chinese_General, Social_Studies, Science, MathA, MathB

## 檔案載入

In [2]:
url = next(item["url"] for item in GSAT_114 if item["name"] == "Chinese_General")
dataset = load_dataset(
    "csv",
    data_files=url,
    download_mode="force_redownload", # 每次都會重新下載 csv 檔案
)

Downloading data: 0.00B [00:00, ?B/s]

Generating train split:   0%|          | 0/36 [00:00<?, ? examples/s]

## 資料集資訊顯示

### 整體概要資訊

In [3]:
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'question_type', 'article', 'question', 'A', 'B', 'C', 'D', 'E', 'answer', 'answer_rate', 'grading_criteria'],
        num_rows: 36
    })
})

### 訓練資料集特徵與資料型態

In [4]:
dataset["train"].features

{'id': Value('int64'),
 'question_type': Value('string'),
 'article': Value('string'),
 'question': Value('string'),
 'A': Value('string'),
 'B': Value('string'),
 'C': Value('string'),
 'D': Value('string'),
 'E': Value('string'),
 'answer': Value('string'),
 'answer_rate': Value('float64'),
 'grading_criteria': Value('string')}

### 首個訓練資料資訊

In [5]:
dataset["train"][0]

{'id': 1,
 'question_type': 'single',
 'article': None,
 'question': '下列「」內的字，讀音前後相同的是：',
 'A': '「舁」出寶貨／吾生須「臾」',
 'B': '切而「啗」之／「諂」詞令色',
 'C': '「迤」邐而行／外「弛」內張',
 'D': '若分「畛」域／暴「殄」天物',
 'E': None,
 'answer': 'A',
 'answer_rate': 42.0,
 'grading_criteria': None}

## 資料格式化

In [6]:
dataset = dataset["train"]
dataset = dataset.map(gen_text_pre_format, load_from_cache_file=False)

Map:   0%|          | 0/36 [00:00<?, ? examples/s]

### 顯示格式化後的特徵與資料型態

In [7]:
dataset.features

{'id': Value('int64'),
 'question_type': Value('string'),
 'article': Value('string'),
 'question': Value('string'),
 'A': Value('string'),
 'B': Value('string'),
 'C': Value('string'),
 'D': Value('string'),
 'E': Value('string'),
 'answer': Value('string'),
 'answer_rate': Value('float64'),
 'grading_criteria': Value('string'),
 'text_pre_format': Value('string')}

### 顯示格式化後的 `text_pre_format` 欄位資訊

In [8]:
print(dataset[0]["text_pre_format"])

題目敘述:
下列「」內的字，讀音前後相同的是：
題目選項:
(A)「舁」出寶貨／吾生須「臾」
(B)切而「啗」之／「諂」詞令色
(C)「迤」邐而行／外「弛」內張
(D)若分「畛」域／暴「殄」天物
答案:
A


## 資料上傳

In [9]:
dataset.push_to_hub("TW-Textforge/TW-GSAT-114-Chinese-General", token=setting.hf_token, private=True)

HfHubHTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/api/repos/create (Request ID: Root=1-687b49d7-3ce6fb2230553a8b72522b8f;492f39a6-d99e-4b45-aa4f-779db1497c11)

Invalid credentials in Authorization header