In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import string
import re
from tqdm import tqdm
import random
from vietnam_number import n2w

In [2]:
def cleaner(text: str):
    text = text.strip()
    text = text.lower()
    text = re.sub(r'(\d{1,})h(\d{1,})', r'\1 giờ \2 phút', text)
    text = re.sub(r'(\d{1,})/(\d{,2})', r'\1 tháng \2', text)
    text = re.sub(r'(\d{1,})/(\d{3,})', r'\1 năm \2', text)
    text = re.sub(r'[^\w\s._,]', ' ', text)
    text = re.sub(r'(\d)\.(\d)', r'\1\2', text)
    text = re.sub(r'\.{1,}', '.', text)
    text = re.sub(r'\,{1,}', ',', text)
    text = re.sub(r'(\d{1,})([^\W\d]{1,})', r'\1 \2', text)
    text = re.sub(r'([^\W\d]{1,})(\d{1,})', r'\1 \2', text)
    text = re.sub(r'(\s)(\_)(\w*)', r'\1\3', text)
    text = text.replace('.', ' . ')
    text = text.replace(',', ' , ')
    words = text.split()
    text = ' '.join(words)
    return text

In [3]:
def clean_and_extract(data_path, extract_path):
    print(f'Read file {data_path}')
    data = pd.read_csv(data_path).drop(["Unnamed: 0", "file"], axis=1)
    data_name = data_path.split('/')[-1].split('.')[0]
    print(f'Clean {data_name}')
    tqdm.pandas()
    for column in data.columns:
        print(f'Clean column {column}: ', end='')
        data[column] = data[column].progress_apply(cleaner)
    data.to_csv(extract_path, index=False)
    print(f'Save data to {extract_path}')

In [27]:
data = pd.read_csv('/home/phongtt/ATS/vietnews_clean_train.csv')
data.head()

Unnamed: 0,original,summary
0,bộ_trưởng sitharaman phát_biểu tại buổi gặp_gỡ...,bộ_trưởng quốc_phòng ấn_độ bày_tỏ mong_muốn vi...
1,tổng_thống pháp emmanuel_macron phấn_khích ăn_...,"sau màn ăn_mừng phấn_khích trên khán_đài , emm..."
2,lực_lượng tuần_duyên nhật_bản đang nỗ_lực tìm_...,một hòn đảo của nhật nằm sát khu_vực tranh_chấ...
3,"cảnh_sát thành_phố barcelona , tây_ban_nha đã ...",tình_báo mỹ báo với cảnh_sát tây_ban_nha về ng...
4,"trước_đây , khán_giả thấy rằng nghệ_sĩ xuân_hư...",nghệ_sĩ xuân_hương và mc thanh_bạch đã từng đư...


In [4]:
clean_and_extract('/home/phongtt/ATS/vietnews_train.csv', './dataset/vietnews_clean_train.csv')
clean_and_extract('/home/phongtt/ATS/vietnews_val.csv', './dataset/vietnews_clean_val.csv')
clean_and_extract('/home/phongtt/ATS/vietnews_test.csv', './dataset/vietnews_clean_test.csv')

Read file /home/phongtt/ATS/vietnews_train.csv
Clean vietnews_train
Clean column original: 

100%|██████████| 105418/105418 [01:13<00:00, 1431.80it/s]


Clean column summary: 

100%|██████████| 105418/105418 [00:06<00:00, 16444.19it/s]


Save data to ./dataset/vietnews_clean_train.csv
Read file /home/phongtt/ATS/vietnews_val.csv
Clean vietnews_val
Clean column original: 

100%|██████████| 22642/22642 [00:16<00:00, 1407.05it/s]


Clean column summary: 

100%|██████████| 22642/22642 [00:01<00:00, 16069.88it/s]


Save data to ./dataset/vietnews_clean_val.csv
Read file /home/phongtt/ATS/vietnews_test.csv
Clean vietnews_test
Clean column original: 

100%|██████████| 22644/22644 [00:15<00:00, 1433.86it/s]


Clean column summary: 

100%|██████████| 22644/22644 [00:01<00:00, 16710.82it/s]


Save data to ./dataset/vietnews_clean_test.csv
