# Data Cleaning & Split Date

In [1]:
import pandas as pd
from bs4 import BeautifulSoup as bs
from datetime import datetime,timedelta
import os

In [2]:
all_agent = [
    'ThaiPublica',
    'PracharChat',
    'Sanook',
    'KhaoSod',
    'Manager',
    'NaewNa',
    'Matichon',
    'VoaThai',
    'BangkokToday',
    'Mcot',
    'Mono29',
    'Infoquest',
    'PrachaTai',
    'Thaiware',
    'Investing',
    'Goethe',
    'ThaiPBS',
    'SiamBlockchain',
    'PostToday',
    'ThaiRath'
]

In [3]:
def html_parser(news):
  return bs(str(news),'html.parser').get_text()

In [4]:
def local_time(time):
    to_local = timedelta(hours=7)
    date = []
    if time[-1] == 'T':
        date = datetime.strptime(time,'%a, %d %b %Y %H:%M:%S %Z') + to_local
    elif time[-3] == ':' and time[-6] == ' ':
        date = datetime.strptime(time,'%B %d, %Y %H:%M') + to_local
    elif time[-3] == ':':
        date = datetime.strptime(time,'%Y-%m-%d %H:%M:%S') + to_local
    else:
        date = datetime.strptime(time,'%a, %d %b %Y %H:%M:%S %z') + to_local
    return date.strftime('%d_%m_%Y')

In [5]:
def clean_csv(df_news):
  temp = df_news
  temp['summary'] = temp['summary'].apply(html_parser)
  temp['published'] = temp['published'].apply(local_time)
  result = temp.drop_duplicates(subset=['summary'])
  result = result.reset_index(drop=True)
  return result

In [6]:
def createFolder(directory):
    try:
        if not os.path.exists(directory):
            os.makedirs(directory)
    except OSError:
        print ('Error: Creating directory. ' +  directory)

In [7]:
def split_time(df_news,agent):
  temp = df_news
  time = df_news['published'].unique()
  for i in time:
    data = df_news[df_news['published'] == i]
    data.reset_index(drop=True,inplace=True)
    createFolder('../assets/CleanedData/'+agent)
    data.to_csv('../assets/CleanedData/'+agent+'/'+i+'.csv',index=False)

In [8]:
def to_csv(agent):
  for i in agent:
    print('Process : '+i)
    df_news = pd.read_csv('../assets/Data/'+i+'.csv')
    temp = clean_csv(df_news)
    split_time(temp,i)
    print('==========')

In [9]:
to_csv(all_agent)

Process : ThaiPublica
Process : PracharChat
Process : Sanook
Process : KhaoSod
Process : Manager
Process : NaewNa
Process : Matichon
Process : VoaThai
Process : BangkokToday
Process : Mcot
Process : Mono29
Process : Infoquest
Process : PrachaTai
Process : Thaiware
Process : Investing
Process : Goethe
Process : ThaiPBS
Process : SiamBlockchain
Process : PostToday
Process : ThaiRath


In [10]:
pd.read_csv('../assets/CleanedData/ThaiRath/30_09_2021.csv')

Unnamed: 0,title,summary,link,published
0,โคตรโหด ส่องสถิติ &quot;เมสซี&quot; ยิง 6 ทีมด...,เรียกได้ว่าโคตรโหดกันเลยทีเดียวสำหรับสถิติของ ...,https://www.thairath.co.th/sport/eurofootball/...,30_09_2021
1,มีใครบ้าง ส่องทำเนียบ 10 พังประตูในศึก &quot;ย...,มีใครบ้างไปดูกัน ส่องทำเนียบ 10 นักเตะที่ทำประ...,https://www.thairath.co.th/sport/eurofootball/...,30_09_2021
2,แย่กว่านี้ไม่มีแล้ว แฟนผีสับ &quot;ดาโลต์&quot...,แฟนบอลของ แมนเชสเตอร์ ยูไนเต็ด ส่วนหนึ่ง จวกแห...,https://www.thairath.co.th/sport/eurofootball/...,30_09_2021
3,การค้นพบสิ่งประดิษฐ์หายากมาก พบในแม่น้ำเมอร์เรย์,ในช่วงกว่า 25 ปีของการค้นคว้าและบันทึกข้อมูลแห...,https://www.thairath.co.th/lifestyle/life/2206689,30_09_2021
4,“เบสท์” เซอร์ไพรส์ “ตงตง” ขึ้นจอยักษ์กลางกรุงเ...,จัดชุดใหญ่ไฟกะพริบ!! คู่จิ้นคู่เลิฟหวานไม่มีแผ...,https://www.thairath.co.th/entertain/news/2206644,30_09_2021
5,หุ้นสหรัฐฯ ปิดผสม ดาวโจนส์เริ่มฟื้น น้ำมัน-ทอง...,ดัชนีหุ้นสหรัฐฯ ส่วนใหญ่เพิ่มขึ้น เริ่มฟื้นตัว...,https://www.thairath.co.th/news/foreign/2207106,30_09_2021
6,เอ็นดู &quot;เจ้าแมวเหมียว&quot; ชอบฟังธรรมะเป...,"โซเชียลเอ็นดู ""เจ้าขำขำ"" แมวพันธุ์ไทยเพศเมียสี...",https://www.thairath.co.th/news/society/2207092,30_09_2021
7,โควิดวันนี้ 30/9/64 ล่าสุดยอดผู้ติดเชื้อรายใหม...,"อัปเดตสถานการณ์ ""โควิด-19"" วันนี้ผู้ติดเชื้อรา...",https://www.thairath.co.th/news/local/2207097,30_09_2021
8,“ธัญญ่า อาร์สยาม” ใจป้ำทุ่มซื้อเพลง “โสภา” เป็...,เป็นคู่รักต่างวัยระหว่างที่มีความมุ้งมิ้งให้เห...,https://www.thairath.co.th/entertain/news/2206639,30_09_2021
9,เจาะสถิติหลังเกม &quot;แมนยูฯ&quot; พลิกชนะ &q...,"เจาะสถิติที่น่าสนใจหลังเกมที่ทาง ""แมนเชสเตอร์ ...",https://www.thairath.co.th/sport/eurofootball/...,30_09_2021
