In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import numpy as np

In [3]:
# 웹 페이지 정보를 추출하는 함수 수정
def extract_news_info(df, media_outlet, tag_info):
    kmib_df = df[df['언론사'] == media_outlet]
    news_urls = []  # URL을 저장할 리스트
    news_times = []  # 해당 시간을 저장할 리스트

    for i, row in kmib_df.iterrows():
        url = row['URL']
        print(i + 1, ": ", url)
        try:
            headers = {"User-Agent": "Mozilla/5.0"}
            response = requests.get(url, headers=headers)
            response.raise_for_status()  # 오류가 발생하면 예외를 발생시킴
            news = BeautifulSoup(response.content, 'html.parser', from_encoding='EUC-KR')
            news_text = news.find(tag_info['tag_name'], attrs=tag_info['tag_attrs'])
            if news_text is not None:
                news_urls.append(url)  # URL 추가
                news_times.append(news_text.text)  # 해당 시간 추가
            else:
                print("뉴스 텍스트를 가져올 수 없습니다.")
        except requests.exceptions.RequestException as e:
            print("웹 페이지를 가져오는 중 오류가 발생했습니다:", str(e))
            continue  # 다음 반복으로 넘어감

        time.sleep(3)

    news_data = pd.DataFrame({'URL': news_urls, '시간': news_times})  # 'URL'과 '시간' 열로 데이터프레임 생성
    return news_data


tag_info_dict = {
    "KBS": {"tag_name": "em", "tag_attrs": {"class": "date"}},
    "MBC": {"tag_name": "span", "tag_attrs": {"class": "input"}},
    "OBS": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "SBS": {"tag_name": "div", "tag_attrs": {"class": "date_area"}},
    "YTN": {"tag_name": "span", "tag_attrs": {"class": "time"}},
    "강원도민일보": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "강원일보": {"tag_name": "span", "tag_attrs": {"class": "date"}},
    "경기일보": {"tag_name": "div", "tag_attrs": {"class": "article_date"}},
    "경남도민일보": {"tag_name": "ul", "tag_attrs": {"class": "no-bullet auto-marbtm-0 line-height-6"}},
    "경상일보": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "경인일보": {"tag_name": "span", "tag_attrs": {"class": "news-date"}},
    "경향신문": {"tag_name": "div", "tag_attrs": {"class": "byline"}},
    "광주일보": {"tag_name": "div", "tag_attrs": {"class": "read_time"}},
    "광주매일신문": {"tag_name": "ul", "tag_attrs": {"class": "byline"}},
    "국민일보": {"tag_name": "span", "tag_attrs": {"class": "t11"}},
    "국제신문": {"tag_name": "span", "tag_attrs": {"class": "f_news_date"}},
    "내일신문": {"tag_name": "div", "tag_attrs": {"class": "date"}},
    "대전일보": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "대구일보": {"tag_name": "span", "tag_attrs": {"class": "date"}},
    "동아일보": {"tag_name": "span", "tag_attrs": {"class": "date01"}},
    "디지털타임스": {"tag_name": "span", "tag_attrs": {"class": "url_txt"}},
    "매일경제": {"tag_name": "li", "tag_attrs": {"class": "lasttime"}},
    "매일신문": {"tag_name": "div", "tag_attrs": {"class": "date"}},
    "머니투데이": {"tag_name": "ul", "tag_attrs": {"class": "info2"}},
    "무등일보": {"tag_name": "span", "tag_attrs": {"class": "txt_info"}},
    "문화일보": {"tag_name": "dl", "tag_attrs": {"class": "date"}},
    "부산일보": {"tag_name": "div", "tag_attrs": {"class": "byline"}},
    "서울경제": {"tag_name": "span", "tag_attrs": {"class": "url_txt"}},
    "세계일보": {"tag_name": "p", "tag_attrs": {"class": "viewInfo"}},
    "아시아경제": {"tag_name": "div", "tag_attrs": {"class": "date_box"}},
    "아주경제": {"tag_name": "dd", "tag_attrs": {"class": "date"}},
    "영남일보": {"tag_name": "li", "tag_attrs": {"class": "article-bottom-input"}},
    "울산매일": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "전남일보": {"tag_name": "ul", "tag_attrs": {"class": "byline"}},
    "전북도민일보": {"tag_name": "i", "tag_attrs": {"class": "fa fa-clock-o fa-fw"}},
    "전북일보": {"tag_name": "i", "tag_attrs": {"class": "far fa-clock pr5"}},
    "전자신문": {"tag_name": "time", "tag_attrs": {"class": "date"}},
    "조선일보": {"tag_name": "span", "tag_attrs": {"class": "upDate | flex flex--align-items-end "}},
    "중도일보": {"tag_name": "ul", "tag_attrs": {"class": "view-term"}},
    "중부매일": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "중부일보": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "중앙일보": {"tag_name": "time", "tag_attrs": {"itemprop": "datePublished"}},
    "충청일보": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "충청투데이": {"tag_name": "ul", "tag_attrs": {"class": "infomation"}},
    "파이낸셜뉴스": {"tag_name": "div", "tag_attrs": {"class": "byline"}},
    "한겨레": {"tag_name": "p", "tag_attrs": {"class": "date-time"}},
    "한국경제": {"tag_name": "span", "tag_attrs": {"class": "txt-date"}},
    "한국일보": {"tag_name": "dl", "tag_attrs": {"class": "wrt-text"}},
    "한라일보": {"tag_name": "ul", "tag_attrs": {"class": "byline"}},
    "헤럴드경제": {"tag_name": "li", "tag_attrs": {"class": "article_date"}},
}
import math

raw_df = pd.read_excel('./대한항공-뉴스데이터_2023.04_05_-시간채우기전(희동).xlsx')
batch_size = 100
total_batches = math.ceil(len(raw_df) / batch_size)
news_data_list = []

for batch_num in range(total_batches):
    start_index = batch_num * batch_size
    end_index = start_index + batch_size
    batch_df = raw_df.iloc[start_index:end_index]
    
    for media_outlet, tag_info in tag_info_dict.items():
        news_data = extract_news_info(batch_df, media_outlet, tag_info)
        news_data_list.append(news_data)

combined_news_data = pd.concat(news_data_list, ignore_index=True)

11 :  https://news.kbs.co.kr/news/view.do?ncd=7640897&amp;ref=DA
13 :  https://news.kbs.co.kr/news/view.do?ncd=7641883&amp;ref=DA
35 :  https://news.kbs.co.kr/news/view.do?ncd=7642054&amp;ref=DA
86 :  https://news.kbs.co.kr/news/view.do?ncd=7642222&amp;ref=DA
61 :  http://www.obsnews.co.kr/news/articleView.html?idxno=1392651
88 :  https://news.sbs.co.kr/news/endPage.do?news_id=N1007140303&plink=ORI&cooper=ETC
2 :  https://www.ytn.co.kr/_ln/0107_202304012111237240
10 :  https://www.ytn.co.kr/_ln/0103_202304020351255839
12 :  https://www.ytn.co.kr/_ln/0103_202304020211082502
34 :  https://www.ytn.co.kr/_ln/0107_202304032213268100
58 :  https://www.ytn.co.kr/_ln/0103_202304031325221462
64 :  https://www.ytn.co.kr/_ln/0102_202304030953291548
72 :  https://www.ytn.co.kr/_ln/0107_202304042001376858
84 :  https://www.ytn.co.kr/_ln/0107_202304040456195495
92 :  https://www.ytn.co.kr/_ln/0115_202304051037411309
98 :  https://www.ytn.co.kr/_ln/0115_202304051144366160
99 :  https://www.ytn.co.kr/

Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.


922 :  http://www.munhwa.com/news/view.html?no=2023051901071407084001
972 :  http://www.munhwa.com/news/view.html?no=2023051901039910226006
977 :  https://www.busan.com/view/busan/view.php?code=2023051910344819096
911 :  http://www.sedaily.com/NewsView/29PN2CIUS8
946 :  http://www.sedaily.com/NewsView/29PN2F3LKL
958 :  http://www.sedaily.com/NewsView/29PN1KA41R
1000 :  http://www.sedaily.com/NewsView/29PNFUVD5Z
910 :  http://www.segye.com/content/html/2023/05/19/20230519511994.html
917 :  http://www.segye.com/content/html/2023/05/19/20230519511828.html
925 :  http://www.segye.com/content/html/2023/05/19/20230519509489.html
930 :  http://www.segye.com/content/html/2023/05/19/20230519520442.html
937 :  http://www.segye.com/content/html/2023/05/19/20230519520207.html
938 :  http://www.segye.com/content/html/2023/05/19/20230519520205.html
950 :  http://www.segye.com/content/html/2023/05/19/20230519507543.html
964 :  http://www.segye.com/content/html/2023/05/18/20230518520848.html
971 :  ht

Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.


1144 :  http://www.mk.co.kr/article/10745875
1181 :  http://www.mk.co.kr/article/10747115
뉴스 텍스트를 가져올 수 없습니다.
1188 :  http://www.mk.co.kr/article/10746883
뉴스 텍스트를 가져올 수 없습니다.
1191 :  http://www.mk.co.kr/article/10746959
뉴스 텍스트를 가져올 수 없습니다.
1195 :  http://www.mk.co.kr/article/10746956
뉴스 텍스트를 가져올 수 없습니다.
1129 :  https://news.imaeil.com/page/view/2023052509130271656
1154 :  https://news.imaeil.com/page/view/2023052610155021189
1163 :  https://news.imaeil.com/page/view/2023052818081864378
1108 :  http://news.moneytoday.co.kr/view/mtview.php?no=2023052515241493435&type=2
1145 :  http://news.moneytoday.co.kr/view/mtview.php?no=2023052612097054843&type=2
1149 :  http://news.moneytoday.co.kr/view/mtview.php?no=2023052600123193695&type=2
1159 :  http://news.moneytoday.co.kr/view/mtview.php?no=2023052611341149958&type=2
1184 :  http://news.moneytoday.co.kr/view/mtview.php?no=2023052615304278653&type=2
1101 :  http://www.munhwa.com/news/view.html?no=2023052401071405015001
1134 :  http://www.munh

In [4]:
combined_news_data

Unnamed: 0,URL,시간
0,https://news.kbs.co.kr/news/view.do?ncd=764089...,입력 2023.04.02 (12:02)
1,https://news.kbs.co.kr/news/view.do?ncd=764188...,입력 2023.04.03 (20:01)
2,https://news.kbs.co.kr/news/view.do?ncd=764205...,입력 2023.04.03 (22:02)
3,https://news.kbs.co.kr/news/view.do?ncd=764222...,입력 2023.04.04 (06:57)
4,http://www.obsnews.co.kr/news/articleView.html...,\n\n기자명 \n\t\t\t\t\t유성훈\t\t\t\t\n 입력 2023.04.0...
...,...,...
1098,https://www.ajunews.com/view/20230531090327092,입력 2023-05-31 09:07
1099,https://www.ajunews.com/view/20230530145055573,입력 2023-05-31 05:55
1100,http://www.fnnews.com/news/202305310921195203,\n파이낸셜뉴스입력 2023.05.31 09:31수정 2023.05.31 09:31\n
1101,http://biz.heraldcorp.com/view.php?ud=20230531...,2023.05.31 11:20\t\t\t\t\t\t\n\n\n\n\n\n


In [5]:
combined_news_data['시간'] = combined_news_data['시간'].str.replace('\n','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('\t','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('(','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace(')','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('\r','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('입력','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('기자명','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('지면','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('승인','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('댓글 0','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('수정','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('VIEW','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('등록','')
combined_news_data['시간'] = combined_news_data['시간'].str.replace('파이낸셜뉴스','')

In [8]:
combined_news_data.to_csv('./김희동화이팅.csv', encoding='utf-8-sig')

In [3]:
import pandas as pd

In [21]:
heedong = pd.read_excel('../../../../바탕 화면/에러본문채움.xlsx', index_col=0)

In [22]:
doo = pd.read_excel("./대한항공 공백시간채우기(희동이꺼11~3월).xlsx", index_col=0)

In [23]:
heedong

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
105,20221114,한국경제,아시아나 6분기째 영업 흑자 완전자본잠식 간신히 면했다,https://www.hankyung.com/economy/article/20221...,아시아나항공이 올 3분기 ‘완전자본잠식’(자본총계가 마이너스인 상태) 진입을 면했다...,2022-11-14 17:48:00
278,20221120,중부일보,"현대건설, IBK기업은행 꺾고 파죽의 8연승 및 홈 20연승...OK금융그룹 3연승",www.joongboo.com/news/articleView.html?idxno=3...,"""프로배구 수원 현대건설이 8연승과 함께 여자부 홈 최다연승 기록을 20연승으로 늘...",2022-11-20 18:42:00
282,20221120,한국경제,"세금 납부 많은 11월, 카드로 내고 혜택도 챙기자",https://www.hankyung.com/economy/article/20221...,11월은 지난 1~6월분 종합소득세를 중간 예납하는 달이다. 소득세 외에 5월까지 ...,2022-11-20 17:21:00
290,20221121,중부일보,"대한항공, 미국 공군 F-16 수명 연장 사업 초도 항공기 출고",www.joongboo.com/news/articleView.html?idxno=3...,대한항공이 최근 미 공군 F-16 수명 연장 사업의 초도 항공기를 성공적으로 출고했...,2022-11-21 17:23:00
301,20221121,강원도민일보,구석에 뿌리내린 들꽃이 전하는 위로,www.kado.net/news/articleView.html?idxno=1155484,눈에 띄지도 매력적이지도 않다. 다만 강인한 생명력 그 자체로 뿌리내린다. 김명숙 ...,2022-11-21 00:00:00
...,...,...,...,...,...,...
2006,20230225,한국경제,"코로나 당시 18만원 하던 제주 렌터카, 3만원대로 왜? [1분뉴스]",https://www.hankyung.com/life/article/20230224...,"제주도 렌터카 플랫폼 네이처모빌리티의 가격동향 그래프에 따르면, 코로나 발생 이전 ...",2023-02-25 09:00:00
2010,20230226,중부일보,"대한항공, '한국식 비건메뉴' 신규 개발",www.joongboo.com/news/articleView.html?idxno=3...,대한항공은 새로운 채식 메뉴를 개발해 기내에서 즐길 수 있는 ‘한국식 비건 메뉴’를...,2023-02-26 19:24:00
2036,20230227,경남신문,재료연-대한항공‘스텔스 무인기 개발’맞손,,Error occurred while crawling the article.,NaT
2039,20230228,중부일보,"공항철도, 28일부터 서울역 도심공항터미널 '에어서울' 탑승수속 개시",www.joongboo.com/news/articleView.html?idxno=3...,공항철도(주)는 서울역 도심공항터미널에서 28일부터 ‘에어서울’ 탑승수속 서비스가 ...,2023-02-28 16:41:00


In [24]:
doo

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022.11.08 13:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022.11.08 14:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08 03:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022.11.08 00:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08 00:00
...,...,...,...,...,...,...
2047,20230228,아시아경제,"인터파크, 항공권 최저가 보상제 6월까지 재연장",https://view.asiae.co.kr/article/2023022808440...,이달 말에서 4개월 더 운영키로\n\n인터파크는 '항공권 최저가 보상제' 시행 기간...,2023.02.28 08:44
2048,20230228,헤럴드경제,캐나다에 진심인 대한항공-한진관광 동부 봄여행 미리보기,http://biz.heraldcorp.com/view.php?ud=20230222...,[헤럴드경제=함영훈 기자] 대한항공을 타고 가는 한진관광은 캐나다 여행의 다양한 루...,2023.02.24 09:46
2049,20230228,헤럴드경제,캐나다에 진심인 대한항공-한진관광 동부 봄여행 미리보기,http://biz.heraldcorp.com/view.php?ud=20230222...,[헤럴드경제=함영훈 기자] 대한항공을 타고 가는 한진관광은 캐나다 여행의 다양한 루...,2023.02.24 09:46
2050,20230228,경인일보,프로배구 마지막 라운드까지 1위 초박빙 경쟁,http://www.kyeongin.com/main/view.php?key=2023...,2022~2023 V리그가 마지막 6라운드로 접어들었다. 정규리그 우승과 함께 포스...,2023-02-27 21:18 아이콘ⓘ2023-02-28 16면


In [25]:
total_df = pd.concat([doo, heedong], axis=0)

In [26]:
total_df

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022.11.08 13:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022.11.08 14:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08 03:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022.11.08 00:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08 00:00
...,...,...,...,...,...,...
2006,20230225,한국경제,"코로나 당시 18만원 하던 제주 렌터카, 3만원대로 왜? [1분뉴스]",https://www.hankyung.com/life/article/20230224...,"제주도 렌터카 플랫폼 네이처모빌리티의 가격동향 그래프에 따르면, 코로나 발생 이전 ...",2023-02-25 09:00:00
2010,20230226,중부일보,"대한항공, '한국식 비건메뉴' 신규 개발",www.joongboo.com/news/articleView.html?idxno=3...,대한항공은 새로운 채식 메뉴를 개발해 기내에서 즐길 수 있는 ‘한국식 비건 메뉴’를...,2023-02-26 19:24:00
2036,20230227,경남신문,재료연-대한항공‘스텔스 무인기 개발’맞손,,Error occurred while crawling the article.,NaT
2039,20230228,중부일보,"공항철도, 28일부터 서울역 도심공항터미널 '에어서울' 탑승수속 개시",www.joongboo.com/news/articleView.html?idxno=3...,공항철도(주)는 서울역 도심공항터미널에서 28일부터 ‘에어서울’ 탑승수속 서비스가 ...,2023-02-28 16:41:00


In [27]:
total_df2 = total_df.drop_duplicates(['URL'], keep = 'last')

In [30]:
total_df2.sort_index()

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022.11.08 13:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022.11.08 14:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08 03:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022.11.08 00:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08 00:00
...,...,...,...,...,...,...
2046,20230228,서울경제,"""최저가 아니면 돌려 드려요"" 인터파크, 보상제 상반기로 연장",http://www.sedaily.com/NewsView/29LXCNAKX6,viewer 인천국제공항 활주로에서 이륙하는 대한항공 항공기 모습./사진제공=연합뉴...,2023-02-28 09:56:04
2047,20230228,아시아경제,"인터파크, 항공권 최저가 보상제 6월까지 재연장",https://view.asiae.co.kr/article/2023022808440...,이달 말에서 4개월 더 운영키로\n\n인터파크는 '항공권 최저가 보상제' 시행 기간...,2023.02.28 08:44
2049,20230228,헤럴드경제,캐나다에 진심인 대한항공-한진관광 동부 봄여행 미리보기,http://biz.heraldcorp.com/view.php?ud=20230222...,[헤럴드경제=함영훈 기자] 대한항공을 타고 가는 한진관광은 캐나다 여행의 다양한 루...,2023.02.24 09:46
2050,20230228,경인일보,프로배구 마지막 라운드까지 1위 초박빙 경쟁,http://www.kyeongin.com/main/view.php?key=2023...,2022~2023 V리그가 마지막 6라운드로 접어들었다. 정규리그 우승과 함께 포스...,2023-02-27 21:18 아이콘ⓘ2023-02-28 16면


In [31]:
total_df2.to_excel("./대한항공(11~2).xlsx")

In [34]:
dh_total_df = pd.read_excel('./대한항공(11~5).xlsx', index_col=0)

In [35]:
dh_total_df

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022.11.08 13:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022.11.08 14:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08 03:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022.11.08 00:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08 00:00
...,...,...,...,...,...,...
4078,20230531,아주경제,"대한항공, 호주 에어라인레이팅 선정 '올해 최고 화물 항공사'",https://www.ajunews.com/view/20230531090327092,[사진=대한항공]\n\n대한항공이 오스트레일리아 항공·여행 전문 매체 에어라인레이팅...,2023-05-31 09:07
4079,20230531,아시아경제,"대한항공, 호주 에어라인 레이팅스 ‘올해 화물 항공사’ 등 수상",https://view.asiae.co.kr/article/2023053108544...,대한항공이 코로나19 팬데믹을 성공적으로 극복한 노력을 전 세계 항공 업계가 인정했...,2023-05.31 08:54
4080,20230531,헤럴드경제,"대한항공, 호주 ‘에어라인 엑셀런스 어워즈’ 3개 부문 수상",http://biz.heraldcorp.com/view.php?ud=20230531...,올해의 화물 항공사·북아시아 베스트 항공사\n\n톱20 항공사 4위에…신기재 조입 ...,2023-05.31 08:54
4081,20230531,아주경제,아시아나 계열 LCC 에어부산 에어서울 손발 묶인 속사정,https://www.ajunews.com/view/20230530145055573,A321LR 항공기 [사진=에어부산]\n\n아시아나항공 계열사인 에어부산과 에어서울...,2023-05-31 05:55


In [36]:
dh_total_df['시간'] = dh_total_df['시간'].str.strip()

In [37]:
dh_total_df

Unnamed: 0,일자,언론사,제목,URL,article_text,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022.11.08 13:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022.11.08 14:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08 03:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022.11.08 00:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08 00:00
...,...,...,...,...,...,...
4078,20230531,아주경제,"대한항공, 호주 에어라인레이팅 선정 '올해 최고 화물 항공사'",https://www.ajunews.com/view/20230531090327092,[사진=대한항공]\n\n대한항공이 오스트레일리아 항공·여행 전문 매체 에어라인레이팅...,2023-05-31 09:07
4079,20230531,아시아경제,"대한항공, 호주 에어라인 레이팅스 ‘올해 화물 항공사’ 등 수상",https://view.asiae.co.kr/article/2023053108544...,대한항공이 코로나19 팬데믹을 성공적으로 극복한 노력을 전 세계 항공 업계가 인정했...,2023-05.31 08:54
4080,20230531,헤럴드경제,"대한항공, 호주 ‘에어라인 엑셀런스 어워즈’ 3개 부문 수상",http://biz.heraldcorp.com/view.php?ud=20230531...,올해의 화물 항공사·북아시아 베스트 항공사\n\n톱20 항공사 4위에…신기재 조입 ...,2023-05.31 08:54
4081,20230531,아주경제,아시아나 계열 LCC 에어부산 에어서울 손발 묶인 속사정,https://www.ajunews.com/view/20230530145055573,A321LR 항공기 [사진=에어부산]\n\n아시아나항공 계열사인 에어부산과 에어서울...,2023-05-31 05:55


In [38]:
dh_total_df['시간'] = dh_total_df['시간'].str.replace('�','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('발행일 : ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('발행일 :','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('발행일 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('강병호  ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('강태아 기자 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('경제/과학기업/취업/창업 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('경제/과학전체 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('사회전체 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('사회전체','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('유성훈  ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('유은총 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('이상호  ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('이상호 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('작성','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('최한성  ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('파이낸셜뉴스 ','')
dh_total_df['시간'] = dh_total_df['시간'].str.replace('황정환  ','')


In [39]:
dh_total_df.to_excel("./대한항공(11~5)2.xlsx")

In [91]:
dh_total_df2 = pd.read_excel('./대한항공시간만.xlsx')

In [92]:
dh_total_df2.to_csv("./대한항공시간222)3.csv", encoding='utf-8-sig')

In [95]:
dh_total_df3 = pd.read_csv("./대한항공시간222)3.csv",index_col=0)

In [96]:
dh_total_df3

Unnamed: 0,시간
0,2022-11-08 13:39:00
1,2022-11-08 14:12:00
2,2022-11-08 03:00:00
3,2022-11-08 00:05:00
4,2022-11-08 00:00:00
...,...
3932,2023-05-31 09:07
3933,2023-05-31 08:54:00
3934,2023-05-31 08:54:00
3935,2023-05-31 05:55


In [97]:
dh_total_df3['시간'] = dh_total_df3['시간'].str.strip()

In [101]:
dh_total_df3.to_csv("./대한항공시간222)4.csv", encoding='utf-8-sig')

In [105]:
dh_4000 = pd.read_excel('./대한항공(11~5)찐찐찐.xlsx', index_col=0)

In [108]:
dh_4000.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3906 entries, 1 to 4082
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   일자            3906 non-null   int64         
 1   언론사           3906 non-null   object        
 2   제목            3906 non-null   object        
 3   URL           3906 non-null   object        
 4   article_text  3906 non-null   object        
 5   날짜            3906 non-null   datetime64[ns]
 6   시간            3906 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 244.1+ KB


In [110]:
dh_4000['날짜'] = dh_4000['날짜'].astype("str")

In [111]:
dh_4000['날짜'] = dh_4000['날짜'].str.replace(' 0:00','')

In [113]:
dh_4000.to_csv('./대한항공11~5찐.csv', encoding='utf-8-sig')

In [116]:
dh_4000_2 = pd.read_csv('./대한항공11~5찐.csv',index_col=0)

In [117]:
dh_4000_2.head()

Unnamed: 0,일자,언론사,제목,URL,article_text,날짜,시간
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022-11-08,1:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022-11-08,2:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08,3:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022-11-08,12:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08,12:00


In [118]:
dh_4000_2.columns = ['일자', '언론사', '제목', 'URL', 'article_text', 'press_date', 'press_time']

In [120]:
dh_4000_2.head()

Unnamed: 0,일자,언론사,제목,URL,article_text,press_date,press_time
1,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022-11-08,1:39
2,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022-11-08,2:12
4,20221108,동아일보,"부상 이겨내고 신유빈, 女단식 첫 세계정상",https://www.donga.com/news/article/all/2022110...,‘한국 여자 탁구의 간판’ 신유빈(18·대한항공·사진)이 거듭된 부상과 수술을 이겨...,2022-11-08,3:00
5,20221108,중앙일보,"[2022 한국서비스품질지수] 위기 속에서도 빛난 대한항공, 오직 고객만 바라보고 ...",https://www.joongang.co.kr/article/25115698,대한항공(대표 우기홍·사진)이 한국표준협회 ‘2022 한국서비스품질지수(KS-SQI...,2022-11-08,12:05
6,20221108,동아일보,"[사설]탈선, 매몰, 활주로 이탈 언제까지 기적 요행에 안전 맡기나",https://www.donga.com/news/article/all/2022110...,영등포역 부근에서 무궁화호 열차 탈선 사고가 발생한 가운데 7일 오전 서울 영등포역...,2022-11-08,12:00


In [121]:
dh_4000_2.to_csv('./대한항공11~5찐.csv', encoding='utf-8-sig')

In [126]:
from datetime import datetime, timedelta


def get_market_close_time(df):
    for i in range(len(df)):
        pressed = datetime.strptime(df.iloc[i]["press_date"]+" "+df.iloc[i]["press_time"],"%Y-%m-%d %H:%M")
        market_close = pressed.replace(hour=15, minute=30)

        if pressed < market_close:
            df.iloc[i,8] = pressed.strftime('%Y-%m-%d')
        else:
            next_day = pressed + timedelta(days=1)
            df.iloc[i,8] = next_day.strftime('%Y-%m-%d')
    return df

In [127]:
## csv 파일 경로 변경
df = pd.read_csv('./대한항공11~5찐.csv', index_col=0)

## 시간순 정렬을 위해 컬럼 생성, predict_date 컬럼 생성 후 df에서 삭제해도 ok
df["pressed_dt"] = pd.to_datetime(df["press_date"]+" "+df["press_time"], format="%Y-%m-%d %H:%M")
df = df.sort_values("pressed_dt", ignore_index=True)

df["predict_date"]="0000-00-00"

df = get_market_close_time(df)

# 확인용
df

Unnamed: 0,일자,언론사,제목,URL,article_text,press_date,press_time,pressed_dt,predict_date
0,20221108,경기일보,"프로배구 안산 OK금융그룹, 11월 맞아 ‘1+1’ 이벤트",https://www.kyeonggi.com/article/20221107580047,가 가 가 가 가\n\n김영웅 기자 hero@kyeonggi.com 기자페이지\n\...,2022-11-07,3:45,2022-11-07 03:45:00,2022-11-07
1,20221108,경인일보,[프로배구 경인 연고팀 주간전망] 패배 잊은 대한항공 '연승 사냥',http://www.kyeongin.com/main/view.php?key=2022...,3년 연속 남자 프로배구 통합 우승에 도전하는 인천 대한항공이 올 시즌 개막 후 4...,2022-11-07,9:17,2022-11-07 09:17:00,2022-11-07
2,20221108,경인일보,[프로배구 경인 연고팀 주간전망] 막힘 없는 현대건설 '연승 사냥',http://www.kyeongin.com/main/view.php?key=2022...,수원 현대건설이 여자 프로배구에서 개막 4연승으로 우승후보 '0순위'의 면모를 어김...,2022-11-07,9:18,2022-11-07 09:18:00,2022-11-07
3,20221108,헤럴드경제,서울의료원 강남분원 남측 부지에 공공임대주택 확정안 나온다,http://biz.heraldcorp.com/view.php?ud=20221108...,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022-11-08,1:39,2022-11-08 01:39:00,2022-11-08
4,20221108,헤럴드경제,"이스라엘 관광부, 3년만에 한국서 성지순례 세미나",http://biz.heraldcorp.com/view.php?ud=20221108...,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022-11-08,2:12,2022-11-08 02:12:00,2022-11-08
...,...,...,...,...,...,...,...,...,...
3901,20230531,서울경제,대한항공 '올해 화물 항공사'상,http://www.sedaily.com/NewsView/29PSK3OQS9,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n대한항공이 호주 항공...",2023-05-31,10:00,2023-05-31 10:00:00,2023-05-31
3902,20230531,세계일보,"대한항공, 호주 향공 전문지 ‘올해 화물 항공사’ 등 수상",http://www.segye.com/content/html/2023/05/31/2...,대한항공은 오스트레일리아 항공·여행 전문 매체 에어라인레이팅의 ‘2023 에어라인 ...,2023-05-31,10:19,2023-05-31 10:19:00,2023-05-31
3903,20230531,문화일보,"코로나 때 여객기 화물기로 개조한 대한항공, 호주에서 올해의 항공사 상",http://www.munhwa.com/news/view.html?no=202305...,"유승민 “中, 민주선거 없는데 그 나라 투표권 안준다고 중국인 투표권 안 준다? 말...",2023-05-31,11:07,2023-05-31 11:07:00,2023-05-31
3904,20230531,헤럴드경제,"대한항공, 호주 ‘에어라인 엑설런스 어워즈’ 수상",http://biz.heraldcorp.com/view.php?ud=20230531...,대한항공이 오스트레일리아 항공·여행 전문 매체 ‘에어라인레이팅’가 선정하는 ‘202...,2023-05-31,11:20,2023-05-31 11:20:00,2023-05-31


In [129]:
대한_3000_df = df[['article_text', 'press_date', 'press_time']]

In [131]:
대한_5000_df = pd.read_excel('./대한항공_5000개_최종완성본(지우).xlsx', index_col=0)

In [133]:
대한_5000_df.to_csv('./대한5000(지우).csv', encoding='utf-8-sig')

In [149]:
대한_5000_df = pd.read_csv('./대한5000(지우).csv', index_col=0)

In [137]:
# 대한_5000_df = 대한_5000_df[["article_text", "press_date", "press_time"]]

In [150]:
대한_5000_df

Unnamed: 0,article_text,press_date,press_time
0,KB손해보험의 새로운 레프트 라인 한성정(26)과 홍상혁(24)이 팀의 2연승과 2...,2022-01-01,12:11
1,"2022년에도 방역 안정을 바탕으로 활발한 무역을 통해 미래 신시장을 개척하고, 이...",2022-01-01,1:00
2,202220222022년 하반기 여객 증가세가 나타날 경우 LCC의 적자 규모가 줄...,2022-01-01,6:01
3,2022.1.1 [이미지출처=연합뉴스] AD 원본보기 아이콘\n\n[세종=아시아경제...,2022-01-01,4:44
4,LCC 중심으로 자본 잠식 해결 위한 추가 자본 확충 가능성\n\n[아시아경제 공병...,2022-01-01,4:06
...,...,...,...
4660,우기홍 대한항공 사장이 A330 정밀점검 현장을 방문해 엔진 점검과정을 살펴보고 있...,2022-11-07,3:35
4661,한국형 달 궤도 탐사선 다누리가 지난 9월 24일 10~20분 간격으로 달이 지구 ...,2022-11-08,4:06
4662,손목 부상을 털어낸 여자 탁구 에이스 신유빈 선수가 생애 처음으로 국제대회 2관왕에...,2022-11-08,7:59
4663,"작년 도쿄올림픽 탁구 깜짝스타 신유빈 선수가 지난 주말, 오랜 부상을 털고 돌아왔습...",2022-11-08,3:32


In [151]:
대한_3000_df

Unnamed: 0,article_text,press_date,press_time
0,가 가 가 가 가\n\n김영웅 기자 hero@kyeonggi.com 기자페이지\n\...,2022-11-07,3:45
1,3년 연속 남자 프로배구 통합 우승에 도전하는 인천 대한항공이 올 시즌 개막 후 4...,2022-11-07,9:17
2,수원 현대건설이 여자 프로배구에서 개막 4연승으로 우승후보 '0순위'의 면모를 어김...,2022-11-07,9:18
3,"서울시, 지난 3일 강남구에 북측-남측 토지분할 요청\n\n남측부지에 171-57번...",2022-11-08,1:39
4,순례여행 정보공유..여행자보험만으로 입국\n\n[헤럴드경제=함영훈 기자] 이스라엘 ...,2022-11-08,2:12
...,...,...,...
3901,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n대한항공이 호주 항공...",2023-05-31,10:00
3902,대한항공은 오스트레일리아 항공·여행 전문 매체 에어라인레이팅의 ‘2023 에어라인 ...,2023-05-31,10:19
3903,"유승민 “中, 민주선거 없는데 그 나라 투표권 안준다고 중국인 투표권 안 준다? 말...",2023-05-31,11:07
3904,대한항공이 오스트레일리아 항공·여행 전문 매체 ‘에어라인레이팅’가 선정하는 ‘202...,2023-05-31,11:20


In [152]:
DH_total_df = pd.concat([대한_5000_df, 대한_3000_df], axis=0)

In [153]:
DH_total_df.to_csv('./대한항공최종데이터(불용어처리전).csv', encoding='utf-8-sig')

In [154]:
DH_total_df

Unnamed: 0,article_text,press_date,press_time
0,KB손해보험의 새로운 레프트 라인 한성정(26)과 홍상혁(24)이 팀의 2연승과 2...,2022-01-01,12:11
1,"2022년에도 방역 안정을 바탕으로 활발한 무역을 통해 미래 신시장을 개척하고, 이...",2022-01-01,1:00
2,202220222022년 하반기 여객 증가세가 나타날 경우 LCC의 적자 규모가 줄...,2022-01-01,6:01
3,2022.1.1 [이미지출처=연합뉴스] AD 원본보기 아이콘\n\n[세종=아시아경제...,2022-01-01,4:44
4,LCC 중심으로 자본 잠식 해결 위한 추가 자본 확충 가능성\n\n[아시아경제 공병...,2022-01-01,4:06
...,...,...,...
3901,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n대한항공이 호주 항공...",2023-05-31,10:00
3902,대한항공은 오스트레일리아 항공·여행 전문 매체 에어라인레이팅의 ‘2023 에어라인 ...,2023-05-31,10:19
3903,"유승민 “中, 민주선거 없는데 그 나라 투표권 안준다고 중국인 투표권 안 준다? 말...",2023-05-31,11:07
3904,대한항공이 오스트레일리아 항공·여행 전문 매체 ‘에어라인레이팅’가 선정하는 ‘202...,2023-05-31,11:20


In [155]:
from datetime import datetime, timedelta


def get_market_close_time(df):
    for i in range(len(df)):
        pressed = datetime.strptime(df.iloc[i]["press_date"]+" "+df.iloc[i]["press_time"],"%Y-%m-%d %H:%M")
        market_close = pressed.replace(hour=15, minute=30)

        if pressed < market_close:
            df.iloc[i,4] = pressed.strftime('%Y-%m-%d')
        else:
            next_day = pressed + timedelta(days=1)
            df.iloc[i,4] = next_day.strftime('%Y-%m-%d')
    return df

In [156]:
## csv 파일 경로 변경
df = pd.read_csv('./대한항공최종데이터(불용어처리전).csv', index_col=0)

## 시간순 정렬을 위해 컬럼 생성, predict_date 컬럼 생성 후 df에서 삭제해도 ok
df["pressed_dt"] = pd.to_datetime(df["press_date"]+" "+df["press_time"], format="%Y-%m-%d %H:%M")
df = df.sort_values("pressed_dt", ignore_index=True)

df["predict_date"]="0000-00-00"

df = get_market_close_time(df)

# 확인용
df

Unnamed: 0,article_text,press_date,press_time,pressed_dt,predict_date
0,"2022년에도 방역 안정을 바탕으로 활발한 무역을 통해 미래 신시장을 개척하고, 이...",2022-01-01,1:00,2022-01-01 01:00:00,2022-01-01
1,김부겸 국무총리가 1일 오전 인천공항 대한항공 화물터미널에서 ‘임인년(壬寅年) 새해...,2022-01-01,1:16,2022-01-01 01:16:00,2022-01-01
2,viewer 영종도 인천국제공항의 대한항공-아시아나항공 항공기. /연합뉴스\n\nv...,2022-01-01,1:59,2022-01-01 01:59:00,2022-01-01
3,KB손해보험이 31일 의정부체육관에서 열린 V리그 남자부 4라운드 홈경기에서 OK금...,2022-01-01,3:05,2022-01-01 03:05:00,2022-01-01
4,LCC 중심으로 자본 잠식 해결 위한 추가 자본 확충 가능성\n\n[아시아경제 공병...,2022-01-01,4:06,2022-01-01 04:06:00,2022-01-01
...,...,...,...,...,...
8496,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n대한항공이 호주 항공...",2023-05-31,10:00,2023-05-31 10:00:00,2023-05-31
8497,대한항공은 오스트레일리아 항공·여행 전문 매체 에어라인레이팅의 ‘2023 에어라인 ...,2023-05-31,10:19,2023-05-31 10:19:00,2023-05-31
8498,"유승민 “中, 민주선거 없는데 그 나라 투표권 안준다고 중국인 투표권 안 준다? 말...",2023-05-31,11:07,2023-05-31 11:07:00,2023-05-31
8499,대한항공이 오스트레일리아 항공·여행 전문 매체 ‘에어라인레이팅’가 선정하는 ‘202...,2023-05-31,11:20,2023-05-31 11:20:00,2023-05-31


In [158]:
DH_total_df = df[["predict_date", "article_text"]].groupby(by="predict_date").sum()

In [160]:
DH_total_df.to_csv("./대한항공최종데이터(불용어처리전)찐.csv", encoding='utf-8-sig')

In [161]:
DH_total_df

Unnamed: 0_level_0,article_text
predict_date,Unnamed: 1_level_1
2022-01-01,"2022년에도 방역 안정을 바탕으로 활발한 무역을 통해 미래 신시장을 개척하고, 이..."
2022-01-02,2022년에도 국제선 여객 정상화는 어렵다는 판단이며 이에 따라 항공화물 시황은 호...
2022-01-03,▲ 26일 오후 경기도 의정부체육관에서 열린 2021 의정부 도드람컵 프로배구대회 ...
2022-01-04,▲ 사천공항\n\n\n\n경남도는 진에어가 오는 28일부터 김포-사천(진주) 노선에...
2022-01-05,인천 중구 영종국제도시 대한항공 항공정비단지 부지. 인천시 제공\n\n대한항공이 인...
...,...
2023-05-28,[속보] 코로나19 신규확진 1만7796명…1주 전과 비슷\n\n27일 전국에서 1...
2023-05-29,'슈퍼 태풍' 마와르 피해로 운영이 중단된 괌 국제공항이 오는 29일부터 운영이 재...
2023-05-30,[파이낸셜뉴스] 사측과 임금 인상률 합의를 하지 못한 아시아나항공 조종사노동조합이 ...
2023-05-31,흥국생명 김연경(왼쪽)과 마르첼로 아본단자 감독. 한국배구연맹 제공\n\n새 시즌을...


In [162]:
LG_유가_df = pd.read_excel('./LG+유가(윤아).xlsx', index_col=0)

In [168]:
LG_유가_df

Unnamed: 0,predict_date,article_text,oil_news
0,2022-01-02,[아시아경제 송화정 기자]외국인이 국내 증시에서 3주 연속 매수세를 나타냈다.\n\...,[충청투데이 심형식 기자] 코로나19(이하 코로나)가 2년가까이 지속되면서 대면서비...
1,2022-01-03,사진 확대 자본시장의 상징이자 상승장을 기원하는 황소상. 이 황소상은 지난 1996...,▲ 2021년 12월 충청지역 소비자물가동향\n\n충북과 충남의 물가 상승률이 4%...
2,2022-01-04,"viewer 4일 코스피 지수는 전장보다 3.20포인트(0.11%) 오른 2,991...","\n\n서울 시내 주유소 모습.\n\n\n\n\n\n[ 저작권자 ⓒ디지털타임스, 무..."
3,2022-01-05,반면 같은 기간 동학개미 순매수 1위였던 삼성전자(보통주)의 수익률은 -3.2%에 ...,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n미국 뉴욕증시의 주요..."
4,2022-01-06,[사진=게티이미지뱅크]\n\nLG화학은 미국 면역항암제 개발 파트너사 '큐바이오파마...,美·남미 등 수입처 다변화\n\n안정적 물량 확보는 어려워\n\n\n\n코로나19 ...
...,...,...,...
479,2023-05-26,제품개발·제조의 중심 '오창에너지플랜트'\n\n전기차 배터리 공장 준공 12년 만에...,"한국은행이 기준금리를 현 수준인 3.5%로, 동결하며 올해 경제성장률 전망치를 낮춰..."
480,2023-05-28,"코로나 의무 격리 삼성, 7일→3일로\n\n삼성전자 등 국내 주요 기업이 잇달아 사...",러시아와 사우디아리바아의 밀월에 이상 신호가 감지되고 있다.\n\n러시아가 증산을 ...
481,2023-05-29,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n이 기존 석유화학 중...",러시아와 사우디아리바아의 밀월에 이상 신호가 감지되고 있다. 러시아가 증산을 지속하...
482,2023-05-30,23일 LG화학의 CSR(사회적책임)팀 팀원들이 서울 영등포구 본사 사무실에서 하청...,게티이미지뱅크\n\n\n\n경유와 휘발유 가격이 한 달 간 내림세를 지속하며 유가 ...


In [169]:
오일_df = LG_유가_df[["predict_date", "oil_news"]]

In [164]:
DH_total_df["predict_date"] = DH_total_df.index
DH_total_df.reset_index(drop=True)
DH_total_df = DH_total_df[['predict_date', 'article_text']].reset_index(drop=True)

In [165]:
DH_total_df

Unnamed: 0,predict_date,article_text
0,2022-01-01,"2022년에도 방역 안정을 바탕으로 활발한 무역을 통해 미래 신시장을 개척하고, 이..."
1,2022-01-02,2022년에도 국제선 여객 정상화는 어렵다는 판단이며 이에 따라 항공화물 시황은 호...
2,2022-01-03,▲ 26일 오후 경기도 의정부체육관에서 열린 2021 의정부 도드람컵 프로배구대회 ...
3,2022-01-04,▲ 사천공항\n\n\n\n경남도는 진에어가 오는 28일부터 김포-사천(진주) 노선에...
4,2022-01-05,인천 중구 영종국제도시 대한항공 항공정비단지 부지. 인천시 제공\n\n대한항공이 인...
...,...,...
505,2023-05-28,[속보] 코로나19 신규확진 1만7796명…1주 전과 비슷\n\n27일 전국에서 1...
506,2023-05-29,'슈퍼 태풍' 마와르 피해로 운영이 중단된 괌 국제공항이 오는 29일부터 운영이 재...
507,2023-05-30,[파이낸셜뉴스] 사측과 임금 인상률 합의를 하지 못한 아시아나항공 조종사노동조합이 ...
508,2023-05-31,흥국생명 김연경(왼쪽)과 마르첼로 아본단자 감독. 한국배구연맹 제공\n\n새 시즌을...


In [177]:
DH_유가 = pd.merge(오일_df, DH_total_df, how="left", on="predict_date")

In [178]:
DH_유가.loc[DH_유가["article_text"].isna()]

Unnamed: 0,predict_date,oil_news,article_text
147,2022-06-05,우크라이나 전쟁 장기화와 서방의 러시아 제재로 국제 에너지 가격이 고공 행진하는 가...,
166,2022-06-25,24일 코스피와 코스닥이 지난 이틀간의 급락을 딛고 반등에 성공했다.\n\n이날 코...,
222,2022-08-21,[아시아경제 오현길 기자] 이달 국내 휘발유 가격이 러시아-우크라이나 전쟁 전 가격...,
235,2022-09-03,국제유가 하락에 누그러져\n\n\n\n원화값 급락은 물가 자극요인\n\n1360원도...,
269,2022-10-08,"휘발윳값 2000원?…OPEC+, 200만 배럴 감산\n\n물가 6%대?…공공요금 ...",
434,2023-04-08,한국은행 통계에 불안 증폭\n\n2월 수지 ‘-5억2000만달러’ 기록\n\n폭은 ...,


In [179]:
# DH_유가.to_csv('./DH+유가.csv', encoding='utf-8-sig')
DH_유가.to_excel('./DH+유가(엑셀).xlsx')

In [195]:
DH_유가_df = pd.read_excel('./DH+유가(엑셀).xlsx', index_col=0)

In [196]:
LG_유가_df.head()

Unnamed: 0,predict_date,article_text,oil_news
0,2022-01-02,[아시아경제 송화정 기자]외국인이 국내 증시에서 3주 연속 매수세를 나타냈다.\n\...,[충청투데이 심형식 기자] 코로나19(이하 코로나)가 2년가까이 지속되면서 대면서비...
1,2022-01-03,사진 확대 자본시장의 상징이자 상승장을 기원하는 황소상. 이 황소상은 지난 1996...,▲ 2021년 12월 충청지역 소비자물가동향\n\n충북과 충남의 물가 상승률이 4%...
2,2022-01-04,"viewer 4일 코스피 지수는 전장보다 3.20포인트(0.11%) 오른 2,991...","\n\n서울 시내 주유소 모습.\n\n\n\n\n\n[ 저작권자 ⓒ디지털타임스, 무..."
3,2022-01-05,반면 같은 기간 동학개미 순매수 1위였던 삼성전자(보통주)의 수익률은 -3.2%에 ...,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n미국 뉴욕증시의 주요..."
4,2022-01-06,[사진=게티이미지뱅크]\n\nLG화학은 미국 면역항암제 개발 파트너사 '큐바이오파마...,美·남미 등 수입처 다변화\n\n안정적 물량 확보는 어려워\n\n\n\n코로나19 ...


In [197]:
DH_유가_df.head()

Unnamed: 0,predict_date,oil_news,article_text
0,2022-01-02,[충청투데이 심형식 기자] 코로나19(이하 코로나)가 2년가까이 지속되면서 대면서비...,2022년에도 국제선 여객 정상화는 어렵다는 판단이며 이에 따라 항공화물 시황은 호...
1,2022-01-03,▲ 2021년 12월 충청지역 소비자물가동향\n\n충북과 충남의 물가 상승률이 4%...,▲ 26일 오후 경기도 의정부체육관에서 열린 2021 의정부 도드람컵 프로배구대회 ...
2,2022-01-04,"\n\n서울 시내 주유소 모습.\n\n\n\n\n\n[ 저작권자 ⓒ디지털타임스, 무...",▲ 사천공항\n\n\n\n경남도는 진에어가 오는 28일부터 김포-사천(진주) 노선에...
3,2022-01-05,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n미국 뉴욕증시의 주요...",인천 중구 영종국제도시 대한항공 항공정비단지 부지. 인천시 제공\n\n대한항공이 인...
4,2022-01-06,美·남미 등 수입처 다변화\n\n안정적 물량 확보는 어려워\n\n\n\n코로나19 ...,"인천시-대한항공, 항공정비(MRO)산업 발전 업무협약 체결\n\n대한항공, 3346..."


In [198]:
# import re

# def clean_byline(text):
#     # byline
#     pattern_email = re.compile(r'[-_0-9a-z]+@[-_0-9a-z]+(?:\.[0-9a-z]+)+', flags=re.IGNORECASE)
#     pattern_url = re.compile(r'(?:https?:\/\/)?[-_0-9a-z]+(?:\.[-_0-9a-z]+)+', flags=re.IGNORECASE)
#     pattern_others = re.compile(r'\.([^\.]*(?:기자|특파원|교수|작가|대표|논설|고문|주필|부문장|팀장|장관|원장|연구원|이사장|위원|실장|차장|부장|에세이|화백|사설|소장|단장|과장|기획자|큐레이터|저작권|평론가|©|©|ⓒ|\@|\/|=|▶|▲|◀|▼|무단|전재|재배포|금지|\[|\]|\(\))[^\.]*)$')
#     result = pattern_email.sub('', text)
#     result = pattern_url.sub('', result)
#     result = pattern_others.sub('.', result)

#     # 본문 시작 전 꺽쇠로 쌓인 바이라인 제거
#     pattern_bracket = re.compile(r'^((?:\[.+\])|(?:【.+】)|(?:<.+>)|(?:◆.+◆)\s)')
#     result = pattern_bracket.sub('', result).strip()

#     return result

In [199]:
# DH_유가_df['text'] = DH_유가_df.article_text.map(clean_byline)

In [208]:
import re

def preprocess_text(text):
    # 괄호와 괄호 안에 있는 내용 삭제
    text = re.sub(r'\([^()]*\)', '', text)  # () 안에 있는 내용 삭제
    text = re.sub(r'\[[^\[\]]*\]', '', text)  # [] 안에 있는 내용 삭제
    text = re.sub(r'\{[^{}]*\}', '', text)  # {} 안에 있는 내용 삭제

    pattern_others = re.compile(r'\.([^\.]*(?:기자|특파원|교수|작가|대표|논설|고문|주필|부문장|팀장|장관|원장|연구원|이사장|위원|실장|차장|부장|에세이|화백|사설|소장|단장|과장|기획자|큐레이터|저작권|평론가|©|©|ⓒ|\@|\/|=|▶|무단|전재|재배포|금지|\[|\]|\(\))[^\.]*)$')
    text = pattern_others.sub('.', text)

    # 특수문자 제거
    text = re.sub(r'[^%.,+-\w\s]', ' ', text)  # 특수문자를 공백으로 대체

    # 공백 제거
    text = re.sub(r'\s+', ' ', text)  # 연속된 공백을 하나의 공백으로 대체
    text = text.strip()  # 문장 앞뒤의 공백 제거

    # 연속된 줄바꿈을 하나의 줄바꿈으로 대체
    text = re.sub(r'\n+', '\n', text)

    return text

In [210]:
def remove_stopwords(text, stopwords):
    words = text.split()
    words = [word for word in words if word.lower() not in stopwords]
    return ' '.join(words)

In [None]:
stopwords = ['원본보기', '아이콘', 'AD','자료','ADVERTISEMENT','Advertisement','viewer']

In [209]:
DH_유가_df

Unnamed: 0,predict_date,oil_news,article_text,text
0,2022-01-02,[충청투데이 심형식 기자] 코로나19(이하 코로나)가 2년가까이 지속되면서 대면서비...,2022년에도 국제선 여객 정상화는 어렵다는 판단이며 이에 따라 항공화물 시황은 호...,2022년에도 국제선 여객 정상화는 어렵다는 판단이며 이에 따라 항공화물 시황은 호...
1,2022-01-03,▲ 2021년 12월 충청지역 소비자물가동향\n\n충북과 충남의 물가 상승률이 4%...,▲ 26일 오후 경기도 의정부체육관에서 열린 2021 의정부 도드람컵 프로배구대회 ...,▲ 26일 오후 경기도 의정부체육관에서 열린 2021 의정부 도드람컵 프로배구대회 ...
2,2022-01-04,"\n\n서울 시내 주유소 모습.\n\n\n\n\n\n[ 저작권자 ⓒ디지털타임스, 무...",▲ 사천공항\n\n\n\n경남도는 진에어가 오는 28일부터 김포-사천(진주) 노선에...,▲ 사천공항\n\n\n\n경남도는 진에어가 오는 28일부터 김포-사천(진주) 노선에...
3,2022-01-05,"< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >\n\n미국 뉴욕증시의 주요...",인천 중구 영종국제도시 대한항공 항공정비단지 부지. 인천시 제공\n\n대한항공이 인...,인천 중구 영종국제도시 대한항공 항공정비단지 부지. 인천시 제공\n\n대한항공이 인...
4,2022-01-06,美·남미 등 수입처 다변화\n\n안정적 물량 확보는 어려워\n\n\n\n코로나19 ...,"인천시-대한항공, 항공정비(MRO)산업 발전 업무협약 체결\n\n대한항공, 3346...","인천시-대한항공, 항공정비(MRO)산업 발전 업무협약 체결\n\n대한항공, 3346..."
...,...,...,...,...
479,2023-05-26,"한국은행이 기준금리를 현 수준인 3.5%로, 동결하며 올해 경제성장률 전망치를 낮춰...",[파이낸셜뉴스] 항공사들이 연이어 국제항공운송협회(IATA) 리튬 배터리 항공운송 ...,항공사들이 연이어 국제항공운송협회(IATA) 리튬 배터리 항공운송 인증(CEIV L...
480,2023-05-28,러시아와 사우디아리바아의 밀월에 이상 신호가 감지되고 있다.\n\n러시아가 증산을 ...,[속보] 코로나19 신규확진 1만7796명…1주 전과 비슷\n\n27일 전국에서 1...,코로나19 신규확진 1만7796명…1주 전과 비슷\n\n27일 전국에서 1만7000...
481,2023-05-29,러시아와 사우디아리바아의 밀월에 이상 신호가 감지되고 있다. 러시아가 증산을 지속하...,'슈퍼 태풍' 마와르 피해로 운영이 중단된 괌 국제공항이 오는 29일부터 운영이 재...,'슈퍼 태풍' 마와르 피해로 운영이 중단된 괌 국제공항이 오는 29일부터 운영이 재...
482,2023-05-30,게티이미지뱅크\n\n\n\n경유와 휘발유 가격이 한 달 간 내림세를 지속하며 유가 ...,[파이낸셜뉴스] 사측과 임금 인상률 합의를 하지 못한 아시아나항공 조종사노동조합이 ...,사측과 임금 인상률 합의를 하지 못한 아시아나항공 조종사노동조합이 쟁의행위에 돌입한...
