In [2]:
import pandas as pd
import os
import glob

In [2]:
# 전체 열 보기
pd.set_option("display.max_columns", None)

# 텍스트 컬럼만 길이 제한 (예: 100자)
pd.set_option("display.max_colwidth", 100)

# 선택적으로 행 수 제한
pd.set_option("display.max_rows", 100)

In [3]:
def load_all_csvs_recursively(base_folder):
    # 모든 하위 폴더의 CSV 파일 포함
    csv_files = glob.glob(os.path.join(base_folder, "**", "*.csv"), recursive=True)

    print(f"🔍 발견된 CSV 파일 수: {len(csv_files)}")

    df_list = [pd.read_csv(file) for file in csv_files]
    combined_df = pd.concat(df_list, ignore_index=True)

    return combined_df

# 리포트 데이터 정제 및 저장

In [24]:
folder_path = "./report_data"  # 상대 경로 또는 절대 경로 가능
df_all = load_all_csvs_recursively(folder_path)

print(f"불러온 row 개수: {len(df_all)}개")

🔍 발견된 CSV 파일 수: 122
불러온 row 개수: 37053개


In [17]:
df = df_all.sort_values(by='작성일', ascending=False).reset_index(drop=True)
df.head()

Unnamed: 0,종목명,제목,증권사,작성일,조회수,URL,본문,목표가,투자의견
0,크래프톤,주요 투자포인트의 현실화,키움증권,2023-05-22,2985,https://finance.naver.com/research/company_rea...,동사 목표주가 25만원 유지\n동사 목표주가를 25만원으로 유지하고 게임 대형주 T...,250000.0,Buy
1,코윈테크,올해 수주도 실적도 Good,하이투자증권,2023-05-22,6112,https://finance.naver.com/research/company_rea...,이차전지 전(前)공정과 후(後)공정을 아우르는 공정 자동화시스템 전문 제조업체\n동...,,없음
2,삼성생명,순조로운 시작,대신증권,2023-05-22,2085,https://finance.naver.com/research/company_rea...,"투자의견 매수, 목표주가 80,000원 유지\n일회성 제외하고 사측이 연간으로 목표...",80000.0,Buy
3,하이록코리아,해양플랜트는 계속된다,대신증권,2023-05-22,3274,https://finance.naver.com/research/company_rea...,"투자의견 매수, 목표주가 35,000 원 유지\n23F 매출액: 2,180억원, 영...",35000.0,Buy
4,아스플로,국산화는 진행 중,대신증권,2023-05-22,4889,https://finance.naver.com/research/company_rea...,"투자의견 Market Perform, 목표주가 14,500원 유지\n23E 매출액:...",14500.0,MarketPerform


In [18]:
df.to_csv('../../db/report_2013_2023.csv', index=False)

# 뉴스 데이터 정제 및 저장

In [13]:
folder_path = "./news_data_2017_2019"  # 상대 경로 또는 절대 경로 가능
df_all = load_all_csvs_recursively(folder_path)

print(f"불러온 row 개수: {len(df_all)}개")

🔍 발견된 CSV 파일 수: 730
불러온 row 개수: 188520개


In [14]:
df_all.head()

Unnamed: 0,wdate,title,article,press,url,image
0,2017-05-23 22:05,대우건설 지분 5.77% 블록딜 추진,IBK투자證.케이스톤PEF 1800억 유동성 확보할 듯\nIBK투자증권과 케이스톤 ...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://ssl.pstatic.net/static.news/image/news...
1,2017-05-23 20:05,"""금융에 대해 배우고 진로도 상담해요""",미래에셋박현주재단 청소년 금융진로캠프\n원본보기\n지난 22일 강원 홍천에 위치한 ...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2017/05/...
2,2017-05-23 19:41,"SGA임베디드, 코넥스 상장.. 국내 사물인터넷 시장 공략",23일 서울 여의도 한국거래소에서 열린 SGA임베디드 코넥스 상장식에서 임직원들이 ...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2017/05/...
3,2017-05-23 19:25,우정사업본부 '공격적' 차익거래 매도.. 외국인 비차익거래 매수세 이어가,코스피 상승세 지속 전망에 외국인 매매유인 크게 증가\n지난달말 우정사업본부의 차익...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2017/05/...
4,2017-05-23 19:24,"[알쏭달쏭 채권투자] 하이일드펀드, 비우량 채권에 투자하는 펀드… 목표수익률 年5~...",하이일드펀드(High Yield Fund)는 금리는 높지만 신용등급이 낮은 비우량채...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://ssl.pstatic.net/static.news/image/news...


In [15]:
num_duplicates = df_all.duplicated(subset="title").sum()
print(f"중복 title 개수: {num_duplicates}")

중복 title 개수: 5469


In [16]:
num_non_required = df_all[
    df_all["title"].str.contains("오늘의", na=False)
]
print(f"불필요 title 개수: {len(num_non_required)}")

불필요 title 개수: 631


In [17]:
num_non_required.head(2)

Unnamed: 0,wdate,title,article,press,url,image
59,2017-05-23 15:38,"[fnRASSI]오늘의 상한가, 진흥기업우B 30% ↑","23일 진흥기업우B(002785), 이엘케이(094190), 대호피앤씨우(02104...",파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2017/05/...
153,2017-05-23 11:30,"[오늘의포인트]코스피 2300, 시총 변화는",[머니투데이 송선옥 기자] [LG전자·KB금융·NAVER 등 오르고 한국전력·SKT...,머니투데이,https://n.news.naver.com/mnews/article/008/000...,https://ssl.pstatic.net/static.news/image/news...


In [18]:
# 중복 제거 전 필터링부터 수행
filtered_df = df_all[
    df_all["title"].notnull() & ~df_all["title"].str.contains("오늘의", na=False)
]

# 날짜 타입 변환
filtered_df["wdate"] = pd.to_datetime(filtered_df["wdate"], errors="coerce")

# 날짜 내림차순 정렬 후 중복 제거
filtered_df = (
    filtered_df.sort_values(by="wdate", ascending=False)
    .drop_duplicates(subset="title", keep="first")  # 제목 기준 중복 제거
    .reset_index(drop=True)
)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["wdate"] = pd.to_datetime(filtered_df["wdate"], errors="coerce")


In [19]:
# 결과 확인 (예: 상위 10개)
filtered_df.head(5)

Unnamed: 0,wdate,title,article,press,url,image
0,2019-05-22 19:51:00,"증선위, 한국투자증권 과징금 38.6억·과태료 1.2억 부과 의결(상보)",증권선물워원회는 22일 한국투자증권에 대한 종합검사 관련 계열회사 신용공여 제한 위...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2019/05/...
1,2019-05-22 19:33:00,"증선위, 한투 종합검사 과징금 38.6억·과태료 1.2억 부과 의결(1보)",증권선물워원회는 22일 한국투자증권에 대한 종합검사 관련 계열회사 신용공여 제한 위...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://ssl.pstatic.net/static.news/image/news...
2,2019-05-22 18:27:00,"한양증권, 극지 마라토너 초청 ‘브라운백 미팅’",22일 서울 여의도 한양증권 본사에서 열린 브라운백 미팅에서 임재택 한양증권 대표(...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2019/05/...
3,2019-05-22 18:15:00,"거래소, ""에스제이케이 매매 거래 정지 해제""",[머니투데이 유승목 기자] 한국거래소 코스닥시장본부는 에스제이케이의 파산신청 사유가...,머니투데이,https://n.news.naver.com/mnews/article/008/000...,https://ssl.pstatic.net/static.news/image/news...
4,2019-05-22 18:11:00,"연기금, 코스닥 구원투수로.. 이달만 1000억 이상 사들여",연기금이 약세장에 들어선 코스닥시장에서 순매수를 이어가고 있다. 기관과 외국인이 '...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2019/05/...


In [20]:
filtered_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 182429 entries, 0 to 182428
Data columns (total 6 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   wdate    182429 non-null  datetime64[ns]
 1   title    182429 non-null  object        
 2   article  182416 non-null  object        
 3   press    182429 non-null  object        
 4   url      182429 non-null  object        
 5   image    182419 non-null  object        
dtypes: datetime64[ns](1), object(5)
memory usage: 8.4+ MB


In [21]:
filtered_df.to_csv('../../db/news_2017_2019.csv', index=False)