In [None]:
import os
import pandas as pd

# CSV 파일이 있는 디렉토리 경로 설정
csv_directory = '/content/drive/MyDrive/tobigs_conference/report_crawling/csv_file'

# 모든 CSV 파일을 저장할 빈 DataFrame 생성
combined_df = pd.DataFrame()

# CSV 파일을 읽어서 하나로 합치기
for filename in os.listdir(csv_directory):
    if filename.endswith('.csv'):
        file_path = os.path.join(csv_directory, filename)
        df = pd.read_csv(file_path)
        combined_df = pd.concat([combined_df, df], ignore_index=True)

# 합친 데이터를 새로운 CSV 파일로 저장
combined_df.to_csv('/content/drive/MyDrive/tobigs_conference/report_crawling/csv_file/final_df.csv', index=False)

# 결과 확인
print("합친 데이터의 모양:", combined_df.shape)
print("첫 5개 행:")
print(combined_df.head())


합친 데이터의 모양: (31451, 7)
첫 5개 행:
   Unnamed: 0 industry      date kapital                        title  \
0           0       건설  20231123    하나증권  해외EPC 3Q23 실발 분석: 한가닥씩 한 수주   
1           1       건설  20231122    교보증권                건설/부동산 Weekly   
2           2       건설  20231121    하나증권       금리 하락에 상승한 주택주, 추격은 금물   
3           3       건설  20231120  이베스트증권          건설: 부동산 Weekly Data   
4           4       건설  20231115    교보증권                건설/부동산 Weekly   

             pdf                                            content  
0  1700697075313  \n \n\n3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실...  
1  1700610083064  \n \n\n건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반...  
2  1700525881852  \n \n\n주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%...  
3  1700439602849  \n \n\n이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% ...  
4  1700006327040  \n \n\n건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래...  


In [None]:
combined_df['industry'].unique()

array(['건설', '건자재', '광고', '금융', '기계', '휴대폰', '담배', '유통', '미디어', '바이오',
       '반도체', '보험', '석유화학', '섬유의류', '소프트웨어', '운수창고', '유틸리티', '은행',
       '인터넷포탈', '자동차', '전기전자', '제약', '조선', '종이', '증권', '철강금속', '타이어',
       '통신', '항공운송', '홈쇼핑', '음식료', '여행', '게임', 'IT', '디스플레이', '에너지',
       '지주회사', '해운', '화장품', '자동차부품', '교육', '기타'], dtype=object)

In [None]:
# 각 열의 타입 확인
column_types = combined_df.dtypes

print(column_types)

Unnamed: 0     int64
industry      object
date           int64
kapital       object
title         object
pdf           object
content       object
dtype: object


In [None]:
combined_df.head()

Unnamed: 0.1,Unnamed: 0,industry,date,kapital,title,pdf,content
0,0,건설,20231123,하나증권,해외EPC 3Q23 실발 분석: 한가닥씩 한 수주,1700697075313,\n \n\n3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실...
1,1,건설,20231122,교보증권,건설/부동산 Weekly,1700610083064,\n \n\n건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반...
2,2,건설,20231121,하나증권,"금리 하락에 상승한 주택주, 추격은 금물",1700525881852,\n \n\n주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%...
3,3,건설,20231120,이베스트증권,건설: 부동산 Weekly Data,1700439602849,\n \n\n이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% ...
4,4,건설,20231115,교보증권,건설/부동산 Weekly,1700006327040,\n \n\n건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래...


In [None]:
# 'content' 열에 대한 정보 출력
content_info = combined_df['content'].head()

print(content_info)

0    \n \n\n3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실...
1    \n \n\n건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반...
2    \n \n\n주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%...
3    \n \n\n이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% ...
4    \n \n\n건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래...
Name: content, dtype: object


In [None]:
# '\n'으로 split하고 'pdf'로 끝나는 부분 제거
combined_df['content'] = combined_df['content'].str.split('\n').apply(lambda x: ' '.join([item for item in x if not item.endswith('pdf')]))

# 결과 출력
combined_df.head()

Unnamed: 0.1,Unnamed: 0,industry,date,kapital,title,pdf,content
0,0,건설,20231123,하나증권,해외EPC 3Q23 실발 분석: 한가닥씩 한 수주,1700697075313,3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실적은 ...
1,1,건설,20231122,교보증권,건설/부동산 Weekly,1700610083064,건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반등하던...
2,2,건설,20231121,하나증권,"금리 하락에 상승한 주택주, 추격은 금물",1700525881852,주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%p 아...
3,3,건설,20231120,이베스트증권,건설: 부동산 Weekly Data,1700439602849,이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% YTD...
4,4,건설,20231115,교보증권,건설/부동산 Weekly,1700006327040,건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래절벽 ...


In [None]:
combined_df.columns

Index(['Unnamed: 0', 'industry', 'date', 'kapital', 'title', 'pdf', 'content'], dtype='object')

In [None]:
import pandas as pd

selected_columns = ['industry', 'date', 'title', 'content']
semi_final_df = combined_df[selected_columns]

# 'date' 열을 int에서 datetime 형식으로 변경
semi_final_df['date'] = pd.to_datetime(semi_final_df['date'], format='%Y%m%d')

print("처리된 데이터 프레임:")
print(semi_final_df.head())

처리된 데이터 프레임:
  industry       date                        title  \
0       건설 2023-11-23  해외EPC 3Q23 실발 분석: 한가닥씩 한 수주   
1       건설 2023-11-22                건설/부동산 Weekly   
2       건설 2023-11-21       금리 하락에 상승한 주택주, 추격은 금물   
3       건설 2023-11-20          건설: 부동산 Weekly Data   
4       건설 2023-11-15                건설/부동산 Weekly   

                                             content  
0      3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실적은 ...  
1      건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반등하던...  
2      주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%p 아...  
3      이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% YTD...  
4      건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래절벽 ...  


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  semi_final_df['date'] = pd.to_datetime(semi_final_df['date'], format='%Y%m%d')


In [None]:
semi_final_df.head()

Unnamed: 0,industry,date,title,content
0,건설,2023-11-23,해외EPC 3Q23 실발 분석: 한가닥씩 한 수주,3Q23 실적 분위기: 호조전반적인 글로벌 EPC사의 23년 3분기 실적은 ...
1,건설,2023-11-22,건설/부동산 Weekly,건설/부동산 Weekly News- '집값 2차 조정기 오나'... 반등하던...
2,건설,2023-11-21,"금리 하락에 상승한 주택주, 추격은 금물",주간 투자 전략 및 이슈 점검- 수익률은 건설업이 코스피 대비 1.2%p 아...
3,건설,2023-11-20,건설: 부동산 Weekly Data,이번주 Comment-전국 아파트 매매가격지수는 90.2로 -5.5% YTD...
4,건설,2023-11-15,건설/부동산 Weekly,건설/부동산 Weekly News- 서울 아파트 매물 8만건 쌓여…거래절벽 ...


In [None]:
semi_final_df.to_csv('/content/drive/MyDrive/tobigs_conference/report_crawling/csv_file/semi_final_df.csv', index=False)

In [None]:
# 'title'과 'content'를 합쳐 'title_content' 열 생성
semi_final_df['title_content'] = semi_final_df['title'] + '\n\n' + semi_final_df['content']

# 'title'과 'content' 열 삭제
semi_final2_df = semi_final_df.drop(['title', 'content'], axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  semi_final_df['title_content'] = semi_final_df['title'] + '\n\n' + semi_final_df['content']


In [None]:
semi_final2_df.head()

Unnamed: 0,industry,date,title_content
0,건설,2023-11-23,해외EPC 3Q23 실발 분석: 한가닥씩 한 수주\n\n 3Q23 실적 분위기...
1,건설,2023-11-22,건설/부동산 Weekly\n\n 건설/부동산 Weekly News- '집값 2...
2,건설,2023-11-21,"금리 하락에 상승한 주택주, 추격은 금물\n\n 주간 투자 전략 및 이슈 점검..."
3,건설,2023-11-20,건설: 부동산 Weekly Data\n\n 이번주 Comment-전국 아파트 ...
4,건설,2023-11-15,건설/부동산 Weekly\n\n 건설/부동산 Weekly News- 서울 아파...


총 'industry' 는 42개

In [None]:
semi_final2_df.columns

Index(['industry', 'date', 'title_content'], dtype='object')

In [None]:
# 데이터 프레임 형태 바꿔주기(날짜가 행으로, 각 산업이 열로)
# Pivot table 생성
pivot_df = semi_final2_df.pivot_table(index='date', columns='industry', values='title_content', aggfunc='first')

pivot_df.head()

industry,IT,건설,건자재,게임,광고,교육,금융,기계,기타,담배,...,증권,지주회사,철강금속,타이어,통신,항공운송,해운,홈쇼핑,화장품,휴대폰
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2007-11-12,,,,,,,,,,,...,,,,,,,,,,
2007-11-13,,,,,,,,,,,...,,,,,,,,,,"大觀細察 ? 크게 보면서 세밀하게 살피면 보인다\n\n 노키아의 독주, 국내업..."
2007-12-04,,,,,,,,,,,...,,,,,,,,,,
2007-12-05,,,,,,,,,,,...,,,"최근 세계 철강 시황 점검: 철강-강세, 비철-약세\n\n 철강금속 : 비중확...",,,,,,,
2007-12-18,,,,,,,,,,,...,,,,,,,,,,


In [None]:
pivot_df.to_csv('/content/drive/MyDrive/tobigs_conference/report_crawling/csv_file/pivot_df.csv', index=False)

In [None]:
# 인덱스를 열로 변환하여 날짜를 표시
pivot_df2 = pivot_df.reset_index()

In [None]:
pivot_df2.head()

industry,date,IT,건설,건자재,게임,광고,교육,금융,기계,기타,...,증권,지주회사,철강금속,타이어,통신,항공운송,해운,홈쇼핑,화장품,휴대폰
0,2007-11-12,,,,,,,,,,...,,,,,,,,,,
1,2007-11-13,,,,,,,,,,...,,,,,,,,,,"大觀細察 ? 크게 보면서 세밀하게 살피면 보인다\n\n 노키아의 독주, 국내업..."
2,2007-12-04,,,,,,,,,,...,,,,,,,,,,
3,2007-12-05,,,,,,,,,,...,,,"최근 세계 철강 시황 점검: 철강-강세, 비철-약세\n\n 철강금속 : 비중확...",,,,,,,
4,2007-12-18,,,,,,,,,,...,,,,,,,,,,


In [None]:
pivot_df2.to_csv('/content/drive/MyDrive/tobigs_conference/report_crawling/csv_file/all_set_df.csv', index=False)