In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
import pandas as pd
import os

In [3]:
# Google Drive에 마운트된 경로 설정
drive_path = '/content/drive/MyDrive/관세청공모전/크롤링데이터'  # 실제 경로로 변경

In [6]:
# CSV 파일 목록 불러오기
csv_files = [f for f in os.listdir(drive_path) if f.endswith('.csv')]

In [7]:
csv_files

['naver_news_중국직구.csv',
 'naver_news_중국이커머스.csv',
 'naver_news_알테쉬.csv',
 'naver_news_중국이커머스_2500.csv',
 'naver_news_중국이커머스_3000.csv',
 'naver_news_중국직구_2500.csv',
 'naver_news_중국직구_3000.csv']

In [11]:
# 각 CSV 파일의 데이터 개수 확인
for file in csv_files:
    file_path = os.path.join(drive_path, file)
    df = pd.read_csv(file_path)
    print(f'{file} contains {len(df)} rows')

naver_news_중국직구.csv contains 2000 rows
naver_news_중국이커머스.csv contains 2000 rows
naver_news_알테쉬.csv contains 764 rows
naver_news_중국이커머스_2500.csv contains 2500 rows
naver_news_중국이커머스_3000.csv contains 3000 rows
naver_news_중국직구_2500.csv contains 2500 rows
naver_news_중국직구_3000.csv contains 3000 rows


In [8]:
# 빈 데이터프레임 생성
combined_df = pd.DataFrame()

In [9]:
# 모든 CSV 파일 합치기
for file in csv_files:
    file_path = os.path.join(drive_path, file)
    df = pd.read_csv(file_path)
    combined_df = pd.concat([combined_df, df], ignore_index=True)

In [10]:
combined_df

Unnamed: 0,제목,링크
0,"""KC인증이 능사 아냐…계속 모니터링 해야""[中직구 안전성 논란④]",https://www.newsis.com/view/?id=NISX20240531_0...
1,"중국 직구, 싸다고 덥석 구매하면 생명 위험!",https://www.sisamagazine.co.kr/news/articleVie...
2,[출근길 인터뷰] '발암물질 범벅' 해외 직구 상품…서울시 대책은?,http://www.yonhapnewstv.co.kr/MYH2024060300460...
3,"'직구 금지' 철회한 정부, 유해물품 안전성 검증할 방법은",https://www.moneys.co.kr/article/2024053117523...
4,[테크왔숑] 늘어나는 해외직구에 신용카드 해킹 피해 급증···VPN으로 이중...,https://www.cnet.co.kr/view/?no=20240603113543
...,...,...
15759,"여객이 밀고 화물이 끌었다, 항공업계 1분기 실적 고공행진",https://www.joongang.co.kr/article/25247993
15760,장흥-중국 웨이하이 종합보세구 50만불 수출협약,http://www.namdonews.com/news/articleView.html...
15761,원화값 폭락에 파리 날리는 면세점들…직구족 소비 패턴 변화,https://thepublic.kr/news/view/1065591460469985
15762,"티몬, 17일까지 ‘메가직구위크’…최대 60%할인",http://www.edaily.co.kr/news/newspath.asp?news...


In [None]:
# # 합쳐진 데이터프레임 저장
# combined_csv_path = os.path.join(drive_path, 'combined_data.csv')
# combined_df.to_csv(combined_csv_path, index=False)

# print(f'Combined CSV saved to {combined_csv_path}')

In [14]:
# 중복된 기사 찾기(제목으로)
duplicate_titles = combined_df[combined_df.duplicated('제목', keep=False)]

In [21]:
print(len(duplicate_titles['제목'].unique()))

3998


In [20]:
# 중복된 기사 제목별 개수 세기
duplicate_title_counts = duplicate_titles['제목'].value_counts()
print(duplicate_title_counts)

제목
지난해 온라인쇼핑액 ‘역대 최대’…직구시장선 중국이 1위                17
中 직구 급증하자…정부, 알리·테무 등 ‘국내 대리인’ 지정 의무화          17
[단독] 검증없이 中서 3조 직구… 韓시장 흩트리는 생태교란종             17
작년 온라인쇼핑 227조 '역대 최대'…중국 직구 121% 늘어            17
[만파식적] 저공경제                                    16
                                               ..
"결혼 10년 만에 부부싸움했다"…'5월 불화' 키우는 고물가              2
中 알리바바그룹 타오바오ㆍ티몰, 한국 통합법인 등기                    2
인크로스, 中 이커머스 진출 신규 고객사 대상 ‘실크로드’ 프로모션 실시        2
월드케이팝센터·별똥별스타도네이션, 유니(상해)네트웍스와 중국 K팝 문화발...     2
아이폰14 어떻게 싸게 사나...해외직구? 신혼여행 친구에 부탁?            2
Name: count, Length: 3998, dtype: int64


In [15]:
duplicate_links = combined_df[combined_df.duplicated('링크', keep=False)]

In [16]:
print(f"Total rows: {len(combined_df)}")
print(f"Duplicate titles: {len(duplicate_titles)}")
print(f"Duplicate links: {len(duplicate_links)}")# 중복된 기사 링크 찾기

Total rows: 15764
Duplicate titles: 14840
Duplicate links: 14808


In [23]:
# 제목과 링크가 모두 같은 중복된 데이터 찾기
duplicate_mask = combined_df.duplicated(['제목', '링크'], keep=False)
duplicate_rows = combined_df[duplicate_mask]

# 중복된 제목과 링크가 있는 데이터 중 하나씩만 남기기
unique_duplicates = duplicate_rows.drop_duplicates(subset=['제목', '링크'])

# 중복된 데이터 출력
print("Unique duplicate rows (both 제목 and 링크):")
print(unique_duplicates)


Unique duplicate rows (both 제목 and 링크):
                                                  제목  \
0              "KC인증이 능사 아냐…계속 모니터링 해야"[中직구 안전성 논란④]   
1                          중국 직구, 싸다고 덥석 구매하면 생명 위험!   
2              [출근길 인터뷰] '발암물질 범벅' 해외 직구 상품…서울시 대책은?   
3                   '직구 금지' 철회한 정부, 유해물품 안전성 검증할 방법은   
4      [테크왔숑] 늘어나는 해외직구에 신용카드 해킹 피해 급증···VPN으로 이중...   
...                                              ...   
15732              해외직구 사이트에 칼 빼든 정부…'국내 대리인 지정' 의무화   
15733                             비싼 물가에 너도나도 '해외직구'   
15742                  NHN커머스, 중국 쇼핑 플랫폼 `키타오`와 업무협약   
15752            中 알리·테무에 칼 빼든 정부…현장조사에 해외직구 TF까지 구성   
15753           아이폰14 어떻게 싸게 사나...해외직구? 신혼여행 친구에 부탁?   

                                                      링크  
0      https://www.newsis.com/view/?id=NISX20240531_0...  
1      https://www.sisamagazine.co.kr/news/articleVie...  
2      http://www.yonhapnewstv.co.kr/MYH2024060300460...  
3      https://www.moneys.co.kr/article/20240531175

In [26]:
print(duplicate_rows)

                                                  제목  \
0              "KC인증이 능사 아냐…계속 모니터링 해야"[中직구 안전성 논란④]   
1                          중국 직구, 싸다고 덥석 구매하면 생명 위험!   
2              [출근길 인터뷰] '발암물질 범벅' 해외 직구 상품…서울시 대책은?   
3                   '직구 금지' 철회한 정부, 유해물품 안전성 검증할 방법은   
4      [테크왔숑] 늘어나는 해외직구에 신용카드 해킹 피해 급증···VPN으로 이중...   
...                                              ...   
15750         발암물질·짝퉁 쏟아져도 "중국 거잖아"…우습게 보다가 '피해 눈덩이'   
15752            中 알리·테무에 칼 빼든 정부…현장조사에 해외직구 TF까지 구성   
15753           아이폰14 어떻게 싸게 사나...해외직구? 신혼여행 친구에 부탁?   
15754            中 알리·테무에 칼 빼든 정부…현장조사에 해외직구 TF까지 구성   
15755           아이폰14 어떻게 싸게 사나...해외직구? 신혼여행 친구에 부탁?   

                                                      링크  
0      https://www.newsis.com/view/?id=NISX20240531_0...  
1      https://www.sisamagazine.co.kr/news/articleVie...  
2      http://www.yonhapnewstv.co.kr/MYH2024060300460...  
3      https://www.moneys.co.kr/article/2024053117523...  
4         https://www.cnet.co.kr

In [24]:
# 중복된 행 삭제 (첫 번째 나타난 행은 유지)
df_unique = combined_df.drop_duplicates(subset=['제목', '링크'], keep='first')

In [25]:
df_unique

Unnamed: 0,제목,링크
0,"""KC인증이 능사 아냐…계속 모니터링 해야""[中직구 안전성 논란④]",https://www.newsis.com/view/?id=NISX20240531_0...
1,"중국 직구, 싸다고 덥석 구매하면 생명 위험!",https://www.sisamagazine.co.kr/news/articleVie...
2,[출근길 인터뷰] '발암물질 범벅' 해외 직구 상품…서울시 대책은?,http://www.yonhapnewstv.co.kr/MYH2024060300460...
3,"'직구 금지' 철회한 정부, 유해물품 안전성 검증할 방법은",https://www.moneys.co.kr/article/2024053117523...
4,[테크왔숑] 늘어나는 해외직구에 신용카드 해킹 피해 급증···VPN으로 이중...,https://www.cnet.co.kr/view/?no=20240603113543
...,...,...
15759,"여객이 밀고 화물이 끌었다, 항공업계 1분기 실적 고공행진",https://www.joongang.co.kr/article/25247993
15760,장흥-중국 웨이하이 종합보세구 50만불 수출협약,http://www.namdonews.com/news/articleView.html...
15761,원화값 폭락에 파리 날리는 면세점들…직구족 소비 패턴 변화,https://thepublic.kr/news/view/1065591460469985
15762,"티몬, 17일까지 ‘메가직구위크’…최대 60%할인",http://www.edaily.co.kr/news/newspath.asp?news...


In [27]:
# 중복 제거 후 데이터프레임 저장
cleaned_csv_path = os.path.join(drive_path, '크롤링_중국직구_이커머스_알테쉬.csv')
df_unique.to_csv(cleaned_csv_path, index=False)

In [28]:
df=pd.read_csv('/content/drive/MyDrive/관세청공모전/크롤링데이터/크롤링_중국직구_이커머스_알테쉬.csv')

In [29]:

# 제목과 링크가 모두 같은 중복된 데이터 찾기
duplicate_mask = df.duplicated(['제목', '링크'], keep=False)
duplicate_rows = df[duplicate_mask]

# 중복된 데이터가 있는지 확인하고 출력
if not duplicate_rows.empty:
    print("Duplicate rows found:")
    print(duplicate_rows)
else:
    print("No duplicate rows found.")

No duplicate rows found.
