사회과학 분야 KCI 2004~2024 영어 초록 보유 논문만 필터링

1. 파일 불러오기

In [2]:
import pandas as pd

# 올바른 파일명으로 수정
df1 = pd.read_excel('KCI_SS_part1.xlsx')
df2 = pd.read_excel('KCI_SS_part2.xlsx')

# 불러온 데이터 미리보기 (앞 3줄)
print(df1.head(3))
print(df2.head(3))


           논문ID 주저자명 공동저자명    주저자소속기관 주저자ORCID  \
0  ART001260669  황규호   양영자    이화여자대학교      NaN   
1  ART001260668  박종국   NaN    강릉원주대학교      NaN   
2  ART001260670  박순경   NaN  한국교육과정평가원      NaN   

                              논문제목  \
0            한국 다문화교육 내용선정의 쟁점과 과제   
1              학교교육과정에 대한 과정철학적 고찰   
2  교육과정 분권화의 출발점과 방향 타진을 위한 시론(始論)   

                                             논문외국어제목  \
0  Issues of Multicultural Education Contents in ...   
1  An Inquiry on the Logic of Process Philosophy ...   
2  A Beginning Discussion on searching for the St...   

                                              논문영어제목   학술지ID    학술지명  ...  \
0  Issues of Multicultural Education Contents in ...  000671  교육과정연구  ...   
1  An Inquiry on the Logic of Process Philosophy ...  000671  교육과정연구  ...   
2  A Beginning Discussion on searching for the St...  000671  교육과정연구  ...   

                                                 키워드 외국어키워드  \
0  다문화교육내용 쟁점(issues in decision-making on the co

2. 컬럼명 통일하기

In [3]:
# df1 컬럼명 통일
df1 = df1.rename(columns={
    '논문ID': '논문ID',
    '발행년도': '발행년도',
    '논문영어제목': '논문영어제목',
    '영어초록': '영어초록'
})

# df2 컬럼명 통일
df2 = df2.rename(columns={
    '논문 ID': '논문ID',
    '발행 연도': '발행년도',
    '논문영어명': '논문영어제목',
    '영어초록': '영어초록'
})


3. 사용하고자 하는 컬럼 추출

In [4]:
df1 = df1[['논문ID', '발행년도', '논문영어제목', '영어초록']]
df2 = df2[['논문ID', '발행년도', '논문영어제목', '영어초록']]


4. 두 파일 병합(concat)

In [5]:
combined = pd.concat([df1, df2], ignore_index=True)


5. 결측치 확인

In [16]:
# 각 컬럼별로 NaN 값(결측값)만 집계합니다.
# 빈 문자열("")이나 공백("   ")은 포함되지 않으므로,
# 예를 들어 '영어초록 없음'을 정확히 파악하려면 다른 조건이 필요.
combined.isnull().sum()


논문ID          0
발행년도          0
논문영어제목     5698
영어초록      18454
dtype: int64

In [17]:
# 영어초록이 결측(NaN)이거나, 문자열이지만 공백("") 또는 빈 문자열("   ")인 경우를 모두 포함하여
# 영어초록이 '실제로 존재하지 않는' 행을 판별합니다.
missing_abstracts = combined['영어초록'].isnull() | (combined['영어초록'].str.strip() == "")

# 위에서 구한 결측 조건에 해당하는 행의 수를 출력합니다.
# 즉, 영어초록이 없는 논문 수입니다.
combined['영어초록'][missing_abstracts].shape[0]

22903

6. 데이터 확인을 위해 CSV 생성

In [8]:
combined.to_csv('SS_combined_papers.csv', index=False, encoding='utf-8-sig')


7. CSV 내용 확인

In [9]:
import pandas as pd

df = pd.read_csv('SS_combined_papers.csv')
df.head(10)  # 상위 10줄 보기


Unnamed: 0,논문ID,발행년도,논문영어제목,영어초록
0,ART001260669,2008,Issues of Multicultural Education Contents in ...,The purpose of this study is to review or prev...
1,ART001260668,2008,An Inquiry on the Logic of Process Philosophy ...,The purpose of this paper is to interpret the ...
2,ART001260670,2008,A Beginning Discussion on searching for the St...,"This study aims first, to retrospect the curri..."
3,ART001260672,2008,A Comparative Study of Korean Elementary Schoo...,The main purpose of this study is to provide s...
4,ART001260667,2008,Hermeneutical Understanding of Mediative Conte...,This study aims to give you hermeneutical unde...
5,ART001260674,2008,The effect of educational backgrounds in high ...,"After the 7th national curricular reforming, t..."
6,ART001260671,2008,Preliminary Development of Knowledge Base of C...,The purpose of this study is to develop prelim...
7,ART001260673,2008,Investigating the Working Definition of Curric...,This study examined the way that the concept o...
8,ART001134097,2004,Characteristics of the 7th Revision of Moral E...,
9,ART001134189,2004,The Investigation on the Criteria for the Anal...,


8. 영어초록 있는 논문만 남기기

In [10]:
filtered = combined[
    combined['영어초록'].notnull() & (combined['영어초록'].str.strip() != '')
]
filtered.to_csv('S_abstract_only.csv', index=False, encoding='utf-8-sig')


In [11]:
print(f"전체 행 수: {len(combined)}")
print(f"영어초록 있는 행 수: {len(filtered)}")


전체 행 수: 534691
영어초록 있는 행 수: 511788


9. 데이터 스키마 확인

In [12]:
import pandas as pd

df = pd.read_csv('S_abstract_only.csv')

# 기본 정보 확인
print(df.shape)
print(df.columns)
df.head()


(511788, 4)
Index(['논문ID', '발행년도', '논문영어제목', '영어초록'], dtype='object')


Unnamed: 0,논문ID,발행년도,논문영어제목,영어초록
0,ART001260669,2008,Issues of Multicultural Education Contents in ...,The purpose of this study is to review or prev...
1,ART001260668,2008,An Inquiry on the Logic of Process Philosophy ...,The purpose of this paper is to interpret the ...
2,ART001260670,2008,A Beginning Discussion on searching for the St...,"This study aims first, to retrospect the curri..."
3,ART001260672,2008,A Comparative Study of Korean Elementary Schoo...,The main purpose of this study is to provide s...
4,ART001260667,2008,Hermeneutical Understanding of Mediative Conte...,This study aims to give you hermeneutical unde...
