In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
# 한글 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'  # Windows
plt.rcParams['axes.unicode_minus'] = False
df2 = pd.read_csv('../Datas/마스킹 없는거.csv')

In [109]:
# 결측치 수 계산
null_counts = df2.isnull().sum()

# 결측치가 있는 컬럼만 필터링
null_counts = null_counts[null_counts > 0]

# 비율 계산 후 DataFrame으로 정리
null_df = pd.DataFrame({
    '컬럼명': null_counts.index,
    '결측치 수': null_counts.values,
    '결측치 비율 (%)': (null_counts.values / len(df2) * 100).round(2)
})

# 보기 좋게 정렬
null_df = null_df.sort_values(by='결측치 수', ascending=False).reset_index(drop=True)

# 출력
null_df

Unnamed: 0,컬럼명,결측치 수,결측치 비율 (%)
0,상장폐지일자,149904,99.94
1,상장일자,144767,96.51
2,총자산순이익률,95366,63.58
3,당기순이익율,94514,63.01
4,주소지시군구,12195,8.13
5,유형자산증가율,11118,7.41
6,유동자산증가율,10764,7.18
7,매입채무회전율,10763,7.18
8,EBITDA증가율,5766,3.84
9,영업이익이자보상배율,79,0.05


- 총자산순이익률 = (당기순이익 / 자산총계) × 100
- 당기순이익률 = (당기순이익 / 매출액) × 100
- 영업이익이자보상배율 = 영업손익 / 이자비용
- 이자보상배율 = EBIT / 이자비용
- 매입채무회전율 = 매출원가 / 매입채무

In [2]:
mask = df2['총자산순이익률'].isnull() & df2['당기순이익'].notnull() & df2['자산총계'].notnull()
df2.loc[mask, '총자산순이익률'] = (
    df2.loc[mask, '당기순이익'] / df2.loc[mask, '자산총계']
) * 100

In [3]:
mask = df2['당기순이익율'].isnull() & df2['당기순이익'].notnull() & df2['매출액'].notnull()
df2.loc[mask, '당기순이익율'] = (
    df2.loc[mask, '당기순이익'] / df2.loc[mask, '매출액']
) * 100

In [4]:
# 영업이익이자보상배율 = 영업손익 / 이자비용
mask = df2['영업이익이자보상배율'].isnull() & df2['영업손익'].notnull() & df2['이자비용'].notnull()
df2.loc[mask, '영업이익이자보상배율'] = df2.loc[mask, '영업손익'] / df2.loc[mask, '이자비용']

# 이자보상배율 = EBIT / 이자비용
mask = df2['이자보상배율'].isnull() & df2['EBIT'].notnull() & df2['이자비용'].notnull()
df2.loc[mask, '이자보상배율'] = df2.loc[mask, 'EBIT'] / df2.loc[mask, '이자비용']

In [5]:
# 매입채무회전율 = 매출원가 / 매입채무
mask = df2['매입채무회전율'].isnull() & df2['매출원가'].notnull() & df2['매입채무'].notnull()
df2.loc[mask, '매입채무회전율'] = df2.loc[mask, '매출원가'] / df2.loc[mask, '매입채무']

In [6]:
# 결측치 비율 큰 컬럼 삭제
df2.drop(columns=['상장폐지일자', '상장일자'], inplace=True)

In [13]:
# 코드 앞글자 기준으로 업종명 매핑
업종_코드맵 = {
    'A': '농업, 임업 및 어업',
    'B': '광업',
    'C': '제조업',
    'D': '전기, 가스, 증기 및 공기 조절 공급업',
    'E': '수도, 하수 및 폐기물 처리, 원료 재생업',
    'F': '건설업',
    'G': '도매 및 소매업',
    'H': '운수 및 창고업',
    'I': '숙박 및 음식점업',
    'J': '정보통신업',
    'K': '금융 및 보험업',
    'L': '부동산업',
    'M': '전문, 과학 및 기술 서비스업',
    'N': '사업시설 관리, 사업 지원 및 임대 서비스업',
    'O': '공공 행정, 국방 및 사회보장 행정',
    'P': '교육 서비스업',
    'Q': '보건업 및 사회복지 서비스업',
    'R': '예술, 스포츠 및 여가관련 서비스업',
    'S': '협회 및 단체, 수리 및 기타 개인 서비스업'
}
df2['업종(대분류)'] = df2['업종(중분류)'].str[0].map(업종_코드맵)

In [8]:
p = pd.read_csv('./한국표준산업분류(11차)표.csv',encoding='cp949')
p

Unnamed: 0,대분류(21),Unnamed: 1,중분류(77),Unnamed: 3
0,코드,항목명,코드,항목명
1,A,"농업, 임업 및 어업(01~03)",01,농업
2,,,,
3,,,,
4,,,,
...,...,...,...,...
1201,T,가구 내 고용활동 및 달리 분류되지 않은 자가 소비 생산활동(97~98),97,가구 내 고용활동
1202,,,98,달리 분류되지 않은 자가 소비를 위한 가구의 재화 및 서비스 생산활동
1203,,,,
1204,U,국제 및 외국기관(99),99,국제 및 외국기관


In [10]:
# 컬럼명 정리
p.columns = ['대분류_코드', '대분류_항목명', '중분류_코드', '중분류_항목명']

# 계층형 구조니까 위에서 아래로 NaN 채움 (대분류 기준)
p['대분류_코드'] = p['대분류_코드'].fillna(method='ffill')
p['대분류_항목명'] = p['대분류_항목명'].fillna(method='ffill')

# 중분류 코드가 있는 행만 추출
p_clean = p[p['중분류_코드'].notna()].copy()

# 중복 제거 (필요 시)
p_clean = p_clean.drop_duplicates(subset=['중분류_코드'])
# 0행 제거
p_clean = p_clean[p_clean['대분류_코드'] != '코드']
# 확인
p_clean.head()

  p['대분류_코드'] = p['대분류_코드'].fillna(method='ffill')
  p['대분류_항목명'] = p['대분류_항목명'].fillna(method='ffill')


Unnamed: 0,대분류_코드,대분류_항목명,중분류_코드,중분류_항목명
1,A,"농업, 임업 및 어업(01~03)",1,농업
22,A,"농업, 임업 및 어업(01~03)",2,임업
27,A,"농업, 임업 및 어업(01~03)",3,어업
34,B,광업(05~08),5,"석탄, 원유 및 천연가스 광업"
36,B,광업(05~08),6,금속 광업


In [15]:
# 1. 대분류코드와 중분류코드 분리
df2['대분류_코드'] = df2['업종(중분류)'].str[0]
df2['중분류_코드'] = df2['업종(중분류)'].str[1:]

# 2. 매핑 테이블 준비
mapping_df = p_clean[['대분류_코드', '중분류_코드', '중분류_항목명']].drop_duplicates()

# 3. 중분류 항목명을 새로 붙이기 (임시 merge)
df2 = df2.merge(mapping_df, how='left', on=['대분류_코드', '중분류_코드'])

# 4. 기존 컬럼을 중분류명으로 교체
df2['업종(중분류)'] = df2['중분류_항목명']

# 5. 임시 컬럼 제거 (선택)
df2 = df2.drop(columns=['중분류_항목명'])
df2.head()

Unnamed: 0,기준년월,가명 식별자,업종(중분류),외감구분,설립일자,종업원수,주소지시군구,유동자산,비유동자산,당좌자산,...,기준년월 시점 공공정보 (한국신용정보원) 5년내 발생건수,기준년월 시점 공공정보 (한국신용정보원) 발생건수(해제 제외),기준년월 시점 공공정보 (한국신용정보원) 5년내 발생건수.1,기준년월 시점 신용도판단정보 및 공공정보 (한국신용정보원) 최근 발생일자로 부터 경과일수(해제 포함),기준년월 시점 신용도판단정보 및 공공정보 (한국신용정보원) 최근 해제일자로 부터 경과일수,10구간으로 구분(1~10. 1등급일수록 우량),"기준일로부터 향후 1년내 부도, 기업회생, 90일이상 금융연체, 대지급 등 발생여부(신용정보원 기준). 1: 향후1년내 부도발생, 0: 향후1년내 부도미발생",업종(대분류),대분류_코드,중분류_코드
0,20210801,125539,"전기, 가스, 증기 및 공기 조절 공급업",1,19610624,23534,11680.0,18824052701,219366858158,18411820858,...,0,0,0,999999999,999999999,4,0,"전기, 가스, 증기 및 공기 조절 공급업",D,35
1,20210801,13475,"전기, 가스, 증기 및 공기 조절 공급업",1,19610816,23904,11680.0,18567715519,202170306831,18171434000,...,0,0,0,999999999,999999999,4,0,"전기, 가스, 증기 및 공기 조절 공급업",D,35
2,20210801,149275,자동차 및 트레일러 제조업,1,19660923,72689,11650.0,47263779547,109085622838,41300322000,...,0,0,0,999999999,999999999,2,0,제조업,C,30
3,20210801,21529,"전기, 가스, 증기 및 공기 조절 공급업",1,20010730,12716,47130.0,14976938599,112647498908,4259050008,...,0,0,0,999999999,999999999,4,0,"전기, 가스, 증기 및 공기 조절 공급업",D,35
4,20210801,9787,1차 금속 제조업,1,19670919,220,,49980255825,76596628187,34998948097,...,0,0,0,999999999,999999999,2,0,제조업,C,24


In [17]:
sido_map = {
    11: '서울', 26: '부산', 27: '대구', 28: '인천', 29: '광주', 30: '대전', 31: '울산',
    36: '세종', 41: '경기', 42: '강원', 43: '충북', 44: '충남', 45: '전북',
    46: '전남', 47: '경북', 48: '경남', 50: '제주'
}

# ① 주소지시군구가 null이 아닌 것만 사용
df2 = df2[df2['주소지시군구'].notnull()]

# ② 앞 2자리만 추출하고 숫자형으로 변환 (오류 발생 시 NaN 처리)
df2['시도코드'] = df2['주소지시군구'].astype(str).str[:2]
df2['시도코드'] = pd.to_numeric(df2['시도코드'], errors='coerce')  # <- 핵심!

# ③ 매핑 (숫자가 아니거나 범위 밖이면 NaN 됨)
df2['시도명'] = df2['시도코드'].map(sido_map)

# ④ 시도명 결측치 제거 (매핑 실패한 값들 제거)
df2 = df2[df2['시도명'].notnull()]

# ⑤ 정리
# df2.drop(columns=['주소지시군구', '시도코드'], inplace=True)

In [18]:
df2.reset_index(drop=True, inplace=True)

In [20]:
# 결측치 수 계산
null_counts = df2.isnull().sum()

# 결측치가 있는 컬럼만 필터링
null_counts = null_counts[null_counts > 0]

# 비율 계산 후 DataFrame으로 정리
null_df = pd.DataFrame({
    '컬럼명': null_counts.index,
    '결측치 수': null_counts.values,
    '결측치 비율 (%)': (null_counts.values / len(df2) * 100).round(2)
})

# 보기 좋게 정렬
null_df = null_df.sort_values(by='결측치 수', ascending=False).reset_index(drop=True)

# 출력
null_df

Unnamed: 0,컬럼명,결측치 수,결측치 비율 (%)
0,유형자산증가율,9784,7.26
1,유동자산증가율,9467,7.02
2,EBITDA증가율,5230,3.88
3,매입채무회전율,1109,0.82
4,업종(중분류),19,0.01
5,업종(대분류),19,0.01
6,대분류_코드,19,0.01
7,중분류_코드,19,0.01
8,영업이익이자보상배율,1,0.0


결측치 비율이 낮기 때문에 결측치 삭제 - 모델을 돌리려면 결측값이 없어야함. 정확힌 수치가 중요하기 때문에 지우기

In [21]:
print("Before:", df2.shape)
df2.dropna(inplace=True)
print("After:", df2.shape)

Before: (134797, 163)
After: (124989, 163)


In [22]:
df_code = pd.read_csv('법정동코드 전체자료.txt', encoding='cp949', sep='\t')
df_code['법정동코드'] = df_code['법정동코드'].astype('str')
df_code

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
49854,5280042024,전북특별자치도 부안군 위도면 대리,존재
49855,5280042025,전북특별자치도 부안군 위도면 거륜리,존재
49856,5280042026,전북특별자치도 부안군 위도면 식도리,존재
49857,5280042027,전북특별자치도 부안군 위도면 상왕등리,존재


In [23]:
# 1. 주소지시군구 전처리: 문자열 + 소수점 제거 + zero-padding
df2['주소지시군구'] = df2['주소지시군구'].astype(str).str.replace('.0', '', regex=False).str.zfill(5)

# 2. 시도코드, 시군구코드 분리
df2['시도코드'] = df2['주소지시군구'].str[:2]
df2['시군구코드'] = df2['주소지시군구'].str[2:]

# 3. 법정동코드 기준 시도/시군구 코드 분리
df_code['시도코드'] = df_code['법정동코드'].str[:2]
df_code['시군구코드'] = df_code['법정동코드'].str[2:5]

# 4. 법정동명에서 시군구명 추출 (두 번째 단어)
df_code['시군구명'] = df_code['법정동명'].str.split().str[1]

# 5. 시도+시군구코드 기준으로 중복 제거 (가장 대표적인 시군구명만)
df_sgg_map = df_code[['시도코드', '시군구코드', '시군구명']].drop_duplicates(subset=['시도코드', '시군구코드'])

# 6. 병합 (Left Join, 행 증가 방지)
df2 = df2.merge(df_sgg_map, on=['시도코드', '시군구코드'], how='left')

# 7. 세종시 예외 처리 (시군구가 없어서 NaN인 경우)
df2.loc[(df2['시도코드'] == '36') & (df2['시군구명'].isnull()), '시군구명'] = '없음'

In [50]:
# 1. 시도-시군구 조합 유니크하게 추출
check_df = df2[['시도명', '시군구명']].drop_duplicates()

# 2. 시도별 시군구명 개수 확인 (간단 시각 확인)
check_counts = check_df.groupby('시도명')['시군구명'].count().sort_values(ascending=False)
print(check_counts)

시도명
경기    31
서울    25
경북    23
전남    22
경남    18
부산    16
충남    15
전북    14
충북    11
인천    10
대구     8
광주     5
대전     5
울산     5
제주     2
세종     1
Name: 시군구명, dtype: int64


Unnamed: 0,시도명,시군구명
287,세종,없음


In [27]:
import pandas as pd

# 메모리 절약을 위해 필요한 열만 선택해서 불러오기
# 사용자가 정리 요청한 주요 컬럼만 우선 불러오기
usecols = [
    '기준년월', '가명 식별자', '시도명','시군구명', '업종(대분류)', '업종(중분류)',
    '현금', '현금흐름', '영업활동현금흐름', '재무활동현금흐름',
    '유동자산', '비유동자산', '자산총계', '자산총계(전기)',
    '유동부채', '단기차입금', '부채총계', '자기자본(납입자본금)', '이익잉여금',
    'EBIT', 'EBITDA', '영업손익', '당기순이익', '이자비용',
    '부채비율', '유동비율', '이자보상배율', '차입금/EBITDA', 'EBITDA/금융비용',
    '매출액', '전기매출액', '영업이익증가율', '당기순이익증가율', 'EBITDA증가율',
    '매출액증가율', '총자산증가율', '유동자산증가율', '유형자산증가율',
    '자기자본이익률(ROE)', '총자산순이익률', '매출총이익율', '영업이익율', '당기순이익율',
    '기준년월 시점 대출연체 과목수',
    '기준년월 시점 3개월내 대출연체 유지 과목수(연체대출금 상환 포함)',
    '기준년월 시점 6개월내 대출연체 유지 과목수(연체대출금 상환 포함)',
    '기준년월 시점 1년내 대출연체 유지 과목수(연체대출금 상환 포함)',
    '기준년월 시점 3년내 대출연체 유지 과목수(연체대출금 상환 포함)',
    '기준년월 시점 연체일수가 30일 이상 된 대출연체 유지 과목수(연체대출금 상환 포함)',
    '기준년월 시점 공공정보 (한국신용정보원) 유지건수(해제 제외)',
    '기준년월 시점 신용도판단정보 및 공공정보 (한국신용정보원) 발생건수(해제 제외)',
    '기준년월 시점 신용도판단정보 및 공공정보 (한국신용정보원) 최근 해제일자로 부터 경과일수',
    '기준일로부터 향후 1년내 부도, 기업회생, 90일이상 금융연체, 대지급 등 발생여부(신용정보원 기준). 1: 향후1년내 부도발생, 0: 향후1년내 부도미발생'
]

In [28]:
df2.to_csv('결측치제거_165.csv', index=False, encoding='cp949')

df_all = pd.read_csv("결측치제거_165.csv", encoding="cp949")
print("전체:", df_all.shape)

df_reduced = pd.read_csv("결측치제거_165.csv", usecols=usecols, encoding="cp949")
print("선택된 열만:", df_reduced.shape)

df_reduced.to_csv('결측치제거_53.csv',index=False, encoding='cp949')

전체: (124989, 165)
선택된 열만: (124989, 52)
