## 재무상태표 전처리

In [187]:
import pandas as pd
import requests
import numpy as np
from bs4 import BeautifulSoup

In [188]:
pd.set_option('display.max_rows', 1000)
pd.set_option('display.min_rows', 50)
pd.set_option("display.float_format", "{:,.0f}".format)

In [347]:
df = pd.read_csv('./data/2019_사업보고서_01_재무상태표_20250820.txt', sep='\t',  encoding ='cp949')

In [348]:
df.drop(['재무제표종류', '종목코드', '시장구분', '업종', '업종명', '결산월', '결산기준일', '보고서종류', '항목코드', 'Unnamed: 15'], axis = 1, inplace = True)
df

Unnamed: 0,회사명,통화,항목명,당기,전기,전전기
0,3S,KRW,자산 [abstract],,,
1,3S,KRW,유동자산,16139731967,11154571860,15356468069
2,3S,KRW,현금및현금성자산,6709567383,2264962364,1853409725
3,3S,KRW,단기금융상품,58024050,866906654,1458454774
4,3S,KRW,매출채권 및 기타채권,5259536143,3515384434,7038565582
5,3S,KRW,미청구공사,0,2716366684,1970459029
6,3S,KRW,재고자산,1529764779,1470634156,1699768011
7,3S,KRW,선급공사원가,2072778102,0,0
8,3S,KRW,당기법인세자산,2122044,4430210,5280180
9,3S,KRW,기타유동자산,507939466,315887358,1225651008


In [349]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95518 entries, 0 to 95517
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   회사명     95518 non-null  object
 1   통화      95518 non-null  object
 2   항목명     95518 non-null  object
 3   당기      85084 non-null  object
 4   전기      82372 non-null  object
 5   전전기     80934 non-null  object
dtypes: object(6)
memory usage: 4.4+ MB


In [350]:
import pandas as pd

df = df.copy()

# 1) 항목명 공백 제거
df["항목명"] = df["항목명"].str.strip().str.replace(" ", "")

# 2) 핵심 계정 정의
core_accounts = {
    "자산총계": "자산총계",
    "유동자산": "유동자산",
    "비유동자산": "비유동자산",
    "부채총계": "부채총계",
    "유동부채": "유동부채",
    "비유동부채": "비유동부채",
    "자본총계": "자본총계"
}

# 3) 유사 명칭을 핵심 계정으로 매핑
similar_map = {
    "자본과부채총계": "자산총계",
    "부채및자본총계": "자산총계",
    "기타유동부채": "유동부채",
    "기타비유동부채": "비유동부채",
    "유동채무": "유동부채",
    "비유동채무": "비유동부채"
}

df["항목명_정규화"] = df["항목명"].replace(similar_map)
df["항목명_정규화"] = df["항목명_정규화"].map(core_accounts).fillna(df["항목명_정규화"])

# 4) 최상위 핵심 계정만 남기기
df = df[df["항목명_정규화"].isin(core_accounts.values())]

# 5) 숫자형 변환
for col in ["당기", "전기", "전전기"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(",", "").str.strip(), errors="coerce")

# 6) 동일 회사·통화별 단일 재무제표 요약 (결산기준일이 없으므로 '당기 반기말' 기준으로 피벗)
df_summary = df.pivot_table(
    index=["회사명", "통화"],
    columns="항목명_정규화",
    values="당기",
    aggfunc="first"
).reset_index()


In [351]:
df_summary

항목명_정규화,회사명,통화,부채총계,비유동부채,비유동자산,유동부채,유동자산,자본총계,자산총계
0,3S,KRW,18010061233,1736120970,34923747600,16273940263,16139731967,33053418334,51063479567
1,AJ네트웍스,KRW,921116846324,405811872080,957681241619,515304974244,273884243596,310448638891,1231565485215
2,AK홀딩스,KRW,93652273828,262059981,605336146667,93390213847,6195148908,517879021747,611531295575
3,APS홀딩스,KRW,32124646644,24451453845,208631611785,7673192799,33462621949,209969587090,242094233734
4,AP시스템,KRW,305989882799,20019038006,170092851900,285970844793,249272776666,113375745767,419365628566
5,AP위성,KRW,20383419070,857858469,15705722104,19525560601,86937090895,82259393929,102642812999
6,BGF,KRW,38517539751,31007579663,1240502336813,7509960088,248134719491,1450119516553,1488637056304
7,BGF리테일,KRW,1520608902595,585873796763,1391683999534,934735105832,722518246616,593593343555,2114202246150
8,BYC,KRW,250288957473,150147203053,562064007295,100141754420,115474536932,427249586754,677538544227
9,CJ,KRW,196387991000,104178290000,2900422114000,92209701000,79889999000,2783924122000,2980312113000


In [352]:
df_summary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2105 entries, 0 to 2104
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   회사명     2105 non-null   object 
 1   통화      2105 non-null   object 
 2   부채총계    2105 non-null   float64
 3   비유동부채   2075 non-null   float64
 4   비유동자산   2074 non-null   float64
 5   유동부채    2094 non-null   float64
 6   유동자산    2079 non-null   float64
 7   자본총계    2088 non-null   float64
 8   자산총계    2105 non-null   float64
dtypes: float64(7), object(2)
memory usage: 148.1+ KB


In [353]:
df_summary.to_csv('./data/data_clean/2019_연간보고서_상태표전처리.txt', sep='\t',  encoding ='cp949')

## 손익계산서 전처리

In [354]:
df = pd.read_csv('./data/2019_사업보고서_02_손익계산서_20250820.txt', sep='\t',  encoding ='cp949')

In [355]:
# df.drop(['재무제표종류', '종목코드', '시장구분', '업종', '업종명', '결산월', '결산기준일', '보고서종류', '항목코드', 'Unnamed: 15'], axis = 1, inplace = True)
df

Unnamed: 0,재무제표종류,종목코드,회사명,시장구분,업종,업종명,결산월,결산기준일,보고서종류,통화,항목코드,항목명,Unnamed: 12,당기,Unnamed: 14,Unnamed: 15,전기,전전기,Unnamed: 18
0,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,entity00148540_udf_IS_201887161426930_IncomeSt...,영업수익,,181742606000,,,169945417000,158273587000,
1,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,dart_TotalSellingGeneralAdministrativeExpenses,판매비와관리비,,107006676000,,,90982307000,89732389000,
2,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,dart_OperatingIncomeLoss,영업이익,,74735930000,,,78963110000,68541198000,
3,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,dart_OtherGains,기타영업외수익,,-468945000,,,-54615930000,839634000,
4,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_FinanceIncome,금융수익,,5013004000,,,20400895000,664569000,
5,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_FinanceCosts,금융비용,,11600895000,,,4319173000,2979583000,
6,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_ProfitLossBeforeTax,법인세비용차감전순이익,,67679094000,,,40428902000,67065818000,
7,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_IncomeTaxExpenseContinuingOperations,법인세비용,,4397201000,,,4283855000,8039628000,
8,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_ProfitLoss,당기순이익,,63281893000,,,36145047000,59026190000,
9,"손익계산서, 기능별 분류 - 별도재무제표",[001040],CJ,유가증권시장상장법인,649,기타 금융업,12,2019-12-31,사업보고서,KRW,ifrs-full_EarningsPerShareAbstract,주당순이익,,,,,,,


In [356]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3627 entries, 0 to 3626
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   재무제표종류       3627 non-null   object 
 1   종목코드         3627 non-null   object 
 2   회사명          3627 non-null   object 
 3   시장구분         3627 non-null   object 
 4   업종           3627 non-null   int64  
 5   업종명          3627 non-null   object 
 6   결산월          3627 non-null   int64  
 7   결산기준일        3627 non-null   object 
 8   보고서종류        3627 non-null   object 
 9   통화           3627 non-null   object 
 10  항목코드         3627 non-null   object 
 11  항목명          3627 non-null   object 
 12  Unnamed: 12  0 non-null      float64
 13  당기           3357 non-null   object 
 14  Unnamed: 14  0 non-null      float64
 15  Unnamed: 15  0 non-null      float64
 16  전기           3320 non-null   object 
 17  전전기          3212 non-null   object 
 18  Unnamed: 18  0 non-null      float64
dtypes: flo

In [357]:
# # 반기용
# import pandas as pd

# df = df.copy()

# # 1) 공백 제거
# df["항목명"] = df["항목명"].str.strip().str.replace(" ", "")

# # 2) 핵심 계정
# pl_core = {
#     "매출액": "매출액",
#     "매출원가": "매출원가",
#     "영업이익": "영업이익",
#     "법인세비용차감전순이익": "법인세비용차감전순이익",
#     "법인세비용": "법인세비용",
#     "당기순이익": "당기순이익",
#     "총포괄손익": "총포괄손익"
# }

# # 3) 유사 명칭 매핑
# pl_similar = {
#     "영업손익": "영업이익",
#     "세전이익": "법인세비용차감전순이익",
#     "계속사업이익": "당기순이익",
#     "당기총포괄손익": "총포괄손익",
#     "분기순이익": "당기순이익",
#     "반기순이익": "당기순이익",
#     "영업수익": "매출액",
#     "수익": "매출액"
# }

# df["항목명_정규화"] = df["항목명"].replace(pl_similar)
# df["항목명_정규화"] = df["항목명_정규화"].map(pl_core).fillna(df["항목명_정규화"])

# # 4) 핵심 항목만 필터링
# df = df[df["항목명_정규화"].isin(pl_core.values())]

# # 🔥 기간 컬럼 자동 인식 (KeyError 방지)
# col_current_cum = [c for c in df.columns if "당기" in c and "누적" in c][0]

# # 5) 숫자 변환
# df[col_current_cum] = pd.to_numeric(
#     df[col_current_cum].astype(str).str.replace(",", "").str.strip(),
#     errors="coerce"
# )

# # 6) 요약 pivot → 손익계산서 요약
# df_pl_summary = df.pivot_table(
#     index=["회사명", "통화", "결산기준일"],
#     columns="항목명_정규화",
#     values=col_current_cum,
#     aggfunc="first"
# ).reset_index()


In [358]:
# 연간용
import pandas as pd

df = df.copy()

# 0) 불필요 Unnamed 제거
df = df.loc[:, ~df.columns.str.contains("Unnamed")]

# 1) 공백 제거
df["항목명"] = df["항목명"].str.strip().str.replace(" ", "", regex=False)

# 2) 핵심 계정
pl_core = {
    "매출액": "매출액",
    "매출원가": "매출원가",
    "영업이익": "영업이익",
    "법인세비용차감전순이익": "법인세비용차감전순이익",
    "법인세비용": "법인세비용",
    "당기순이익": "당기순이익",
    "총포괄손익": "총포괄손익"
}

# 3) 유사 계정 매핑
pl_similar = {
    "영업손익": "영업이익",
    "세전이익": "법인세비용차감전순이익",
    "계속사업이익": "당기순이익",
    "당기총포괄손익": "총포괄손익",
    "분기순이익": "당기순이익",
    "반기순이익": "당기순이익",
    "영업수익": "매출액",
    "수익": "매출액"
}

df["항목명_정규화"] = df["항목명"].replace(pl_similar)
df["항목명_정규화"] = df["항목명_정규화"].map(pl_core).fillna(df["항목명_정규화"])

# 4) 핵심 항목만 남기기
df = df[df["항목명_정규화"].isin(pl_core.values())]

# 5) 당기 데이터 컬럼 자동 탐색 (2024 형식 대응)
col_current = [c for c in df.columns if c.startswith("당기")][0]

# 6) 숫자 변환
df[col_current] = pd.to_numeric(
    df[col_current].astype(str).str.replace(",", "").str.strip(),
    errors="coerce"
)

# 7) Pivot 요약
df_pl_summary = df.pivot_table(
    index=["회사명", "통화", "결산기준일"],
    columns="항목명_정규화",
    values=col_current,
    aggfunc="first"
).reset_index()

# 8) 🔥 칼럼 순서 고정 — 반기 보고서 형식에 맞추기
ordered_cols = [
    "회사명", "통화", "결산기준일",
    "당기순이익", "매출액", "매출원가", "법인세비용", 
    "법인세비용차감전순이익", "영업이익", "총포괄손익"
]

for col in ordered_cols:
    if col not in df_pl_summary.columns:
        df_pl_summary[col] = None

df_pl_summary = df_pl_summary[ordered_cols]


In [359]:
df_pl_summary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198 entries, 0 to 197
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   회사명          198 non-null    object 
 1   통화           198 non-null    object 
 2   결산기준일        198 non-null    object 
 3   당기순이익        44 non-null     float64
 4   매출액          125 non-null    float64
 5   매출원가         169 non-null    float64
 6   법인세비용        165 non-null    float64
 7   법인세비용차감전순이익  50 non-null     float64
 8   영업이익         59 non-null     float64
 9   총포괄손익        0 non-null      object 
dtypes: float64(6), object(4)
memory usage: 15.6+ KB


In [360]:
df_pl_summary.to_csv('./data/data_clean/2019_연간보고서_손익계산서전처리.txt', sep='\t',  encoding ='cp949')

## 포괄 손익계산서 전처리

In [361]:
df = pd.read_csv('./data/2019_사업보고서_03_포괄손익계산서_20250820.txt', sep='\t',  encoding ='cp949')

In [362]:
df

Unnamed: 0,재무제표종류,종목코드,회사명,시장구분,업종,업종명,결산월,결산기준일,보고서종류,통화,항목코드,항목명,Unnamed: 12,당기,Unnamed: 14,Unnamed: 15,전기,전전기,Unnamed: 18
0,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_Revenue,매출액,,31950585373,,,29680987347,24416495270,
1,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_CostOfSales,매출원가,,27347798920,,,26845900915,22815135509,
2,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_GrossProfit,매출총이익,,4602786453,,,2835086432,1601359761,
3,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_TotalSellingGeneralAdministrativeExpenses,판매비와관리비,,3072344927,,,2561303165,4105968430,
4,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,entity00378363_udf_IS_20196261949235_TotalSell...,판매비,,774660781,,,615575295,1310305651,
5,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,entity00378363_udf_IS_201962619492513_TotalSel...,관리비,,2297684146,,,1945727870,2795662779,
6,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_OperatingIncomeLoss,영업이익,,1530441526,,,273783267,-2504608669,
7,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_FinanceIncome,금융수익,,32802859,,,24762203,32595073,
8,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_FinanceCosts,금융비용,,780283868,,,1133407834,1064379944,
9,"포괄손익계산서, 기능별 분류(세후기타포괄손익) - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_OtherGains,기타영업외이익,,701471110,,,357571571,379227317,


In [363]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47552 entries, 0 to 47551
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   재무제표종류       47552 non-null  object 
 1   종목코드         47552 non-null  object 
 2   회사명          47552 non-null  object 
 3   시장구분         47552 non-null  object 
 4   업종           47552 non-null  int64  
 5   업종명          47552 non-null  object 
 6   결산월          47552 non-null  int64  
 7   결산기준일        47552 non-null  object 
 8   보고서종류        47552 non-null  object 
 9   통화           47552 non-null  object 
 10  항목코드         47552 non-null  object 
 11  항목명          47552 non-null  object 
 12  Unnamed: 12  0 non-null      float64
 13  당기           43081 non-null  object 
 14  Unnamed: 14  0 non-null      float64
 15  Unnamed: 15  0 non-null      float64
 16  전기           43058 non-null  object 
 17  전전기          42336 non-null  object 
 18  Unnamed: 18  0 non-null      float64
dtypes: f

In [364]:
# # 반기용
# import pandas as pd

# df = df.copy()

# # 1) 항목명 공백 제거
# df["항목명"] = df["항목명"].str.strip().str.replace(" ", "")

# # 2) 핵심 표준 항목
# ci_core = {
#     "매출액": "매출액",
#     "매출원가": "매출원가",
#     "영업이익": "영업이익",
#     "법인세비용차감전순이익": "법인세비용차감전순이익",
#     "법인세비용": "법인세비용",
#     "당기순이익": "당기순이익",
#     "기타포괄손익": "기타포괄손익",
#     "총포괄손익": "총포괄손익"
# }

# # 3) 유사계정 통일
# ci_similar = {
#     "영업손익": "영업이익",
#     "세전이익": "법인세비용차감전순이익",
#     "계속사업이익": "당기순이익",
#     "반기순이익": "당기순이익",
#     "분기순이익": "당기순이익",
#     "영업수익": "매출액",
#     "수익": "매출액",
#     "당기총포괄손익": "총포괄손익",
#     "기타포괄손익누계액": "기타포괄손익"
# }

# df["항목명_정규화"] = df["항목명"].replace(ci_similar)
# df["항목명_정규화"] = df["항목명_정규화"].map(ci_core).fillna(df["항목명_정규화"])

# # 4) 핵심 항목만 필터링
# df = df[df["항목명_정규화"].isin(ci_core.values())]

# # 5) 기간 컬럼 자동 인식 (공백 오류 방지)
# col_current_cum = [c for c in df.columns if "당기" in c and "누적" in c][0]

# # 6) 숫자 변환
# df[col_current_cum] = pd.to_numeric(
#     df[col_current_cum].astype(str).str.replace(",", "").str.strip(),
#     errors="coerce"
# )

# # 7) 요약 pivot
# df_ci_summary = df.pivot_table(
#     index=["회사명", "통화", "결산기준일"],
#     columns="항목명_정규화",
#     values=col_current_cum,
#     aggfunc="first"
# ).reset_index()


In [365]:
# 연간용
import pandas as pd

df = df.copy()

# 1) 항목명 공백 제거
df["항목명"] = df["항목명"].astype(str).str.strip().str.replace(" ", "")

# 2) 핵심 계정 정의
pl_core = {
    "매출액": "매출액",
    "매출원가": "매출원가",
    "영업이익": "영업이익",
    "법인세비용차감전순이익": "법인세비용차감전순이익",
    "법인세비용": "법인세비용",
    "당기순이익": "당기순이익",
    "총포괄손익": "총포괄손익"
}

# 3) 유사 명칭 매핑
pl_similar = {
    "영업손익": "영업이익",
    "세전이익": "법인세비용차감전순이익",
    "계속사업이익": "당기순이익",
    "당기총포괄손익": "총포괄손익",
    "분기순이익": "당기순이익",
    "반기순이익": "당기순이익",
    "영업수익": "매출액",
    "수익": "매출액"
}

df["항목명_정규화"] = df["항목명"].replace(pl_similar)
df["항목명_정규화"] = df["항목명_정규화"].map(pl_core).fillna(df["항목명_정규화"])

# 4) 핵심 항목만 필터링
df = df[df["항목명_정규화"].isin(pl_core.values())]

# 5) 연간 보고서 기간 컬럼 지정 => '당기'
col_current = "당기"

# 6) 숫자로 변환
df[col_current] = pd.to_numeric(
    df[col_current].astype(str).str.replace(",", "").str.strip(),
    errors="coerce"
)

# 7) Pivot → 연간 요약 포괄손익계산서
df_pl_summary = df.pivot_table(
    index=["회사명", "통화", "결산기준일"],
    columns="항목명_정규화",
    values=col_current,
    aggfunc="first"
).reset_index()

# 8) 반기 보고서 요약과 동일한 칼럼 순서로 정렬
final_cols = [
    "회사명", "통화", "결산기준일",
    "당기순이익", "매출액", "매출원가",
    "법인세비용", "법인세비용차감전순이익",
    "영업이익", "총포괄손익"
]

for col in final_cols:
    if col not in df_pl_summary.columns:
        df_pl_summary[col] = None

df_pl_summary = df_pl_summary[final_cols]


In [366]:
df_ci_summary

항목명_정규화,회사명,통화,결산기준일,기타포괄손익,당기순이익,매출액,매출원가,법인세비용,법인세비용차감전순이익,영업이익,총포괄손익
0,3S,KRW,2024-09-30,,-724725770,11086501016,10275498093,,-724725770,-712239787,
1,AJ네트웍스,KRW,2024-06-30,8418882238,,300085588553,,,12522927667,42478764249,17936967713
2,AK홀딩스,KRW,2024-06-30,0,,20935560773,,,,,-3276185977
3,APS,KRW,2024-06-30,-14088417,,,2247372127,,,,17184266592
4,AP시스템,KRW,2024-06-30,-9391636402,27615352866,219323441981,175856713570,,,20047629666,
5,AP위성,KRW,2024-06-30,-637120616,,,12770936174,,,,3569261504
6,AP헬스케어,KRW,2024-06-30,838266604,,,2823148999,,,,
7,BF랩스,KRW,2024-06-30,-137302896,,5182029601,5894573654,,,,
8,BGF,KRW,2024-06-30,6720170,32224819328,43080157309,,,,33539549663,
9,BGF리테일,KRW,2024-06-30,978665063,77032961952,4124280710353,3364774297503,22013968835,,102823747689,


In [367]:
df_ci_summary.to_csv('./data/data_clean/2019_연간보고서_포괄손익계산서전처리.txt', sep='\t',  encoding ='cp949')

## 현금흐름표 전처리

In [368]:
df = pd.read_csv('./data/2019_사업보고서_04_현금흐름표_20250820.txt', sep='\t',  encoding ='cp949')

In [369]:
df

Unnamed: 0,재무제표종류,종목코드,회사명,시장구분,업종,업종명,결산월,결산기준일,보고서종류,통화,항목코드,항목명,당기,Unnamed: 13,전기,전전기,Unnamed: 16
0,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_CashFlowsFromUsedInOperatingActivities,영업활동으로 인한 현금흐름,4012404022,,3549602897,-2866331632,
1,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_ProfitLossForStatementOfCashFlows,당기순이익(손실),1184580583,,-2052881808,-8843109138,
2,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,ifrs_AdjustmentsForReconcileProfitLoss,가감,3146194114,,4384918465,9612104255,
3,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForDepreciationExpense,감가상각비,1835840823,,1949127538,2358633564,
4,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForBadDebtExpenses,대손상각비,242422801,,150297925,904273976,
5,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForWarrantyExpenses,하자보수비,158729650,,46275253,80180814,
6,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForAmortisationExpense,무형자산상각비,203510892,,210433981,222461824,
7,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForInterestIncome,이자수익,32802859,,24762203,32595073,
8,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForInterestExpenses,이자비용,780283868,,1133407834,1064379944,
9,"현금흐름표, 간접법 - 별도재무제표",[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-03-31,사업보고서,KRW,dart_AdjustmentsForGainOnForeignExchangeTransl...,외화환산이익,85124683,,15854910,0,


In [370]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100510 entries, 0 to 100509
Data columns (total 17 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   재무제표종류       100510 non-null  object 
 1   종목코드         100510 non-null  object 
 2   회사명          100510 non-null  object 
 3   시장구분         100510 non-null  object 
 4   업종           100510 non-null  int64  
 5   업종명          100510 non-null  object 
 6   결산월          100510 non-null  int64  
 7   결산기준일        100510 non-null  object 
 8   보고서종류        100510 non-null  object 
 9   통화           100510 non-null  object 
 10  항목코드         100510 non-null  object 
 11  항목명          100510 non-null  object 
 12  당기           88492 non-null   object 
 13  Unnamed: 13  0 non-null       float64
 14  전기           86309 non-null   object 
 15  전전기          84503 non-null   object 
 16  Unnamed: 16  0 non-null       float64
dtypes: float64(2), int64(2), object(13)
memory usage: 13.0+ MB


In [371]:
# # 반기용
# import pandas as pd

# df = df.copy()

# # 1) 항목명 공백 제거
# df["항목명"] = df["항목명"].str.strip().str.replace(" ", "")

# # 2) 최상위 핵심 항목 정의
# cf_core = {
#     "영업활동현금흐름": "영업활동현금흐름",
#     "투자활동현금흐름": "투자활동현금흐름",
#     "재무활동현금흐름": "재무활동현금흐름",
#     "기말현금및현금성자산": "기말현금및현금성자산"
# }

# # 3) 유사계정 통일
# cf_similar = {
#     "영업활동으로인한현금흐름": "영업활동현금흐름",
#     "영업으로인한현금흐름": "영업활동현금흐름",
#     "영업활동현금흐름액": "영업활동현금흐름",
#     "투자활동으로인한현금흐름": "투자활동현금흐름",
#     "투자활동현금흐름액": "투자활동현금흐름",
#     "재무활동으로인한현금흐름": "재무활동현금흐름",
#     "재무활동현금흐름액": "재무활동현금흐름",
#     "현금및현금성자산의기말잔액": "기말현금및현금성자산",
#     "기말현금및현금성자산잔액": "기말현금및현금성자산"
# }

# df["항목명_정규화"] = df["항목명"].replace(cf_similar)
# df["항목명_정규화"] = df["항목명_정규화"].map(cf_core).fillna(df["항목명_정규화"])

# # 4) 핵심 항목만 남기기
# df = df[df["항목명_정규화"].isin(cf_core.values())]

# # 5) 숫자형 변환 (기간은 '당기반기' 기준)
# df["당기반기"] = pd.to_numeric(
#     df["당기반기"].astype(str).str.replace(",", "").str.strip(),
#     errors="coerce"
# )

# # 6) 요약 pivot 생성
# df_cf_summary = df.pivot_table(
#     index=["회사명", "통화", "결산기준일"],
#     columns="항목명_정규화",
#     values="당기반기",
#     aggfunc="first"
# ).reset_index()


In [372]:
# 연간용
import pandas as pd

df = df.copy()

# 1) 항목명 공백 제거
df["항목명"] = df["항목명"].astype(str).str.strip().str.replace(" ", "")

# 2) 핵심 계정 정의
cf_core = {
    "기말현금및현금성자산": "기말현금및현금성자산",
    "영업활동현금흐름": "영업활동현금흐름",
    "재무활동현금흐름": "재무활동현금흐름",
    "투자활동현금흐름": "투자활동현금흐름"
}

# 3) 유사 명칭 치환
cf_similar = {
    "영업에서창출된현금흐름": "영업활동현금흐름",
    "영업활동으로인한현금흐름": "영업활동현금흐름",
    "영업활동현금유입": "영업활동현금흐름",
    "영업활동현금유출": "영업활동현금흐름",
    "투자활동으로인한현금흐름": "투자활동현금흐름",
    "재무활동으로인한현금흐름": "재무활동현금흐름",
    "현금및현금성자산의기말잔액": "기말현금및현금성자산",
    "기말현금및현금성자산의잔액": "기말현금및현금성자산"
}

df["항목명_정규화"] = df["항목명"].replace(cf_similar)
df["항목명_정규화"] = df["항목명_정규화"].map(cf_core).fillna(df["항목명_정규화"])

# 4) 핵심 항목만 필터링
df = df[df["항목명_정규화"].isin(cf_core.values())]

# 5) 연간 컬럼 설정 → "당기"
col_current = "당기"

# 6) 금액 숫자 변환
df[col_current] = pd.to_numeric(
    df[col_current].astype(str).str.replace(",", "").str.strip(),
    errors="coerce"
)

# 7) Pivot → 현금흐름 요약
df_cf_summary = df.pivot_table(
    index=["회사명", "통화", "결산기준일"],
    columns="항목명_정규화",
    values=col_current,
    aggfunc="first"
).reset_index()

# 8) 반기 요약과 완전히 동일한 칼럼 순서 정렬
final_cols = [
    "회사명", "통화", "결산기준일",
    "기말현금및현금성자산", "영업활동현금흐름", "재무활동현금흐름", "투자활동현금흐름"
]

for col in final_cols:
    if col not in df_cf_summary.columns:
        df_cf_summary[col] = None

df_cf_summary = df_cf_summary[final_cols]


In [373]:
df_cf_summary

항목명_정규화,회사명,통화,결산기준일,기말현금및현금성자산,영업활동현금흐름,재무활동현금흐름,투자활동현금흐름
0,3S,KRW,2019-03-31,,4012404022,408234768,2620772
1,AJ네트웍스,KRW,2019-12-31,44720934312,-10046489443,5745413399,21795235979
2,AK홀딩스,KRW,2019-12-31,2422229610,18921648051,41234143309,-60384575147
3,APS홀딩스,KRW,2019-12-31,1626755231,-5076768707,8703404205,-8424227595
4,AP시스템,KRW,2019-12-31,27776141191,16854356519,-28886608349,7166671160
5,AP위성,KRW,2019-12-31,53920379535,7119962177,-70355267,-5125393865
6,BGF,KRW,2019-12-31,,11356389286,-3568667584,-9653103529
7,BGF리테일,KRW,2019-12-31,18909487263,531212666609,-251375820544,-294433254731
8,BYC,KRW,2019-12-31,13942167868,16828949980,-71611176378,41997323241
9,CJ,KRW,2019-12-31,5188878000,66613516000,21130715000,-113514728000


In [374]:
df_cf_summary.to_csv('./data/data_clean/2019_연간보고서_현금흐름표전처리.txt', sep='\t',  encoding ='cp949')