# 승강기안전 인증 현황

```
한국승강기안전공단_승강기안전 인증 현황

이 데이터는 한국승강기안전공단에서 제공한 승강기 안전 인증 현황을 정리한 자료로, 총 2,141건의 인증 이력을 포함하고 있습니다. 주요 컬럼으로는 안전인증번호, 인증업체코드, 업체명, 주소, 인증서 발행일, 모델명, 적용 안전 기준, 인증 상태, 인증 품목명, 인증 구분, 제조국가 등이 있습니다. 이 데이터는 엘리베이터 및 에스컬레이터와 같은 승강기 설비가 국내 안전 기준을 충족했는지 확인할 수 있는 중요한 정보로, 제조 국가부터 모델 구분, 인증 상태까지 다양한 정보를 통해 안전성과 품질을 검토할 수 있습니다. 특히 제조국가는 주로 한국과 중국으로 나뉘며, 인증 상태로는 '반납' 등의 이력이 있어, 시간에 따라 상태가 변경될 수 있음을 보여줍니다.

https://www.data.go.kr/data/15039131/fileData.do
```

# 1. Data 확인

In [1]:
import pandas as pd

## Load Data

In [2]:
url = "https://raw.githubusercontent.com/sw1kwon/KESA/refs/heads/main/data/c_01.csv"
df = pd.read_csv(url)

In [3]:
df.head()

Unnamed: 0,안전인증번호,인증업체코드,업체명,인증업체주소,접수번호,인증서발행일,적용안전기준,인증서상태,모델명,파생모델명,인증품목명,인증구분,제조국가
0,ABB73-R001-19001,919971182,삼정엘리베이터,서울특별시 양천구 목동서로 301-5,C400120190503001,2019-06-05,(종전)「승강기 안전검사기준」별표 3,반납,K300A,,에스컬레이터 > 에스컬레이터 > 일반형,모델,중국
1,ABB73-R001-19002,919971182,삼정엘리베이터,서울특별시 양천구 목동서로 301-5,C400120190503002,2019-06-05,(종전)「승강기 안전검사기준」별표 3,반납,K200,,에스컬레이터 > 에스컬레이터 > 일반형,모델,중국
2,ABA71-K001-19001,919920034,티케이엘리베이터코리아,충청남도 천안시 서북구 입장면 연곡길 235,C400120190430002,2019-07-10,(종전)「승강기 안전검사기준」별표 1,반납,Enta,,엘리베이터 > 전기식 엘리베이터 > 일반형,모델,한국
3,ABA71-K001-19001,919920034,티케이엘리베이터코리아,충청남도 천안시 서북구 입장면 연곡길 235,C400120200506100,2019-07-10,(종전)「승강기 안전검사기준」별표 1,반납,Enta,,엘리베이터 > 전기식 엘리베이터 > 일반형,모델,한국
4,ABA71-K001-19001,919920034,티케이엘리베이터코리아,충청남도 천안시 서북구 입장면 연곡길 235,C400120200828100,2019-07-10,(종전)「승강기 안전검사기준」별표 1,반납,Enta,,엘리베이터 > 전기식 엘리베이터 > 일반형,모델,한국


## 데이터 구조 확인

In [4]:
df.shape

(2141, 13)

In [16]:
# 데이터 구조 파악
# object 문자형
# int/float 수치형
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2141 entries, 0 to 2140
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   안전인증번호  2141 non-null   object
 1   인증업체코드  1618 non-null   object
 2   업체명     2141 non-null   object
 3   인증업체주소  2141 non-null   object
 4   접수번호    2141 non-null   object
 5   인증서발행일  2141 non-null   object
 6   적용안전기준  2141 non-null   object
 7   인증서상태   2141 non-null   object
 8   모델명     2141 non-null   object
 9   파생모델명   180 non-null    object
 10  인증품목명   2141 non-null   object
 11  인증구분    2141 non-null   object
 12  제조국가    2141 non-null   object
dtypes: object(13)
memory usage: 217.6+ KB


In [6]:
# 문자형(범주형) 데이터 확인
df.describe(include=['object']).T

Unnamed: 0,count,unique,top,freq
안전인증번호,2141,335,ABA71-H005-20003,21
인증업체코드,1618,85,919920035,267
업체명,2141,90,현대엘리베이터,334
인증업체주소,2141,101,충청남도 천안시 서북구 입장면 연곡길 235,251
접수번호,2141,2135,B20231206103,3
인증서발행일,2141,760,2021-08-05,23
적용안전기준,2141,6,승강기안전기준 별표 22,1759
인증서상태,2141,3,회수,1527
모델명,2141,314,WBLX-GT-3,25
파생모델명,180,28,HTEL-P33,14


In [15]:
# 수치형 데이터 확인
# df.describe(include=['int64','float64'])
# df.describe(include='number')

- 수치형 데이터 없음

# 2. EDA

## 1. (결측치) 각 column의 결측값 비율

In [17]:
# 각 column의 결측값 비율 계산
missing_ratio = df.isnull().mean()                  # 각 column의 결측값 비율 계산 (결측 개수 / 전체 row 수)
missing_ratio = missing_ratio.sort_values(ascending=False)  # 결측 비율이 높은 순서대로 정렬
missing_ratio = missing_ratio.reset_index()         # Series → DataFrame 변환 (인덱스 초기화)
missing_ratio.columns = ['Column', 'MissingRatio']
print(missing_ratio)

    Column  MissingRatio
0    파생모델명      0.915927
1   인증업체코드      0.244278
2   안전인증번호      0.000000
3   인증업체주소      0.000000
4      업체명      0.000000
5     접수번호      0.000000
6   인증서발행일      0.000000
7    인증서상태      0.000000
8   적용안전기준      0.000000
9      모델명      0.000000
10   인증품목명      0.000000
11    인증구분      0.000000
12    제조국가      0.000000


- 파생모델명의 결측값 비율은 매우 높음
- 인증업체코드도 결측값 존재

## 2. (이상치) 각 column별 이상치 확인

In [12]:
# # 수치형 변수만 추출
# numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns

# # 이상치 비율 저장용 리스트
# outlier_info = []

# # 각 수치형 column에 대해 이상치 비율 계산 (IQR 방식)
# for col in numeric_cols:
#     Q1 = df[col].quantile(0.25)
#     Q3 = df[col].quantile(0.75)
#     IQR = Q3 - Q1
#     lower = Q1 - 1.5 * IQR
#     upper = Q3 + 1.5 * IQR
#     outliers = ((df[col] < lower) | (df[col] > upper)).sum()
#     outlier_ratio = outliers / df.shape[0]
#     outlier_info.append((col, outliers, outlier_ratio))

# # 결과 DataFrame 정리
# outlier_df = pd.DataFrame(outlier_info, columns=['Column', 'OutlierCount', 'OutlierRatio'])
# outlier_df = outlier_df.sort_values(by='OutlierRatio', ascending=False)

# print(outlier_df)

In [13]:
# # 이상치 비율이 높은 상위 n개 변수만 시각화
# import seaborn as sns
# import matplotlib.pyplot as plt

# # 이상치 비율 높은 상위 n개 변수만 선택
# top_n = 5
# top_outlier_cols = outlier_df.head(top_n)['Column']

# # 박스플롯 시각화
# plt.figure(figsize=(12, 6))
# for i, col in enumerate(top_outlier_cols, 1):
#     plt.subplot(1, top_n, i)
#     sns.boxplot(y=df[col])
#     plt.title(col)
#     plt.tight_layout()

# plt.show()

In [14]:
# # 개별 탐색 시 사용 가능한 함수 정의
# def plot_box(col):
#     sns.boxplot(y=df[col])
#     plt.title(f"Boxplot of {col}")
#     plt.show()

# # 예시 사용: plot_box('Column Name')

## 3. (unique) 각 column의 unique값과 unique값별 빈도

In [18]:
# 전체 column 대상 (비율을 %로, 순서 유지)

for col in df.columns:
    print(f"=== {col} ===")
    print("Unique count:", df[col].nunique())

    # 빈도와 비율 계산 (NaN 포함, 고유값 순서 유지)
    value_counts = df[col].value_counts(dropna=False, sort=False)
    value_ratio = df[col].value_counts(normalize=True, dropna=False, sort=False) * 100  # 비율을 %

    # 결합
    summary_df = pd.DataFrame({
        'Count': value_counts,
        'Ratio (%)': value_ratio.round(2)
    })

    print(summary_df)
    print("\n")

=== 안전인증번호 ===
Unique count: 335
                    Count  Ratio (%)
안전인증번호                              
ABB73-R001-19001        1       0.05
ABB73-R001-19002        1       0.05
ABA71-K001-19001        6       0.28
ABA71-K001-19002       10       0.47
ABA71-K001-19003       12       0.56
...                   ...        ...
ABA71-M010-24001        1       0.05
ABA73-M002-24001        1       0.05
ABA71-H028-25001        1       0.05
ABA71-B004-25001        1       0.05
ABA71-H003-25001\t      2       0.09

[335 rows x 2 columns]


=== 인증업체코드 ===
Unique count: 85
           Count  Ratio (%)
인증업체코드                     
919971182      7       0.33
919920034    235      10.98
919890001     21       0.98
919920075    116       5.42
919920035    267      12.47
...          ...        ...
L              1       0.05
E              1       0.05
A              1       0.05
F              1       0.05
R              1       0.05

[86 rows x 2 columns]


=== 업체명 ===
Unique count: 90
          

- 의미 있어 보이는 변수
    - 인증서상태

In [19]:
# # 범주형 변수만 대상
# cat_cols = df.select_dtypes(include=['object']).columns

# for col in cat_cols:
#     print(f"=== {col} ===")
#     print("Unique count:", df[col].nunique())

#     value_counts = df[col].value_counts(dropna=False, sort=False)
#     value_ratio = df[col].value_counts(normalize=True, dropna=False, sort=False) * 100

#     summary_df = pd.DataFrame({
#         'Count': value_counts,
#         'Ratio (%)': value_ratio.round(2)
#     })

#     print(summary_df)
#     print("\n")

## 4. (기술통계) 각 column의 기술통계 (평균값, 최대값, 최솟값, 최빈값, 분위수 등)

In [20]:
# # 수치형 변수만 선택
# numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns

# # 통계 요약 저장용 리스트
# stat_list = []

# for col in numeric_cols:
#     desc = df[col].describe()
#     mode = df[col].mode(dropna=False).values[0]  # 최빈값 (여러 개 중 첫 번째 선택)
#     mode_all = df[col].mode(dropna=False).tolist()  # 최빈값 리스트 형태로 저장

#     stat_list.append({
#         'Feature': col,
#         'Count': desc['count'],
#         'Mean': desc['mean'],
#         'Std': desc['std'],
#         'Min': desc['min'],
#         '25%': desc['25%'],
#         'Median (50%)': desc['50%'],
#         '75%': desc['75%'],
#         'Max': desc['max'],
#         'Mode': mode,
#         'Mode_all': mode_all
#     })

# # DataFrame으로 정리
# stats_df = pd.DataFrame(stat_list)
# stats_df

## 5. (상관관계) 상관관계 매트릭스

In [21]:
# # 수치형 변수 간 상관관계 매트릭스

# import seaborn as sns
# import matplotlib.pyplot as plt

# # 수치형 변수만 선택
# numeric_df = df.select_dtypes(include=['float64', 'int64'])

# # 상관계수 계산
# corr_matrix = numeric_df.corr()

# # 시각화
# plt.figure(figsize=(10, 8))
# sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", square=True)
# plt.title("Numeric Feature Correlation Matrix")
# plt.tight_layout()
# plt.show()

## 6. (시각화) histogram, bar graph, box plot 등

In [22]:
# import matplotlib.pyplot as plt

# numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns

# # 전체 수치형 변수에 대해 히스토그램 그리기
# for col in numeric_cols:
#     plt.figure(figsize=(6, 4))
#     plt.hist(df[col].dropna(), bins=30, edgecolor='black')
#     plt.title(f'Histogram of {col}')
#     plt.xlabel(col)
#     plt.ylabel('Frequency')
#     plt.tight_layout()
#     plt.show()

In [23]:
# import seaborn as sns
# import matplotlib.pyplot as plt

# cat_cols = df.select_dtypes(include=['object']).columns

# # 전체 범주형 변수에 대해 히스토그램 그리기

# for col in cat_cols:
#     plt.figure(figsize=(6, 4))
#     ax = sns.countplot(data=df, x=col, order=df[col].value_counts().index, color='salmon')

#     total = len(df)

#     for p in ax.patches:
#         count = int(p.get_height())
#         percent = 100 * count / total
#         label = f'{count} ({percent:.1f}%)'

#         # 텍스트 위치: 막대 안쪽 상단 (중앙 정렬)
#         ax.annotate(label,
#                     (p.get_x() + p.get_width() / 2., p.get_height() * 0.95),
#                     ha='center', va='top',
#                     fontsize=9, color='white', weight='bold')

#     plt.title(f'Bar Graph of {col} (Count + Ratio)')
#     plt.xticks(rotation=45)
#     plt.tight_layout()
#     plt.show()

In [1]:
# # 특정 변수에 따른 수치형 변수 분포 비교
# for col in numeric_cols:
#     plt.figure(figsize=(6, 4))
#     sns.boxplot(data=df, x='###Column Name###', y=col)
#     plt.title(f'Boxplot of {col} by ###Column Name###')
#     plt.tight_layout()
#     plt.show()

## 7. (교차표) 범주형 변수 간의 관계

In [28]:
# '제조국가'에 따른 '인증서상태' 비율
print("=== 제조국가 vs 인증서상태 ===")
ratio = df.groupby('제조국가')['인증서상태'].value_counts(normalize=True).unstack()
ratio

=== 제조국가 vs 인증서상태 ===


인증서상태,반납,정상,회수
제조국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
스페인,,1.0,
중국,0.158333,0.183333,0.658333
한국,0.181683,0.101485,0.716832


In [29]:
pd.crosstab(df['제조국가'], df['인증서상태'], normalize='index')

인증서상태,반납,정상,회수
제조국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
스페인,0.0,1.0,0.0
중국,0.158333,0.183333,0.658333
한국,0.181683,0.101485,0.716832


# 3. Data 전처리

## 1. 결측치 처리

- 필요시 할 예정

## 2. 이상치 처리

- 필요시 할 예정