In [1]:
import pandas as pd

# CSV 파일 로드 (sample.pdf 파일을 csv로 변환했다고 가정)
df = pd.read_csv('sample.csv')


In [2]:
# 데이터 타입 확인
print(df.dtypes)


장애분류(카테고리)       object
실적귀속부서           object
발생년도              int64
발생월               int64
발생일시             object
기간               object
본부주간보고용          object
사업부기준            object
본부주간보고용.1        object
구분                int64
장애지수            float64
장애 ID            object
sla 대상 여부        object
회사명              object
제 목              object
장애분류(카테고리).1     object
장애분류             object
장애유형(대)          object
장애유형(중)          object
장애원인(대)          object
장애원인(중)          object
전체 장애시간          object
주요 증상            object
근본원인             object
발생일시.1           object
처리완료일시           object
해결유형             object
조치결과             object
재발방지대책           object
dtype: object


In [4]:
# '전체 장애시간' 열 전처리 및 변환
df['전체 장애시간'] = df['전체 장애시간'].astype(str).str.replace(' 분', '', regex=False)
df['전체 장애시간'] = pd.to_numeric(df['전체 장애시간'], errors='coerce')

# '발생년월' 열 생성
df['발생년월'] = df['발생년도'].astype(str) + '-' + df['발생월'].astype(str).str.zfill(2)

# 회사명, 장애유형(대), 장애유형(중), 장애원인(대), 장애원인(중) 별 장애 발생 횟수 계산
df_company = df['회사명'].value_counts().reset_index().rename(columns={'index':'회사명', '회사명':'장애 발생 횟수'})
df_type1 = df['장애유형(대)'].value_counts().reset_index().rename(columns={'index':'장애유형(대)', '장애유형(대)':'장애 발생 횟수'})
df_type2 = df['장애유형(중)'].value_counts().reset_index().rename(columns={'index':'장애유형(중)', '장애유형(중)':'장애 발생 횟수'})
df_reason1 = df['장애원인(대)'].value_counts().reset_index().rename(columns={'index':'장애원인(대)', '장애원인(대)':'장애 발생 횟수'})
df_reason2 = df['장애원인(중)'].value_counts().reset_index().rename(columns={'index':'장애원인(중)', '장애원인(중)':'장애 발생 횟수'})

# 발생년월 별 장애 발생 횟수 및 전체 장애시간 합 계산
df_month = df.groupby('발생년월').agg(장애_발생_횟수=('장애분류(카테고리)', 'count'),
                                   전체_장애시간=('전체 장애시간', 'sum')).reset_index()

# 데이터프레임 정렬
df_company = df_company.sort_values(by='장애 발생 횟수', ascending=False)
df_type1 = df_type1.sort_values(by='장애 발생 횟수', ascending=False)
df_type2 = df_type2.sort_values(by='장애 발생 횟수', ascending=False)
df_reason1 = df_reason1.sort_values(by='장애 발생 횟수', ascending=False)
df_reason2 = df_reason2.sort_values(by='장애 발생 횟수', ascending=False)
df_month = df_month.sort_values(by='발생년월')


In [10]:
# 각 데이터 프레임 출력
print("회사명 별 장애 발생 횟수")
# print(df_company.head(5).to_markdown(index=False, numalign="left", stralign="left"))
print(df_company.to_markdown(index=False, numalign="left", stralign="left"))

회사명 별 장애 발생 횟수
| 장애 발생 횟수   | count   |
|:-----------------|:--------|
| 흥국화재해상보험 | 21      |
| 흥국생명         | 22      |
| 티알엔           | 11      |
| 티시스           | 2       |
| 티브로드         | 1       |
| 장애 발생 횟수   | count   |
|:-----------------|:--------|
| 흥국화재해상보험 | 21      |
| 흥국생명         | 22      |
| 티알엔           | 11      |
| 티시스           | 2       |
| 티브로드         | 1       |
| 태광산업         | 1       |
| 예가람저축은행   | 1       |
| 대한화섬         | 1       |
| 계열사 공통      | 1       |
| SKB              | 1       |
| KCT              | 1       |


In [17]:
# 각 데이터 프레임 출력
print("\n장애유형(대) 별 장애 발생 횟수")
# print(df_type1.head(5).to_markdown(index=False, numalign="left", stralign="left"))
print(df_type1.to_markdown(index=False, numalign="left", stralign="left"))
# print(df_type1.sort_values(by='count', ascending=False, inplace=True))



장애유형(대) 별 장애 발생 횟수
| 장애 발생 횟수            | count   |
|:--------------------------|:--------|
| 소프트웨어                | 16      |
| 어플리케이션              | 12      |
| 하드웨어                  | 10      |
| 소프트웨어/데이터베이스   | 5       |
| 응용                      | 3       |
| 인프라                    | 2       |
| NW 장비 오작동            | 2       |
| 임계치 초과               | 1       |
| 회선 속도 저하            | 1       |
| 소프트웨어/시스템 S/W     | 1       |
| 해당 서비스 불가          | 1       |
| 보안                      | 1       |
| 네트워크/네트워크 장비    | 1       |
| 서버 접속 지연            | 1       |
| 서비스 처리 불가          | 1       |
| 어플리케이션/온라인서비스 | 1       |
| 화면 기능 오류            | 1       |


In [19]:
# 각 데이터 프레임 출력
print("\n장애유형(중) 별 장애 발생 횟수")
# print(df_type2.head(5).to_markdown(index=False, numalign="left", stralign="left"))
df_type2 = df_type2.sort_values('count', ascending=False)
print(df_type2.to_markdown(index=False, numalign="left", stralign="left"))


장애유형(중) 별 장애 발생 횟수
| 장애 발생 횟수        | count   |
|:----------------------|:--------|
| 온라인 서비스         | 7       |
| 성능 지연             | 6       |
| NW 장비 오작동        | 5       |
| 서비스 처리 불가      | 3       |
| 해당 서비스 불가      | 3       |
| 해당 서버 서비스 불가 | 3       |
| 패키지 S/W            | 3       |
| 임계치 초과           | 3       |
| 시스템 S/W            | 3       |
| 네트워크 장비         | 3       |
| 서버 접속 지연        | 2       |
| 장비 Fault            | 2       |
| 온라인서비스          | 2       |
| 데이터베이스          | 2       |
| 개발 S/W              | 1       |
| 미들웨어              | 1       |
| 네트워크 회선         | 1       |
| 대외계 서비스         | 1       |
| 회선 속도 저하        | 1       |
| 배치 서비스           | 1       |
| 배치서비스            | 1       |
| 배치작업 오류         | 1       |
| 서버 접속 불가        | 1       |
| 화면 기능 오류        | 1       |
| 서비스 처리 지연      | 1       |
| 소프트웨어/미들웨어   | 1       |
| 서비스 조회 지연      | 1       |


In [None]:
# 각 데이터 프레임 출력
print("\n장애원인(대) 별 장애 발생 횟수")
print(df_reason1.head(5).to_markdown(index=False, numalign="left", stralign="left"))

In [None]:
# 각 데이터 프레임 출력
print("\n장애원인(중) 별 장애 발생 횟수")
print(df_reason2.head(5).to_markdown(index=False, numalign="left", stralign="left"))

In [None]:
# 각 데이터 프레임 출력
print("\n발생년월 별 장애 발생 횟수 및 전체 장애시간 합")
print(df_month.head(5).to_markdown(index=False, numalign="left", stralign="left"))

In [None]:
# 장애원인(대) 또는 장애원인(중) 열에 '휴먼 에러'가 포함된 행 필터링
filtered_df = df[(df['장애원인(대)'].str.contains('휴먼 에러')) | (df['장애원인(중)'].str.contains('휴먼 에러'))].copy()

# 선택된 열의 각 값 별로 발생 횟수 계산 및 정렬
for col in ['회사명', '장애유형(대)', '장애유형(중)', '장애원인(대)', '장애원인(중)']:
    counts = filtered_df[col].value_counts().reset_index().rename(columns={'index': col, col: '발생 횟수'})
    counts = counts.sort_values(by='발생 횟수', ascending=False)
    print(f"\n'휴먼 에러' 관련 {col} 별 발생 횟수:")
    print(counts.to_markdown(index=False, numalign="left", stralign="left"))

# 필터링된 데이터프레임 출력
print("\n'휴먼 에러' 관련 장애 데이터:")
print(filtered_df.to_markdown(index=False, numalign="left", stralign="left"))

# 선택된 열의 고유한 값 출력
for col in ['회사명', '장애유형(대)', '장애유형(중)', '장애원인(대)', '장애원인(중)']:
    unique_values = filtered_df[col].unique()
    print(f"\n고유한 {col} 값:")
    for value in unique_values:
        print(value)