In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random
import os
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
!pip install pyreadstat

Collecting pyreadstat
  Downloading pyreadstat-1.2.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pyreadstat
Successfully installed pyreadstat-1.2.4


In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
def seed_everything(seed: int = 42):
    random.seed(seed)
    np.random.seed(seed)
    os.environ["PYTHONHASHSEED"] = str(seed)

seed_everything(42)

#**데이터 전처리**

제공된 데이터인 '(raw)사고 발생 데이터_수정'에서 연도별로 엑셀 다운로드 받은 후 전처리 시작

In [5]:
#구글드라이브 경로 지정 후 데이터 연결
raw2020 = pd.read_csv("/content/drive/MyDrive/raw2020.csv",encoding='cp949')
raw2021 = pd.read_csv("/content/drive/MyDrive/raw2021.csv",encoding='cp949')
raw2022 = pd.read_csv("/content/drive/MyDrive/raw2022.csv",encoding='cp949')

##**데이터 파일 병합**

**[2020, 2021, 2022 병합]**

In [6]:
raw = pd.concat([raw2020,raw2021,raw2022],ignore_index=True)

In [7]:
raw

Unnamed: 0,구분,학교명,지역,교육청,설립유형,학교급,사고자구분,사고자성별,사고자학년,사고접수일,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동
0,A0000001,치악초등학교,강원,원주교육지원청,공립,초,일반학생,여,5학년,2020-01-10,2018-11-01,목,16:00,특별활동,교실,다리,기타,기타,실험실습
1,A0000002,정선초등학교,강원,정선교육지원청,공립,초,일반학생,여,6학년,2020-01-22,2019-06-14,금,14:40,체육수업,운동장,다리,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
2,A0000003,정선초등학교,강원,정선교육지원청,공립,초,일반학생,남,4학년,2020-01-22,2019-06-20,목,11:30,학교행사,교외활동,다리,낙상-넘어짐,기타,기타운동
3,A0000004,태장초등학교,강원,원주교육지원청,공립,초,일반학생,남,6학년,2020-06-19,2019-08-30,금,13:50,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
4,A0000005,버들중학교,강원,원주교육지원청,공립,중,일반학생,여,2학년,2020-02-07,2019-10-08,화,09:40,학교행사,운동장,다리,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284421,C0149335,부명고등학교,경기,부천교육지원청,공립,고등학교,일반학생,남,2학년,2022-12-31,2022-12-29,목,12:50,체육수업,부속시설,발,낙상-넘어짐,자연(사람/동물/식물 등),구기운동
284422,C0149336,낙원중학교,경기,성남교육지원청,공립,중학교,일반학생,남,1학년,2022-12-30,2022-12-30,금,12:35,학교행사,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),기타
284423,C0149337,초당중학교,경기,용인교육지원청,공립,중학교,일반학생,남,1학년,2022-12-30,2022-12-30,금,13:08,점심시간,운동장,발,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행
284424,C0149338,초당중학교,경기,용인교육지원청,공립,중학교,일반학생,남,1학년,2022-12-30,2022-12-30,금,09:00,등하교,운동장,팔,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행


##**불필요한 변수 제거**

In [8]:
# 필요없는 column drop
raw = pd.concat([raw2020,raw2021,raw2022],ignore_index=True)
df = raw.drop(['구분', '설립유형', '사고접수일'],axis=1)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284426 entries, 0 to 284425
Data columns (total 16 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   학교명     284426 non-null  object
 1   지역      284426 non-null  object
 2   교육청     284426 non-null  object
 3   학교급     284426 non-null  object
 4   사고자구분   284426 non-null  object
 5   사고자성별   284426 non-null  object
 6   사고자학년   283857 non-null  object
 7   사고발생일   284426 non-null  object
 8   사고발생요일  284426 non-null  object
 9   사고발생시간  284426 non-null  object
 10  사고시간    284426 non-null  object
 11  사고장소    284426 non-null  object
 12  사고부위    284426 non-null  object
 13  사고형태    284426 non-null  object
 14  사고매개물   284426 non-null  object
 15  사고당시활동  284426 non-null  object
dtypes: object(16)
memory usage: 34.7+ MB


##**결측치 처리**

**[사고자학년]**

In [10]:
# 사고자 학년 결측치 제거
df = df.dropna(subset=['사고자학년']).reset_index(drop=True)
df

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동
0,치악초등학교,강원,원주교육지원청,초,일반학생,여,5학년,2018-11-01,목,16:00,특별활동,교실,다리,기타,기타,실험실습
1,정선초등학교,강원,정선교육지원청,초,일반학생,여,6학년,2019-06-14,금,14:40,체육수업,운동장,다리,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
2,정선초등학교,강원,정선교육지원청,초,일반학생,남,4학년,2019-06-20,목,11:30,학교행사,교외활동,다리,낙상-넘어짐,기타,기타운동
3,태장초등학교,강원,원주교육지원청,초,일반학생,남,6학년,2019-08-30,금,13:50,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
4,버들중학교,강원,원주교육지원청,중,일반학생,여,2학년,2019-10-08,화,09:40,학교행사,운동장,다리,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
283852,부명고등학교,경기,부천교육지원청,고등학교,일반학생,남,2학년,2022-12-29,목,12:50,체육수업,부속시설,발,낙상-넘어짐,자연(사람/동물/식물 등),구기운동
283853,낙원중학교,경기,성남교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,12:35,학교행사,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),기타
283854,초당중학교,경기,용인교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,13:08,점심시간,운동장,발,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행
283855,초당중학교,경기,용인교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,09:00,등하교,운동장,팔,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행


##**데이터 필터링**

**[사고자구분]**
- 일반학생, 체육특기학생, 특수학교(학급) 학생만 포함

In [11]:
# 일반학생, 체육특기학생, 특수학교(학급)학생만 남기고 제거
df = df[(df['사고자구분']=='일반학생') | (df['사고자구분']=='체육특기학생') | (df['사고자구분']=='특수학교(학급)학생')]
df

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동
0,치악초등학교,강원,원주교육지원청,초,일반학생,여,5학년,2018-11-01,목,16:00,특별활동,교실,다리,기타,기타,실험실습
1,정선초등학교,강원,정선교육지원청,초,일반학생,여,6학년,2019-06-14,금,14:40,체육수업,운동장,다리,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
2,정선초등학교,강원,정선교육지원청,초,일반학생,남,4학년,2019-06-20,목,11:30,학교행사,교외활동,다리,낙상-넘어짐,기타,기타운동
3,태장초등학교,강원,원주교육지원청,초,일반학생,남,6학년,2019-08-30,금,13:50,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동
4,버들중학교,강원,원주교육지원청,중,일반학생,여,2학년,2019-10-08,화,09:40,학교행사,운동장,다리,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
283852,부명고등학교,경기,부천교육지원청,고등학교,일반학생,남,2학년,2022-12-29,목,12:50,체육수업,부속시설,발,낙상-넘어짐,자연(사람/동물/식물 등),구기운동
283853,낙원중학교,경기,성남교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,12:35,학교행사,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),기타
283854,초당중학교,경기,용인교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,13:08,점심시간,운동장,발,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행
283855,초당중학교,경기,용인교육지원청,중학교,일반학생,남,1학년,2022-12-30,금,09:00,등하교,운동장,팔,낙상-미끄러짐,건물(문/창문/바닥/벽 등),보행/주행


##**변수명 통일**

'학교급' 변수를 ['초등학교', '중학교', '고등학교', '특수학교', '유치원', '기타학교']로 통일

In [12]:
df.groupby(['학교급', '사고자학년']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,학교명,지역,교육청,사고자구분,사고자성별,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동
학교급,사고자학년,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
고,1학년,3887,3887,3887,3887,3887,3887,3887,3887,3887,3887,3887,3887,3887,3887
고,2학년,4144,4144,4144,4144,4144,4144,4144,4144,4144,4144,4144,4144,4144,4144
고,3학년,3140,3140,3140,3140,3140,3140,3140,3140,3140,3140,3140,3140,3140,3140
고등학교,1학년,18203,18203,18203,18203,18203,18203,18203,18203,18203,18203,18203,18203,18203,18203
고등학교,2학년,18135,18135,18135,18135,18135,18135,18135,18135,18135,18135,18135,18135,18135,18135
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
특수학교,3학년,196,196,196,196,196,196,196,196,196,196,196,196,196,196
특수학교,4학년,51,51,51,51,51,51,51,51,51,51,51,51,51,51
특수학교,5학년,64,64,64,64,64,64,64,64,64,64,64,64,64,64
특수학교,6학년,53,53,53,53,53,53,53,53,53,53,53,53,53,53


In [13]:
df['학교급'].unique()

array(['초', '중', '고', '특수', '유', '기타', '중학교', '초등학교', '고등학교', '유치원',
       '특수학교', '기타학교'], dtype=object)

In [14]:
df.loc[df['학교급'] == '초','학교급'] = '초등학교'
df.loc[df['학교급'] == '중','학교급'] = '중학교'
df.loc[df['학교급'] == '고','학교급'] = '고등학교'
df.loc[df['학교급'] == '특수','학교급'] = '특수학교'
df.loc[df['학교급'] == '유','학교급'] = '유치원'
df.loc[df['학교급'] == '기타','학교급'] = '기타학교'

In [15]:
df['학교급'].unique()

array(['초등학교', '중학교', '고등학교', '특수학교', '유치원', '기타학교'], dtype=object)

In [16]:
df.groupby(['학교급', '사고자학년']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,학교명,지역,교육청,사고자구분,사고자성별,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동
학교급,사고자학년,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
고등학교,1학년,22090,22090,22090,22090,22090,22090,22090,22090,22090,22090,22090,22090,22090,22090
고등학교,2학년,22279,22279,22279,22279,22279,22279,22279,22279,22279,22279,22279,22279,22279,22279
고등학교,3학년,15696,15696,15696,15696,15696,15696,15696,15696,15696,15696,15696,15696,15696,15696
기타학교,1학년,320,320,320,320,320,320,320,320,320,320,320,320,320,320
기타학교,2학년,256,256,256,256,256,256,256,256,256,256,256,256,256,256
기타학교,3학년,237,237,237,237,237,237,237,237,237,237,237,237,237,237
기타학교,4학년,9,9,9,9,9,9,9,9,9,9,9,9,9,9
기타학교,5학년,14,14,14,14,14,14,14,14,14,14,14,14,14,14
기타학교,6학년,83,83,83,83,83,83,83,83,83,83,83,83,83,83
기타학교,유아,57,57,57,57,57,57,57,57,57,57,57,57,57,57


##**변수 추가**

**[사고부위]**
- 사고 부위별 학생 이미지 좌표 데이터 생성

In [17]:
# 사고 부위 별 x, y 좌표 입력
df.loc[df['사고부위'] == '기타', ['X_학생', 'Y_학생']] = [798, 4490]
df.loc[df['사고부위'] == '다리', ['X_학생', 'Y_학생']] = [1710, 1206]
df.loc[df['사고부위'] == '머리(두부)', ['X_학생', 'Y_학생']] = [3299, 4088]
df.loc[df['사고부위'] == '발', ['X_학생', 'Y_학생']] = [3283, 978]
df.loc[df['사고부위'] == '복합부위', ['X_학생', 'Y_학생']] = [3004, 4557]
df.loc[df['사고부위'] == '손', ['X_학생', 'Y_학생']] = [1523, 2024]
df.loc[df['사고부위'] == '치아(구강)', ['X_학생', 'Y_학생']] = [1710, 3016]
df.loc[df['사고부위'] == '팔', ['X_학생', 'Y_학생']] = [2838, 2613]
df.loc[df['사고부위'] == '흉복부', ['X_학생', 'Y_학생']] = [3294, 2312]

**[사고장소]**
- 사고 장소별 학교 이미지 좌표 데이터 생성

In [18]:
# 사고 장소 별 x, y 좌표 입력
df.loc[df['사고장소'] == '운동장', ['X_학교', 'Y_학교']] = [2465, 1530]
df.loc[df['사고장소'] == '교실', ['X_학교', 'Y_학교']] = [2936, 4260]
df.loc[df['사고장소'] == '통로', ['X_학교', 'Y_학교']] = [1910, 3713]
df.loc[df['사고장소'] == '부속시설', ['X_학교', 'Y_학교']] = [1215, 2744]
df.loc[df['사고장소'] == '교외활동', ['X_학교', 'Y_학교']] = [3863, 2803]

#**K-mode clustering**

학교급별(초, 중, 고, 특수,유치원) 발생하는 안전사고 유형 분석
- K(클러스터 개수)=5로 지정한 후 분석

In [19]:
!pip install kmodes

Collecting kmodes
  Downloading kmodes-0.12.2-py2.py3-none-any.whl (20 kB)
Installing collected packages: kmodes
Successfully installed kmodes-0.12.2


In [20]:
from kmodes.kmodes import KModes
from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings(action='ignore')

In [21]:
selected_columns1 = ['학교급', '사고자구분', '사고자성별', '사고자학년', '사고발생일','사고발생요일','사고발생시간','사고시간', "사고장소", "사고부위", "사고형태", "사고매개물", "사고당시활동"]
df_a = df[selected_columns1]


##초등학생

In [22]:
df_e = df[df['학교급'].isin(['초등학교'])]

In [23]:
df_e.agg(pd.Series.mode)

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
0,영화초등학교,경기,서부교육지원청,초등학교,일반학생,남,6학년,2022-11-03,목,11:00,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0


In [24]:
k=5
km5_e = KModes(n_clusters=k, init='Cao', n_init=10, verbose=1)
clusters5_e = km5_e.fit_predict(df_e)

Initialization method and algorithm are deterministic. Setting n_init to 1.
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 1, iteration: 1/100, moves: 8065, cost: 1022903.0
Run 1, iteration: 2/100, moves: 1978, cost: 1022903.0


In [25]:
df_e['clusters5_e']=clusters5_e
df_e['clusters5_e'].value_counts()

0    38152
2    17296
1    17052
3    13207
4     9090
Name: clusters5_e, dtype: int64

In [26]:
df_e.groupby('clusters5_e').agg(pd.Series.mode)

Unnamed: 0_level_0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
clusters5_e,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,태봉초등학교,경기,서부교육지원청,초등학교,일반학생,남,6학년,2022-06-23,목,11:00,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0
1,영화초등학교,경기,서부교육지원청,초등학교,일반학생,여,4학년,2022-09-20,화,12:40,점심시간,운동장,발,낙상-넘어짐,기타,장난/놀이,3283.0,978.0,2465.0,1530.0
2,영화초등학교,경기,동부교육지원청,초등학교,일반학생,남,5학년,2022-12-05,월,13:00,점심시간,통로,머리(두부),낙상-넘어짐,건물(문/창문/바닥/벽 등),보행/주행,3299.0,4088.0,1910.0,3713.0
3,명덕초등학교,경기,서부교육지원청,초등학교,일반학생,남,5학년,2022-11-09,수,10:30,휴식시간 및 청소시간,교실,발,물리적힘 노출,가구(책상/의자/책장/탁자/침대 등),장난/놀이,3283.0,978.0,2936.0,4260.0
4,옥길버들초등학교,경기,동부교육지원청,초등학교,일반학생,남,3학년,2022-07-06,수,12:50,체육수업,운동장,머리(두부),물리적힘 노출,기타,기타,3299.0,4088.0,2465.0,1530.0


기존 데이터(df)에 클러스터링 결과를 변수(clusters5_e)로 추가

In [27]:
df_ee = pd.concat([df,df_e['clusters5_e']], axis=1)

In [28]:
df_ee.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,clusters5_e
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,교실,다리,기타,기타,실험실습,1710.0,1206.0,2936.0,4260.0,3.0
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,운동장,다리,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1710.0,1206.0,2465.0,1530.0,1.0
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,교외활동,다리,낙상-넘어짐,기타,기타운동,1710.0,1206.0,3863.0,2803.0,1.0
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0,0.0
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,운동장,다리,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이,1710.0,1206.0,2465.0,1530.0,


##유치원

In [29]:
df_k = df[df['학교급'].isin(['유치원'])]

In [30]:
df_k.agg(pd.Series.mode)

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
0,해여림유치원,경기,서부교육지원청,유치원,일반학생,남,유아,2020-06-16,목,11:00,수업시간,교실,머리(두부),물리적힘 노출,기타,장난/놀이,3299.0,4088.0,2936.0,4260.0


In [31]:
k=5
km5_k = KModes(n_clusters=k, init='Cao', n_init=10, verbose=1)
clusters5_k = km5_k.fit_predict(df_k)

Initialization method and algorithm are deterministic. Setting n_init to 1.
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 1, iteration: 1/100, moves: 4132, cost: 236988.0
Run 1, iteration: 2/100, moves: 12, cost: 236988.0


In [36]:
df_k['clusters5_k']=clusters5_k
df_k['clusters5_k'].value_counts()

0    11037
1     4073
3     3349
4     2998
2     2797
Name: clusters5_k, dtype: int64

In [37]:
df_k.groupby('clusters5_k').agg(pd.Series.mode)

Unnamed: 0_level_0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
clusters5_k,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,해여림유치원,경기,서부교육지원청,유치원,일반학생,남,유아,2020-06-16,화,13:00,수업시간,교실,머리(두부),물리적힘 노출,기타,장난/놀이,3299.0,4088.0,2936.0,4260.0
1,비타민유치원,경기,서부교육지원청,유치원,일반학생,여,유아,2020-09-09,목,11:00,수업시간,부속시설,손,낙상-넘어짐,건물(문/창문/바닥/벽 등),기타,1523.0,2024.0,1215.0,2744.0
2,성모유치원,서울,서부교육지원청,유치원,일반학생,여,유아,2021-06-04,금,11:00,수업시간,운동장,발,낙상-넘어짐,자연(사람/동물/식물 등),장난/놀이,3283.0,978.0,2465.0,1530.0
3,글로벌레인보우유치원,경기,서부교육지원청,유치원,일반학생,여,유아,2022-07-07,목,11:00,수업시간,교실,치아(구강),물리적힘 노출,가구(책상/의자/책장/탁자/침대 등),기타,1710.0,3016.0,2936.0,4260.0
4,슈필렌유치원,경기,서부교육지원청,유치원,일반학생,남,유아,2021-11-03,수,11:30,기타,운동장,머리(두부),낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),장난/놀이,3299.0,4088.0,2465.0,1530.0


기존 데이터(df_ee)에 클러스터링 결과를 변수(clusters5_k)로 추가

In [38]:
df_kk = pd.concat([df_ee,df_k['clusters5_k']], axis=1)

In [39]:
df_kk.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,clusters5_e,clusters5_k
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,다리,기타,기타,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,다리,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1710.0,1206.0,2465.0,1530.0,1.0,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,다리,낙상-넘어짐,기타,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0,0.0,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,다리,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이,1710.0,1206.0,2465.0,1530.0,,


##중학교

In [40]:
df_m = df[df['학교급'].isin(['중학교'])]

In [41]:
df_m.agg(pd.Series.mode)

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
0,신현중학교,경기,서부교육지원청,중학교,일반학생,남,1학년,2022-05-19,목,13:00,체육수업,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,2465.0,1530.0


In [42]:
k=5
km5_m = KModes(n_clusters=k, init='Cao', n_init=10, verbose=1)
clusters5_m = km5_m.fit_predict(df_m)

Initialization method and algorithm are deterministic. Setting n_init to 1.
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 1, iteration: 1/100, moves: 19400, cost: 1024329.0
Run 1, iteration: 2/100, moves: 18, cost: 1024329.0


In [43]:
df_m['clusters5_m']=clusters5_m
df_m['clusters5_m'].value_counts()

0    38967
1    22158
4    17263
3    13747
2    10280
Name: clusters5_m, dtype: int64

In [44]:
df_m.groupby('clusters5_m').agg(pd.Series.mode)

Unnamed: 0_level_0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
clusters5_m,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,김포한가람중학교,경기,서부교육지원청,중학교,일반학생,남,1학년,2022-10-27,목,14:00,체육수업,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,2465.0,1530.0
1,신현중학교,경기,서부교육지원청,중학교,일반학생,남,3학년,2022-09-20,화,13:00,체육수업,부속시설,발,낙상-넘어짐,자연(사람/동물/식물 등),구기운동,3283.0,978.0,1215.0,2744.0
2,신현중학교,경기,동부교육지원청,중학교,일반학생,여,2학년,2022-06-20,월,11:00,체육수업,부속시설,머리(두부),물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,3299.0,4088.0,1215.0,2744.0
3,영남중학교,서울,서부교육지원청,중학교,일반학생,여,2학년,2022-05-13,수,13:00,체육수업,운동장,발,낙상-미끄러짐,자연(사람/동물/식물 등),보행/주행,3283.0,978.0,2465.0,1530.0
4,신창중학교,서울,서부교육지원청,중학교,일반학생,남,2학년,2022-05-25,수,11:00,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0


기존 데이터(df_kk)에 클러스터링 결과를 변수(clusters5_m)로 추가

In [45]:
df_mm = pd.concat([df_kk,df_m['clusters5_m']], axis=1)

In [46]:
df_mm.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,clusters5_e,clusters5_k,clusters5_m
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,기타,기타,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1710.0,1206.0,2465.0,1530.0,1.0,,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,낙상-넘어짐,기타,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0,0.0,,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,낙상-미끄러짐,건물(문/창문/바닥/벽 등),장난/놀이,1710.0,1206.0,2465.0,1530.0,,,3.0


##고등학교

In [47]:
df_h = df[df['학교급'].isin(['고등학교'])]

In [48]:
df_h.agg(pd.Series.mode)

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
0,수원고등학교,경기,서울특별시교육청,고등학교,일반학생,남,2학년,2022-05-13,목,13:00,체육수업,운동장,발,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,3283.0,978.0,2465.0,1530.0


In [49]:
k=5
km5_h = KModes(n_clusters=k, init='Cao', n_init=10, verbose=1)
clusters5_h = km5_h.fit_predict(df_h)

Initialization method and algorithm are deterministic. Setting n_init to 1.
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 1, iteration: 1/100, moves: 15474, cost: 599473.0
Run 1, iteration: 2/100, moves: 4540, cost: 598653.0
Run 1, iteration: 3/100, moves: 439, cost: 598653.0


In [50]:
df_h['clusters5_h']=clusters5_h
df_h['clusters5_h'].value_counts()

0    19738
1    13280
3     9962
4     9881
2     7204
Name: clusters5_h, dtype: int64

In [51]:
df_h.groupby('clusters5_h').agg(pd.Series.mode)

Unnamed: 0_level_0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
clusters5_h,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,수원고등학교,경기,서울특별시교육청,고등학교,일반학생,남,2학년,2022-05-12,목,12:30,체육수업,운동장,발,낙상-넘어짐,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,3283.0,978.0,2465.0,1530.0
1,제주여자고등학교,서울,서울특별시교육청,고등학교,일반학생,남,1학년,2022-06-10,금,13:00,체육수업,부속시설,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0
2,전북체육고등학교,경기,경상남도교육청,고등학교,일반학생,남,3학년,2022-05-17,화,15:00,체육수업,부속시설,다리,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1710.0,1206.0,1215.0,2744.0
3,인천하늘고등학교,경기,전라북도교육청,고등학교,일반학생,여,1학년,2022-05-25,수,11:00,체육수업,부속시설,발,낙상-넘어짐,건물(문/창문/바닥/벽 등),구기운동,3283.0,978.0,1215.0,2744.0
4,수원고등학교,경기,서울특별시교육청,고등학교,일반학생,남,1학년,2022-05-13,화,13:00,체육수업,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,2465.0,1530.0


기존 데이터(df_mm)에 클러스터링 결과를 변수(clusters5_h)로 추가

In [52]:
df_hh = pd.concat([df_mm,df_h['clusters5_h']], axis=1)

In [53]:
df_hh.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,clusters5_e,clusters5_k,clusters5_m,clusters5_h
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,기타,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,,,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1710.0,1206.0,2465.0,1530.0,1.0,,,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,기타,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,,,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),구기운동,1523.0,2024.0,1215.0,2744.0,0.0,,,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,건물(문/창문/바닥/벽 등),장난/놀이,1710.0,1206.0,2465.0,1530.0,,,3.0,


##특수학교

In [54]:
df_s = df[df['학교급'].isin(['특수학교'])]

In [55]:
df_s.agg(pd.Series.mode)

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
0,부산한솔학교,경기,서울특별시교육청,특수학교,특수학교(학급)학생,남,1학년,2022-10-19,목,11:00,수업시간,교실,발,물리적힘 노출,기타,기타,3283.0,978.0,2936.0,4260.0


In [56]:
k=5
km5 = KModes(n_clusters=k, init='Cao', n_init=10, verbose=1)
clusters5 = km5.fit_predict(df_s)

Initialization method and algorithm are deterministic. Setting n_init to 1.
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 1, iteration: 1/100, moves: 203, cost: 13791.0
Run 1, iteration: 2/100, moves: 24, cost: 13791.0


In [57]:
df_s['clusters5']=clusters5
df_s['clusters5'].value_counts()

0    413
1    308
3    182
4    173
2    166
Name: clusters5, dtype: int64

In [58]:
df_s.groupby('clusters5').agg(pd.Series.mode)

Unnamed: 0_level_0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,사고시간,사고장소,사고부위,사고형태,사고매개물,사고당시활동,X_학생,Y_학생,X_학교,Y_학교
clusters5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,서울정진학교,서울,서울특별시교육청,특수학교,특수학교(학급)학생,남,2학년,2022-06-16,금,11:00,수업시간,교실,발,물리적힘 노출,기타,기타,3283.0,978.0,2936.0,4260.0
1,화성나래학교,경기,대구교육청,특수학교,특수학교(학급)학생,남,1학년,2022-07-12,화,13:20,체육수업,부속시설,복합부위,낙상-넘어짐,건물(문/창문/바닥/벽 등),보행/주행,3004.0,4557.0,1215.0,2744.0
2,부산한솔학교,부산,부산광역시교육청,특수학교,특수학교(학급)학생,남,1학년,2020-05-28,목,11:50,점심시간,부속시설,머리(두부),기타,기타,기타,3299.0,4088.0,1215.0,2744.0
3,아름학교,경기,서울특별시교육청,특수학교,특수학교(학급)학생,남,1학년,"[2022-06-13, 2022-09-26, 2022-10-19]",월,11:00,수업시간,운동장,손,물리적힘 노출,운동(놀이)용 장비/기구(공/운동기구/운동장 기구 등),기타,1523.0,2024.0,2465.0,1530.0
4,대전가원학교,경기,인천광역시교육청,특수학교,특수학교(학급)학생,남,3학년,2022-05-09,수,12:50,수업시간,교실,머리(두부),낙상-넘어짐,건물(문/창문/바닥/벽 등),보행/주행,3299.0,4088.0,2936.0,4260.0


기존 데이터(df_hh)에 클러스터링 결과를 변수(clusters5)로 추가

In [59]:
df_fin = pd.concat([df_hh,df_s['clusters5']], axis=1)

In [60]:
df_fin.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,clusters5_e,clusters5_k,clusters5_m,clusters5_h,clusters5
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,,,,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,구기운동,1710.0,1206.0,2465.0,1530.0,1.0,,,,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,,,,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,구기운동,1523.0,2024.0,1215.0,2744.0,0.0,,,,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,장난/놀이,1710.0,1206.0,2465.0,1530.0,,,3.0,,


**변수명 변경**

In [61]:
df_fin = df_fin.rename(columns = {'clusters5_e' : '초등cluster', 'clusters5_k' : '유치원cluster', 'clusters5_m' : '중등cluster', 'clusters5_h' : '고등cluster', 'clusters5' : '특수cluster'} )

In [62]:
df_fin.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,초등cluster,유치원cluster,중등cluster,고등cluster,특수cluster
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,,,,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,구기운동,1710.0,1206.0,2465.0,1530.0,1.0,,,,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,,,,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,구기운동,1523.0,2024.0,1215.0,2744.0,0.0,,,,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,장난/놀이,1710.0,1206.0,2465.0,1530.0,,,3.0,,


In [63]:
df_fin['초등cluster'] = df_fin['초등cluster'].map({0: 0.0, 1: 1.0, 2: 2.0, 3: 3.0, 4: 4.0})
df_fin['중등cluster'] = df_fin['중등cluster'].map({0.0: 0, 1.0: 1, 2.0: 2, 3.0: 3, 4.0: 4})
df_fin['고등cluster'] = df_fin['고등cluster'].map({0.0: 0, 1.0: 1, 2.0: 2, 3.0: 3, 4.0: 4})
df_fin['특수cluster'] = df_fin['특수cluster'].map({0.0: 0, 1.0: 1, 2.0: 2, 3.0: 3, 4.0: 4})
df_fin['유치원cluster'] = df_fin['유치원cluster'].map({0.0: 0, 1.0: 1, 2.0: 2, 3.0: 3, 4.0: 4})

In [64]:
df_fin.head()

Unnamed: 0,학교명,지역,교육청,학교급,사고자구분,사고자성별,사고자학년,사고발생일,사고발생요일,사고발생시간,...,사고당시활동,X_학생,Y_학생,X_학교,Y_학교,초등cluster,유치원cluster,중등cluster,고등cluster,특수cluster
0,치악초등학교,강원,원주교육지원청,초등학교,일반학생,여,5학년,2018-11-01,목,16:00,...,실험실습,1710.0,1206.0,2936.0,4260.0,3.0,,,,
1,정선초등학교,강원,정선교육지원청,초등학교,일반학생,여,6학년,2019-06-14,금,14:40,...,구기운동,1710.0,1206.0,2465.0,1530.0,1.0,,,,
2,정선초등학교,강원,정선교육지원청,초등학교,일반학생,남,4학년,2019-06-20,목,11:30,...,기타운동,1710.0,1206.0,3863.0,2803.0,1.0,,,,
3,태장초등학교,강원,원주교육지원청,초등학교,일반학생,남,6학년,2019-08-30,금,13:50,...,구기운동,1523.0,2024.0,1215.0,2744.0,0.0,,,,
4,버들중학교,강원,원주교육지원청,중학교,일반학생,여,2학년,2019-10-08,화,09:40,...,장난/놀이,1710.0,1206.0,2465.0,1530.0,,,3.0,,


**최종 데이터 생성**

In [65]:
df_fin.to_csv('data_fin.csv', index=False)