#### 0.pandas 패키지 import


In [47]:
import pandas as pd

In [48]:
# pandas -> 표 형태의 데이터를 다루는데 특화된 도구
# 데이터를 색인하는 index 개념을 행과 열에 따라 다른 명칭을 부여 함
# 행을 색인하는 인덱스 -> index
# 열을 색인하는 인덱스 -> columns
# 1차원 데이터를 표현하는 클래스 -> Series
# 2차원 데이터를 표현하는 클래스 -> DataFrame

#### 1. Series 사용하기

In [49]:
# Series 생성
h = pd.Series([179, 165, 140, 158, 192])
h

0    179
1    165
2    140
3    158
4    192
dtype: int64

In [50]:
# 글자 인덱스 부여해서 Series 생성
w = pd.Series([60,58,81,77,47],index=["선영표","정봉균","황해도","박병관","정형"])
w

선영표    60
정봉균    58
황해도    81
박병관    77
정형     47
dtype: int64

In [51]:
# 이름을 부여해서 Series 생성
w = pd.Series([60,58,81,77,47],index=["선영표","정봉균","황해도","박병관","정형"],
             name="몸무게")
w

선영표    60
정봉균    58
황해도    81
박병관    77
정형     47
Name: 몸무게, dtype: int64

In [52]:
# 속성 활용하기
display(w.shape) # 모양 확인
display(w.values) # 값을 꺼내고 싶은 경우
display(w.index) # 인덱스만 꺼내고 싶은 경우
display(w.dtype) # 데이터타입을 알고 싶은 경우

(5,)

array([60, 58, 81, 77, 47], dtype=int64)

Index(['선영표', '정봉균', '황해도', '박병관', '정형'], dtype='object')

dtype('int64')

In [53]:
# 연산 -> 같은 인덱스끼리 요소별 연산 지원
# 같은 인덱스가 없는 경우 연산할 수 없어 NaN 발생
w/(h**2)

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
박병관   NaN
선영표   NaN
정봉균   NaN
정형    NaN
황해도   NaN
dtype: float64

In [54]:
# 키 데이터에 인덱스를 부여
h.index = ["선영표","정봉균","황해도","박병관","정형"]
h

선영표    179
정봉균    165
황해도    140
박병관    158
정형     192
dtype: int64

In [55]:
h/100

선영표    1.79
정봉균    1.65
황해도    1.40
박병관    1.58
정형     1.92
dtype: float64

In [56]:
# 인덱싱 & 슬라이싱
display(h["선영표"])
display(h[0])
display(h[["선영표","정봉균"]])
display(h[[0,3]])
display(w["선영표":"박병관"])
display(w[1:4])

179

179

선영표    179
정봉균    165
dtype: int64

선영표    179
박병관    158
dtype: int64

선영표    60
정봉균    58
황해도    81
박병관    77
Name: 몸무게, dtype: int64

정봉균    58
황해도    81
박병관    77
Name: 몸무게, dtype: int64

In [57]:
# boolean 색인
java = pd.Series({"선영표":90, "박병관":79,"정봉균":57,"정형":99})
java[java<=80]

박병관    79
정봉균    57
dtype: int64

In [58]:
# 조건을 여러개 넣고 싶은 경우
java[(java>=90)|(java<60)]

선영표    90
정봉균    57
정형     99
dtype: int64

#### 2.DataFrame 사용하기

In [59]:
# DataFrame 생성
df= pd.DataFrame([['선영표',160,56],
                  [' 박병관',176,80],
                  ['정봉균',179,76]])
df

Unnamed: 0,0,1,2
0,선영표,160,56
1,박병관,176,80
2,정봉균,179,76


In [60]:
# 글자 인덱스를 부여해서 생성

In [61]:
df = pd.DataFrame([['선영표',160,56],
                   ['박병관',176,80],
                   ['정봉균',179,76]],
                  index = ['1번','2번','3번'],
                 columns =['이름','키','몸무게'])
df

Unnamed: 0,이름,키,몸무게
1번,선영표,160,56
2번,박병관,176,80
3번,정봉균,179,76


In [62]:
# 속성
display(df.shape) # 모양 확인
display(df.values) # numpy배열로 값만 추출
display(df.index) # 행 인덱스 추출
display(df.columns) # 열 인덱스 추출
display(df.dtypes) # 각 열별 데이터 타입 확인

(3, 3)

array([['선영표', 160, 56],
       ['박병관', 176, 80],
       ['정봉균', 179, 76]], dtype=object)

Index(['1번', '2번', '3번'], dtype='object')

Index(['이름', '키', '몸무게'], dtype='object')

이름     object
키       int64
몸무게     int64
dtype: object

In [63]:
# 연산
df['몸무게']/((df['키']/100)**2)

1번    21.875000
2번    25.826446
3번    23.719609
dtype: float64

In [64]:
# indexing & slicing
# 기본적으로 열 기준으로 색인하는 것을 우선시
display(df['몸무게'])
display(df[['몸무게','키']])
display(df['키':'몸무게'])
display(df["1번":"2번"])

1번    56
2번    80
3번    76
Name: 몸무게, dtype: int64

Unnamed: 0,몸무게,키
1번,56,160
2번,80,176
3번,76,179


Unnamed: 0,이름,키,몸무게


Unnamed: 0,이름,키,몸무게
1번,선영표,160,56
2번,박병관,176,80


In [65]:
# 헷갈리는걸 방지하기 위해 추천하는 인덱서
# iloc와 loc
display(df.loc['1번',"이름"]) # 글자와 숫자 모두 지원
display(df.iloc[1,0]) # 숫자만 지원
display(df.loc["2번","키":"몸무게"])
display(df.iloc[0,0:2])

'선영표'

'박병관'

키      176
몸무게     80
Name: 2번, dtype: object

이름    선영표
키     160
Name: 1번, dtype: object

In [66]:
# boolean 색인
df[df["몸무게"]<=60]

Unnamed: 0,이름,키,몸무게
1번,선영표,160,56


In [67]:
df[(df["키"]<=160)|(df['키']>=178)]

Unnamed: 0,이름,키,몸무게
1번,선영표,160,56
3번,정봉균,179,76


#### 3. 유용한 함수

#### 3.1 기술통계관련

In [68]:
# 데이터 로딩
score_df = pd.read_csv("./data/score.csv", encoding="euc-kr")
score_df

Unnamed: 0,과목,1반,2반,3반,4반
0,수학,45,44,73,39
1,영어,76,92,45,69
2,국어,47,92,45,69
3,사회,92,81,85,40
4,과학,11,79,47,26


In [69]:
# 과목별 평균 구하기
score_df_almeng=score_df.loc[:,"1반":]
score_df_almeng.mean(axis=1)

0    50.25
1    70.50
2    63.25
3    74.50
4    40.75
dtype: float64

In [70]:
# 원본 데이터 프레임에 과목별 평균데이터 추가하기
score_df['과목별평균']=score_df.loc[:,"1반":].mean(axis=1)
score_df

Unnamed: 0,과목,1반,2반,3반,4반,과목별평균
0,수학,45,44,73,39,50.25
1,영어,76,92,45,69,70.5
2,국어,47,92,45,69,63.25
3,사회,92,81,85,40,74.5
4,과학,11,79,47,26,40.75


In [71]:
# 원본데이터프레임에 과목별 총합데이터 추가하기
sum_series=score_df_almeng.sum(axis=1)
score_df['과목별합계']=sum_series
score_df

Unnamed: 0,과목,1반,2반,3반,4반,과목별평균,과목별합계
0,수학,45,44,73,39,50.25,201
1,영어,76,92,45,69,70.5,282
2,국어,47,92,45,69,63.25,253
3,사회,92,81,85,40,74.5,298
4,과학,11,79,47,26,40.75,163


In [72]:
# 반별 평균 구하기
class_mean=score_df.iloc[0:5,1:5].mean()
class_mean

1반    54.2
2반    77.6
3반    59.0
4반    48.6
dtype: float64

In [73]:
score_df.loc[5]= class_mean
score_df

Unnamed: 0,과목,1반,2반,3반,4반,과목별평균,과목별합계
0,수학,45.0,44.0,73.0,39.0,50.25,201.0
1,영어,76.0,92.0,45.0,69.0,70.5,282.0
2,국어,47.0,92.0,45.0,69.0,63.25,253.0
3,사회,92.0,81.0,85.0,40.0,74.5,298.0
4,과학,11.0,79.0,47.0,26.0,40.75,163.0
5,,54.2,77.6,59.0,48.6,,


In [74]:
# 존재하지 않는 인덱스는 NaN을 넣어 결측치로 표시해준다

#### 3.2 결측치 처리 함수
- 누락된 데이터를 대체값으로 채우는 경우
- 누락된 데이터를 포함한 행이나 열을 삭제

In [75]:
pop_df= pd.read_csv("./data/population_number.csv",encoding='euc-kr')
pop_df

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [76]:
# 누락된 데이터를 대체값으로 채우는 경우
pop_df.fillna(0)
# 복사본을 보여줄 뿐임

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,0.0,0.0,3655437
2,인천,수도권,2890451,2632035.0,0.0,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [77]:
# 진짜로 채워넣기
# 대입
pop_df=pop_df.fillna(0)
# 또는 inplace라는 속성을 True로 적용
pop_df.fillna(0,inplace=True)

In [78]:
# 기술통계관련 함수를 이용해 대체값 채우기
pop_df= pd.read_csv("./data/population_number.csv",encoding='euc-kr')
pop_df['2010']=pop_df['2010'].fillna(pop_df['2010'].mean())

In [79]:
# 누락된 데이터가 포함된 행 or 열을 삭제하기
pop_df= pd.read_csv("./data/population_number.csv",encoding='euc-kr')
pop_df
pop_df.drop(["2010","2005"],axis=1,inplace=True)

In [80]:
pop_df= pd.read_csv("./data/population_number.csv",encoding='euc-kr')
pop_df

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [81]:
# 특정 행이나 열을 지칭하지 않고 결측치가 존재하면 삭제하는 함수
pop_df= pd.read_csv("./data/population_number.csv",encoding='euc-kr')
pop_df.dropna()

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [82]:
# 만약에 행이나 열 정보가 맣은 경우 자동으로 생략된다
# 원하는 크기만큼 보여주도록 옵션을 설정해보자
pd.set_option("display.max_rows",100)

In [83]:
tf21=pd.read_csv("./data/도로교통공단_가해운전자 연령층별 월별 교통사고(2021).csv", encoding='euc=kr')
display(tf21.head(50))
display(tf21.tail(10))

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,363,4,95,368,46
1,20세이하,2,422,11,100,415,74
2,20세이하,3,570,1,136,578,102
3,20세이하,4,683,11,184,674,109
4,20세이하,5,669,6,228,631,107
5,20세이하,6,666,7,160,621,108
6,20세이하,7,687,9,188,733,103
7,20세이하,8,648,5,195,642,111
8,20세이하,9,632,8,175,609,103
9,20세이하,10,619,11,169,611,73


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
86,불명,3,211,0,24,155,53
87,불명,4,235,0,29,180,57
88,불명,5,234,0,23,177,56
89,불명,6,250,0,40,176,66
90,불명,7,214,0,17,155,62
91,불명,8,232,0,29,163,67
92,불명,9,238,1,30,165,58
93,불명,10,279,0,36,212,72
94,불명,11,270,0,38,190,67
95,불명,12,310,0,32,248,66


In [84]:
# 사고건수를 기준으로 정렬
# sort_values : 값을 기준으로 데이터를 정렬
# sort_index: 인덱스를 기준으로 데이터를 정렬
tf21.sort_values(by="사고건수",ascending=False)


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
58,51-60세,11,4252,72,1197,4602,307
54,51-60세,7,4132,45,1105,4498,317
57,51-60세,10,4099,62,1162,4441,300
51,51-60세,4,4096,56,1197,4362,232
53,51-60세,6,4021,39,1169,4385,251
50,51-60세,3,3979,46,1098,4384,272
56,51-60세,9,3939,53,1121,4130,257
52,51-60세,5,3899,52,1060,4272,271
59,51-60세,12,3829,68,1002,3999,318
55,51-60세,8,3744,45,1039,4114,277


In [85]:
tf21.sort_values(by=["사고건수",'사망자수'],ascending=False)

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
58,51-60세,11,4252,72,1197,4602,307
54,51-60세,7,4132,45,1105,4498,317
57,51-60세,10,4099,62,1162,4441,300
51,51-60세,4,4096,56,1197,4362,232
53,51-60세,6,4021,39,1169,4385,251
50,51-60세,3,3979,46,1098,4384,272
56,51-60세,9,3939,53,1121,4130,257
52,51-60세,5,3899,52,1060,4272,271
59,51-60세,12,3829,68,1002,3999,318
55,51-60세,8,3744,45,1039,4114,277


In [86]:
tf21.sort_index(axis=1)

Unnamed: 0,가해자연령층,경상자수,발생월,부상신고자수,사고건수,사망자수,중상자수
0,20세이하,368,1,46,363,4,95
1,20세이하,415,2,74,422,11,100
2,20세이하,578,3,102,570,1,136
3,20세이하,674,4,109,683,11,184
4,20세이하,631,5,107,669,6,228
5,20세이하,621,6,108,666,7,160
6,20세이하,733,7,103,687,9,188
7,20세이하,642,8,111,648,5,195
8,20세이하,609,9,103,632,8,175
9,20세이하,611,10,73,619,11,169


In [113]:
test=tf21.groupby(by="가해자연령층")


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000016ECAA411D0>

In [88]:
# groupby를 하면 내부적으로 작은 데이터프레임으로 묶여있게 된다.
for label,df in tf21.groupby(by="가해자연령층"):
    display(df)

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,363,4,95,368,46
1,20세이하,2,422,11,100,415,74
2,20세이하,3,570,1,136,578,102
3,20세이하,4,683,11,184,674,109
4,20세이하,5,669,6,228,631,107
5,20세이하,6,666,7,160,621,108
6,20세이하,7,687,9,188,733,103
7,20세이하,8,648,5,195,642,111
8,20세이하,9,632,8,175,609,103
9,20세이하,10,619,11,169,611,73


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
12,21-30세,1,2185,26,575,2468,214
13,21-30세,2,2094,20,571,2322,191
14,21-30세,3,2355,23,635,2649,206
15,21-30세,4,2497,27,718,2758,229
16,21-30세,5,2506,33,695,2843,234
17,21-30세,6,2542,32,711,2839,242
18,21-30세,7,2597,27,661,2875,265
19,21-30세,8,2451,39,660,2775,225
20,21-30세,9,2361,33,587,2671,221
21,21-30세,10,2549,37,663,2865,212


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
24,31-40세,1,2461,20,657,2705,188
25,31-40세,2,2218,23,571,2584,196
26,31-40세,3,2466,21,706,2707,227
27,31-40세,4,2555,34,744,2859,204
28,31-40세,5,2626,31,732,2837,220
29,31-40세,6,2649,25,736,2904,226
30,31-40세,7,2651,23,706,2929,205
31,31-40세,8,2388,36,600,2646,194
32,31-40세,9,2402,33,649,2707,202
33,31-40세,10,2664,40,705,3014,205


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
36,41-50세,1,2780,37,759,2996,191
37,41-50세,2,2630,34,763,2909,165
38,41-50세,3,2883,39,829,3113,213
39,41-50세,4,3214,31,870,3556,239
40,41-50세,5,3159,38,834,3537,245
41,41-50세,6,3103,44,882,3310,221
42,41-50세,7,3236,55,926,3533,241
43,41-50세,8,2888,40,791,3183,231
44,41-50세,9,2978,36,832,3229,204
45,41-50세,10,3305,50,904,3590,243


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
48,51-60세,1,3537,51,995,3858,217
49,51-60세,2,3411,50,996,3822,241
50,51-60세,3,3979,46,1098,4384,272
51,51-60세,4,4096,56,1197,4362,232
52,51-60세,5,3899,52,1060,4272,271
53,51-60세,6,4021,39,1169,4385,251
54,51-60세,7,4132,45,1105,4498,317
55,51-60세,8,3744,45,1039,4114,277
56,51-60세,9,3939,53,1121,4130,257
57,51-60세,10,4099,62,1162,4441,300


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
60,61-64세,1,1291,19,361,1413,68
61,61-64세,2,1320,16,357,1446,97
62,61-64세,3,1525,25,397,1677,101
63,61-64세,4,1501,13,446,1645,92
64,61-64세,5,1616,27,412,1859,100
65,61-64세,6,1590,11,490,1807,109
66,61-64세,7,1671,22,522,1819,73
67,61-64세,8,1481,28,419,1659,85
68,61-64세,9,1600,29,469,1695,117
69,61-64세,10,1668,32,473,1778,127


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
72,65세이상,1,2048,40,571,2155,155
73,65세이상,2,2180,49,649,2289,145
74,65세이상,3,2611,54,737,2759,170
75,65세이상,4,2622,40,795,2788,175
76,65세이상,5,2669,68,788,2755,209
77,65세이상,6,2754,69,831,2795,211
78,65세이상,7,2806,73,836,2917,184
79,65세이상,8,2586,54,783,2724,170
80,65세이상,9,2862,53,843,2978,200
81,65세이상,10,3117,80,887,3350,215


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
84,불명,1,244,0,35,178,55
85,불명,2,236,0,33,180,44
86,불명,3,211,0,24,155,53
87,불명,4,235,0,29,180,57
88,불명,5,234,0,23,177,56
89,불명,6,250,0,40,176,66
90,불명,7,214,0,17,155,62
91,불명,8,232,0,29,163,67
92,불명,9,238,1,30,165,58
93,불명,10,279,0,36,212,72


In [89]:
# 그룹화한 뒤 집계함수 호출
tf21.groupby(by='가해자연령층').sum()

Unnamed: 0_level_0,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
가해자연령층,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
20세이하,78,6960,85,1903,6848,1075
21-30세,78,29076,360,7747,32460,2682
31-40세,78,30304,350,8139,33624,2513
41-50세,78,36480,494,10104,39777,2711
51-60세,78,46938,639,13141,50867,3260
61-64세,78,18578,278,5251,20344,1181
65세이상,78,31841,709,9254,33184,2275
불명,78,2953,1,366,2179,723


In [90]:
# 22년에 사고를 제일 많이 낸 연령층은 어디?
tf21.groupby(by='가해자연령층').sum(.sort_values(by='사고건수', ascending=False))

SyntaxError: invalid syntax (3623096666.py, line 2)

In [146]:
tf20=pd.read_csv("./data/도로교통공단_가해운전자 연령층별 월별 교통사고(2020).csv", encoding='euc=kr')
tf19=pd.read_csv("./data/도로교통공단_가해운전자 연령층별 월별 교통사고(2019).csv", encoding='euc=kr')
tf18=pd.read_csv("./data/도로교통공단_가해운전자 연령층별 월별 교통사고(2018).csv", encoding='euc=kr')

In [147]:
display(tf21.head())
display(tf20.head())
display(tf19.head())
display(tf18.head())

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,363,4,95,368,46
1,20세이하,2,422,11,100,415,74
2,20세이하,3,570,1,136,578,102
3,20세이하,4,683,11,184,674,109
4,20세이하,5,669,6,228,631,107


Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,452,5,137,456,59
1,20세이하,2,480,6,160,480,88
2,20세이하,3,521,8,160,547,90
3,20세이하,4,612,5,181,597,122
4,20세이하,5,644,9,204,634,114


Unnamed: 0,가해자연령층,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,423,10,134,371,88
1,20세이하,2,405,6,128,397,81
2,20세이하,3,569,13,197,535,97
3,20세이하,4,595,11,175,578,117
4,20세이하,5,714,9,210,661,142


Unnamed: 0,가해자연령층,월,사고건수,사망자수,중상자수,경상자수,부상신고자수
0,20세이하,1,384,3,159,378,68
1,20세이하,2,394,4,123,426,59
2,20세이하,3,507,6,157,469,83
3,20세이하,4,650,15,180,590,127
4,20세이하,5,630,11,198,541,122


In [148]:
# 단순병합 -> concat
tf_all=pd.concat([tf21,tf20,tf19,tf18])
tf_all

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수,월
0,20세이하,1.0,363,4,95,368,46,
1,20세이하,2.0,422,11,100,415,74,
2,20세이하,3.0,570,1,136,578,102,
3,20세이하,4.0,683,11,184,674,109,
4,20세이하,5.0,669,6,228,631,107,
...,...,...,...,...,...,...,...,...
91,불명,,338,1,44,260,83,8.0
92,불명,,350,1,58,238,99,9.0
93,불명,,394,0,68,296,87,10.0
94,불명,,399,0,64,296,87,11.0


In [149]:
# 컬럼이름이 연도에 따라 다르기 때문에 변경해서 병합하자
tf18.rename(columns={"월":"발생월"},inplace=True)
tf19.rename(columns={"월":"발생월"},inplace=True)

In [150]:
tf_all.head(100)

Unnamed: 0,가해자연령층,발생월,사고건수,사망자수,중상자수,경상자수,부상신고자수,월
0,20세이하,1.0,363,4,95,368,46,
1,20세이하,2.0,422,11,100,415,74,
2,20세이하,3.0,570,1,136,578,102,
3,20세이하,4.0,683,11,184,674,109,
4,20세이하,5.0,669,6,228,631,107,
5,20세이하,6.0,666,7,160,621,108,
6,20세이하,7.0,687,9,188,733,103,
7,20세이하,8.0,648,5,195,642,111,
8,20세이하,9.0,632,8,175,609,103,
9,20세이하,10.0,619,11,169,611,73,


In [None]:
# 병합시 인덱스를 2중으로 부여하기
tf_all=pd.concat([tf21,tf20,tf19,tf18], keys=['2021','2020','2019','2018'])
tf_all.head(100)

In [None]:
# 이중인덱스 색인하기
display(tf_all.loc[('2021',5)])

In [129]:
df2015= pd.read_csv("./data/2015.csv",encoding='euc=kr')
df2016= pd.read_csv("./data/2016.csv",encoding='euc=kr')
df2017= pd.read_csv("./data/2017.csv",encoding='euc=kr')
display(df2015)
display(df2016)
display(df2017)

Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력
0,광주지방경찰청계,발생건수,18,44,750,8425,9593
1,광주지방경찰청계,검거건수,18,47,758,5409,8301
2,광주지방경찰청계,검거인원,17,66,776,3433,11774
3,광주지방경찰청계,구속,9,33,42,104,58
4,광주지방경찰청계,불구속,1,26,511,2781,5618
5,광주지방경찰청계,기타,7,7,223,548,6098
6,광주동부경찰서,발생건수,3,5,92,1100,1155
7,광주동부경찰서,검거건수,4,6,86,583,970
8,광주동부경찰서,검거인원,4,7,98,447,1483
9,광주동부경찰서,구속,3,2,8,13,10


Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력
0,광주지방경찰청계,발생건수,17,47,701,6052,8599
1,광주지방경찰청계,검거건수,18,47,713,4242,7631
2,광주지방경찰청계,검거인원,21,54,758,3455,10747
3,광주지방경찰청계,구속,14,25,37,132,57
4,광주지방경찰청계,불구속,3,25,491,2862,5267
5,광주지방경찰청계,기타,4,4,230,461,5423
6,광주동부경찰서,발생건수,3,8,83,832,1142
7,광주동부경찰서,검거건수,3,7,70,679,1002
8,광주동부경찰서,검거인원,4,10,71,543,1497
9,광주동부경찰서,구속,2,2,3,17,7


Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력
0,광주지방경찰청계,발생건수,9,33,725,4816,8366
1,광주지방경찰청계,검거건수,9,32,732,3487,7553
2,광주지방경찰청계,검거인원,10,61,824,3046,11018
3,광주지방경찰청계,구속,8,28,71,115,88
4,광주지방경찰청계,불구속,0,26,523,2493,5235
5,광주지방경찰청계,기타,2,7,230,438,5695
6,광주지방경찰청,발생건수,0,0,0,0,0
7,광주지방경찰청,검거건수,0,1,91,0,37
8,광주지방경찰청,검거인원,0,1,105,0,149
9,광주지방경찰청,구속,0,0,17,0,7


In [130]:
chongae2015=df2015.groupby(by='관서명').sum().loc[:,"살인":"폭력"].sum(axis=1)
display(chongae2015)
chongae2016=df2016.groupby(by='관서명').sum().loc[:,"살인":"폭력"].sum(axis=1)
chongae2017=df2017.groupby(by='관서명').sum().loc[:,"살인":"폭력"].sum(axis=1)

관서명
광주광산경찰서     14161
광주남부경찰서      7089
광주동부경찰서      8082
광주북부경찰서     18602
광주서부경찰서     16764
광주지방경찰청계    65495
dtype: int64

In [131]:
jenggam1516=(chongae2016-chongae2015)*100/chongae2015
display(jenggam1516)

관서명
광주광산경찰서     -9.215451
광주남부경찰서     -7.391734
광주동부경찰서     -0.037120
광주북부경찰서    -19.175357
광주서부경찰서    -10.958005
광주지방경찰청계   -11.234445
dtype: float64

In [132]:
# boolean색인(데이터필터링) 
# 구분 컬럼 값이 '발생건수'와 같은 데이터 추출
crime15_ft=df2015[df2015['구분']=='발생건수'].copy()
crime15_ft["2015총계"]=crime15_ft.loc[:,"살인":"폭력"].sum(axis=1)
display(crime15_ft)

Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력,2015총계
0,광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
6,광주동부경찰서,발생건수,3,5,92,1100,1155,2355
12,광주서부경찰서,발생건수,5,10,172,2050,2483,4720
18,광주남부경찰서,발생건수,1,3,70,962,1081,2117
24,광주북부경찰서,발생건수,5,14,256,2570,2621,5466
30,광주광산경찰서,발생건수,4,12,160,1743,2253,4172


In [133]:
crime16_ft=df2016[df2016['구분']=='발생건수'].copy()
crime16_ft["2016총계"]=crime16_ft.loc[:,"살인":"폭력"].sum(axis=1)
display(crime16_ft)
crime17_ft=df2017[df2017['구분']=='발생건수'].copy()
crime17_ft["2017총계"]=crime17_ft.loc[:,"살인":"폭력"].sum(axis=1)
display(crime17_ft)

Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력,2016총계
0,광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
6,광주동부경찰서,발생건수,3,8,83,832,1142,2068
12,광주서부경찰서,발생건수,2,11,174,1417,2288,3892
18,광주남부경찰서,발생건수,1,4,64,768,1028,1865
24,광주북부경찰서,발생건수,6,7,205,1788,2142,4148
30,광주광산경찰서,발생건수,5,17,175,1247,1999,3443


Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력,2017총계
0,광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
6,광주지방경찰청,발생건수,0,0,0,0,0,0
12,광주동부경찰서,발생건수,3,5,77,624,1090,1799
18,광주서부경찰서,발생건수,0,7,196,1142,2293,3638
24,광주남부경찰서,발생건수,0,4,68,577,898,1547
30,광주북부경찰서,발생건수,3,5,215,1546,2176,3945
36,광주광산경찰서,발생건수,3,12,169,927,1909,3020


In [134]:
# 17년에 등장하는 행 삭제
crime17_ft.drop(6,inplace=True)

In [140]:
crime16_ft

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,2016총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
광주동부경찰서,발생건수,3,8,83,832,1142,2068
광주서부경찰서,발생건수,2,11,174,1417,2288,3892
광주남부경찰서,발생건수,1,4,64,768,1028,1865
광주북부경찰서,발생건수,6,7,205,1788,2142,4148
광주광산경찰서,발생건수,5,17,175,1247,1999,3443


In [138]:
# 올바른 계산을 위해 인덱스를 맞춰주자
#1. 데이터프레임.index = 새로운 인덱스 or 데이터프레임.column = 새로운컬럼즈
#2. 데이터프레임.rename() 함수 활용
#3. 기존 컬럼을 인덱스로 설정 -> set_index()
crime15_ft.set_index("관서명",inplace=True)
crime16_ft.set_index("관서명",inplace=True)
crime17_ft.set_index("관서명",inplace=True)

In [141]:
# 증감율 계산
crime15to16= (crime16_ft['2016총계']-crime15_ft['2015총계']) \
                /crime15_ft['2015총계']
crime16to17= (crime17_ft['2017총계']-crime16_ft['2016총계']) \
                /crime16_ft['2016총계']

In [144]:
# 병합
result= pd.concat([crime15_ft['2015총계'], crime15to16, 
                   crime16_ft['2016총계'], crime16to17, 
                   crime17_ft['2017총계']],axis=1)
result.rename(columns={0:"2015-2016증감률", 1:"2016-2017증감률"},inplace=True)

In [145]:
result

Unnamed: 0_level_0,2015총계,2015-2016증감률,2016총계,2016-2017증감률,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-0.181306,15416,-0.095161,13949
광주동부경찰서,2355,-0.121868,2068,-0.130077,1799
광주서부경찰서,4720,-0.175424,3892,-0.065262,3638
광주남부경찰서,2117,-0.119036,1865,-0.170509,1547
광주북부경찰서,5466,-0.241127,4148,-0.048939,3945
광주광산경찰서,4172,-0.174736,3443,-0.122858,3020


#### 3.6 데이터 병합(merge) & 문자열 함수

In [151]:
# 데이터로딩
cctv = pd.read_csv("./data/광주광역시_CCTV_20231231.CSV",encoding="euc-kr")
dong = pd.read_csv("./data/광주광역시_행정동별 현황_20221231.csv",encoding="euc-kr")

In [152]:
display(cctv.head(10))
display(dong.head(10))

Unnamed: 0,관리기관명,소재지지번주소,소재지도로명주소,카메라대수,카메라화소,촬영방면,보관일수,설치연도,위도,경도,데이터기준일자
0,광주광역시 사회재난과,광산구 광산동 666-7,광산구 고봉로 905,2,200만,360도,30일,2018,35.225272,126.735854,2023-12-31
1,광주광역시 사회재난과,광산구 도덕동 320-15,광산구 삼도로 342,1,200만,360도,30일,2013,35.162851,126.699911,2023-12-31
2,광주광역시 사회재난과,광산구 도덕동 320-15,광산구 삼도로 342,1,200만,360도,30일,2022,35.162851,126.699911,2023-12-31
3,광주광역시 사회재난과,광산구 도산동 1128-4,광산구 도산로9번길 58,4,200만,360도,30일,2020,35.127057,126.789353,2023-12-31
4,광주광역시 사회재난과,광산구 도산동 1282-1,광산구 남동길48번길 25,1,200만,360도,30일,2013,35.130739,126.789865,2023-12-31
5,광주광역시 사회재난과,광산구 도산동 1282-1,광산구 남동길48번길 25,2,200만,360도,30일,2019,35.130739,126.789865,2023-12-31
6,광주광역시 사회재난과,광산구 도산동 1282-1,광산구 남동길48번길 25,1,200만,360도,30일,2022,35.130739,126.789865,2023-12-31
7,광주광역시 사회재난과,광산구 도산동 1283-6,광산구 남동길 42-13,3,200만,360도,30일,2021,35.130713,126.789238,2023-12-31
8,광주광역시 사회재난과,광산구 도산동 1294-6,광산구 도산로 9,1,200만,360도,30일,2009,35.129063,126.79152,2023-12-31
9,광주광역시 사회재난과,광산구 도산동 1294-6,광산구 도산로 9,1,200만,360도,30일,2018,35.129063,126.79152,2023-12-31


Unnamed: 0,동 별,인구(명),면적(제곱킬로미터),세대수,통,리,반,공무원(명)
0,□동구(13동),105909,49.31,54072,204,,1157,181
1,충장동(忠壯洞),5077,1.13,3965,15,,45,15
2,동명동(東明洞),3743,0.43,2426,10,,61,13
3,계림1동(鷄林1洞),10507,0.63,5795,21,,120,14
4,계림2동(鷄林2洞),12893,0.56,5420,22,,144,14
5,산수1동(山水1洞),8236,0.78,4415,17,,89,14
6,산수2동(山水2洞),10127,0.83,4749,17,,110,14
7,지원1동(池元1洞),9006,1.33,4196,14,,95,14
8,지원2동(池元2洞),16075,27.59,7268,25,,134,14
9,서남동(瑞南洞),2981,1.38,2233,10,,51,13


In [172]:
# 양쪽의 동 정보를 전처리하여 병합해보자
cctv['동이름']=cctv['소재지지번주소'].str.split(" ").str[1].str.strip()

In [173]:
dong['동이름']=dong["동  별"].str.split("(").str[0].str.replace("□","").str.strip()

In [176]:
# merge
result =pd.merge(cctv, dong, on="동이름",how="outer")
result

Unnamed: 0,관리기관명,소재지지번주소,소재지도로명주소,카메라대수,카메라화소,촬영방면,보관일수,설치연도,위도,경도,데이터기준일자,동이름,동 별,인구(명),면적(제곱킬로미터),세대수,통,리,반,공무원(명)
0,광주광역시 사회재난과,광산구 광산동 666-7,광산구 고봉로 905,2.0,200만,360도,30일,2018.0,35.225272,126.735854,2023-12-31,광산동,,,,,,,,
1,광주광역시 사회재난과,광산구 광산동 548-20,,1.0,200만,360도,30일,2016.0,35.236141,126.738106,2023-12-31,광산동,,,,,,,,
2,광주광역시 사회재난과,광산구 광산동 548-20,,1.0,200만,360도,30일,2018.0,35.236141,126.738106,2023-12-31,광산동,,,,,,,,
3,광주광역시 사회재난과,광산구 광산동 229-1,,2.0,200만,360도,30일,2022.0,35.251293,126.743559,2023-12-31,광산동,,,,,,,,
4,광주광역시 사회재난과,광산구 도덕동 320-15,광산구 삼도로 342,1.0,200만,360도,30일,2013.0,35.162851,126.699911,2023-12-31,도덕동,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6153,,,,,,,,,,,,첨단1동,첨단1동(尖端1洞),27112.0,2.22,10624.0,40.0,,186,16.0
6154,,,,,,,,,,,,첨단2동,첨단2동(尖端2洞),42555.0,3.45,18677.0,62.0,,280,22.0
6155,,,,,,,,,,,,동곡동,동곡동(東谷洞),1757.0,15.49,1003.0,19.0,,34,12.0
6156,,,,,,,,,,,,평동,평동(平洞),4889.0,29.87,2986.0,24.0,,78,13.0
