In [1]:
import pandas as pd
import numpy as np

# Series

### Series 생성

In [2]:
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
# 인덱스 지정하여 생성
population = pd.Series([9904312, 3448737, 2890451, 2466052],
                      index=['서울', '부산', '인천', '대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series  데이터 확인
- values : 값 확인
- index : 인덱스 확인
- dtype : 데이터 타입  확인

In [4]:
population.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [5]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
population.dtype

dtype('int64')

### Series 이름 지정
- name

In [7]:
# Series에 이름 달기
population.name = '인구'
# index에 이름 달기
population.index.name = '도시'

In [8]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series 연산

In [9]:
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱, 슬라이싱

In [10]:
# 인덱싱
# Series에서는 index에 값을 지정시 인덱스 값으로 인덱싱 가능.
# 즉, index번호와 index 값 둘 다 인덱싱에 사용 가능.
print(population[1])
print(population['부산'])
print(population[3])
print(population['대구'])

3448737
3448737
2466052
2466052


In [11]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [12]:
# 한 번에 여러 값 인덱싱하기
#               ↓인덱싱 대괄호
print(population[[0, 3, 1]])
#                   ↑한 번에 묶어주는 리스트값
# 인덱스 값으로 동일하게 인덱싱 하기
print(population[['서울','대구','부산']])

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64


In [13]:
# Boolean 인덱싱 1
# 조건문
population >= 2500000  # 불리언

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [14]:
population[population>=2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [15]:
# 5000000 이하의 도시만 인덱싱
population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [16]:
# 두가지 이상의 조건으로 Boolean인덱싱
# 인구수가 250만 이상, 500만 이하의 도시
# 2500000 <= ??? <= 50000000
population[(population >= 2500000) & (population <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
print(population[:3])
print(population[:'인천'])

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [18]:
# Series 슬라이싱
# 자동 부여되는 index번호 사용 [이상 : 미만]


### 딕셔너리 객체로 Series 생성
- 딕셔너리 key, value로 구성되어 있다.
- key값은 index
- value값은 value

In [19]:
data = {'아구몬':9631482, '피요몬':3393191,
        '텐토몬':1490158, '가부몬':2632035}
digimon = pd.Series(data)
digimon

아구몬    9631482
피요몬    3393191
텐토몬    1490158
가부몬    2632035
dtype: int64

In [20]:
data2 = {'아구몬':9904312, '피요몬':3448737,
        '텐토몬':2466052, '테일몬':2890451}
digimon_levelup = pd.Series(data2)
digimon_levelup

아구몬    9904312
피요몬    3448737
텐토몬    2466052
테일몬    2890451
dtype: int64

In [21]:
# 레벨업 후 올라간 공격력 계산
attack = digimon_levelup - digimon
attack

가부몬         NaN
아구몬    272830.0
테일몬         NaN
텐토몬    975894.0
피요몬     55546.0
dtype: float64

In [22]:
# 변수명.notnull()
attack.notnull()

가부몬    False
아구몬     True
테일몬    False
텐토몬     True
피요몬     True
dtype: bool

In [23]:
attack[attack.notnull()]

아구몬    272830.0
텐토몬    975894.0
피요몬     55546.0
dtype: float64

In [24]:
# 비어있지 않은 데이터 확인 -> 결측치
# 변수명.isnull()
attack[attack.isnull()]

가부몬   NaN
테일몬   NaN
dtype: float64

In [25]:
# 레벨업해서 올라간 공격력의 증감율
# (레벨업 - 레벨업전) / 레벨업전*100
up_down = (digimon_levelup - digimon) /digimon * 100

In [26]:
up_down[up_down.notnull()]

아구몬     2.832690
텐토몬    65.489297
피요몬     1.636984
dtype: float64

### Series 데이터 갱신, 추가, 삭제

In [27]:
# 시리즈 데이터 갱신
up_down['아구몬'] = 2.8
up_down['텐토몬'] = 65.5
up_down['피요몬'] = 1.6

In [28]:
up_down

가부몬     NaN
아구몬     2.8
테일몬     NaN
텐토몬    65.5
피요몬     1.6
dtype: float64

In [29]:
# 시리즈 데이터 삭제
del up_down['가부몬']

In [30]:
# 시리즈 데이터 삭제
del up_down['테일몬']

In [31]:
up_down

아구몬     2.8
텐토몬    65.5
피요몬     1.6
dtype: float64

In [32]:
# 변수명[새로운 인덱스값] = 값 -> 시리즈에 값 추가
# 변수명[기존의 인덱스값] = 값 -> 해당 인덱스의 값이 수정
up_down['테일몬'] = 3.4
up_down

아구몬     2.8
텐토몬    65.5
피요몬     1.6
테일몬     3.4
dtype: float64

   # DataFrame

### DataFrame 생성

In [33]:
# 딕셔너리 객체로 DataFrame생성
# key : 컬럼 이름
data = {'2015':[9904312,3448737,2890451,2466052],
       '2010':[9631482,3393191,2632035,2431774]}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [34]:
# DataFrame 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [35]:
# 리스트 객체(이름이 있는 모든 것)로 DatFrame 생성
data = [[9904312,3448737,2890451,2466052],
       [9631482,3393191,2632035,2431774]]
col = ['서울','부산','인천','대구']
ind = ['2015','2010']
df2 = pd.DataFrame(data, index=ind, columns=col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [36]:
data= [[9904312, 9631482],
      [3448737, 3393191],
      [2890451, 2632035],
      [2466052, 2431774]]
ind = ['서울','부산','인천', '대구']
col = ['2015','2010']
df2 =pd.DataFrame(data, index=ind, columns=col)
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
# 변수명.T -> 행과, 열을 바꾼다 (전치)
df2.T

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [38]:
df2 = df2.T

In [39]:
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [40]:
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [41]:
df2 = df2.T

In [42]:
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 값 확인
- value : 값 확인
- index : 인덱스 확인
- columns : 칼럼 확인

In [43]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [44]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [45]:
df2.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱

In [46]:
# 컬럼 인덱싱
# 결과가 Series로 출력
df2['2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [47]:
# 결과를 DataFrame으로 출력
df2[['2015']]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [48]:
# 두 개 이상의 컬럼명 인덱싱
df2[['2010','2015']]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [49]:
# 새로운 칼럼 생성
df2['2005'] = [9762546,3512547,2517680,2456016]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [50]:
# df 행(index) 슬라이싱
df2[1:3]

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [51]:
# 지정된 인덱스 값으로 슬라이싱
df2["부산":'인천']

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [52]:
# 행과 열을 한 번에 인덱싱/슬라이싱 해주는 함수
# loc[] : index값(문자)을 사용
# iloc[]: index의 번호(정수)를 사용
# 변수명.loc[행, 열]
# 변수명.iloc[행, 열]

In [53]:
df2.loc['부산':'인천','2010':'2005']

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [54]:
df2.loc[['서울','인천','대구'],:]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


### population 실습

In [55]:
# po.read_csv('파일명.확장자', encoding='인코딩타입')
population_number = pd.read_csv('population_number.csv',
                                encoding='euc-kr', 
                                index_col='도시')
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [56]:
# 변수.value_counts() 함수
# 각각의 값이 나온 횟수를 세어준다.
population_number['2015'].value_counts()

2466052    1
2890451    1
3448737    1
9904312    1
Name: 2015, dtype: int64

In [57]:
# 정렬
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values :  데이터 값을 기준으로 정렬
population_number.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [58]:
# 데이터 값을 기준으로 정렬
# 오름차순을 기본값으로 한다.
# 내림차순으로 변경 -> ascending=False (기본값은 True)

In [59]:
population_number['2010'].sort_values(ascending=False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [60]:
population_number['2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [61]:
# by='컬럼값'
# 컬럼값의 데이터를 기준으로 오름차순 정렬
population_number.sort_values(by='2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [62]:
# 여러 기준을 가지고 정렬
population_number.sort_values(by=['지역','2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


### score 실습

In [63]:
score=pd.read_csv('score.csv',encoding='euc-kr',index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [64]:
# DataFrame에 함수 적용
# 세로방향으로 연산
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [65]:
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [66]:
# 과목별 합계 구하기 (좌에서 우로 더하기)
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [67]:
score.sum(axis=0) # 기본값 (위에서 아래로 더하기)

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [68]:
score['합계']=score.sum(axis=1)
# 이 함수는 실행할 수록 합계에 계속 더해짐

In [69]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [70]:
score.loc[:,'1반':'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [71]:
score.loc[:,'1반':'4반'].sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [72]:
# 값이 계속 수정되는 것을 방지하기 위해
# 정확히 인덱싱 해온 후 sum()함수 적용
score['합계']=score.loc[:,'1반':'4반'].sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [73]:
score['평균']=score.loc[:,'1반':'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [74]:
score['합계']/4

과목
파이썬    50.25
DB     70.50
자바     63.25
크롤링    74.50
Web    40.75
Name: 합계, dtype: float64

In [75]:
# 새로운 행을 추가할 때 df명.loc[]사용
score.loc['반평균'] = score.loc[:,:'4반'].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,,


In [76]:
# 결측치 채우기
# NaN -> 결측치 값이라 부른다.
# fillna(원하는 값) -> 결측치를 원하는 값으로 채워주는 함수
score.fillna(0)

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,0.0,0.0


In [77]:
# 최댓값 : max()
# 최솟값 : min()
# axis속성으로 방향 설정
score.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
평균     74.5
dtype: float64

In [78]:
score.max(axis=1)

과목
파이썬    201.0
DB     282.0
자바     253.0
크롤링    298.0
Web    163.0
반평균     77.6
dtype: float64

In [79]:
# 배열타입으로 되어있기 때문에 변수에 대입 가능
maxArr = score.loc[:'Web',:'4반'].max(axis=1)
maxArr

과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64

In [80]:
# 전체 반에서 과목별 가장 낮은 점수만 뽑기 -> min()
minArr = score.loc[:'Web',:'4반'].min(axis=1)
minArr

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
dtype: float64

In [81]:
# 과목별 가장 큰 값과 작은 값의 차이
maxArr - minArr

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [82]:
# apply변환
# 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때 사용
# df명.apply(커스텀함수, axis=?)

In [83]:
# 과목별 max점수와 min점수 차이 구하는 함수
def max_min(x):
    return x.max() - x.min()

In [84]:
score.loc[:'Web',:'4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [85]:
data_dic = {'A':[1,3,3,4,4],
            'B':[1,2,2,3,3],
            'C':[1,2,4,4,5]}
df3 = pd.DataFrame(data_dic)

In [86]:
df3

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [87]:
df4 = df3.apply(pd.value_counts)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [88]:
# 결측치를 0으로 채워줌
df4.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 카테고리화

In [89]:
# 케글 타이타닉 - 나이 범위 group화 0~10, 11~20

In [90]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

# 카테고리로 변경시 어떻게 구간을 지정할 건지
# 1~15(미성년자), 16~25(청년), 26~35(중년), 36~60(장년), 61~99(노년)
# 카테고리 범위 앞에 수 초과 ~ 뒤에 수 이하
bins = [0, 15, 25, 35, 60, 99]
# 구간에 대한 이름
labels = ['미성년자', '청년', '중년', '장년', '노년']

# 원하는 구간을 잘라내준다.
# cut() -> 카테고리화 함수를 사용
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [91]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [92]:
# 카테고리 확인
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [93]:
# 카테고리화 시킨 데이터를 표로 만들어서 확인해보자!
age = pd.DataFrame(ages, columns=['나이'])
age

Unnamed: 0,나이
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [94]:
age['연령대']=pd.cut(ages,bins=bins,labels=labels)
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


### DataFrame 병합
- concat
- merge

In [95]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']},
                    index=[0,1,2,3])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [96]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4,5,6,7])
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [97]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8,9,10,11])
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [98]:
# concat (기본적으로 axis=0 방향)
result1 = pd.concat([df1, df2, df3])
result1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [99]:
# concat axis=1 방향
# 알 수 없는 데이터는 결측값 반환
result2 = pd.concat([df1, df2, df3], axis=1)
result2

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [100]:
# keys 속성을 이용해서 df 구분
# -> 다중 index가 된다.
result = pd.concat([df1, df2, df3],keys=['x','y','z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [101]:
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [102]:
df4 = pd.DataFrame({'B':['B2','B3','B6','B7'],
                    'D':['D2','D3','D6','D7'],
                    'F':['F2','F3','F6','F7']},
                    index=[2,3,6,7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [103]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [104]:
pd.concat([df1,df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [105]:
# df1, df4를 axis=1 방향으로 병합
pd.concat([df1,df4],axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [106]:
# join 속성 사용
# inner : 교집합, 합치는 데이터들이 동일하게 가지고 있는 기준만 출력
pd.concat([df1,df4], axis=1, join='inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [107]:
# join 속성 사용
# outer : 합집합, 기본값
pd.concat([df1,df4], axis=1, join='outer')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [108]:
pd.concat([df1,df4],axis=0,join='inner')

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


In [109]:
# ignore_index
# 기존에 가지고 있던 index를 무시하고, 새로운 인덱스 번호를 부여
# ignore_index = True (False 기본값)
pd.concat([df1, df4],ignore_index=True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [110]:
# merge
# 공통된 데이터를 기준으로 데이터를 합침

In [111]:
# 데이터 생성
df5 = pd.DataFrame({'key':['K0','K2','K3','K4'],
                    'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3']})
df5

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,B3


In [112]:
df6 = pd.DataFrame({'key':['K0','K1','K2','K3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']})
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [113]:
# 공통된 컬럼('key')를 기준으로 합쳐준다.
pd.merge(df5, df6, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [114]:
# how
# 병합의 방식 지정
# concat의 join과 동일한 기능
# outer : 합집합, 전체 값 출럭
# inner : 교집합, 공통된 데이터의 값만 출력

In [115]:
# how='inner' -> 기본값
pd.merge(df5,df6,how='outer')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


In [116]:
# how='right', 오른쪽 df를 'key' 기준으로 출력
pd.merge(df5,df6,how='right') # -> df6를 key 기준으로 출력

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3


In [117]:
# how='right', 왼쪽 df를 'key' 기준으로 출력
pd.merge(df5,df6,how='left') # -> df5를 key 기준으로 출력

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,


In [118]:
# 연습문제1
df_num1 = pd.DataFrame({'고객번호':['1001','1002','1003','1004','1005','1006','1007'],
                      '이름':['둘리','도우너','또치','길동','희동','마이콜','영희']})
df_num1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [119]:
df_num2 = pd.DataFrame({'고객번호':['1001','1001','1005','1006','1008','1001'],
                      '금액':['10000','20000','15000','5000','100000','30000']})
df_num2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [120]:
# 연습문제2
pd.merge(df_num1,df_num2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [121]:
pd.merge(df_num1,df_num2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


### 범죄 데이터 실습

In [122]:
df2015= pd.read_csv('2015.csv',encoding='euc-kr', index_col='관서명')
df2016= pd.read_csv('2016.csv',encoding='euc-kr', index_col='관서명')
df2017= pd.read_csv('2017.csv',encoding='euc-kr', index_col='관서명')

In [123]:
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593
광주지방경찰청계,검거건수,18,47,758,5409,8301
광주지방경찰청계,검거인원,17,66,776,3433,11774
광주지방경찰청계,구속,9,33,42,104,58
광주지방경찰청계,불구속,1,26,511,2781,5618
광주지방경찰청계,기타,7,7,223,548,6098
광주동부경찰서,발생건수,3,5,92,1100,1155
광주동부경찰서,검거건수,4,6,86,583,970
광주동부경찰서,검거인원,4,7,98,447,1483
광주동부경찰서,구속,3,2,8,13,10


In [124]:
df2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599
광주지방경찰청계,검거건수,18,47,713,4242,7631
광주지방경찰청계,검거인원,21,54,758,3455,10747
광주지방경찰청계,구속,14,25,37,132,57
광주지방경찰청계,불구속,3,25,491,2862,5267
광주지방경찰청계,기타,4,4,230,461,5423
광주동부경찰서,발생건수,3,8,83,832,1142
광주동부경찰서,검거건수,3,7,70,679,1002
광주동부경찰서,검거인원,4,10,71,543,1497
광주동부경찰서,구속,2,2,3,17,7


In [125]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


In [126]:
# 범죄현황 데이터로 전녀 대비 지역별 범죄 증감율

In [127]:
# 출력된 결과물을 동일 변수명으로 사용하고 싶을 때
# df2017에서 광주지방경찰청 삭제 -> .drop('광주지방경찰청')
# 1. 같은 변수명에 다시 담아주기
# 2. inplace = True
df2017.drop('광주지방경찰청',inplace=True)

In [128]:
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주동부경찰서,발생건수,3,5,77,624,1090
광주동부경찰서,검거건수,3,5,70,470,953
광주동부경찰서,검거인원,4,4,76,483,1538
광주동부경찰서,구속,2,3,2,19,9


In [129]:
# 범죄 총 횟수(합계)
df2015['총계'] = df2015.sum(axis=1)
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


In [130]:
# 총계 구할 데이터 구간을 정확히 지정해주면 (.loc[])반복 실행에도
# '총계'컬럼 값이 바뀌지 않는다.
df2016['총계'] = df2016.sum(axis=1)
df2016

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
광주지방경찰청계,검거건수,18,47,713,4242,7631,12651
광주지방경찰청계,검거인원,21,54,758,3455,10747,15035
광주지방경찰청계,구속,14,25,37,132,57,265
광주지방경찰청계,불구속,3,25,491,2862,5267,8648
광주지방경찰청계,기타,4,4,230,461,5423,6122
광주동부경찰서,발생건수,3,8,83,832,1142,2068
광주동부경찰서,검거건수,3,7,70,679,1002,1761
광주동부경찰서,검거인원,4,10,71,543,1497,2125
광주동부경찰서,구속,2,2,3,17,7,31


In [131]:
df2017['총계'] = df2017.sum(axis=1)
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
광주지방경찰청계,검거건수,9,32,732,3487,7553,11813
광주지방경찰청계,검거인원,10,61,824,3046,11018,14959
광주지방경찰청계,구속,8,28,71,115,88,310
광주지방경찰청계,불구속,0,26,523,2493,5235,8277
광주지방경찰청계,기타,2,7,230,438,5695,6372
광주동부경찰서,발생건수,3,5,77,624,1090,1799
광주동부경찰서,검거건수,3,5,70,470,953,1501
광주동부경찰서,검거인원,4,4,76,483,1538,2105
광주동부경찰서,구속,2,3,2,19,9,35


In [132]:
# 경고문 없애주기!
import warnings

In [133]:
warnings.filterwarnings('ignore')

In [134]:
# '구분'컬럼에 발생건수 데이터만 가져오기
s1 = df2015[df2015['구분']=='발생건수']
s1 # from df2015 불리언 인덱싱 결과

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주서부경찰서,발생건수,5,10,172,2050,2483,4720
광주남부경찰서,발생건수,1,3,70,962,1081,2117
광주북부경찰서,발생건수,5,14,256,2570,2621,5466
광주광산경찰서,발생건수,4,12,160,1743,2253,4172


In [135]:
s2 = df2016[df2016['구분']=='발생건수']
s2

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,17,47,701,6052,8599,15416
광주동부경찰서,발생건수,3,8,83,832,1142,2068
광주서부경찰서,발생건수,2,11,174,1417,2288,3892
광주남부경찰서,발생건수,1,4,64,768,1028,1865
광주북부경찰서,발생건수,6,7,205,1788,2142,4148
광주광산경찰서,발생건수,5,17,175,1247,1999,3443


In [136]:
s3 = df2017[df2017['구분']=='발생건수']
s3

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
광주동부경찰서,발생건수,3,5,77,624,1090,1799
광주서부경찰서,발생건수,0,7,196,1142,2293,3638
광주남부경찰서,발생건수,0,4,68,577,898,1547
광주북부경찰서,발생건수,3,5,215,1546,2176,3945
광주광산경찰서,발생건수,3,12,169,927,1909,3020


In [137]:
# '구분' 컬럼에서 '발생건수'인 데이터만 불리언 인덱싱 된 DataFrame
# '총계' 컬럼만 loc해오기
su1 = s1.loc[:,'총계']
su1

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 총계, dtype: int64

In [138]:
su2 = s2.loc[:,'총계']
su2

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 총계, dtype: int64

In [139]:
su3 = s3.loc[:,'총계']
su3

관서명
광주지방경찰청계    13949
광주동부경찰서      1799
광주서부경찰서      3638
광주남부경찰서      1547
광주북부경찰서      3945
광주광산경찰서      3020
Name: 총계, dtype: int64

In [140]:
df2016.loc[:,'살인':'폭력'].sum(axis=1)

관서명
광주지방경찰청계    15416
광주지방경찰청계    12651
광주지방경찰청계    15035
광주지방경찰청계      265
광주지방경찰청계     8648
광주지방경찰청계     6122
광주동부경찰서      2068
광주동부경찰서      1761
광주동부경찰서      2125
광주동부경찰서        31
광주동부경찰서      1290
광주동부경찰서       804
광주서부경찰서      3892
광주서부경찰서      3129
광주서부경찰서      3953
광주서부경찰서        56
광주서부경찰서      2146
광주서부경찰서      1751
광주남부경찰서      1865
광주남부경찰서      1486
광주남부경찰서      1607
광주남부경찰서        21
광주남부경찰서       902
광주남부경찰서       684
광주북부경찰서      4148
광주북부경찰서      3233
광주북부경찰서      3827
광주북부경찰서        73
광주북부경찰서      2302
광주북부경찰서      1452
광주광산경찰서      3443
광주광산경찰서      2865
광주광산경찰서      3274
광주광산경찰서        63
광주광산경찰서      1840
광주광산경찰서      1371
dtype: int64

In [145]:
# 범죄 증감율 계산하기
# 증감율 = (금년 - 작년) / 작년 * 100
# 2015 ~ 2016 증감율
# (2016 - 2015) / 2015*100
up_down2016 = (su2 - su1)/su1*100
up_down2017 = (su3 - su2)/su2*100

In [146]:
print(up_down2016)
print(up_down2017)

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64
관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64


In [151]:
pd.concat([su1,up_down2016,su2,up_down2017,su3], axis=1)

Unnamed: 0_level_0,총계,총계,총계,총계,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [152]:
up_down2016.name='2015-2016증감율'
up_down2017.name='2016-2017증감율'

In [153]:
up_down2016

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 2015-2016증감율, dtype: float64

In [154]:
up_down2017

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 2016-2017증감율, dtype: float64

In [156]:
# 데이터 합치기
# Series의 name값이 DataFrame에서 colum값으로 사용됨.
total = pd.concat([su1,up_down2016,su2,up_down2017,su3], axis=1)
total

Unnamed: 0_level_0,총계,2015-2016증감율,총계,2016-2017증감율,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [160]:
# DataFrame 컬럼명 수정
# df명.columns = [컬럼명]
total.columns=['2015총계','2015-2016증감율','총계','2016-2017증감율','2017총계']
total

Unnamed: 0_level_0,2015총계,2015-2016증감율,총계,2016-2017증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [161]:
# df.rename(columns={'원래 컬럼명':'바꿀 컬럼명'}) -> 딕셔너리 형태
total.rename(columns={'총계':'2016총계'})

Unnamed: 0_level_0,2015총계,2015-2016증감율,2016총계,2016-2017증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
