In [4]:
import pandas as pd
# pandas 라이브러리 import

### Series 생성

In [2]:
population = pd.Series( [9904312, 3448737, 2890451, 2466052 ] )

In [3]:
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

### Index 지정후 Series 생성

In [4]:
population = pd.Series( [9904312, 3448737, 2890451, 2466052 ]  ,
            index=['서울','부산','인천','대구'] )

In [5]:
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series 데이터확인
- index : 인덱스 확인
- values : 값 확인
- dtype : 데이터타입 확인

In [6]:
population.index #인덱스 확인

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
population.values # 값 확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [8]:
population.dtype # 데이터 타입 확인

dtype('int64')

### Series 이름 지정
- name
- index.name

In [9]:
# Series 이름 지정
# index 이름 지정 
population.name = '인구'
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
population.name

'인구'

In [11]:
population.index.name

'도시'

### Series 연산

In [12]:
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [13]:
population + population

도시
서울    19808624
부산     6897474
인천     5780902
대구     4932104
Name: 인구, dtype: int64

### Series 인덱싱 , 슬라이싱

In [14]:
# 인덱싱 - 가르키다 
# index에 값을 지정해줬을 때
# index 번호(숫자)와 index 값 둘 다 활용 가능
print(population[ 0 ])
print(population[ '서울' ])
print(population[ 3 ])
print(population[ '대구' ])

9904312
9904312
2466052
2466052


In [15]:
# 한 번 에 여러값 인덱싱 하기
# 리스트 활용
print(population[ [0,2] ])
print('\n')
print(population[ ['서울','인천'] ])

도시
서울    9904312
인천    2890451
Name: 인구, dtype: int64


도시
서울    9904312
인천    2890451
Name: 인구, dtype: int64


In [16]:
# 슬라이싱 - [ 포함 : 미포함 ]
print(population [ 1 : 3 ])
print('\n')
# index 값
print(population [ 1 : 3 ]) # index 번호
print('\n')
# index 값(문자열) - [ 포함 : 포함 ]
print(population[ '부산':'인천' ] )

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [17]:
# boolean 인덱싱
population >= 2500000

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [18]:
population[ population >= 2500000 ]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [19]:
#250만 이하인 도시
population[ population >= 2500000 ]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [20]:
#500만 이하인 도시
population[ population <= 5000000 ]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [21]:
# 250만 이상이고 500만 이하인 도시  &(and)
population[ (population >= 2500000) & (population <= 5000000) ]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [22]:
# | (또는 or )
population[ (population >= 2500000) | (population <= 5000000) ]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 딕셔너리 객체로 Series생성
- 딕셔너리는 key 와 value로 구성
- key 값은 index
- value 값은 vaule

In [23]:
data = { '서울':9631482,
       '부산':3393191,
       '인천':2632035,
       '대전':1490158 }

population2 = pd.Series(data)

In [24]:
#2015년 도시별 인구
print(population.index)
print(population.values)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]


In [25]:
#2010년 도시별인구
print(population2.index)
print(population2.values)

Index(['서울', '부산', '인천', '대전'], dtype='object')
[9631482 3393191 2632035 1490158]


In [26]:
# 2015년과 2010년의 인구 증가율 계산
popu = population - population2
# NaN 결측치

In [27]:
# isnull()
popu.isnull() #불리언

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [28]:
# 불리언 인덱싱
popu [ popu.isnull() ]

대구   NaN
대전   NaN
dtype: float64

In [29]:
# 불리언 인덱싱
popu [ popu.notnull() ]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [30]:
# 2015년도와 2010년도의 인구증가율(%) 계산
rs = (population-population2) / population2*100

### Series 데이터 갱신,추가,삭제

In [31]:
#데이터수정
rs['대구'] = 1.41

In [32]:
#데이터삭제
del rs['대전']

In [33]:
#데이터추가
rs['광주'] = 2.13

In [34]:
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.130000
dtype: float64

# DataFrame

### DataFrame 생성

In [35]:
# 딕셔너리 객체로 DataFrame 생성
# key : 컬럼이름
data = {"2015":[9904312,3448737,2890451,2466052],
       "2010":[9631482,3393191,2632035,2431774]}
df = pd.DataFrame( data )

In [36]:
# DataFrame Index 수정
df.index = ('서울','부산','인천','대구')
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
# list 이용해서 DataFrame 생성
data = [[9904312,3448737,2890451,2466052],
        [9631482,3393191,2632035,2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']

df2 = pd.DataFrame(data, index=ind, columns=col)

In [38]:
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [39]:
# 전치 - 행과 열을 바꾸기
df.T

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [40]:
data = [ [9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774] ]

ind = ['서울','부산','인천','대구']
col = ['2015','2010']


pd.DataFrame(data, index=ind, columns=col)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 값 확인
- index
- values
- columns

In [41]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [42]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [43]:
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱
- index와 columns 을 사용해 인덱싱, 슬라이싱
- index 번호 사용가능
- inex값 사용가능 

In [44]:
# 컬럼 인덱싱 (1차원 Series)
df['2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [45]:
#2차원 DataFrame
df[['2015']]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [46]:
# 여러 컬럼 인덱싱
df[['2015', '2010', '2010','2015']]

Unnamed: 0,2015,2010,2010.1,2015.1
서울,9904312,9631482,9631482,9904312
부산,3448737,3393191,3393191,3448737
인천,2890451,2632035,2632035,2890451
대구,2466052,2431774,2431774,2466052


In [47]:
# 슬라이싱
df [ 0:1 ] #index 번호

Unnamed: 0,2015,2010
서울,9904312,9631482


In [48]:
# index 값 (문자)
df ['서울':'부산']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [49]:
# 새로운 컬럼 생성
df['2005'] = [9762546,3512547,2517680,2456016]

In [50]:
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [51]:
# 행, 열을 한번에 인덱싱/슬라이싱 하는 함수
# loc : index 값(문자)을 사용
# iloc : index의 번호(정수)를 사용

# DF.loc[행,열]

In [52]:
df.loc['부산':'인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [53]:
df.loc['부산':'인천']

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [54]:
df.loc['서울':'대구','2005':]

Unnamed: 0,2005
서울,9762546
부산,3512547
인천,2517680
대구,2456016


In [55]:
df.iloc[:, 1:] # [행, 열]

Unnamed: 0,2010,2005
서울,9631482,9762546
부산,3393191,3512547
인천,2632035,2517680
대구,2431774,2456016


In [56]:
# 불리언 인덱싱
# 2010년의 인구수가 250만 이상인 전체데이터 
df['2010'] >= 2500000

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [57]:
df['2010'][df['2010'] >= 2500000]

서울    9631482
부산    3393191
인천    2632035
Name: 2010, dtype: int64

### population 실습

In [58]:
import pandas as pd

In [59]:
# read_csv('파일명,확장자')
population_number = pd.read_csv('population_number.csv', encoding='euc-kr',
                               index_col ='도시')

In [60]:
population_number['2015'].value_counts()

9904312    1
3448737    1
2890451    1
2466052    1
Name: 2015, dtype: int64

In [61]:
# 2010 컬럼 값의 빈도수 보기
# 결측치는 세지 않는다
population_number['2010'].value_counts()

9631482.0    1
2632035.0    1
2431774.0    1
Name: 2010, dtype: int64

In [62]:
# 정렬
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values : 데이터 값을 기준으로 정렬 

In [63]:
# 오름차순을 기본으로 함
# 기본값 = ascending=True
population_number.sort_index(ascending=True)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [64]:
# 내림차순을 기본으로 함
# ascending=False
population_number.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [65]:
# 데이터 값을 기준으로 정렬
population_number['2010'].sort_index()

도시
대구    2431774.0
부산          NaN
서울    9631482.0
인천    2632035.0
Name: 2010, dtype: float64

In [66]:
# by = 컬럼값
# 컬럼값의 데이터를 통해 정렬
population_number.sort_values( by = '2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [67]:
# 여러 컬럼을 통해 정렬 기능
population_number.sort_values( by = ['지역','2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


### Score 실습

In [68]:
# read_csv('파일명,확장자')
score = pd.read_csv('Score.csv', encoding='euc-kr', index_col='과목')

In [69]:
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [70]:
# sum()
# 세로방향 데이터의 총합
score.sum()
# 디폴트값 - axix = 0 

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [71]:
# sum()
# 가로방향 데이터의 총합
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [72]:
# 과목별 총합 데이터를 score 변수에 추가 -> '합계' 컬럼생성
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [73]:
# 1. '1반' - '4반' 가져오기 
score.loc[:,:'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [74]:
#2. 1에서 가져온 데이터로 다시 합계 컬럼 만들어보기 
score['합계'] = score.loc[:,:'4반'].sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [75]:
# 과목별 평균 계산 -> '평균' 컬럼 생성
score['평균'] = score.loc[:,:'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [80]:
score.loc['반평균'] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [106]:
# 최댓값 : max()
# 최소값 : min()
score_max = score.loc[:'Web',:'4반'].max(axis=1)
score_min = score.loc[:'Web',:'4반'].min(axis=1)

print(f"최댓값\n{score_max}")
print('\n')
print(f"최소값\n{score_min}")

최댓값
과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64


최소값
과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
dtype: float64


In [108]:
score_max - score_min

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [109]:
# 함수를 만들어서 과목별 최대값과 최소값의 차이 구하기
def max_min(x):
    return x.max() - x.min()

In [113]:
# apply(적용시키다) 변환  
# 행이나 열 단위로 더 복잡한 처리를 할 때 사용
# pandas 객체 함수를 적용하는 방법
score.loc[:'Web', :'4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [116]:
score.loc[:'Web', :'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45.0,44.0,73.0,39.0
DB,76.0,92.0,45.0,69.0
자바,47.0,92.0,45.0,69.0
크롤링,92.0,81.0,85.0,40.0
Web,11.0,79.0,47.0,26.0


### 카테고리 생성하기

In [154]:
# 데이터
ages = [0,2,10,21,23,38,31,61,20,41,
        52,100,86,85,26,48,39,27,5,14]
# 구간
# 초과 ~ 이하
# 1~15, 16~25, 26~35, 36~60, 61~99 
bins = [0, 15, 25, 35, 60, 99]
# 이름
labels = ['미성년자','청년','중년','장년','노년']

In [155]:
cats = pd.cut(ages, bins, labels = labels)

In [156]:
# value_counts() - 각 항목별 갯수 확인
cats.value_counts()

미성년자    4
청년      3
중년      3
장년      5
노년      3
dtype: int64

In [157]:
# 데이터프레임으로 만들어보자!! 
age = pd.DataFrame(ages, columns=['나이'])

In [158]:
#연령대 컬럼 추가
age['연령대'] = cats

In [159]:
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,38,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


### DataFrame 병합
- concat
- merge

In [9]:
# 데이터생성
df1 = pd.DataFrame( { 'A': ['A0','A1','A2','A3'],
              'B': ['B0','B1','B2','B3'], 
              'C': ['C0','C1','C2','C3'], 
              'D': ['D0','D1','D2','D3'],} ,
                    index = [0,1,2,3] )

df2 = pd.DataFrame( { 'A': ['A4','A5','A6','A7'],
              'B': ['B4','B5','B6','B7'], 
              'C': ['C4','C5','C6','C7'], 
              'D': ['D4','D5','D6','D7'],} ,
                    index = [4,5,6,7] )

df3 = pd.DataFrame( { 'A': ['A8','A9','A10','A11'],
              'B': ['B8','B9','B10','B11'], 
              'C': ['C8','C9','C10','C11'], 
              'D': ['D8','D9','D10','D11'],} ,
                    index = [8,9,10,11] )

In [8]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [10]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [11]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [15]:
pd.concat( [df1,df2,df3], axis=0 )

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [17]:

pd.concat( [df1,df2,df3], axis=1 )
# 행 인덱스를 기준으로 병합

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [21]:
df4 = pd.DataFrame( {'B':['B2','B3','B6','B7'],
             'D':['D2','D3','D6','D7'],
            'F':['B2','F3','F6','F7'] },
            index = [2,3,6,7] )
df4

Unnamed: 0,B,D,F
2,B2,D2,B2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [23]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [24]:
pd.concat( [df1,df4], axis=1 )


Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,B2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [25]:
# join 속성
# outer : 합집합, 기본값
# inner : 교집합, 합치는 데이터들이 동일하게 가지고 있는 기준만 출력
pd.concat( [df1,df4] , axis=1, join='outer')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,B2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [27]:
pd.concat( [df1,df4] , axis=0, join='inner')

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


In [None]:
# merge
# 공통된 데이터를 기준으로 데이터를 합침

In [40]:
df5 = pd.DataFrame( { 'key':['K0','K2','K3','K4'],
              'A':['A0','A2','A3','A4'],
              'B':['B0','B2','B3','B4']} )

df6 = pd.DataFrame( { 'key':['K0','K1','K2','K3'],
              'C':['C0','C1','C2','C3'],
              'D':['D0','D1','D2','D3']} )

In [34]:
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K2,C2,D2
2,K3,C3,D3
3,K4,C4,D4


In [41]:
# on 합칠 기준 컬럼
pd.merge(df5,df6, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [None]:
# how
# 병합의 방식 지정
# concat의 join 과 동일 
# outer : 합집합, 전체 값
# inner : 교집합, 기본값
# right : 오른쪽, 나중에 적은 데이터가 기준
# left : 왼쪽, 먼저 적은 데이터가 기준

In [42]:
# inner
pd.merge( df5,df6, how='inner' )

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [43]:
# outer
pd.merge( df5,df6, how='outer' )

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K4,A4,B4,,
4,K1,,,C1,D1


In [44]:
pd.merge( df5,df6, how='right' )

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [48]:
df = pd.merge( df5,df6, how='left' )

### 데이터 프레임 삭제

In [53]:
# drop ( False 가 기본값으로 되어 아예 삭제 되지않고 잠깐 삭제된것처럼 보임)
df.drop('D', axis =1)

Unnamed: 0,key,A,B,C
0,K0,A0,B0,C0
1,K2,A2,B2,C2
2,K3,A3,B3,C3
3,K4,A4,B4,


In [52]:
df

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K4,A4,B4,,


In [54]:
df.drop('D', axis =1, inplace=True)

In [55]:
df

Unnamed: 0,key,A,B,C
0,K0,A0,B0,C0
1,K2,A2,B2,C2
2,K3,A3,B3,C3
3,K4,A4,B4,


In [66]:
# 데이터로드
df2015 = pd.read_csv('2015.csv', encoding='euc-kr',
                               index_col ='관서명')
df2016 = pd.read_csv('2016.csv', encoding='euc-kr',
                               index_col ='관서명')
df2017 = pd.read_csv('2017.csv', encoding='euc-kr',
                               index_col ='관서명')

In [None]:
df2017.drop('광주지방경찰청', axis=0, inplace=True)

In [None]:
#2. 총 범죄발생 건수 구해서 '총계' 컬럼생성 (총합)

In [102]:
df2015['총계'] = df2015.loc[:,'살인':'폭력'].sum(axis=1)
df2016['총계'] = df2016.loc[:,'살인':'폭력'].sum(axis=1)
df2017['총계'] = df2017.loc[:,'살인':'폭력'].sum(axis=1)

In [128]:
#3. '발생건수'에 해당하는 데이터만 필요

In [130]:
#3-1 '발생건수' 데이터가있는 컬럼만 가져오기
# df2015['구분']

In [133]:
# 3-2 '발생건수'데이터인지 판별
# df2015['구분'] == '발생건수' 

In [145]:
# 3-3 '발생변수' 데이터 가져오기
df2015_crime = df2015[df2015['구분'] == '발생건수']

In [147]:
df2016_crime = df2016[df2016['구분'] == '발생건수']

In [146]:
df2017_crime = df2017[df2017['구분'] == '발생건수']

In [None]:
# 4. 총계 컬럼 가져오기

In [151]:
t1 = df2015_crime['총계']
t2 = df2016_crime['총계']
t3 = df2017_crime['총계']

In [153]:
#5. 증감율 계산
# 2015~16 증감율
s1 = (t2-t1)/t1*100
# 2016~17 증감율
s2 = (t3-t2)/t2*100

In [154]:
s1

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [155]:
s2

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64