In [307]:
import pandas as pd
# pandas를 import(가져온다)하고 as pd(pd로 부르겠다.)

### Series 생성

In [108]:
# index, 값으로 구성
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [109]:
# 인덱스 지정해서 생성
population = pd.Series([9904312, 3448737, 2890451, 2466052], 
          index = ['서울', '부산', '인천', '대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series 데이터 확인
- values : 값 확인
- index : 인덱스 확인
- dtype : 데이터 타입 확인

In [110]:
population.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [111]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [112]:
population.dtype

dtype('int64')

###  Series에 이름 지정
- name
- index.name

In [113]:
# Series에 이름달기
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [114]:
# 인덱스에 이름 달기
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [115]:
population.name

'인구'

In [116]:
population.index.name

'도시'

### Series 연산

In [117]:
population/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱, 슬라이싱

In [118]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [119]:
# 인덱싱
# index 번호와 index 값 둘 다 사용 가능
print(population[1])
print(population['부산'])
# 대구
print(population[3])
print(population['대구'])

3448737
3448737
2466052
2466052


In [120]:
# 한 번에 여러 값 인덱싱 - 리스트 활용
# 원하는 순서대로 가져올 수 있다.
print(population[[1,3]])
print(population[['부산','대구']])

도시
부산    3448737
대구    2466052
Name: 인구, dtype: int64
도시
부산    3448737
대구    2466052
Name: 인구, dtype: int64


In [121]:
print(population[[1,3,0] ])

도시
부산    3448737
대구    2466052
서울    9904312
Name: 인구, dtype: int64


In [122]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 불리언 인덱싱

In [123]:
population >= 2500000 # 불리언

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [124]:
population[ [True, True, True, False] ]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [125]:
# 불리언 인덱싱
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [126]:
population<=5000000 # 불리언

도시
서울    False
부산     True
인천     True
대구     True
Name: 인구, dtype: bool

In [127]:
population[ population<=5000000 ] # 불리언 인덱싱

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [128]:
# 두 가지 조건을 한 번에 필터링
# pandas에서 조건 비교 할 때
# & -> 그리고, | -> 또는
population[ (population >= 2500000) & (population<=5000000) ]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [129]:
# 슬라이싱
# index 번호, index 값
print(population[1:3]) # [이상:미만]
print('\n')
print(population['부산':'인천']) # [이상:이하] 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [130]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series 딕셔너리 객체로 생성
- 딕셔너리는 key와 value로 구성된 자료형
- key 값은 index
- value 값은 value

In [131]:
data = {'서울': 9631482,
       '부산' : 3393191,
       '인천' : 2632035,
       '대전' : 1490158}
data

{'서울': 9631482, '부산': 3393191, '인천': 2632035, '대전': 1490158}

In [132]:
population2 = pd.Series( data )
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [133]:
# 2015년도 도시별 인구
print(population.index)
print(population.values)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]


In [134]:
# 2010년도 도시별 인구
print(population2.index)
print(population2.values)

Index(['서울', '부산', '인천', '대전'], dtype='object')
[9631482 3393191 2632035 1490158]


In [135]:
# 2015년도와 2010년도의 인구 증가를 계산
ds = population - population2
# 결측치 생성

In [136]:
# 결측치 판단
# 결측치 데이터
print(ds.isnull()) # boolean
print('\n')
ds[ ds.isnull()]

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool




대구   NaN
대전   NaN
dtype: float64

In [137]:
# 결측치기 아닌 데이터
print(ds.notnull())
print('ㅡㅡㅡㅡㅡㅡ')
ds[ ds.notnull()]

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
ㅡㅡㅡㅡㅡㅡ


부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [138]:
# 증가율 계산
rs = (population - population2) / population2 * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### Series 데이터 갱신, 추가, 삭제

In [139]:
# 데이터 수정
rs['부산'] = 1.6

In [140]:
# 데이터 삭제
del rs['대구']

In [141]:
rs['대전'] = 1.0
rs

대전    1.000000
부산    1.600000
서울    2.832690
인천    9.818107
dtype: float64

In [142]:
# 데이터 추가
rs['대구'] = 1.41

In [143]:
rs

대전    1.000000
부산    1.600000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

### DataFrame

### DataFrame 생성
- pandas Series : 1차원
- pandas DataFrame : 2차원

In [144]:
# 딕셔너리 객체로 DataFrame 생성
# key : 컬럼의 이름
data = {'2015':[9904312,3448737,2890451,2466052],
       '2010' : [9631482,3393191,2632035,1490158]}
data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 1490158]}

In [145]:
df = pd.DataFrame( data )
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,1490158


In [146]:
# DataFrame 인덱스 수정
df.index = ['서울', '부산', '인천', '대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,1490158


In [147]:
# 리스트 객체로 DataFrame 생성 1
data = [[9904312,3448737,2890451,2466052],
       [9631482,3393191,2632035,1490158]]
df = pd.DataFrame(data, index=['2015', '2010'],
            columns = ['서울', '부산', '인천', '대구'])
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,1490158


In [148]:
# 리스트 객체로 DataFrame 생성 2
data = [[9904312,9631482],
        [3448737,3393191],
        [2890451,2632035],
        [2466052,2431774]]
ind = ['서울', '부산', '인천', '대구']
col = ['2015', '2010']

pd.DataFrame(data, index = ind , columns = col)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [149]:
# transpose - 행, 열 바꾸기
df2 = df.T

In [150]:
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,1490158


In [151]:
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,1490158


### DataFrame 값 확인
- values : 값 확인
- columns : 컬럼 확인
- index : 인덱스 확인

In [152]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 1490158]], dtype=int64)

In [153]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [154]:
df2.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱
- index와 columns을 사용해서 인덱싱, 슬라이싱
- index 번호, index 값 사용 가능

In [155]:
# 컬럼 인덱싱
# 결과가 Series로 출력
df2[ '2015' ]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [156]:
# 인덱스 슬라이싱
df2[0:1]

Unnamed: 0,2015,2010
서울,9904312,9631482


In [157]:
# 컬럼 인덱싱2 (여러 컬럼 인덱싱)
# 결과 DF로 출력
df2[['2015', '2010', '2015']]

Unnamed: 0,2015,2010,2015.1
서울,9904312,9631482,9904312
부산,3448737,3393191,3448737
인천,2890451,2632035,2890451
대구,2466052,1490158,2466052


In [158]:
# 새 컬럼 생성
# 변수[컬럼이름] = 값
df2['2005'] = [9762546, 3512547,2517680,2456016]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,1490158,2456016


In [159]:
# DF 행(index) 슬라이싱 1
# index 번호
df2[1:3]

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [160]:
# DF 행(index) 슬라이싱 2
# index 값
df2['부산': '인천']

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [161]:
# 행/열을 한 번에 인덱싱/슬라이싱 하는 함수가 필요
# loc : index 값(문자)
# iloc : index 번호(정수)
# DF.인덱서[행의 범위, 열의 범위]
# 인덱서[행] : 해당 행의 모든 열 출력

In [163]:
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,1490158,2456016


In [166]:
df2.loc[ '서울':'부산','2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [167]:
df2.loc['서울' : '부산']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [168]:
df2.loc[:, '2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [169]:
df2.iloc[1:3,1:3]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [171]:
df2.iloc[:, 0:1]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [175]:
# 불리언 인덱싱
# '2010'년의 인구수가 25만명 이상인 데이터
# 1. '2010'년 컬럼 가져오기
# 2. 비교하기(250만명 이상) 
df2['2010']>= 2500000

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [177]:
df2[df2['2010']>= 2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [178]:
df2['2010'][df2['2010']>= 2500000]

서울    9631482
부산    3393191
인천    2632035
Name: 2010, dtype: int64

### population 실습

In [182]:
# '파일명.확장자'
population_number = pd.read_csv('population_number.csv', encoding='euc-kr', 
                                index_col='도시')
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [184]:
# value_counts()
# 각각의 값이 나온 횟수를 세어주는 함수
population_number['2015'].value_counts()

9904312    1
3448737    1
2890451    1
2466052    1
Name: 2015, dtype: int64

In [186]:
# '2010'의 값의 갯수 카운팅
# 결측치 제외
population_number['2010'].value_counts()

9631482.0    1
2632035.0    1
2431774.0    1
Name: 2010, dtype: int64

In [189]:
# 정렬
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values : 데이터 값을 기준으로 정렬
# 오름차순을 기본값(ascending=True)으로 함
# 내림차순으로 변경 : ascending=False
population_number.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [190]:
population_number['2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [191]:
population_number['2010'].sort_values(ascending=False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [192]:
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [195]:
# by = '컬럼 값'
# 컬럼 값의 데이터를 통해 정렬
population_number.sort_values(by = '지역')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [198]:
# by = 
# 여러 컬럼을 기준으로 정렬
population_number.sort_values(by = ['지역','2010'],ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437


### score 실습

In [228]:
score = pd.read_csv('score.csv', encoding='euc-kr', index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [229]:
# 세로 방향의 데이터끼리 연산
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [203]:
# 학급별 순위
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [206]:
# 과목별 점수 총합
# 디폴트 값 : axis = 0
# 가로방향 데이터 연산 : axis = 1
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [239]:
# 과목별 합계를 계산한 '합계' 컬럼 추가
# 1. 1~4반까지 데이터 가져오기
# 2. 합계 구하기
# 3. 컬럼 생성(수정)
score['합계'] = score.loc[:,'1반':'4반'].sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [240]:
# '반평균' 계산 후 '평균'컬럼 만들기 -mean()활용
score['평균'] = score.loc[:, '1반':'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [241]:
# 인덱서[행] - 행 인덱싱
score.loc['반평균'] = score.loc[:,:].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [217]:
# 컬럼 삭제
# DF.drop(컬럼이름, axis=1)
score.drop('반평균', axis=1)

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [220]:
# 저장시키기 위해서
# 1. 변수에 저장
# 2. inplace=
# inplace=False가 디폴트 값(삭제 되지 않음)
score.drop('반평균', axis=1, inplace = True)

KeyError: "['반평균'] not found in axis"

In [242]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [None]:
# index 삭제
# DF.drop(인덱스 이름) == DF.drop(인덱스 이름, axis=0)

In [None]:
# 최댓값 : max()
# 최솟값 : min()

In [243]:
# 과목별 최대 값
score.max(axis=1)

과목
파이썬    201.0
DB     282.0
자바     253.0
크롤링    298.0
Web    163.0
반평균    239.4
dtype: float64

In [244]:
# 반별 최댓값
score.max(axis=0)

1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
평균     74.5
dtype: float64

In [245]:
score.min(axis=1)

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
반평균    48.6
dtype: float64

In [246]:
# 과목별 최대값과 최소값의 차이
# 최대값 : maxArr
# 최소값 : minArr
maxArr = score.loc[: 'Web', :'4반'].max(axis=1)
minArr = score.loc[: 'Web', :'4반'].min(axis=1)

In [247]:
# maxArr - minArr
maxArr - minArr

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [248]:
# 과목별 최대값과 최소값의 차이 2
# 함수
def max_min(x):
    return x.max() - x.min()

In [249]:
# apply 변환
# 행이나 열 단위로 더 복잡한 처리를 할떄 사용
score.loc[:'Web', : '4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### DataFrame 병합
- concat
- merge

In [None]:
# concat

In [252]:
# 데이터 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
            'B': ['B0', 'B1', 'B2', 'B3'],
            'C': ['C0', 'C1', 'C2', 'C3'],
            'D': ['D0', 'D1', 'D2', 'D3']},
            index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
            'B': ['B4', 'B5', 'B6', 'B7'],
            'C': ['C4', 'C5', 'C6', 'C7'],
            'D': ['D4', 'D5', 'D6', 'D7']},
            index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                  index=[8,9,10,11])

In [251]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [253]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [254]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [256]:
# axis = 0
pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [257]:
pd.concat([df1, df2, df3], axis =1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [259]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                  index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [260]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [261]:
pd.concat([df1,df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [263]:
# df1 ,df4, axis=1  방향으로 병합
pd.concat([df1, df4], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [264]:
# join 속성
# outer : 합집합, 기본값
# inner : 교집합, 합치는 데이터들이 동일하게 가지고 있는 기준만 출력
pd.concat([df1, df4], axis=1, join='inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [265]:
pd.concat([df1, df4], axis=0, join='inner')

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


In [None]:
# merge
# 공통된 데이터를 기준으로 병합

In [266]:
# 데이터 생성
df5 = pd.DataFrame({'key' : ['K0','K2','K3','K4'],
                   'A':['A0','A1','A2','A3'],
                   'B':['B0','B1','B2','B3']})
df6 = pd.DataFrame({'key' : ['K0','K1','K2','K3'],
                   'C':['C0','C1','C2','C3'],
                   'D':['D0','D1','D2','D3']})

In [267]:
df5

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,B3


In [268]:
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [270]:
pd.merge(df5, df6 , on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [None]:
# how - 병합의 방식을 지정
# concat의 join과 동일한 기능
# outer : 전체 값
# inner : 공통된 데이터의 값만 출력
# left : 먼저 적은(왼편) 데이터를 기준으로 값 출력
# right : 나중에 적은(오른편) 데이터를 기준으로 값 출력

In [271]:
# how = 'inner', 기본 설정 값
pd.merge(df5, df6, on='key', how='outer')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


In [272]:
pd.merge(df6, df5, on='key', how='left')

Unnamed: 0,key,C,D,A,B
0,K0,C0,D0,A0,B0
1,K1,C1,D1,,
2,K2,C2,D2,A1,B1
3,K3,C3,D3,A2,B2


In [274]:
# how = 'right', 오른쪽 df5의 'key' 기준
df_merge = pd.merge(df6, df5, on='key', how='right')
df_merge

Unnamed: 0,key,C,D,A,B
0,K0,C0,D0,A0,B0
1,K2,C2,D2,A1,B1
2,K3,C3,D3,A2,B2
3,K4,,,A3,B3


In [278]:
# 결측치 채우기 - fillna(원하는 값)
df_merge.fillna(0, inplace=True)

In [279]:
df_merge

Unnamed: 0,key,C,D,A,B
0,K0,C0,D0,A0,B0
1,K2,C2,D2,A1,B1
2,K3,C3,D3,A2,B2
3,K4,0,0,A3,B3


### 카테고리화

In [281]:
# 데이터를 구간별로 구분 = 카테고리 데이터 만들기
ages = [0,2,10,21,23,37,31,61,20,41,32,100,92,86,5]
# 구간
bins = [0 ,15, 25, 35, 60,99]
# 1~15(미성년자), 16~25(청년), 26~35(중년), 36~60(장년), 61~99(노년)
# 초과(미포함)~이하(포함)

# 구간의 이름
labels = ['미성년자', '청년', '중년', '장년', '노년']

# cut() - 카테고리화 함수를 사용
cats = pd.cut( ages, bins, labels=labels)

In [286]:
# value_counts() - 각 항목별 갯수 확인 가능
# 범주 갯수 세기
cats.value_counts()
# 결측치 제외

미성년자    3
청년      3
중년      2
장년      2
노년      3
dtype: int64

In [290]:
# 표로 만들어서 확인!
age = pd.DataFrame(ages, columns=['나이'])
age

Unnamed: 0,나이
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [294]:
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', NaN, '노년', '노년', '미성년자']
Length: 15
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [295]:
# 각 데이터에 따른 카테고리 값 추가하기
age['연령대'] = cats
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


### 범죄 현황 실습
- 2015-2017 광주광역시 범죄현황 테이터를 활용, 전년 대비 지역별 범죄 증감율 구하기

In [308]:
# 데이터 불러오기
df2015 = pd.read_csv('2015.csv', encoding='euc-kr', index_col = '관서명')
df2016 = pd.read_csv('2016.csv', encoding='euc-kr', index_col = '관서명')
df2017 = pd.read_csv('2017.csv', encoding='euc-kr', index_col = '관서명')
df2015
df2016
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


In [299]:
# '광주지방경찰청'
df2017

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366
광주지방경찰청계,검거건수,9,32,732,3487,7553
광주지방경찰청계,검거인원,10,61,824,3046,11018
광주지방경찰청계,구속,8,28,71,115,88
광주지방경찰청계,불구속,0,26,523,2493,5235
광주지방경찰청계,기타,2,7,230,438,5695
광주지방경찰청,발생건수,0,0,0,0,0
광주지방경찰청,검거건수,0,1,91,0,37
광주지방경찰청,검거인원,0,1,105,0,149
광주지방경찰청,구속,0,0,17,0,7


In [321]:
print(df2015.shape)
print(df2016.shape)
print(df2017.shape)

(36, 7)
(36, 7)
(36, 7)


In [313]:
#  2017년도에만 있는'광주지방경찰청' 데이터 삭제
# drop
df2017.drop('광주지방경찰청', inplace=True)

In [322]:
# '총계' 컬럼 생성
# 범죄들의 총 합.
df2015['총계'] = df2015.loc[:,'살인':'폭력'].sum(axis=1)
df2016['총계'] = df2016.loc[:,'살인':'폭력'].sum(axis=1)
df2017['총계'] = df2017.loc[:,'살인':'폭력'].sum(axis=1)

In [324]:
# '구분' 컬럼에서 '발생건수' 데이터 가져오기
# 1. '구분' 컬럼 가져오기
# 2. 불리언 인덱싱 활용하기
df2015

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,18,44,750,8425,9593,18830
광주지방경찰청계,검거건수,18,47,758,5409,8301,14533
광주지방경찰청계,검거인원,17,66,776,3433,11774,16066
광주지방경찰청계,구속,9,33,42,104,58,246
광주지방경찰청계,불구속,1,26,511,2781,5618,8937
광주지방경찰청계,기타,7,7,223,548,6098,6883
광주동부경찰서,발생건수,3,5,92,1100,1155,2355
광주동부경찰서,검거건수,4,6,86,583,970,1649
광주동부경찰서,검거인원,4,7,98,447,1483,2039
광주동부경찰서,구속,3,2,8,13,10,36


In [325]:
# 1. '구분' 컬럼 가져오기
df2015['구분']

관서명
광주지방경찰청계    발생건수
광주지방경찰청계    검거건수
광주지방경찰청계    검거인원
광주지방경찰청계      구속
광주지방경찰청계     불구속
광주지방경찰청계      기타
광주동부경찰서     발생건수
광주동부경찰서     검거건수
광주동부경찰서     검거인원
광주동부경찰서       구속
광주동부경찰서      불구속
광주동부경찰서       기타
광주서부경찰서     발생건수
광주서부경찰서     검거건수
광주서부경찰서     검거인원
광주서부경찰서       구속
광주서부경찰서      불구속
광주서부경찰서       기타
광주남부경찰서     발생건수
광주남부경찰서     검거건수
광주남부경찰서     검거인원
광주남부경찰서       구속
광주남부경찰서      불구속
광주남부경찰서       기타
광주북부경찰서     발생건수
광주북부경찰서     검거건수
광주북부경찰서     검거인원
광주북부경찰서       구속
광주북부경찰서      불구속
광주북부경찰서       기타
광주광산경찰서     발생건수
광주광산경찰서     검거건수
광주광산경찰서     검거인원
광주광산경찰서       구속
광주광산경찰서      불구속
광주광산경찰서       기타
Name: 구분, dtype: object

In [326]:
# 2. 불리언 인덱싱 활용하기
df2015['구분'] == '발생건수'

관서명
광주지방경찰청계     True
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주지방경찰청계    False
광주동부경찰서      True
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주동부경찰서     False
광주서부경찰서      True
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주서부경찰서     False
광주남부경찰서      True
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주남부경찰서     False
광주북부경찰서      True
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주북부경찰서     False
광주광산경찰서      True
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
광주광산경찰서     False
Name: 구분, dtype: bool

In [329]:
df2015_crime =  df2015[df2015['구분'] == '발생건수']

In [328]:
df2015['구분'][df2015['구분'] == '발생건수']

관서명
광주지방경찰청계    발생건수
광주동부경찰서     발생건수
광주서부경찰서     발생건수
광주남부경찰서     발생건수
광주북부경찰서     발생건수
광주광산경찰서     발생건수
Name: 구분, dtype: object

In [332]:
df2015_crime =  df2015[df2015['구분'] == '발생건수']

In [333]:
df2016_crime =  df2016[df2016['구분'] == '발생건수']

In [334]:
df2017_crime =  df2017[df2017['구분'] == '발생건수']

In [336]:
df2017_crime

Unnamed: 0_level_0,구분,살인,강도,강간·강제추행,절도,폭력,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
광주지방경찰청계,발생건수,9,33,725,4816,8366,13949
광주동부경찰서,발생건수,3,5,77,624,1090,1799
광주서부경찰서,발생건수,0,7,196,1142,2293,3638
광주남부경찰서,발생건수,0,4,68,577,898,1547
광주북부경찰서,발생건수,3,5,215,1546,2176,3945
광주광산경찰서,발생건수,3,12,169,927,1909,3020


In [338]:
# '총계' 컬럼
c5 = df2015_crime['총계']
c6 = df2016_crime['총계']
c7 = df2017_crime['총계']

In [347]:
(c7-c6)/c6*100

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

In [346]:
(c6-c5)/c5*100

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [348]:
# 증감율 계산
a56 = (c6-c5)/c5*100 # 2015-2016 증감율
a67 = (c7-c6)/c6*100 # 2015-2015 증감율

In [349]:
a56

관서명
광주지방경찰청계   -18.130643
광주동부경찰서    -12.186837
광주서부경찰서    -17.542373
광주남부경찰서    -11.903637
광주북부경찰서    -24.112697
광주광산경찰서    -17.473634
Name: 총계, dtype: float64

In [350]:
a67

관서명
광주지방경찰청계    -9.516087
광주동부경찰서    -13.007737
광주서부경찰서     -6.526208
광주남부경찰서    -17.050938
광주북부경찰서     -4.893925
광주광산경찰서    -12.285797
Name: 총계, dtype: float64

In [361]:
crime = pd.concat([c5, a56, c6, a67, c7], axis =1)
crime

Unnamed: 0_level_0,2015 총계,총계,2016 총계,총계,총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [359]:
# Series의 name은 DF의 컬럼명
c5.name = '2015 총계'
c5

관서명
광주지방경찰청계    18830
광주동부경찰서      2355
광주서부경찰서      4720
광주남부경찰서      2117
광주북부경찰서      5466
광주광산경찰서      4172
Name: 2015 총계, dtype: int64

In [360]:
c6.name = '2016 총계'
c6

관서명
광주지방경찰청계    15416
광주동부경찰서      2068
광주서부경찰서      3892
광주남부경찰서      1865
광주북부경찰서      4148
광주광산경찰서      3443
Name: 2016 총계, dtype: int64

In [365]:
# 컬럼명 바꾸기 1
# 모든 컬럼을 재지정
crime.columns = ['2015총계', '2015-0216증감율', 
                 '2016총계', '2016-2017총계', '2017총계']

In [366]:
crime

Unnamed: 0_level_0,2015총계,2015-0216증감율,2016총계,2016-2017총계,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [369]:
# 컬럼명 바꾸기2
# 이름 다시 지정 - rename
# 딕셔너리 활용
crime = crime.rename(columns={'2016-2017총계': '2016-2017증감율'})

In [370]:
crime

Unnamed: 0_level_0,2015총계,2015-0216증감율,2016총계,2016-2017증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020
