In [3]:
import pandas as pd

In [4]:
# 딕셔너리 생성
# 딕셔너리의 key 값은 데이터프레임의 열방향 인덱스(열 이름)으로 설정
data = {
    '2015': [569382, 434134, 235641, 34515],
    '2010': [569382, 434134, 235641, 39610],
    '2005': [684958, 434134, 302502, 34515],
    '2000': [693018, 434134, 123849, 34515],
    '지역': ['수도권', '경상권', '수도권', '경상권'],
    '2010~2015 증가율': [0.2314, 0.6948, 0.2341, 0.4857]
}

# 행방향 인덱스(index)
index = ['서울', '부산', '인천', '대구']

# 데이터 프레임 생성
# DataFrame(list, index, columns)
# DataFrame(dictionary, index)
df = pd.DataFrame(data, index)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010~2015 증가율
서울,569382,569382,684958,693018,수도권,0.2314
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


In [7]:
df.columns.name = '특성'
df.index.name = '도시'
df

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


## 인덱싱
> 데이터프레임에서 특정 접근해서 데이터를 추출하는 것
- 열 인덱싱 / 행 인덱싱

### 열 인덱싱
- 데이터프레임은 딕셔너리와 비슷하기 때문에 데이터프레임을 인덱싱할 때도 다음과 같이 하면 됨
    - 열 이름(라벨)을 키 값으로 생각하고 인덱싱
    - 인덱스로 열 이름(라벨)을 사용하면 시리즈 객체가 반환
    - 열 이름을 리스트로 (여러 개) 사용해서 인덱신하면 부분적인 데이터프레임이 반환

In [8]:
# 인덱스 값이 하나인 경우: 열 선택
# 1개 열 선택: 시리즈로 반환
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [9]:
# 주의!
# 행 이름을 사용할 경우 오류
# df['서울'] => KeyError 발생
# df[0:1] 을 사용

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314


In [11]:
df[['2010', '2005']]
    # df['2010', '2005']는 오류

특성,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,569382,684958
부산,434134,434134
인천,235641,302502
대구,39610,34515


In [16]:
df[['지역']]

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


In [17]:
print(type(df[['지역']]))  # => DataFrame
print(type(df['지역']))  # => Series

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


### 행 인덱싱
> 행 추출: 슬라이싱만 가능

- df[start:end]: start에서 end-1까지의 행 추출
- 행

In [29]:
df

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


In [21]:
# 인덱스 0행만 추출
# 1개 행이라도 슬라이싱해야한다
df[:1]  # 0부터 1-1 행까지 슬라이싱 => 0행 1개

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314


In [25]:
# 부산 ~ 인천 행 추출
df[1:3]

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341


In [30]:
# 연속되지 않은 행 추출 : loc / iloc 인덱서 사용
# 숫자 인덱스로 지정할 경우: iloc 인덱서 사용
df.iloc[[0, 2, 3], :]  
    # 0, 2, 3행, 모든 열: [행, 열]

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


In [34]:
# 연속되지 않은 행 추출
# 문자 인덱스로 지정할 경우: loc 인덱서 사용
df.loc[['서울', '대구'], :]

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314
대구,34515,39610,34515,34515,경상권,0.4857


### 개별 데이터 인덱싱: 특정 셀의 값 추출
- ~행 ~열에 위치한 데이터 추출
-  df[열][행]: 먼저 열을 선택하고 추출한 다음 행을 선택해서 추출

In [37]:
# 2015년도의 서울의 인구 수 출력
df['2015']['서울']

569382

In [38]:
type(df['2015']['서울'])  # => numpy.int64 -> 단일 값 (스칼라)

numpy.int64

### 단일 값: 스칼라
- 1차원 배열 형태: 시리즈
- 2차원 테이블 형태: 데이터프레임

### 전치
> 데이터프레임의 행과 열의 위치 바꾸기

In [43]:
df

특성,2015,2010,2005,2000,지역,2010~2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,569382,569382,684958,693018,수도권,0.2314
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


In [44]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,569382,434134,235641,34515
2010,569382,434134,235641,39610
2005,684958,434134,302502,34515
2000,693018,434134,123849,34515
지역,수도권,경상권,수도권,경상권
2010~2015 증가율,0.2314,0.6948,0.2341,0.4857


In [None]:
# Q. 연습문제
# 데이터 프레임 생성: dfScore
# 3개 과목: 국어, 영어, 수학
# 4명: 춘향, 몽룡, 향단, 방자

# Q01. 모든 학생의 수학 점수를 시리즈로 나타낸다
# Q02. 모든 학생의 국어, 영어 점수를 데이터 프레임으로 나타낸다
# Q03. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
# Q04. 방자의 영어 점수를 80점으로 수정하고, 평균 점수도 다시 계산
# Q05. 향단의 점수를 데이터프레임으로 나타낸다
# Q06. 향단의 점수를 시리즈로 나타낸다

In [56]:
# Q00.
dfScore = pd.DataFrame([[95, 83, 98], 
                        [67, 48, 66], 
                        [85, 93, 77],
                        [98, 100, 100]])
dfScore.index = ['춘향', '몽룡', '향단', '방자']
dfScore.columns = ['국어', '영어', '수학']
dfScore

Unnamed: 0,국어,영어,수학
춘향,95,83,98
몽룡,67,48,66
향단,85,93,77
방자,98,100,100


In [60]:
# Q01. 모든 학생의 수학 점수를 시리즈로 나타낸다
dfScore['수학']

pandas.core.series.Series

In [64]:
# Q02. 모든 학생의 국어, 영어 점수를 데이터 프레임으로 나타낸다
dfScore

Unnamed: 0,국어,영어,수학
춘향,95,83,98
몽룡,67,48,66
향단,85,93,77
방자,98,100,100


In [66]:
# Q03. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
dfScore['평균'] = round((dfScore['국어'] + dfScore['수학'] + dfScore['영어']) / 3, 2)
dfScore

Unnamed: 0,국어,영어,수학,평균
춘향,95,83,98,92.0
몽룡,67,48,66,60.33
향단,85,93,77,85.0
방자,98,100,100,99.33


In [72]:
# Q04. 방자의 영어 점수를 80점으로 수정하고, 평균 점수도 다시 계산
dfScore['영어']['방자'] = 80
dfScore['평균'] = round((dfScore['국어'] + dfScore['수학'] + dfScore['영어']) / 3, 2)
dfScore

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfScore['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,95,83,98,92.0
몽룡,67,48,66,60.33
향단,85,93,77,85.0
방자,98,80,100,92.67


In [75]:
# Q05. 향단의 점수를 데이터프레임으로 나타낸다
dfScore[2:3]

Unnamed: 0,국어,영어,수학,평균
향단,85,93,77,85.0


In [73]:
# Q05. 향단의 점수를 데이터프레임으로 나타낸다
dfScore['향단':'향단']

Unnamed: 0,국어,영어,수학,평균
향단,85,93,77,85.0


In [71]:
# Q06. 향단의 점수를 시리즈로 나타낸다
# 시리즈로 값을 가져오기 위해서는 열의 값을 가져와야 함
# '향단' 인덱스이므로 시리즈로 가져올 수 없으므로
# 열로 바꾸어야 함 -> 전치 (행 인덱스 -> 열 인덱스)
dfScore.T['향단']

국어    85.0
영어    93.0
수학    77.0
평균    85.0
Name: 향단, dtype: float64

## 데이터프레임 고급 인덱싱

특별한 인덱서
- loc: 라벨값 기반의 2차원 인덱싱 (이름이 문자인 경우)
- iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱
- at: 라벨값 기반의 2차원 인덱싱 (한 개의 스칼라 값만 찾음)
- ia: 순서를 나타내는 정수 기반의 2차원 인덱식(한 개의 스칼라 값만 찾음)
- at, ia는 빠른 인덱싱 속도가 요구되는 경우에 사용

### loc 인덱서 (문자 기반)
1. df.loc[행 인덱싱 값]: 값을 하나만 넣으면 행 선택
2. df.loc[행 인덱싱 값, 열 인덱싱 값] : [행, 열] 방식 선택

In [76]:
import numpy as np

In [82]:
# 데이터 프레임 생성
# 10 ~ 21 (12개)
# 3행 4열

df2 = pd.DataFrame(np.arange(10,22).reshape(3, 4),
                   index=['a', 'b', 'c'],
                   columns=['A', 'B', 'C', 'D'])
df2

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [83]:
# a행만 추출
df2.loc['a']  # 시리즈 반환

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [84]:
# 연속된 여러 개의 행을 추출 
df2.loc['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [85]:
# 연속되지 않은 여러 개의 행 추출
df2.loc[['a', 'c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [97]:
# 인덱싱 값으로 불리언 시리즈 사용 가능
df2.loc[df2.A < 15]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [96]:
df2.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [93]:
# 열 이름이 영문자인 경우 속성처럼 사용 가능
df2.C

a    12
b    16
c    20
Name: C, dtype: int32

In [99]:
# 정수 인덱스로 되어 있는 데이터 프레임 생성
df3 = pd.DataFrame(np.arange(10,26).reshape(4,4),
                  columns=['A', 'B', 'C', 'D'])
df3

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [106]:
# loc 인덱스에서 정수 인덱싱할 때
# 문자 인덱스와 동일 
df3.loc[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [107]:
# 인덱싱 값을 행과 열 모두 받는 경우
# df.loc[행 인덱스, 열 인덱스]
df2

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [108]:
df2.loc['a']['A']  # 특정 셀의 값 추출: 단일 값

10

In [111]:
df2.loc['b':, 'A']

b    14
c    18
Name: A, dtype: int32

In [113]:
df2.loc['a', :]  # a행의 모든 열의 값

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [117]:
# 행: a ~ c
# 열: B ~ D
df2.loc['a':'c', 'B':'D']

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17
c,19,20,21


In [120]:
# 행: a, c
# 열: A, C, D
df2.loc[['a', 'c'], ['A', 'C', 'D']]

Unnamed: 0,A,C,D
a,10,12,13
c,18,20,21


### iloc: 순서를 나타내는 정수 인덱스만 받음
- 문자, 숫자 인덱스로 된 데이터프레임에서 사용 가능

In [121]:
# 슬라이싱
df2.iloc[0:2]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [122]:
# 인덱스 하나만 있으면 1개 행 추출
df2.iloc[1]  # b행

A    14
B    15
C    16
D    17
Name: b, dtype: int32

In [123]:
# 개별 데이터 인덱싱
df2.iloc[0, 1] # 0행 1열의 값

11

In [124]:
df2.iloc[-1]  # 마지막 행 추출

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [127]:
# 행: 2
# 열: 1 ~ 2 열
df2.iloc[2:3, 1:3]  # => DateFrame

pandas.core.frame.DataFrame