In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {
    '2015':[456789,234567,123456,854755],
    '2010':[232323,454545,656565,787878],
    '2005':[121212,232323,454545,656565],
    '2000':[545454,565656,575757,585858],
    '지역':['수도권','경상권','수도권','경상권'],
    '2010-2015 증가율':[0.2222,0.1322,0.1244,0.0333]
}
# 열 방향 인덱스 (열이름)
# columns = [2015','2010','2005','2000','지역','2020-2015 증가율'] # 따로 지정해줄 필요 없음
# 행방향 인덱스
index = ['서울','부산','인천','대구']

#데이터프레임 생성
#DataFrame(데이터, index, columns)
df = pd.DataFrame(data,index=index)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
서울,456789,232323,121212,545454,수도권,0.2222
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244
대구,854755,787878,656565,585858,경상권,0.0333


In [3]:
# 인덱스와 열에 이름 지정
df.index.name = '도시'
df.columns.name = '특성'
df

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244
대구,854755,787878,656565,585858,경상권,0.0333


# 인덱싱 : 데이터프레임에서 특정 데이터만 추출하는 것

### 열 인덱싱

데이터프레임은 딕셔너리와 비슷하기 때문에
데이터프레임을 인덱싱할 때도 다음과 같이 하면 됨
- 열 라벨(column lable : 문자로 이루어진 열 이름)을 키 값으로 생각하고 인덱싱
- 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트(여러 개의 값(이름))를 넣으면 부분적인 데이터프레임 반환

In [4]:
# 인덱스 값이 하나인 경우 : 열 선택
# 1개 열 선택 : 시리즈로 반환
df['지역']

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [5]:
# 주의 !
# 행 이름을 넣을 경우 에러
# df['서울'] #KeyError

In [6]:
# 데이터 타입 확인
type(df['지역'])
# pandas.core.series.Series

pandas.core.series.Series

In [7]:
# 여러 개의 열(리스트) 인덱싱 : 데이터프레임으로 반환
df[['2010','2015']]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,232323,456789
부산,454545,234567
인천,656565,123456
대구,787878,854755


In [8]:
type(df[['2010','2015']]) # 출력 안 하고 눈으로 봐도 데이터 프레임(pandas.core.frame.DataFrame)

pandas.core.frame.DataFrame

In [9]:
# 하나의 열만 추출하면서 데이터프레임 자료형을 유지하고 싶은 경우
# 원소가 하나인 리스트로 인덱싱
df[['2010']]

특성,2010
도시,Unnamed: 1_level_1
서울,232323
부산,454545
인천,656565
대구,787878


In [10]:
df['2010'] # 시리즈 모양 눈으로 확인

도시
서울    232323
부산    454545
인천    656565
대구    787878
Name: 2010, dtype: int64

주의 !
데이터프레임의 열 인덱스(열 이름)가 문자열 라벨인 경우
- 순서를 나타내는 정수 인덱스를 사용해서 열 인덱싱 할 수 없음
- KeyError 발생

In [11]:
# 정수형 인덱스 사용
# df[0] # KeyError

# 예외처리해서 예외 유형 출력
try :
    df[0]
except Exception as e :
    print(type(e))
    # <class 'KeyError'>

<class 'KeyError'>


열 인덱스(열 이름)가 정수로 되어 있는 경우에는
정수 인덱스 사용해서 인덱스 할 수 있음

In [12]:
# 정수 인덱스로 되어 있는 데이터프레임 생성
df2 = pd.DataFrame(np.arange(12))
df2

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


In [13]:
# 3행 4열의 데이터프레임 생성
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2
# 인덱스를 지정하지 않았기 때문에
# 기본적으로 정수 인덱스가 지정됨

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [14]:
# 열 인덱스(열 이름)가 정수로 되어 있는 경우에는
# 정수 인덱스를 사용해서 인덱싱 가능
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [15]:
# 여러 개의 열 선택
df2[[1,2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [16]:
# 연속되지 않은 여러 개의 열 선택 가능
df2[[0,3]]

Unnamed: 0,0,3
0,0,3
1,4,7
2,8,11


In [17]:
# 데이터프레임의 실제 값은 numpy 배열 형태
df2.values

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [18]:
df.values

array([[456789, 232323, 121212, 545454, '수도권', 0.2222],
       [234567, 454545, 232323, 565656, '경상권', 0.1322],
       [123456, 656565, 454545, 575757, '수도권', 0.1244],
       [854755, 787878, 656565, 585858, '경상권', 0.0333]], dtype=object)

In [19]:
type(df.values)

numpy.ndarray

In [20]:
# 데이터프레임의 2차원 구조 (~행 ~열인지 확인)
df.shape

(4, 6)

In [21]:
df2.shape

(3, 4)

In [22]:
df.size

24

In [23]:
df2.size

12

### 행 인덱싱 (행 추출) : 슬리이싱만 가능
df[start:end]
- start에서 end-1까지 추출
- 행 인덱스가 정수 또는 문자인 경우 다 가능

In [24]:
df

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244
대구,854755,787878,656565,585858,경상권,0.0333


In [26]:
# 인덱스 0행만 추출
# 1개 행이라도 슬라이싱 해야 함
df[:1] # df[0:1]
# 0부터 1-1행까지 슬라이싱
# 즉, 0부터 0까지 이므로 0행 1개만 추출

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222


In [28]:
# 두 번째 행 추출
df[1:2]

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,234567,454545,232323,565656,경상권,0.1322


In [29]:
# 두 번째 ~ 세 번째 행 추출
df[1:3] # 1~2행 추출

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244


In [32]:
# df[1] # KeyError
# 에러 발생 이유
# df[1] : 인덱스 값을 하나만 넣으면 열 인덱싱
# df의 현재 열 이름은 문자로 되어 있으므로 정수형 인덱스 사용 불가

In [33]:
# 연속되지 않은 행 추출 : loc/iloc 인덱서 사용 (뒤에서 상세히 다룰 것임)
# 숫자 인덱스로 지정할 경우 : iloc 인덱서 사용
df.iloc[[0,2,3],:] # 0,2,3행의 모든 열(:) [[0,2,3행],:(모든 열)]

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222
인천,123456,656565,454545,575757,수도권,0.1244
대구,854755,787878,656565,585858,경상권,0.0333


In [35]:
# 연속되지 않은 행 추출
# 문자 인덱스로 지정할 경우 : loc 인덱서 사용
df.loc[['서울','대구'],:] # 서울, 대구 행, 모든 열 [행, 열]

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222
대구,854755,787878,656565,585858,경상권,0.0333


In [36]:
# 서울~인천 연속 행 추출 : loc/iloc 사용하지 않고 추출할 것
df['서울':'인천'] # 연속 행은 가능

특성,2015,2010,2005,2000,지역,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,456789,232323,121212,545454,수도권,0.2222
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244


### 개별 데이터 인덱싱
~행 ~열에 위치한 데이터 추출
df[열][행] : 먼저 열을 선택해서 추출한 다음 행 선택해서 추출

In [37]:
# 2015년도 서울의 인구 수 출력
df['2015']['서울']

456789

In [38]:
type(df['2015']['서울']) # 1개 값 출력 (스칼라 : 단일 값)

numpy.int64

## 전치 : 데이터프레임의 행과 열 위치 바꾸기

In [39]:
# df의 행과 열 위치 바꾸기
df.T # 출력만

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,456789,234567,123456,854755
2010,232323,454545,656565,787878
2005,121212,232323,454545,656565
2000,545454,565656,575757,585858
지역,수도권,경상권,수도권,경상권
2010-2015 증가율,0.2222,0.1322,0.1244,0.0333


### 정리

데이터프레임의 인덱싱 / 슬라이싱

인덱싱 : 열을 대상으로 함
    열 이름이 문자인 경우 (라벨 인덱싱)
        - 1개의 열 선택 : 시리즈 반환
        - 여러 개의 열 선택 : 데이터프레임으로 반환
        - 1개의 열이라도 []에 넣으면 데이터프레임으로 반환
    열 이름이 정수인 경우 (정수 인덱싱)

슬라이싱 : 행을 대상으로 함
    인덱스가 정수, 문자로 이루어진 경우 다 슬라이싱 가능
    결과 : 데이터프레임 반환

### 연습문제

다음 데이터프레임을 생성하고 지정하는 데이터를 추출하거나 처리하시오.

df_score

      국어 영어 수학
춘향   80   90   90

몽룡   90   70   60
향단   70   60   80
방자   30   40   70

(1) 모든 학생의 수학 점수를 시리즈로 나타낸다
(2) 모든 학생의 국어와 영어 점수를 데이터프레임으로 나타낸다
(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
(4) 방자의 영어 점수를 80점으로 수정하고, 평균 점수도 다시 계산한다
(5) 춘향의 점수를 데이터프레임으로 나타낸다
(6) 향단의 점수를 시리즈로 나타낸다

In [79]:
lst1 = [80,90,90]
lst2 = [90,70,60]
lst3 = [70,60,80]
lst4 = [30,40,70]

index = ['춘향','몽룡','향단','방자']
columns= ['국어','영어','수학']

df_score = pd.DataFrame([lst1,lst2,lst3,lst4],
               index=index,
               columns=columns)
df_score

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [80]:
#(1) 모든 학생의 수학 점수를 시리즈로 나타낸다
df_score['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [81]:
#(2) 모든 학생의 국어와 영어 점수를 데이터프레임으로 나타낸다
df_score[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [85]:
#(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다
df_score['평균'] = round((df3['국어']+df3['영어']+df3['수학'])/3,2)
df_score

Unnamed: 0,국어,영어,수학,평균점수,평균
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,60.0,60.0


In [86]:
#(4) 방자의 영어 점수를 80점으로 수정하고, 평균 점수도 다시 계산한다
df_score['영어']['방자']= 80
df_score['평균'] = round((df_score['국어']+df_score['영어']+df_score['수학'])/3,2)
df_score

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_score['영어']['방자']= 80


Unnamed: 0,국어,영어,수학,평균점수,평균
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [87]:
#(5) 춘향의 점수를 데이터프레임으로 나타낸다
df_score[0:1]
# df_score['춘향':'춘향'] or df_score[:'춘향']

Unnamed: 0,국어,영어,수학,평균점수,평균
춘향,80,90,90,86.67,86.67


In [92]:
#(6) 향단의 점수를 시리즈로 나타낸다
df_score['향단':'향단'] # 데이터프레임 형태

Unnamed: 0,국어,영어,수학,평균점수,평균
향단,70,60,80,70.0,70.0


In [90]:
# 시리즈로 추출하려면 열에서 추출
# 향단을 열로 보내야 함 --- 전치
df_score.T['향단']

국어      70.0
영어      60.0
수학      80.0
평균점수    70.0
평균      70.0
Name: 향단, dtype: float64