### Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

#### 자료형
- Series <br>

    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능

<img src="img/series_example.png" width="250" align="center">

In [2]:
# pandas 라이브러리 및 Series, DataFrame 네임스페이스 불러오기
import pandas as pd
import numpy as np

In [6]:
# Series 생성
pd.Series([])

Series([], dtype: float64)

### Series 생성

- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### Series 속성

- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환 
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

In [7]:
# 숫자 10을 데이터로 가지고 있는 Series
# 결과 해석
# 왼쪽 0 = 자동으로 생성되는 기본 인덱스번호(0부터 시작)
# 오른쪽 10 = 입력한 데이터 값
s1 = pd.Series(10)
s1

0    10
dtype: int64

In [10]:
# 데이터 확인
s1.values

array([10], dtype=int64)

In [11]:
# 인덱스 번호
# RangeIndex : 기본적으로 생성되는 인덱스번호를 지칭
s1.index

RangeIndex(start=0, stop=1, step=1)

In [12]:
# 문자
s2 = pd.Series('abc')
s2

0    abc
dtype: object

In [13]:
# 데이터 확인
s2.values

array(['abc'], dtype=object)

In [15]:
# 리스트 자료형
s3 = pd.Series([10, 20, 30])
s3

0    10
1    20
2    30
dtype: int64

In [19]:
s3.values

array([10, 20, 30], dtype=int64)

In [20]:
# 인덱스 확인
# 0이상 3미만의 RangeIndex : 0, 1, 2
s3.index

RangeIndex(start=0, stop=3, step=1)

In [21]:
# 데이터타입이 서로 다른 리스트 자료형
s4 = pd.Series([10.3, 'text', 200, [1,2,3]])
s4

0         10.3
1         text
2          200
3    [1, 2, 3]
dtype: object

In [22]:
#데이터 확인
s4.values

array([10.3, 'text', 200, list([1, 2, 3])], dtype=object)

In [23]:
# 인덱스 확인
s4.index

RangeIndex(start=0, stop=4, step=1)

In [24]:
# 튜플 자료형
s5 = pd.Series((1, 2, 3, 4, 5.0))
s5

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [25]:
# 데이터 확인
s5.values

array([1., 2., 3., 4., 5.])

In [26]:
# 인덱스 확인
s5.index

RangeIndex(start=0, stop=5, step=1)

In [31]:
# 딕셔너리 자료형(자동으로 라벨이 인덱스에 부여됨)
s6 = pd.Series({'a':10, 'b':20, 'c':30})
s6

a    10
b    20
c    30
dtype: int64

In [32]:
# 데이터 확인
s6.values

array([10, 20, 30], dtype=int64)

In [33]:
# 인덱스 확인
s6.index

Index(['a', 'b', 'c'], dtype='object')

In [30]:
# 인덱스 새롭게 지정하기
# 인덱스 속성을 참조하여 리스트, 튜플 타입으로 전달
# 라벨 인덱스가 없던 경우 -> 새롭게 추가
# 라벨 인덱스가 있던 경우 -> 덮어쓰기
s5.index

RangeIndex(start=0, stop=5, step=1)

In [40]:
# 인덱스를 새롭게 지정할떄는 RangeIndex 범위만큼의 길이를 가지는 리스트를 사용
# 행 개수(데이터 개수)와 동일한 길이를 전달해야 한다.
s5.index = [2010, 2011, 2012, 2013, 2014]

In [41]:
s5

2010    1.0
2011    2.0
2012    3.0
2013    4.0
2014    5.0
dtype: float64

In [48]:
# 인덱스를 지정하여 객체 생성
# 인덱스 객체에 대해서 인덱스번호로 아이템 참조 가능
s5.index[3]

2013

In [39]:
# 인덱스 객체 내부의 단일 자료 변경 불가
# s5.index[-1]=2015 // error

In [49]:
# 인덱스 라벨링을 변경할 때에는 전체 인덱스를 새로 입력해야 한다.
s5.index = [2010, 2011, 2012, 2013, 2015]
s5

2010    1.0
2011    2.0
2012    3.0
2013    4.0
2015    5.0
dtype: float64

In [53]:
# Series함수의 index파라미터에 값을 지정해서 딕셔너리를 대신할 수 있다.
# Series(data, index=[...]) 
s7 = pd.Series([10,20,30,40], index=['mon','tue','wed','thur'])
s7

mon     10
tue     20
wed     30
thur    40
dtype: int64

In [54]:
# 데이터 확인
s7.values

array([10, 20, 30, 40], dtype=int64)

In [57]:
# 인덱스 확인
s7.index

Index(['mon', 'tue', 'wed', 'thur'], dtype='object')

In [60]:
#사용자 부여 인덱스로 조회
s7['wed']

30

In [62]:
# 자동 부여 인덱스로 조회
s7[2]

30

### dictionary 자료형과 유사한 Series 자료형

In [63]:
# dictionary 자료형으로 series 생성
data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample = pd.Series(data)
print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [69]:
# Series 객체와 in 연산자
# dictionary와 유사 : in 연산자를 사용해 내부 검사시
# key값에 해당하는 라벨이 있는지 없는지 여부를 Tru False로 출력(데이터와 무관)
print('서울' in data)
print('서울' in sample)

True
True


In [70]:
# for문에서 in 연산자로 접근 : Series의 value값을 참조
for key in data:
    print(key)
print("-"*15)
for i in sample:
    print(i)

서울
경기
강원
부산
---------------
100
200
300
400


In [76]:
# 서울, 경기, 강원, 부산 => 서울, 경기, 강원, 제주 로 라벨 인덱싱 변경
# 지정한 index 기준으로 series 생성
# 사용하는 인덱스에 없는 값은 series에 NaN값으로 저장
# NaN : Not a Number(결측치) -> numpy에서 사용함
# None : 결측치(파이썬에서 사용함)
index2 = ['서울', '경기', '강원', '제주']
sample2 = pd.Series(data, index=index2)
sample2
# 기존 key 값인 '부산' 에 해당하는 값(400)은 여전히 존재하지만 '제주'에 해당하는 value가 없어 NaN 값이 반환됨

서울    100.0
경기    200.0
강원    300.0
제주      NaN
dtype: float64

### 인덱싱(Indexing) 

- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스 : 기본 숫자 인덱스, 라벨 인덱스
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [82]:
# Series s6의 첫 번째 데이터 => 인덱스 0으로 조회
# Series객체[인덱스번호 or 라벨이름]
print(s6);print();
print(s6.index[0]) # 0번째 요소의 라벨은 'a'
print(s6[0])

a    10
b    20
c    30
dtype: int64

a
10


In [85]:
# Series s7의 인덱스 0 값을 조회
print(s7); print()
print(s7[0])
print(type(s7['mon']))

mon     10
tue     20
wed     30
thur    40
dtype: int64

10
<class 'numpy.int64'>


In [86]:
# Series s7의 인덱스 tue에 해당하는 데이터 값을 변경
# 인덱스(라벨링)은 개별적으로 하나하나 변경 불가능
# 그러나 데이터는 하나하나 인덱싱을 이용해 변경 가능
s7['tue'] = 200
s7

mon      10
tue     200
wed      30
thur     40
dtype: int64

In [88]:
# 시리즈에서 원하는 로우(행)만 조회하기 : 조회할 로우명을 리스트로 묶어서 전달
# Series s7에서 mon, wed 라벨 조회
# 이중 리스트를 사용해야함 -> s7['mon', 'wed'] # 에러 발생
s7[['wed', 'mon']]

wed    30
mon    10
dtype: int64

In [90]:
# 여러개의 인덱스를 조회할때는 리스트만 사용 가능하다
# s7[('mon', 'wed')] // error

### 슬라이싱(Slicing)

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [91]:
# 인덱스 0에서 인덱스2(포함) 까지 조회
s1 = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [96]:
# RangeIndex : 0, 1
s1[0:2]

a    10
b    20
dtype: int64

In [97]:
# 라벨 'a'에서 라벨'c' 조회(포함)
s1['a':'c']

a    10
b    20
c    30
dtype: int64

In [98]:
# 0~3번째까지 2개 간경으로 인덱싱
s1[0:4:2]

a    10
c    30
dtype: int64

In [100]:
# 인덱스 'a' 에서 인덱스 'c'(포함)까지 2개간격으로 조회
s1['a':'c':2]

a    10
c    30
dtype: int64

### 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [104]:
# 양수와 음수의 데이터를 저장하고 있는 Series 생성
# 양수 : 10 기준으로 위 아래
s2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
s2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [109]:
# 음수인 데이터는 True로, 양수인 데이터는 False로 만들기
s2 < 0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [118]:
# 위의 조건색인을 이용해 s2중 음수인 자료만 남겨주세요.
s2[s2<0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [125]:
# 두 개 이상의 조건 병렬형태로 처리하기
# 양수이면서 10보다 작은 값만 조건색인으로 남겨주세요.
#s2[0<s2][s2<10]
s2[(s2>0) & (s2<10)]

7     1
10    5
dtype: int64

### 산술연산

- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능
    
    <img src="img/series_math.png" width="500" align="center">
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [129]:
# 라벨 : a, b, c, d -> 데이터 4개
# 라벨 : a, c, d, e, f, g -> 데이터 6개
s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))

In [132]:
s1+s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [133]:
# Series 객체와 스칼라 값의 산술연산
s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [135]:
# Series끼리 더하기
# 공통라벨인 a, c, d에만 값 부여, 나머지는 NaN
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [146]:
# fill_value 파라미터 : 공통으로 존재하지 않는 라벨에 대해서 NaN 대신
# 적용할 특정 값을 지정할 수 있다.
# Series 메서드를 사용할 때의 파라미터로 입력 가능
s1.add(s2, fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [148]:
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [150]:
s1.sub(s2, fill_value=0)

a    -9.0
b     2.0
c   -17.0
d   -26.0
e   -40.0
f   -50.0
g   -60.0
dtype: float64

In [147]:
# Series 객체 간의 곱하기 연산
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [152]:
s1.mul(s2, fill_value=1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [153]:
# Series 객체 간의 나누기 연산
s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [156]:
s1.div(s2, fill_value=1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

In [157]:
# Series 객체 간의 나머지 반환 연산
s1 % s2

a    1.0
b    NaN
c    3.0
d    4.0
e    NaN
f    NaN
g    NaN
dtype: float64

In [160]:
s1.mod(s2, fill_value=1)

a    1.0
b    0.0
c    3.0
d    4.0
e    1.0
f    1.0
g    1.0
dtype: float64

In [162]:
# Series 객체 간의 정수 몫 반환 연산
s2 // s1

a    10.0
b     NaN
c     6.0
d     7.0
e     NaN
f     NaN
g     NaN
dtype: float64

### 연습 문제
#### 1. 실습데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [163]:
import numpy as np

In [208]:
data = np.random.randint(1, 100, 26)
sr = pd.Series(data, index=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
sr

A    82
B    57
C    12
D    22
E    61
F    55
G    75
H     2
I    29
J    55
K    16
L    55
M    56
N    52
O    36
P     7
Q    17
R    71
S    59
T    57
U    89
V    62
W    36
X    71
Y    90
Z    18
dtype: int32

#### 2.인덱스 라벨이 'K'항목의 값 출력

In [209]:
sr['K']

16

#### 3. 인덱스 라벨이 'A','F','C'항목의 값 출력(한꺼번에 모아서)

In [210]:
sr[['A','F','C']]

A    82
F    55
C    12
dtype: int32

#### 4. 5번 인덱스부터 15번 인덱스까지의 항목 출력(2가지 방법)

In [211]:
sr[5:16]
idx = sr.index[5:16]
sr[idx]

F    55
G    75
H     2
I    29
J    55
K    16
L    55
M    56
N    52
O    36
P     7
dtype: int32

#### 5. 뒤에서 5개 항목 출력

In [212]:
sr[-5:]

V    62
W    36
X    71
Y    90
Z    18
dtype: int32

#### 6. data의 항목 갯수를 출력

In [213]:
len(sr)

26

#### 7. data 항목 값들의 평균보다 큰 항목만 출력

In [223]:
aver = (sum(sr)/len(sr))
sr[sr> aver]

A    82
B    57
E    61
F    55
G    75
J    55
L    55
M    56
N    52
R    71
S    59
T    57
U    89
V    62
X    71
Y    90
dtype: int32

#### 8.data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False를 출력

In [235]:
# 50을 s1의 인덱스중에 있는지 없는지 조회한다
50 in s1

False

In [236]:
50 in s1.values

False

### DataFrame 생성 

- 2차원 배열과 유사한 자료형
- 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능
- 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사
- 하나의 컬럼은 하나의 Series로서 하나의 Dataframe은 여러 개의 Series 묶음으로 구성됨
- index 특징
    - row index(행 인덱스) : 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명(라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음
    - column index(열 인덱스) : 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음
    
<img src="img/df_example.png" width="500" align="center">

In [244]:
# 다차원 자료형, 딕셔너리 자료형을 사용
# 주의점 : 자료형에 따라 아이템 길이 이슈가 발생할 수 있음
# 다차원 리스트 : 아이템 길이가 동일/서로 다른 타입
# 딕셔너리 : 아이템 길이가 동일 / 서로 다른 타입

# 데이터 프레임의 셀(튜플)에는 모든 데이터 타입ㅇ 및 여러 타입 혼합 가능
# 다차원 리스트 : 아이템 개수 3개, 하위 아이템 개수 4개
data1 = [[1,2,3,4],
          ['a','b','c','d'],
          [0.1,0.2,0.5,0.8]]

In [245]:
# 아이템 3개 : 행 3줄 -> df에 저장하는 ㄷ이터 개수
# 하위 아이템 4개 : 열 4줄 -> df에 저장하는 데이터의 속성/변수의 개수
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.8


In [253]:
# 아이템 길이가 다른 다차원 리스트
# 최대 길이의 행을 기준으로 df구조가 생성됨
# 길이가 모자란 튜플(셀) : NaN 값으로 채워짐
data2 = [[1,2,3,4,5],
        ['a','b'],
        [0.1,0.2,0.5]]

In [254]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [255]:
# 아이템 3개, value의 길이 4개 => 아이템의 개수(컬럼의 개수), value의 길이, 로우의 개수)
# 딕셔너리의 키 :
data3 = {'a':[10,20,30,40],
        'b':[1,2,3,4],
        'c':[5,6,7,8]}

In [257]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [258]:
# 딕셔너리 자료형을 데이터프레임의 데이터로 사용
# 아이템 개수 3개, value길이 다르게
# 개수가 모자란 튜플(셀) : ValueError -> key에 해당하는 value의 길이가 모두 동일해야 함
data4 = {'a':[10], 'b':[1,2,3,4], 'c':[5,6,7]}

In [260]:
# df4 = pd.DataFrame(data4) // error

In [261]:
# 인덱스를 지정하여 객체 생성 : DataFrame 함수에서 파라미터로 지정
# columns 파라미터 : 컬럼명(열 개수와 동일한 길이를 가진 리스트 전달)
# index 파라미터 : 로우명(행 갯수와 동일한 길이를 가진 리스트 전달)
df5 = pd.DataFrame(data1, index=['r1','r2','r3'], columns=['c1','c2','c3','c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.8


In [262]:
data3

{'a': [10, 20, 30, 40], 'b': [1, 2, 3, 4], 'c': [5, 6, 7, 8]}

In [275]:
# 딕셔너리를 이용했을때 컬럼 순서를 변경하여 df 생성 가능
df6 = pd.DataFrame(data3, index=list('wxyz'), columns=list('cab'))

In [276]:
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [277]:
# data에 없는 인덱스를 전달하는 경우 : 없는 key에 대해서 컬럼을 생성, 값은 NaN으로
df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [285]:
# data와 일치하지 않는 index개수를 전달하는 경우 :
#df8 = pd.DataFrame(data3, index=[10,20,30,40,50]) // error

#### DataFrame 속성

- 속성은 소괄호를 붙이지 않음
- index : df 객체의 행 인덱스 배열을 반환
- columns : df 객체의 열 인덱스 배열을 반환
- axes : df 객체의 행, 열 인덱스를 아이템으로 가지는 배열을 반환
- values : df 객체의 데이터(값)를 아이템으로 가지는 2차원 배열을 반환
- dtypes : df 객체의 데이터 타입을 열 기준으로 반환
- size : df 객체의 데이터 개수(길이)를 반환
- shape : df 객체의 구조(행, 열, 차원)를 반환
- T : 행과 열을 전환시킴

In [291]:
# 딕셔너리 타입 데이터로 데이터프레임 생성
# 서울, 경기, 충청, 경상, 전라 지역에 대해 2016, 2017, 2018년 유입인구
data = {'서울':[150, 180, 300],
       '경기':[200, 240, 450],
       '충청':[-10, 3, -13],
       '경상':[10, 20, 30],
       '전라':[5, 6, 7]}

In [295]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [297]:
# 행 인덱스 : 행 개수와 동일하게 리스트 전달
sample.index=[2016,2017,2018]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [299]:
# 참고 : 행 인덱스에 이름 부여
sample.index.name = 'year'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [300]:
# 열 인덱스
sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [301]:
# 열 인덱스에 이름 부여하기

In [303]:
sample.columns.name = 'location'
sample

location,서울,경기,충청,경상,전라
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [305]:
# 행 인덱스(로우) 수정
# 속성값
# 1. 행의 개수와 동일한 리스트를 전달
# 2. 속성값으로 사용하는 인덱스 객체는 아이템 수정 불가(하나의 인덱스만 따로 수정 불가능)
sample.index = [1991, 1992, 1993]
sample

location,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [2]:
# 값을 수정한 경우는 이름을 다시 부여해야 함
sample.index.name = 'year'
sample

NameError: name 'sample' is not defined

In [1]:
sample.index

NameError: name 'sample' is not defined