## **01. Pandas 패키지의 소개** 

Pandas 패키지는 데이터 분석을 할 때 가장 많이 쓰이는 패키지다. 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있는데 Pandas 패키지에서는 이러한 표 데이터를 다루기 위한 **시리즈(Series) 클래스**와 **데이터프레임(DataFrame) 클래스**를 제공한다.

## **목차**

1. 시리즈 클래스  
    1.1 시리즈 생성   
    1.2 시리즈 연산  
    1.3 시리즈 인덱싱  
    1.4  시리즈와 딕셔너리 자료형  
    1.5 인덱스 기반 연산  
    1.6 데이터의 갱신, 추가, 삭제  
        연습문제 1-1    

2. 데이터프레임 클래스  
    2.1 데이터프레임 생성  
        연습문제 1-2   
    2.3 열 데이터의 갱신,추가,삭제  
    2.4 열 인덱싱  
    2.5 행 인덱싱  
    2.6 개별 데이터 인덱싱  
        연습문제 1-3    

### **1. 시리즈 클래스**

시리즈 클래스는 Numpy에서 제공하는 1차원 배열과 비슷하지만, 각 데이터의 의미를 표시하는 **인덱스(index)**를 붙일 수 있다. 데이터 자체는 **값(value)**이라고 한다.
 > 시리즈 = 값(value) + 인덱스(index)

#### **1.1 시리즈 생성**

- 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다.
- 인덱스의 길이는 데이터의 길이와 같아야 한다. 
- Series( [ 리스트 ], index = [ 인덱스 ] )

다음 예에서 이 "서울", "부산" 등의 문자열이 인덱스의 값이다. 인덱스의 값을 **인덱스 라벨(label)**이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

다음 예제는 각 도시의 2015년 인구 데이터를 시리즈로 만든 것이다.

In [1]:
import numpy as np
import pandas as pd

s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.

In [2]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

시리즈의 인덱스는 index 속성으로 접근할 수 있다. 시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있다.

In [3]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [4]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

`name` 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.   
`index.name` 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.

In [6]:
s.name = '인구'  # Series 데이터의 이름 
s.index.name = '도시' # index 이름
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

#### **1.2 시리즈 연산**

NumPy 배열처럼 **시리즈도 벡터화 연산을 할 수 있다.**  다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다. 예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

In [7]:
s / 10000000  # 인덱스 라벨에는 영향을 미치지 않고 값에만 영향을 미침 

도시
서울    0.990431
부산    0.344874
인천    0.289045
대구    0.246605
Name: 인구, dtype: float64

#### **1.3 시리즈 인덱싱**

시리즈는 NumPy 배열에서 가능한 인덱스 방법 이외에도 **인덱스 라벨을 이용한 인덱싱**도 할 수 있다.  
배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능하다.

In [11]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [5]:
s[1], s['부산']

(3448737, 3448737)

In [6]:
s[3], s['대구']

(2466052, 2466052)

배열 인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.

In [12]:
s[[0, 3, 1]]  # [[리스트]], 리스트 순서대로 반환 

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[['서울', '대구', '부산']]  # 직점 인덱스 라벨을 지정해줘도 가능 

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [14]:
s[ (250e4 < s) & (s < 500e4) ]  # Series의 값이 250*10000 보다 크거나 500*10000 보다 작은 데이터 출력

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

**문자열 라벨을 이용한 슬라이싱**을 하는 경우에는 **<u>콜론(:) 기호 뒤에 오는</u> 인덱스에 해당하는 값도 결과에 포함되므로 주의**해야 한다.

In [16]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [18]:
s[1:3]  # 1행부터 3행 전까지를 슬라이싱 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [23]:
s['부산':'대구']  # '대구'까지 포함한다. *주의

부산    3448737
인천    2890451
대구    2466052
dtype: int64

만약 **라벨 값이 영문 문자열인 경우**에는 마치 속성인것처럼 **점(.)을 이용**하여 접근할 수도 있다.  
`.`을 이용하여 접근하는 경우 **해당하는 인덱스 라벨의 값을 반환한다.**

In [20]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [23]:
s0.a  # a의 값을 반환

0

In [22]:
s0.b # b의 값을 반환

1

#### **1.4 시리즈와 딕셔너리 자료형**

시리즈 객체는 라벨에 의해 인덱싱이 가능하므로 실질적으로 라벨을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 **딕셔너리 자료형에서 제공하는 in 연산도 가능**하고 `items` 메서드를 사용하면 **for 루프를 통해 각 원소의 키(key)와 값(value)에 접근**할 수도 있다.

In [24]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [25]:
'서울' in s  # s 시리즈에 '서울' 인덱스 라벨이 있는가?

True

In [26]:
for k, v in s.items():  # 시리즈의 인덱스 라벨과 값을 출력 == 딕셔너리와 같은 구조를 갖는다.
    print('%s = %d' % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


또 **딕셔너리 객체에서 시리즈**를 만들 수도 있다.   
이번에는 2010년의 인구 자료를 s2라는 이름의 시리즈로 만들어 보자. 이 데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [32]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})  # 딕셔너리로 시리즈 객체 생성 
print(s2)
print(type(s2))

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64
<class 'pandas.core.series.Series'>


단, **딕셔너리의 원소는 순서를 가지지 않으므로** 시리즈의 데이터도 순서가 보장되지 않는다. 만약 순서를 정하고 싶다면 **인덱스를 리스트로 지정**해야 한다.

In [34]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])  # 인덱스를 통해 순서를 고정해준다. 
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

#### **1.5 인덱스 기반 연산**


이번에는 2015년도와 2010년의 인구 증가를 계산해 보자. 두 개의 시리즈의 차이를 구하면 된다.   
**두 시리즈에 대해 연산을 하는 경우 <u>인덱스가 같은 데이터에 대해서만</u> 차이를 구한다.**

In [41]:
print(s)  # 대전이 없다. 2015년으로 가정
print(s2) # 대구가 없다. 2010년으로 가정 

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64


In [40]:
ds = s - s2
ds  # s와 s2시리즈에 대전과 대구는 각각 하나씩만 존재한다. 따라서 계산이 불가능하다. 또한 NaN은 float 자료형에만 가능하다.

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [42]:
s.values - s2.values  # 15년 - 10년 인구, NaN값은 빼고 반환해준다. 

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN(Not a Number)이라는 값을 가지게 된다. 
또한 NaN 값이 float 자료형에서만 가능하므로 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의한다. 
NaN이 아닌 값을 구하려면 notnull 메서드를 사용한다.

In [44]:
ds.notnull()  # NaN값이 없는가? NaN이면 False, 아니면 True

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [40]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

마찬가지로 인구 증가율(%)은 다음과 같이 구할 수 있다.

In [66]:
rs = (s - s2) / s2 * 100  # 10냔대비 인구 증가율 
rs = rs[rs.notnull()]     # NaN이 없는(결과값이 True인) 지역만 선택 
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

#### **1.6 데이터의 갱신, 추가, 삭제**

인덱싱을 이용하면 딕셔너리처럼 **데이터를 갱신(update)**하거나 **추가(add)**할 수 있다.

In [67]:
rs['부산'] = 1.63  # rs 시리즈에 '부산' 추가 
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [68]:
rs["대구"] = 1.41  # rs 시리즈에 '대구' 추가 
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

데이터를 삭제할 때도 딕셔너리처럼 **del 명령**을 사용한다.

In [69]:
del rs["서울"]  # rs.pop('서울')과 같다. 
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [70]:
rs = (s - s2) / s2 * 100  # 10냔대비 인구 증가율 
rs = rs[rs.notnull()]     # NaN이 없는(결과값이 True인) 지역만 선택 
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [71]:
rs.pop('인천')  # 딕셔너리 삭제방법으로 시리즈 객체에서 '인천' 삭제 
rs

부산    1.636984
서울    2.832690
dtype: float64

#### **연습 문제  1-1**

- 임의로 두 개의 시리즈 객체를 만든다.  
- 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
- 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [83]:
Series_1 = pd.Series(list(range(4)),
                    index = ['서울', '부산', '인천', '대구'])
Series_1

서울    0
부산    1
인천    2
대구    3
dtype: int64

In [88]:
Series_2 = pd.Series(list(range(9, 5, -1)),
                    index = ['서울', '부산', '대구', '울산'])
Series_2

서울    9
부산    8
대구    7
울산    6
dtype: int64

In [89]:
Series_1 + Series_2

대구    10.0
부산     9.0
서울     9.0
울산     NaN
인천     NaN
dtype: float64

In [172]:
Series_1 - Series_2

대구   -4.0
부산   -7.0
서울   -9.0
울산    NaN
인천    NaN
dtype: float64

In [91]:
Series_1 * Series_2

대구    21.0
부산     8.0
서울     0.0
울산     NaN
인천     NaN
dtype: float64

In [92]:
Series_1 / Series_2

대구    0.428571
부산    0.125000
서울    0.000000
울산         NaN
인천         NaN
dtype: float64

<hr>

### **2. 데이터프레임 클래스**

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면, **데이터프레임(Data-Frame) 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.** 2차원이므로 각각의 행 데이터의 이름이 되는 **행방향 인덱스(row index) 뿐 아니라** 각각의 열 데이터의 이름이 되는 **열방향 인덱스(column index)**도 붙일 수 있다.

#### **2.1 데이터프레임 생성**


데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

1. 우선 하나의 **열이 되는 데이터를 리스트나 일차원 배열**로 준비한다.
2. 이 각각의 열에 대한 **이름(label)을 키(Key) 로 갖는 딕셔너리를 만든다.**
3. 이 데이터를 **DataFrame 클래스 생성자**에 넣는다.   
4. **열방향 인덱스(col names)는 `columns` 인수**로, **행방향 인덱스(row names)는 `index` 인수**로 지정한다.

In [72]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]  # 딕셔너리 : 내용 
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"] # 열 이름  
index = ["서울", "부산", "인천", "대구"]  # 행 이름 
df = pd.DataFrame(data, index=index, columns=columns)  # DataFrame 생성자 
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141



앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만 사실은 **공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것이라고 보는 것이 더 정확**하다. 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 **데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문**이다. 위 예제에서도 지역과 인구와 증가율은 각각 문자열, 정수, 부동소수점 실수이다.

시리즈와 마찬가지로 **데이터만 접근하려면 values 속성을 사용**한다. 열방향 인덱스와 행방향 인덱스는 각각 `columns`, `index` 속성으로 접근한다.

In [73]:
df.columns  # 열 이름 반환 

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [74]:
df.values  # 데이터 (값) 반환 

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [75]:
df.index  # 행 이름 반환 

Index(['서울', '부산', '인천', '대구'], dtype='object')

시리즈처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능하다.

In [78]:
df.index.name = "도시"  # 행을 포괄하는 이름 지정 
df.columns.name = "특성"  # 열을 포괄하는 이름 지정 
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


#### **연습 문제  1-2**

다음 조건을 반족하는 임의의 데이터프레임을 하나 만든다. 
- 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
- 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

In [123]:
p2_data = {
    '이름' : ['강모씨', '김모씨', '장모씨', '이모씨', '박모씨'],
    '나이' : [27, 28, 29, 30, 25],
    '지역' : ['대구', '대전', '대구', '대구', '대전'],
    '키'   : [172.4, 180.3, 182.1, 175.8, 179.5],
    '차'   : ['아반뗴', '소나타', 'G70', '벨로스터', 'K3']
}


p2_columns = list(p2_data.keys())
p2_index = list(range(1, 6))

p2_df = pd.DataFrame(p2_data, index = p2_index, columns = p2_columns)
p2_df

Unnamed: 0,이름,나이,지역,키,차
1,강모씨,27,대구,172.4,아반뗴
2,김모씨,28,대전,180.3,소나타
3,장모씨,29,대구,182.1,G70
4,이모씨,30,대구,175.8,벨로스터
5,박모씨,25,대전,179.5,K3


데이터프레임은 **전치(transpose)**를 포함하여 NumPy 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원한다.

In [79]:
df.T  # 데이터프레임 전치(행과 열 위치 변환)

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### **2.2 열 데이터의 갱신, 추가, 삭제**

데이터프레임은 열 시리즈의 딕셔너리로 볼 수 있으므로 **열 단위로 데이터를 갱신하거나 추가, 삭제**할 수 있다.

In [93]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100  # '2010-2015 증가율' 갱신 
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [94]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)  # '2005-2010증가율' 생성
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [95]:
del df["2010-2015 증가율"]  # '2010-2015 증가율' 삭제
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### **2.3 열 인덱싱**

데이터프레임은 열 시리즈의 딕셔너리와 비슷하다고 하였다. 따라서 **데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다.** 인덱스로 <u>라벨 값을 하나만</u> 넣으면 **시리즈 객체가 반환**되고 <u>라벨의 배열 또는 리스트</u>를 넣으면 **부분적인 데이터프레임이 반환**된다.

- dataframe[ [ '문자열 인덱스 라벨 1',  '문자열 인덱스 라벨 2'  ]]  : 해당하는 열 인덱싱 

In [99]:
print(df['지역'])  # 라벨 값 하나만 입력 
print(type(df['지역']))  # 시리즈 객제 반환 

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>


In [101]:
print(df[['2010', '2015']])  # 라벨값을 리스트로 입력 
print(type(df[['2010', '2015']]))  # 데이터 프레임 객체 반환 

특성     2010     2015
도시                  
서울  9631482  9904312
부산  3393191  3448737
인천  2632035  2890451
대구  2431774  2466052
<class 'pandas.core.frame.DataFrame'>


만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다. 즉, 시리즈 객채로 반환하지 않고 **데이터 프레임 객체를 유지**하고자 한다면, 마찬가지로 **리스트를 이용**한다.

In [104]:
print(df[["2010"]])  # 요소가 하나인 리스트 입력 
print(type(df[["2010"]]))  # 데이터 프레임 객체를 반환

특성     2010
도시         
서울  9631482
부산  3393191
인천  2632035
대구  2431774
<class 'pandas.core.frame.DataFrame'>



**데이터프레임의 열 인덱스가 <u>문자열 라벨을 가지고 있는 경우</u>**에는 순서를 나타내는 **정수 인덱스를 열 인덱싱에 사용할 수 없다.** 정수 인덱싱의 슬라이스는 뒤에서 설명하겠지만 행(row)을 인덱싱할 때 사용하므로 **열을 인덱싱할 때는 쓸 수 없다.** 정수 인덱스를 넣으면 KeyError 오류가 발생하는 것을 볼 수 있다.

*다만 원래부터 문자열이 아닌 **정수형 열 인덱스를 가지는 경우**에는 인덱스 값으로 정수를 사용할 수 있다.*

In [124]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [126]:
df2[2]  # 정수열 열 인덱스 라벨을 갖는 경우, 열 인덱스값으로 정수를 사용할 수 있다. 

0     2
1     6
2    10
Name: 2, dtype: int32

In [128]:
df2[[1, 2]]  # 0~1열, 0~2행, df[[열, 행]] # 정수열 라벨일 때 만 가능. 헷갈림 주의 

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


#### **2.4 행 인덱싱**

만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다. 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능하다.

In [130]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [134]:
df[:1]  # 시작점~1행 인덱싱

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [135]:
df[:0]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1


In [137]:
df[2:3]  # 행 인덱스의 이름은 항상 딸려나온다..

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
인천,수도권,2890451,2632035,2517680,2466338,4.54


#### **개별 데이터 인덱싱**

데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 된다. 이 시리즈를 다시 행 라벨로 인덱싱하면 개별 데이터가 나온다.

In [139]:
df['2015']['서울']  # df[열][행]으로 해당하는 개별 데이터 반환 

9904312

지금까지의 데이터프레임 인덱싱 방법을 정리하면 다음과 같다.

| 인덱싱 값 | 가능 | 결과 | 자료형 | 추가사항 |
|-|-|-|-|-|
| 라벨 | O | 열 | 시리즈 | |
| 라벨 리스트 | O | 열 | 데이터프레임 | |
| 인덱스데이터(정수) | X |  |  | 열 라벨이 정수인 경우에는 라벨 인덱싱으로 인정 |
| 인덱스데이터(정수) 슬라이스 | O | 행 | 데이터프레임 | |


#### **연습 문제 1-3**

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

In [167]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [142]:
# 1. 모든 학생의 수학점수를 시리즈로 나타낸다.

df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [161]:
# 2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [163]:
# 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

df['평균점수'] = np.round(np.mean(df, axis=1), 2)
df

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [173]:
# 4. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산하라.
df2 = df.copy()  # copy없이 실행하면 경고 메세지가 발생(?)

df2['영어']['방자'] = 80
df2['평균점수'] = np.round(np.mean(df2, axis=1), 2)
df2

Unnamed: 0,국어,영어,수학,평균점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0
