## 4. 데이터프레임 고급 인덱싱

- 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

- 출처 : https://datascienceschool.net/view-notebook/704731b41f794b8ea00768f5b0904512/

- loc : 라벨값 기반의 2차원 인덱싱
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
- at: 라벨값 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)
- iat : 순서를 나타내는 정수 기반의 2차원 인덱싱 (한개의 스칼라 값만 찾는다)

### 4.1 loc 인덱서
    - 인덱스데이터 <br>
    - 인덱스데이터 슬라이스 <br>
    - 인덱스데이터 리스트 <br>
    - 같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우) <br>
    - 또는 위의 값들을 반환하는 함수 <br>

In [1]:
import pandas as pd
import numpy as np
import pandas_datareader as pdr

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 인덱싱값을 하나만 받는 경우

In [3]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [4]:
df.loc['b':'c']  # df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [5]:
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [6]:
df[["b", "c"]]  # KeyError

KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"

In [7]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [8]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [9]:
def select_rows(df):
    return df.A > 15
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [10]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [11]:
df.loc["A"]  # KeyError

KeyError: 'A'

In [13]:
df.loc[["A", "B"]]  # KeyError

KeyError: "None of [Index(['A', 'B'], dtype='object')] are in the [index]"

In [14]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [15]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


- 인덱싱값을 행과 열 모두 받는 경우

In [16]:
df.loc["a", "A"]   # 행,열

10

In [17]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [18]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [19]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [20]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


### 4.2 iloc 인덱서
    - 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받음

In [22]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [23]:
df.iloc[0, 1]

11

In [24]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [25]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [26]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [27]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [28]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


- 연습문제 4
    - 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
    - 10가지 이상의 방법으로 특정한 행과 열을 선택한다. 

### 4.3 at, iat 인덱서
    - 하나의 스칼라 값을 뽑을 때만 가능

In [29]:
%timeit df.loc["a", "A"]

5.53 µs ± 50 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [30]:
%timeit df.at["a", "A"]

3.53 µs ± 46.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [31]:
%timeit df.iloc[0, 0]

6.27 µs ± 71.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [32]:
%timeit df.iat[0, 0]

3.93 µs ± 15.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 5. 데이터프레임의 데이터 조작
- 데이터 갯수 세기

In [33]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [34]:
s.count() # NaN 은 세지 않음

9

In [35]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [36]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [37]:
import seaborn as sns
titanic = sns.load_dataset("titanic")

In [38]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [39]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

- 카테고리 값 세기

In [40]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [41]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [43]:
df[[0]]

Unnamed: 0,0
0,0.0
1,3.0
2,3.0
3,4.0


In [44]:
df[0].value_counts()

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [45]:
titanic['pclass'].value_counts()

3    491
1    216
2    184
Name: pclass, dtype: int64

- 정렬

In [46]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [47]:
s.sort_values() # NaN 값은 맨 마지막으로

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [48]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [49]:
df.sort_values(by=1)  # by=기준열

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [50]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


- 행/열 합계