# (실습) 데이터프레임 인덱싱

**필수 라이브러리**

In [3]:
import numpy as np
import pandas as pd

아래 데이터프레임을 생성하기 위해 `pd.date_range()` 함수는 시간으로 구성된 인덱스 자료형을 생성한다.
함수 호출에 사용된 키워드 인자의 의미는 다음과 같다.

- `start="20130101`: 2013년 1월 1일부터 시작
- `periods=6`: 첫째 인자로 지정된 시간부터 6 개의 시간 데이터 샘플 생성
- `freq="D"`: 시간 데이터 샘플을 일(day) 단위로 생성

In [2]:
dates = pd.date_range(start="20130101", periods=6, freq="D")
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [3]:
np.random.seed(0)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


## 리인덱싱

리인덱싱<font size='2'>reindexing</font>은
이미 생성된 시리즈와 데이터프레임의 열 라벨 또는 행 라벨을 
선택하여 새로운 시리즈 또는 데이터프레임을 생성하는 기법이다.
행과 열의 라벨은 지정된 순서에 정해지며,
기존에 사용되지 않은 라벨이 추가되는 경우 해당 행 또는 열의 항목은 결측치로 처리된다.

**시리즈 리인덱싱**

먼저 하나의 새로운 시리즈를 생성한다.

In [4]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s

a    2.269755
b   -1.454366
c    0.045759
d   -0.187184
e    1.532779
dtype: float64

원하는 행을 원하는 순서대로 갖는 시리즈를 생성한다.
기존에 없는 행 라벨을 사용하면 결측치로 처리된다.

In [5]:
s.reindex(["e", "b", "f", "d"])

e    1.532779
b   -1.454366
f         NaN
d   -0.187184
dtype: float64

**데이터프레임 리인덱싱**

`df` 데이터프레임을 계속 이용한다.

In [6]:
df

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


행 인덱스는 `dates`가 가리키고 있다.

In [7]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

행과 열의 라벨을 원하는 대로 지정한다.

In [8]:
df.reindex(index=[dates[1], dates[3], dates[0]], columns=["C", "B", "A"])

Unnamed: 0,C,B,A
2013-01-02,0.950088,-0.977278,1.867558
2013-01-04,0.443863,0.121675,0.761038
2013-01-01,0.978738,0.400157,1.764052


행 또는 열 라벨 한나만 이용할 경우 축을 지정해야 한다.

In [9]:
df.reindex([dates[1], dates[3], dates[0]], axis="index")

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-01,1.764052,0.400157,0.978738,2.240893


In [10]:
df.reindex(["C", "B", "A"], axis="columns")

Unnamed: 0,C,B,A
2013-01-01,0.978738,0.400157,1.764052
2013-01-02,0.950088,-0.977278,1.867558
2013-01-03,0.144044,0.410599,-0.103219
2013-01-04,0.443863,0.121675,0.761038
2013-01-05,0.313068,-0.205158,1.494079
2013-01-06,0.864436,0.653619,-2.55299


0 또는 1을 이용하여 축을 지정해도 된다.

In [11]:
df.reindex([dates[1], dates[3], dates[0]], axis=0)

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-01,1.764052,0.400157,0.978738,2.240893


In [12]:
df.reindex(["C", "B", "A"], axis=1)

Unnamed: 0,C,B,A
2013-01-01,0.978738,0.400157,1.764052
2013-01-02,0.950088,-0.977278,1.867558
2013-01-03,0.144044,0.410599,-0.103219
2013-01-04,0.443863,0.121675,0.761038
2013-01-05,0.313068,-0.205158,1.494079
2013-01-06,0.864436,0.653619,-2.55299


## 인덱싱/슬라이싱

**열 라벨 인덱싱**

시리즈가 생성된다.

In [13]:
df["A"]

2013-01-01    1.764052
2013-01-02    1.867558
2013-01-03   -0.103219
2013-01-04    0.761038
2013-01-05    1.494079
2013-01-06   -2.552990
Freq: D, Name: A, dtype: float64

열 라벨을 객체의 속성처럼 이용하는 방식도 가능하다. 
단, 열 라벨의 이름이 공백을 포함하지 않아야 한다.

In [14]:
df.A

2013-01-01    1.764052
2013-01-02    1.867558
2013-01-03   -0.103219
2013-01-04    0.761038
2013-01-05    1.494079
2013-01-06   -2.552990
Freq: D, Name: A, dtype: float64

**행 슬라이싱**

위치 인덱스를 활용하여 행 슬라이싱을 진행하면 데이터프레임이 생성된다.

In [15]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274


인덱스 라벨을 활용하여 슬라이싱을 진행할 수도 있다. 
위치 인덱스 방식과는 달리 구간의 마지막 라벨로 포함된다.

In [16]:
df["20130101":"20130103"]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274


:::{admonition} 라벨 슬라이싱의 구간
:class: note

라벨을 이용한 슬라이싱은 구간의 양끝을 모두 포함한다.
:::

**`loc[]` 객체 활용: 라벨 인덱싱/슬라이싱**

인덱싱 또는 슬라이이싱을 이용하여 데이터프레임의 행과 열의 일부를 다른 값으로 대체하려면
`loc[]` 객체 또는 `iloc[]` 개체를 이용한다.

- `loc[]` 객체: 행 라벨과 열 라벨 활용
- `iloc[]` 객체: 행과 열의 정수 인덱스 활용

`df`의 인덱스는 `dates` 변수가 가리키는 날짜 인덱스를 사용한다.

In [17]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [18]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

첫째 날짜의 데이터는 다음과 같다.

In [19]:
df.loc[dates[0]]

A    1.764052
B    0.400157
C    0.978738
D    2.240893
Name: 2013-01-01 00:00:00, dtype: float64

**축 활용**

행과 열에 대한 인덱싱/슬라이싱 동시에 지정하려면 축을 활용한다.

- `A`, `B` 두 열만 추출.

In [20]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,1.764052,0.400157
2013-01-02,1.867558,-0.977278
2013-01-03,-0.103219,0.410599
2013-01-04,0.761038,0.121675
2013-01-05,1.494079,-0.205158
2013-01-06,-2.55299,0.653619


- 특정 행만 대상으로 `A`, `B` 두 열 추출

In [21]:
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,1.867558,-0.977278
2013-01-03,-0.103219,0.410599
2013-01-04,0.761038,0.121675


인덱싱이 사용될 때마다 차원이 줄어든다.

In [22]:
df.loc["20130102", ["A", "B"]]

A    1.867558
B   -0.977278
Name: 2013-01-02 00:00:00, dtype: float64

두 개의 인덱싱은 결국 하나의 스칼라가 생성된다.

In [23]:
df.loc[dates[0], "A"]

1.764052345967664

**`iloc[]` 객체 활용: 위치 인덱싱/슬라이싱**

행의 위치 인덱스를 이용한다.

In [24]:
df.iloc[3]

A    0.761038
B    0.121675
C    0.443863
D    0.333674
Name: 2013-01-04 00:00:00, dtype: float64

넘파이 어레이 인덱싱/슬라이싱 방식이 그대로 지원된다.

In [25]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,0.761038,0.121675
2013-01-05,1.494079,-0.205158


**팬시 인덱잉**

넘파이 어레이의 팬시 인덱싱과는 다르게 작동한다.

In [26]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-01-02,1.867558,0.950088
2013-01-03,-0.103219,0.144044
2013-01-05,1.494079,0.313068


In [27]:
df.iloc[[1, 2, 4], [0, 2, 3]]

Unnamed: 0,A,C,D
2013-01-02,1.867558,0.950088,-0.151357
2013-01-03,-0.103219,0.144044,1.454274
2013-01-05,1.494079,0.313068,-0.854096


In [28]:
df.iloc[[1, 2, 4], [0, 2, 3, 1]]

Unnamed: 0,A,C,D,B
2013-01-02,1.867558,0.950088,-0.151357,-0.977278
2013-01-03,-0.103219,0.144044,1.454274,0.410599
2013-01-05,1.494079,0.313068,-0.854096,-0.205158


**행 슬라이싱**

In [29]:
df.iloc[1::2, :]

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


1번 축은 무시해도 된다.

In [30]:
df.iloc[1::2]

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


**열 슬라이싱**

0번 축을 반드시 명시해야 한다.

In [31]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2013-01-01,0.400157,0.978738
2013-01-02,-0.977278,0.950088
2013-01-03,0.410599,0.144044
2013-01-04,0.121675,0.443863
2013-01-05,-0.205158,0.313068
2013-01-06,0.653619,0.864436


## 부울 인덱싱

넘파이 어레이의 부울 인덱싱에 사용된 부울 마스크를 거의 유사하게 활용한다.

**행 선택 부울 인덱싱**

예를 들어 `A` 열에 양수 항목이 있는 행만 추출하려면 아래 부울 마스크를 이용한다.

In [32]:
mask = df["A"] > 0
mask

2013-01-01     True
2013-01-02     True
2013-01-03    False
2013-01-04     True
2013-01-05     True
2013-01-06    False
Freq: D, Name: A, dtype: bool

In [33]:
df.loc[mask]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096


**항목 전체 대상 인덱싱**

예를 들어 양수 항목만 그대로 두고 나머지는 모두 결측치로 처리하려면 아래 부울 마스크를 이용한다.

In [34]:
mask = df > 0

In [35]:
df[mask]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,,0.950088,
2013-01-03,,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,,0.313068,
2013-01-06,,0.653619,0.864436,


**주의사항**

넘파이 어레이 방식과 다르게 작동한다.

In [36]:
aArray = df.to_numpy()
aArray

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502]])

In [37]:
aMask = aArray > 0
aMask

array([[ True,  True,  True,  True],
       [ True, False,  True, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True, False,  True, False],
       [False,  True,  True, False]])

아래 코드에서처럼 양수 항목만 모은 1차원 어레이가 생성된다.

In [38]:
aArray[aMask]

array([1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799,
       0.95008842, 0.4105985 , 0.14404357, 1.45427351, 0.76103773,
       0.12167502, 0.44386323, 0.33367433, 1.49407907, 0.3130677 ,
       0.6536186 , 0.8644362 ])

## 문제

아래 링크에 있는 `score.txt` 파일에는 
100명의 학생들의 국어, 영어, 수학, 사회, 과학 점수가 들어 있다.      
이 자료를 담은 데이터프레임 `df_score`를 다음과 같이 만든다.

In [13]:
score_url = "https://raw.githubusercontent.com/codingalzi/datapy/master/practices/data/score.txt"

In [14]:
df_score = pd.read_csv(score_url, sep=',', header=0)
df_score

Unnamed: 0,# 국어,영어,수학,사회,과학
0,15,16,21,0,14
1,96,91,14,11,75
2,49,63,15,18,61
3,54,4,20,21,1
4,46,8,7,23,9
...,...,...,...,...,...
95,69,61,11,28,97
96,41,97,16,13,8
97,0,84,18,9,15
98,19,11,15,2,90


열 인덱스 라벨에 공백, `#` 기호 등이 포함되어 있기에 제거한다.

In [16]:
df_score.columns

Index(['# 국어', ' 영어', ' 수학', ' 사회', ' 과학'], dtype='object')

In [17]:
columns_stipped = df_score.columns.str.strip("# ")
columns_stipped

Index(['국어', '영어', '수학', '사회', '과학'], dtype='object')

In [18]:
df_score.columns = columns_stipped
df_score

Unnamed: 0,국어,영어,수학,사회,과학
0,15,16,21,0,14
1,96,91,14,11,75
2,49,63,15,18,61
3,54,4,20,21,1
4,46,8,7,23,9
...,...,...,...,...,...
95,69,61,11,28,97
96,41,97,16,13,8
97,0,84,18,9,15
98,19,11,15,2,90


**질문 1**

국어 점수가 50점이상인 학생들의 데이터만 추출하여라. 

In [None]:
df_score[df_score['국어'] >= 50]

Unnamed: 0,국어,영어,수학,사회,과학
1,96,91,14,11,75
3,54,4,20,21,1
5,88,90,19,8,48
6,66,22,24,4,47
7,55,90,19,16,56
8,77,90,33,28,27
9,94,40,5,23,90
11,69,15,15,23,54
13,93,58,29,22,77
14,68,8,36,3,24


**질문 2**

각 과목에서 10점이하의 값들은 `np.nan`으로 변경하여라.    
이는 결측치(누락된 값)를 처리하는 연습을 하기 위함이다. 

In [None]:
df_score[df_score < 10] = np.nan
df_score

Unnamed: 0,국어,영어,수학,사회,과학
0,15.0,16.0,21.0,,14.0
1,96.0,91.0,14.0,11.0,75.0
2,49.0,63.0,15.0,18.0,61.0
3,54.0,,20.0,21.0,
4,46.0,,,23.0,
...,...,...,...,...,...
95,69.0,61.0,11.0,28.0,97.0
96,41.0,97.0,16.0,13.0,
97,,84.0,18.0,,15.0
98,19.0,11.0,15.0,,90.0


**질문 3**

각 열에 있는 결측치의 개수는 몇 개인가?

In [None]:
df_score.isnull().sum() 

국어     5
영어    11
수학    12
사회    26
과학    11
dtype: int64

**질문 4**

결측치의 개수가 20%인 이하인 열(column)들만 담은 데이터프레임`df_score_20`을 만들어라.

In [None]:
df_score_20_columns = df_score.isnull().sum()/len(df_score) <= 0.20
columns = df_score_20_columns[df_score_20_columns == True].index
df_score_20 = pd.DataFrame(df_score, columns=columns)
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


아래와 같이 코드를 작성할 수도 있다. 

In [None]:
df_score.loc[:, df_score.isnull().sum() <= len(df_score)*0.2]

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


In [None]:
df_score.loc[:, df_score.notnull().sum() > len(df_score)*0.8]

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0
