# (실습) 데이터프레임 인덱싱

**필수 라이브러리**

In [1]:
import numpy as np
import pandas as pd

아래 데이터프레임을 생성하기 위해 `pd.date_range()` 함수는 시간으로 구성된 인덱스 자료형을 생성한다.
함수 호출에 사용된 키워드 인자의 의미는 다음과 같다.

- `start="20130101`: 2013년 1월 1일부터 시작
- `periods=6`: 첫째 인자로 지정된 시간부터 6 개의 시간 데이터 샘플 생성
- `freq="D"`: 시간 데이터 샘플을 일(day) 단위로 생성

In [2]:
dates = pd.date_range(start="20130101", periods=6, freq="D")
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [3]:
np.random.seed(0)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


**문제 1**

`'A'` 열만을 추출하여 시리즈를 생성하여라.

답:

열 라벨을 이용한 인덱싱을 적용한다.

In [4]:
df["A"]

2013-01-01    1.764052
2013-01-02    1.867558
2013-01-03   -0.103219
2013-01-04    0.761038
2013-01-05    1.494079
2013-01-06   -2.552990
Freq: D, Name: A, dtype: float64

또는 열 라벨을 객체의 속성처럼 이용하는 방식도 가능하다. 단, 열 라벨의 이름이 공백을 포함하지 않아야 한다.

In [5]:
df.A

2013-01-01    1.764052
2013-01-02    1.867558
2013-01-03   -0.103219
2013-01-04    0.761038
2013-01-05    1.494079
2013-01-06   -2.552990
Freq: D, Name: A, dtype: float64

**문제**

0번 행부터 2번 행까지만 포함하는 데이터프레임을 생성하라.

답:

정수 인덱스를 활용한 슬라이싱을 적용한다.

In [6]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274


또는 인덱스 라벨을 활용하여 슬라이싱을 진행할 수도 있다. 
위치 인덱스 방식과는 달리 구간의 마지막 라벨로 포함된다.

In [7]:
df["20130101":"20130103"]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274


**문제**

`df`의 인덱스는 `dates` 변수가 가리키는 날짜 인덱스를 사용한다.

In [8]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [9]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

첫째 날짜, 즉 2013년 1월 1일의 데이터를 확인하는 한 줄 표현식을 작성하라.
단 `loc[]` 객체와 `dates` 변수를 이용해야 한다.

답:

In [10]:
df.loc[dates[0]]

A    1.764052
B    0.400157
C    0.978738
D    2.240893
Name: 2013-01-01 00:00:00, dtype: float64

**문제**

`'A'`와 `'B'` 두 열만 추출하는 한 줄 표현식을 작성하라.
단 `loc[]` 객체를 이용해야 한다.

답:

In [11]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
2013-01-01,1.764052,0.400157
2013-01-02,1.867558,-0.977278
2013-01-03,-0.103219,0.410599
2013-01-04,0.761038,0.121675
2013-01-05,1.494079,-0.205158
2013-01-06,-2.55299,0.653619


**문제**

2013년 1월 2일부터 1월 4일까지를 대상으로 `A`, `B` 두 열만 추출하는 한 줄 표현식을 작성하라.
단 `loc[]` 객체를 이용해야 한다.

답:

In [12]:
df.loc["20130102":"20130104", ["A", "B"]]

Unnamed: 0,A,B
2013-01-02,1.867558,-0.977278
2013-01-03,-0.103219,0.410599
2013-01-04,0.761038,0.121675


**문제**

2013년 1월 2일의 `A`, `B` 두 열만 추출하는 한 줄 표현식을 작성하라.
단 `loc[]` 객체를 이용해야 한다.

답:

In [13]:
df.loc["20130102", ["A", "B"]]

A    1.867558
B   -0.977278
Name: 2013-01-02 00:00:00, dtype: float64

**문제**

2013년 1월 1일의 `A` 열만 추출하는 한 줄 표현식을 작성하라.
단 `loc[]` 객체를 이용해야 한다.

답:

In [14]:
df.loc[dates[0], "A"]

1.764052345967664

**문제**

3번 행만 추출하는 한 줄 표현식을 작성하라.
단 `iloc[]` 객체를 이용해야 한다.

답:

In [15]:
df.iloc[3]

A    0.761038
B    0.121675
C    0.443863
D    0.333674
Name: 2013-01-04 00:00:00, dtype: float64

**문제**

3번부터 4번행을 대상으로 0번, 1변 열만 추출하는 한 줄 표현식을 작성하라.
단 `iloc[]` 객체를 이용해야 한다.

답:

In [16]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,0.761038,0.121675
2013-01-05,1.494079,-0.205158


**문제**

아래 두 리스트에 포함된 행과 열만 추출하는 한 줄 표현식을 작성하라.
단 `iloc[]` 객체와 팬시 인덱싱을 활용한다.

- 행: `[1, 2, 4]`
- 열: `[0, 2, 3, 1]`

답:

In [17]:
df.iloc[[1, 2, 4], [0, 2, 3, 1]]

Unnamed: 0,A,C,D,B
2013-01-02,1.867558,0.950088,-0.151357,-0.977278
2013-01-03,-0.103219,0.144044,1.454274,0.410599
2013-01-05,1.494079,0.313068,-0.854096,-0.205158


**문제**

홀수 행만 추출하는 한 줄 표현식을 작성하라.
단 `iloc[]` 객체를 이용해야 한다.

답:

In [18]:
df.iloc[1::2, :]

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


1번 축은 무시해도 된다.

In [19]:
df.iloc[1::2]

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


**문제**

1번, 2번 열만 추출하는 한 줄 표현식을 작성하라.
단 `iloc[]` 객체를 이용해야 한다.

답:

0번 축에 대해서는 모든 행을 가져오라는 슬라이싱을 명시해야 한다.

In [20]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2013-01-01,0.400157,0.978738
2013-01-02,-0.977278,0.950088
2013-01-03,0.410599,0.144044
2013-01-04,0.121675,0.443863
2013-01-05,-0.205158,0.313068
2013-01-06,0.653619,0.864436


**문제**

`A` 열의 항목이 양수인 행만 추출하라.
단, 단 `loc[]` 객체와 부울 마스크를 이용한다.

답:

In [21]:
mask = df["A"] > 0
df.loc[mask]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096


**문제**

양수 항목만 그대로 두고 나머지는 모두 결측치로 처리된 데이터프렘임을 생성하라.

힌트: 부울 마스크를 이용한다.

In [22]:
mask = df > 0
df[mask]

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,,0.950088,
2013-01-03,,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,,0.313068,
2013-01-06,,0.653619,0.864436,


**주의사항**

넘파이 어레이 방식과 다르게 작동함에 주의한다.
아래 코드에서처럼 부울 마스크를 넘파이 어레이 전체에 적용하면 양수 항목만 모은 1차원 어레이가 생성된다.

In [23]:
aArray = df.to_numpy()

aMask = aArray > 0
aArray[aMask]

array([1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799,
       0.95008842, 0.4105985 , 0.14404357, 1.45427351, 0.76103773,
       0.12167502, 0.44386323, 0.33367433, 1.49407907, 0.3130677 ,
       0.6536186 , 0.8644362 ])

**문제**

아래 링크에 있는 `score.txt` 파일에는 
100명의 학생들의 국어, 영어, 수학, 사회, 과학 점수가 들어 있다.      
이 자료를 담은 데이터프레임 `df_score`를 다음과 같이 만든다.

In [24]:
score_url = "https://raw.githubusercontent.com/codingalzi/datapy/master/practices/data/score.txt"

In [25]:
df_score = pd.read_csv(score_url, sep=',', header=0)
df_score

Unnamed: 0,# 국어,영어,수학,사회,과학
0,15,16,21,0,14
1,96,91,14,11,75
2,49,63,15,18,61
3,54,4,20,21,1
4,46,8,7,23,9
...,...,...,...,...,...
95,69,61,11,28,97
96,41,97,16,13,8
97,0,84,18,9,15
98,19,11,15,2,90


열 인덱스 라벨에 공백, `#` 기호 등이 포함되어 있기에 제거한다.

In [26]:
df_score.columns

Index(['# 국어', ' 영어', ' 수학', ' 사회', ' 과학'], dtype='object')

In [27]:
columns_stipped = df_score.columns.str.strip("# ")
columns_stipped

Index(['국어', '영어', '수학', '사회', '과학'], dtype='object')

In [28]:
df_score.columns = columns_stipped
df_score

Unnamed: 0,국어,영어,수학,사회,과학
0,15,16,21,0,14
1,96,91,14,11,75
2,49,63,15,18,61
3,54,4,20,21,1
4,46,8,7,23,9
...,...,...,...,...,...
95,69,61,11,28,97
96,41,97,16,13,8
97,0,84,18,9,15
98,19,11,15,2,90


국어 점수가 80점이상인 학생들의 데이터만 추출하는 한 줄 표현식을 작성하라.

In [29]:
df_score[df_score['국어'] >= 80]

Unnamed: 0,국어,영어,수학,사회,과학
1,96,91,14,11,75
5,88,90,19,8,48
9,94,40,5,23,90
13,93,58,29,22,77
15,82,83,39,4,6
22,95,36,21,5,17
23,88,58,4,19,73
26,87,35,36,22,6
31,93,52,19,18,85
37,85,40,39,62,28


하지만 아래 방식이 권장된다.

In [30]:
df_score.loc[df_score['국어'] >= 80]

Unnamed: 0,국어,영어,수학,사회,과학
1,96,91,14,11,75
5,88,90,19,8,48
9,94,40,5,23,90
13,93,58,29,22,77
15,82,83,39,4,6
22,95,36,21,5,17
23,88,58,4,19,73
26,87,35,36,22,6
31,93,52,19,18,85
37,85,40,39,62,28


**문제**

각 과목에서 10점이하의 값들은 `np.nan`으로 변경하는 한 줄 표현식을 작성하라.

In [31]:
df_score[df_score < 10] = np.nan
df_score

Unnamed: 0,국어,영어,수학,사회,과학
0,15.0,16.0,21.0,,14.0
1,96.0,91.0,14.0,11.0,75.0
2,49.0,63.0,15.0,18.0,61.0
3,54.0,,20.0,21.0,
4,46.0,,,23.0,
...,...,...,...,...,...
95,69.0,61.0,11.0,28.0,97.0
96,41.0,97.0,16.0,13.0,
97,,84.0,18.0,,15.0
98,19.0,11.0,15.0,,90.0


**문제**

각 열에 있는 결측치의 개수는 몇 개인지 확인하는 한 줄 표현식을 작성하라.

In [32]:
df_score.isnull().sum() 

국어     5
영어    11
수학    12
사회    26
과학    11
dtype: int64

**문제**

결측치의 개수가 20%인 이하인 열(column)들만 담은 데이터프레을 가리키는`df_score_20` 변수를 선언하라.

In [33]:
df_score_20_columns = df_score.isnull().sum()/len(df_score) <= 0.20
columns = df_score_20_columns[df_score_20_columns == True].index

df_score_20 = pd.DataFrame(df_score, columns=columns)
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


아래와 같이 코드를 작성할 수도 있다. 

In [34]:
df_score_20 = df_score.loc[:, df_score.isnull().sum() <= len(df_score)*0.2]
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


또는

In [35]:
df_score_20 = df_score.loc[:, df_score.notnull().sum() > len(df_score)*0.8]
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


**문제**

`df_score_20` 변수가 가리키는 데이터프레임의 결측치를 모두 10으로 채워는 한 줄 표현식을 작성하라.

답 1:

`fillna()` 메서드를 이용한다.

In [36]:
df_score_20 = df_score_20.fillna(10)
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,10.0,20.0,10.0
4,46.0,10.0,10.0,10.0
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,10.0
97,10.0,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


답 2:

부울 마스크를 활용한다.
설명을 위해 `df_score_20` 변수를 새로 선언한다.

In [37]:
df_score_20 = df_score.loc[:, df_score.notnull().sum() > len(df_score)*0.8]
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,,20.0,
4,46.0,,,
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,
97,,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0


In [38]:
mask = df_score_20.isna()

df_score_20.loc[:,:][mask] = 20

In [39]:
df_score_20

Unnamed: 0,국어,영어,수학,과학
0,15.0,16.0,21.0,14.0
1,96.0,91.0,14.0,75.0
2,49.0,63.0,15.0,61.0
3,54.0,20.0,20.0,20.0
4,46.0,20.0,20.0,20.0
...,...,...,...,...
95,69.0,61.0,11.0,97.0
96,41.0,97.0,16.0,20.0
97,20.0,84.0,18.0,15.0
98,19.0,11.0,15.0,90.0
