In [0]:
import pandas as pd

## 실습에 사용할 예제 파일

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## DataFrame 로드

In [0]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [0]:
df

## 1. Column을 선택하는 방법

In [0]:
df.head()

In [0]:
type(df['혈액형'])

In [0]:
df['이름']

In [0]:
df["이름"]

In [0]:
df.이름

In [0]:
df.head()

In [0]:
df.키

## 2. 범위 선택 (range selection)

In [0]:
df

### 2-1. 단순 index에 대한 범위 선택

In [0]:
df[:3]

In [0]:
df.head(3)

### 2-2. loc

앞으로 굉장히 **자주 사용**합니다. 반드시 손에 익숙해 지도록 합시다!

In [0]:
df.loc[:, '이름']

In [0]:
df.loc[:, ['이름', '생년월일']]

In [0]:
df.loc[3:8, ['이름', '생년월일']]

In [0]:
df.head()

In [0]:
df.loc[2:5, '이름':'생년월일']

### 2-3. iloc (position으로 색인)

In [0]:
df.head()

In [0]:
df.iloc[:, [0, 2]]

In [0]:
df.iloc[1:5, [0, 2]]

In [0]:
df.iloc[1:5, 1:4]

## 3. Boolean Indexing - 조건을 활용한 색인

Boolean indexing은 **Numpy에서 배웠던 Boolean 인덱싱과 같은 원리**입니다.

In [0]:
df['키'] > 180

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10    False
11     True
12    False
13    False
14    False
Name: 키, dtype: bool

Boolean Index 로 받은 Index 를 활용해서 True인 값만 색인해 낼 수 있습니다.
* df[] 꺾쇠로 감싸주고, 그안에 Boolean Index를 넣어주시면 됩니다.

In [0]:
df[ df['키'] < 170]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [0]:
df[ df['키'] > 180 ]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
11,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027


위와 같은 방법이 매우 간편한 방법이기는 하지만, **모든 column을 출력해야만 한다는 한계**가 있습니다. 
* 특정 column과 같이 색인해 내고 싶을땐 어떻게 할까요?

In [0]:
# df[ df['키'] > 180, '이름']

해결 방법 1. 맨 뒤에 출력할 column 붙히기

In [0]:
df[ df['키'] > 180 ]['이름']

6      민현
11    차은우
Name: 이름, dtype: object

In [0]:
df[ df['키'] > 180 ][['이름', '키']]

Unnamed: 0,이름,키
6,민현,182.3
11,차은우,183.0


해결 방법 2. loc를 활용

In [0]:
df.loc[ df['키'] > 180, '이름']

6      민현
11    차은우
Name: 이름, dtype: object

In [0]:
df.loc[ df['키'] > 180, '이름': '성별']

Unnamed: 0,이름,그룹,소속사,성별
6,민현,뉴이스트,플레디스,남자
11,차은우,아스트로,판타지오,남자


In [0]:
df.loc[ df['키'] > 180, ['이름', '키']]

Unnamed: 0,이름,키
6,민현,182.3
11,차은우,183.0


저는 **방법 2를 추천** 합니다.

## 4. isin을 활용한 색인

isin을 활용한 색인은 내가 조건을 걸고자 하는 값이 내가 정의한 list에 있을 때만 색인하려는 경우에 사용합니다.

In [0]:
my_condition = ['플레디스', 'SM']

In [0]:
df['소속사'].isin(my_condition)

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
11    False
12     True
13     True
14    False
Name: 소속사, dtype: bool

In [0]:
df.loc[ df['소속사'].isin(my_condition) ]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
10,태연,소녀시대,SM,여자,1989-03-09,,A,3918661
12,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
13,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137


In [0]:
df.loc[ df['소속사'].isin(my_condition), '소속사' ]

6     플레디스
10      SM
12    플레디스
13    플레디스
Name: 소속사, dtype: object

## 5. 결측값(Null) 알아보기

### 5-1. NaN 값에 대하여

* Null 값은 **비어있는 값, 고~급 언어로 결측값**입니다.
* pandas 에서는 NaN => Not a Number 로 표기 된 것을 확인해 볼 수 있습니다.

In [0]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


info() 로 NaN 값, 즉 빠진 데이터가 어디에 있는지 쉽게 요약정보로 확인할 수 있습니다.

In [0]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
이름         15 non-null object
그룹         14 non-null object
소속사        15 non-null object
성별         15 non-null object
생년월일       15 non-null object
키          13 non-null float64
혈액형        15 non-null object
브랜드평판지수    15 non-null int64
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


### 5-2. 결측 값 다루기

Boolean 인덱싱

In [0]:
df.isna()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,True,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False


info() 메소드를 통해서 전체적으로 어떤 column에 빠진 데이터가 있는지 알아 보았습니다.

또한, 다음과 같이 특정 column에서 빠진 값을 색출해 낼 수 있습니다.

1. Boolean 인덱싱으로 True가 return 되는 값이 NaN이라는 것을 알 수 있습니다.

In [0]:
df['그룹'].isnull()

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
Name: 그룹, dtype: bool

2. NaN 값만 색출해내기

In [0]:
df['그룹'][df['그룹'].isnull()]

2    NaN
Name: 그룹, dtype: object

In [0]:
df['그룹'][df['그룹'].isna()]

2    NaN
Name: 그룹, dtype: object

3. NaN이 아닌 값에 대하여 Boolean 인덱싱

In [0]:
df['그룹'].notnull()

0      True
1      True
2     False
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
Name: 그룹, dtype: bool

4. NaN이 아닌 값만 색출해내기

In [0]:
df['그룹'][df['그룹'].notnull()]

0     방탄소년단
1        빅뱅
3     방탄소년단
4       마마무
5     방탄소년단
6      뉴이스트
7       아이들
8     방탄소년단
9        핫샷
10     소녀시대
11     아스트로
12     뉴이스트
13     뉴이스트
14    방탄소년단
Name: 그룹, dtype: object

In [0]:
df.loc[ df['그룹'].notnull(), ['키', '혈액형'] ]

Unnamed: 0,키,혈액형
0,173.6,A
1,177.0,A
3,178.0,AB
4,162.1,A
5,178.0,A
6,182.3,O
7,,B
8,179.2,O
9,167.1,A
10,,A
