# dataframe 범위지정, indexing, 결측값 색인

## DataFrame 로딩

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("datas/korea-star.csv")

## 1. Column을 선택하는 방법

In [4]:
df["이름"]

0      아이린
1      차은우
2        뷔
3       민현
4       소연
5        진
6       윤아
7       백호
8       JR
9       슈가
10    강다니엘
11      정국
12      화사
13     하성운
14      슬기
15      지민
Name: 이름, dtype: object

In [5]:
df.이름

0      아이린
1      차은우
2        뷔
3       민현
4       소연
5        진
6       윤아
7       백호
8       JR
9       슈가
10    강다니엘
11      정국
12      화사
13     하성운
14      슬기
15      지민
Name: 이름, dtype: object

## 2. 범위 선택

In [8]:
# 1. 단순 index에 대한 범위 선택

# df[start:stop]
df[1:3]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501


In [18]:
# 2-2. loc()
# 데이터 분석에서 아주 많이 자주 사용함
# loc(행범위,'컬럼명1')
# loc (행범위, ['컬럼명1','컬럼명2])
# 범위는 index로(n:n) 행범위 없으면 : / 행, 열의 구조 이므로
# loc는 인덱스를 n-1이 아닌 n으로 입력함
df.loc[:, '이름']

0      아이린
1      차은우
2        뷔
3       민현
4       소연
5        진
6       윤아
7       백호
8       JR
9       슈가
10    강다니엘
11      정국
12      화사
13     하성운
14      슬기
15      지민
Name: 이름, dtype: object

In [19]:
# 추출을 위한 특정 컬럼 리스트로 지정['컬럼명','컬럼명','컬럼명']
df.loc[:, ['이름','생년월일','혈액형']]

Unnamed: 0,이름,생년월일,혈액형
0,아이린,1991-03-29,A
1,차은우,1997-03-30,B
2,뷔,1995-12-30,AB
3,민현,1995-08-09,O
4,소연,1998-08-26,B
5,진,1992-12-04,O
6,윤아,1989-03-09,A
7,백호,1995-07-21,AB
8,JR,1995-06-08,O
9,슈가,1993-03-09,O


In [20]:
################# loc 유의사항
# - 행 범위 - 3:8 (3~8행 리턴)
##### 행 범위 지정 숫자까지 반환하는 것 유의하기
# - 컬럼 지정
##### 여러컬럼일 경우 ['컬럼1', '컬럼2']
##### 범위 지정은 '컬럼명':'컬럼명'

In [21]:
# 행 : 3~8까지, 컬럼 : '이름', '생년월일' 표시
df.loc[3:8, ['이름', '생년월일']] 

Unnamed: 0,이름,생년월일
3,민현,1995-08-09
4,소연,1998-08-26
5,진,1992-12-04
6,윤아,1989-03-09
7,백호,1995-07-21
8,JR,1995-06-08


In [22]:
# 문제 : loc로 해결하기
# 행 : 2~5까지
# 컬럼 : 범위 지정은 '이름':'생년월일'

df.loc[2:5, '이름':'생년월일']

Unnamed: 0,이름,그룹,소속사,성별,생년월일
2,뷔,방탄소년단,빅히트,남자,1995-12-30
3,민현,,플레디스,남자,1995-08-09
4,소연,아이들,큐브,여자,1998-08-26
5,진,방탄소년단,빅히트,남자,1992-12-04


In [24]:
# 2-3. iloc (index position)
# 인덱스로 구분 !!!!
# 색인의 특정 컬럼 구분 [index, index] 사용
# 색인 범위 지정 ' : '

df.iloc[:, [0, 2]]

Unnamed: 0,이름,소속사
0,아이린,SM
1,차은우,판타지오
2,뷔,빅히트
3,민현,플레디스
4,소연,큐브
5,진,빅히트
6,윤아,SM
7,백호,플레디스
8,JR,플레디스
9,슈가,빅히트


In [30]:
# loc와 달리 iloc는 n-1이 적용되고, 특정 인덱스 범위를 리스트로 표현
# 인덱스와 범위는 다름 !!!
df.iloc[1:5, [0,2]]

Unnamed: 0,이름,소속사
1,차은우,판타지오
2,뷔,빅히트
3,민현,플레디스
4,소연,큐브


In [32]:
# 범위 지정은 ':'로 지정
df.iloc[1:5, 1:4]

Unnamed: 0,그룹,소속사,성별
1,아스트로,판타지오,남자
2,방탄소년단,빅히트,남자
3,,플레디스,남자
4,아이들,큐브,여자


In [34]:
# 문제 : iloc로 해결
# 행은 1:5
# 컬럼은 마지막 키, 혈액형 컬럼 지정

df.iloc[1:5, [-3, -2]]

Unnamed: 0,키,혈액형
1,183.0,B
2,178.0,AB
3,182.3,O
4,,B


## 3. Boolean Indexing - 조건을 활용한 색인

In [49]:
# Boolean indexing은 Numpy에서 배웠던 Boolean 인덱싱과 같은 원리
df['키'] < 170

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13     True
14     True
15    False
Name: 키, dtype: bool

In [50]:
# Boolean Index 로 받은 Index 를 활용해서 True인 값만 색인해 낼 수 있음
# df[]로 감싸주고, 그안에 Boolean Index를 넣어주면 됨
df[ df['키'] < 170]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489
14,슬기,레드벨벳,SM,여자,1994-02-10,161.0,A,5021452


In [51]:
# 모든 컬럼이 아닌 특정 column만 색인해 내고 싶을 때 어떻게 해야할까요?
df[ df['키'] > 180, '이름']
# 결과가 boolean으로 나온 것이 들어가야 함

InvalidIndexError: (0     False
1      True
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
Name: 키, dtype: bool, '이름')

In [39]:
# 방법 1. 맨 뒤에 출력할 column 붙이기
# df[ df['키'] > 175 ]['이름']
df[ df['키'] > 175 ][['이름', '키']]

Unnamed: 0,이름,키
1,차은우,183.0
2,뷔,178.0
3,민현,182.3
5,진,179.2
8,JR,176.0
10,강다니엘,180.0
11,정국,178.0


In [52]:
# 방법 2. loc를 활용
# 조건식이 참이 되는 컬럼만 추출하기
# df.loc[조건식, '컬럼명']
# df.loc[ df['키'] > 180, '이름']
# df.loc[ df['키'] > 180, '이름': '성별']
df.loc[ df['키'] > 180, ['이름', '키']]

Unnamed: 0,이름,키
1,차은우,183.0
3,민현,182.3


In [83]:
# boolean(조건)이 여러개라면?
# df.loc[(조건1) & (조건2), 출력컬럼] => 그리고
# df.loc[(조건1) | (조건2), 출력컬럼] => 또는
# 문제 : 키가 170보다 크고 180보다 작은 사람 정보
# 소속사, 이름, 키
df.loc[(df['키']>170) & (df['키']<180), ['이름', '소속사', '키']]

Unnamed: 0,이름,소속사,키
2,뷔,빅히트,178.0
5,진,빅히트,179.2
7,백호,플레디스,175.0
8,JR,플레디스,176.0
9,슈가,빅히트,174.0
11,정국,빅히트,178.0
15,지민,빅히트,173.6


In [84]:
# 키 > 175 또는 인기지수 > 8000000 인 사람 전체 정보
df.loc[(df['키']>175) | (df['인기지수']>8000000), :]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,7208335
15,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260


## 4. loc()와 isin() 활용
isin()을 활용한 색인은 정의한 list의 값이 있는 행만 추출하고자 할 때 사용
- df.loc[df['컬럼명'].isin(['값1', '값2'])
- df.loc[ df['컬럼명'].isin(['값1', '값2']), '추출 컬럼명' ]

In [86]:
my_condition = ['플레디스', 'SM']

In [89]:
df.loc[df['소속사'].isin(my_condition), '이름']

0     아이린
3      민현
6      윤아
7      백호
8      JR
14     슬기
Name: 이름, dtype: object

In [92]:
df['소속사'].isin(my_condition)
# df['소속사'].isin(['SM'])

0      True
1     False
2     False
3      True
4     False
5     False
6      True
7      True
8      True
9     False
10    False
11    False
12    False
13    False
14     True
15    False
Name: 소속사, dtype: bool

In [94]:
df.loc[ df['소속사'].isin(my_condition) ]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
6,윤아,소녀시대,SM,여자,1989-03-09,,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
14,슬기,레드벨벳,SM,여자,1994-02-10,161.0,A,5021452


In [95]:
df.loc[ df['소속사'].isin(my_condition), ['그룹','이름'] ]

Unnamed: 0,그룹,이름
0,레드벨벳,아이린
3,,민현
6,소녀시대,윤아
7,뉴이스트,백호
8,뉴이스트,JR
14,레드벨벳,슬기


In [88]:
# 문제 : 방탄소년단의 이름, 소속사, 혈액형을 추출해 보세요.
bts = ['방탄소년단']
df.loc[df['그룹'].isin(bts), ['이름','소속사','혈액형']]

Unnamed: 0,이름,소속사,혈액형
2,뷔,빅히트,AB
5,진,빅히트,O
9,슈가,빅히트,O
11,정국,빅히트,A
15,지민,빅히트,A


## 5. 결측값(Null) 알아보기

In [97]:
# 5-1. NaN 값에 대하여
# Null 값은 비어있는 값(고~급 언어로 결측값)
# pandas 에서는 NaN => Not a Number 로 표기 된 것 확인

In [100]:
# info() 로 NaN 값, 즉 빠진 데이터가 어디에 있는지 쉽게 요약정보로 확인할 수 있음.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [101]:
# 5-2. 결측 값 다루기
# 결측값 Boolean 인덱싱

In [102]:
# null(NaN) 값 있으면 true
df['그룹'].isna()

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15    False
Name: 그룹, dtype: bool

In [103]:
# 특정 column에서 null 값(NaN)을 추출해 내기
# 1. 특정 column에서 null 값(NaN)을 추출해 내기
df['그룹'].isnull()

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11    False
12    False
13    False
14    False
15    False
Name: 그룹, dtype: bool

In [106]:
# 2. NaN 값만 추출해내기
df['그룹'][df['그룹'].isnull()]
df['그룹'][df['그룹'].isna()]

3     NaN
10    NaN
Name: 그룹, dtype: object

In [108]:
# 3. NaN이 아닌 값에 대하여 Boolean 인덱싱
df['그룹'].notnull()

0      True
1      True
2      True
3     False
4      True
5      True
6      True
7      True
8      True
9      True
10    False
11     True
12     True
13     True
14     True
15     True
Name: 그룹, dtype: bool

In [110]:
# 4. NaN이 아닌 값만 추출해내기
df['그룹'][df['그룹'].notnull()]

0      레드벨벳
1      아스트로
2     방탄소년단
4       아이들
5     방탄소년단
6      소녀시대
7      뉴이스트
8      뉴이스트
9     방탄소년단
11    방탄소년단
12      마마무
13       핫샷
14     레드벨벳
15    방탄소년단
Name: 그룹, dtype: object

In [111]:
df.loc[ df['그룹'].notnull(), ['키', '혈액형'] ]

Unnamed: 0,키,혈액형
0,160.0,A
1,183.0,B
2,178.0,AB
4,,B
5,179.2,O
6,,A
7,175.0,AB
8,176.0,O
9,174.0,O
11,178.0,A


In [113]:
# 문제 : 

In [143]:
# 1. 인기지수 > 6000000 인 스타의 이름 ~ 혈액형까지 추출하기
df.loc[df['인기지수']>6000000, '이름':'혈액형']

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A
12,화사,마마무,RBW,여자,1995-07-23,162.1,A
15,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A


In [126]:
# 2. 그룹 컬럼에 NaN값이 있으면, 해당하는 행 전체를 추출하기
df.loc[df['그룹'].isna()]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
10,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745


In [159]:
# 3. 그룹과 키 컬럼에 NaN(결측값)이 없는 행만 추출하기
df[(df['그룹'].notnull()) & (df['키'].notnull())]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
5,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
7,백호,뉴이스트,플레디스,남자,1995-07-21,175.0,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176.0,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174.0,O,4925442
11,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,7208335
12,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
13,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


In [160]:
# 4. 그룹과 키 컬럼에 NaN(결측값)이 없는 '이름','그룹','소속사','키'의 값 추출
df.loc[(df['그룹'].notnull()) & (df['키'].notnull()), ['이름','그룹','소속사','키']]

Unnamed: 0,이름,그룹,소속사,키
0,아이린,레드벨벳,SM,160.0
1,차은우,아스트로,판타지오,183.0
2,뷔,방탄소년단,빅히트,178.0
5,진,방탄소년단,빅히트,179.2
7,백호,뉴이스트,플레디스,175.0
8,JR,뉴이스트,플레디스,176.0
9,슈가,방탄소년단,빅히트,174.0
11,정국,방탄소년단,빅히트,178.0
12,화사,마마무,RBW,162.1
13,하성운,핫샷,스타크루이엔티,167.1
