## Indexing 인덱싱
DataFrame에서 원하는 부분을 선택

In [1]:
import numpy as np
import pandas as pd

In [3]:
iphone_df = pd.read_csv('data/iphone.csv', index_col=0)
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [4]:
# 전체 데이터 프레임에서 'iPhone 8'인 행, '메모리'컬럼에 위치한 값만 추출
iphone_df.loc['iPhone 8', '메모리']

'2GB'

In [5]:
# row 한 줄 통째로 받아오기
iphone_df.loc['iPhone X', :]

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [6]:
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [7]:
type(iphone_df.loc['iPhone X'])

pandas.core.series.Series

Series는 pandas의 1차원 자료형  
한 줄만 받아왔으니까 type(iphone_df.loc['iPhone X'])의 결과는 Series

In [8]:
# column 한 줄 통째로 받아오기
iphone_df.loc[:, '출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

In [10]:
iphone_df['출시일']

iPhone 7         2016-09-16
iPhone 7 Plus    2016-09-16
iPhone 8         2017-09-22
iPhone 8 Plus    2017-09-22
iPhone X         2017-11-03
iPhone XS        2018-09-21
iPhone XS Max    2018-09-21
Name: 출시일, dtype: object

In [11]:
type(iphone_df['출시일'])

pandas.core.series.Series

## 실습1
지난 시간에 DataFrame에서 원하는 부분을 선택하는 인덱싱을 배웠는데요.  
이를 통해서 값을 찾는 연습을 해봅시다.  
**2016년도에 KBS방송국의 시청률**을 찾아봅시다.  
데이터를 한번 잘 살펴보고 어떻게 값을 찾아야 할지 고민해보세요!

In [13]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col=0)

# 여기에 코드를 작성하세요
df.loc[2016, 'KBS']

27.583

## 실습2
이번에는 DataFrame에서 한 줄을 찾는 연습을 해보겠습니다.  
**JTBC의 시청률**을 확인하려면 어떻게 해야 할까요?

In [18]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col=0)
jtbc_df = df.loc[:, 'JTBC']
# jtbc_df = df['JTBC']
jtbc_df

2011    7.380
2012    7.878
2013    7.810
2014    7.490
2015    7.267
2016    7.727
2017    9.453
Name: JTBC, dtype: float64

## 실습3
이번에는 DataFrame에서 여러 줄을 찾는 연습을 해보겠습니다.  
**SBS와 JTBC의 시청률만 확인**하려면 어떻게 하면 될까요?

In [32]:
df = pd.read_csv('data/broadcast.csv', index_col=0)
df[['SBS', 'JTBC']]
#df.loc[:, ['SBS', 'JTBC']]

Unnamed: 0,SBS,JTBC
2011,11.173,7.38
2012,11.408,7.878
2013,9.673,7.81
2014,9.108,7.49
2015,9.099,7.267
2016,8.669,7.727
2017,8.661,9.453


## 실습4
데이터의 중요성을 깨달은 “삼송카드”와 “현디카드”가 협업을 하기로 결정했습니다.  

두 카드사는 사람들이 요일별로 지출하는 평균 금액을 “요일”, “식비", “교통비”, “문화생활비”, “기타” 카테고리로 정리해서 우리에게 공유해 주기로 했는데요. 각각 samsong.csv 파일과 hyundee.csv 파일을 보냈습니다.  

두 회사의 데이터를 활용해서, 사람들의 **요일별 문화생활비**를 분석해보려 합니다. 아래와 같은 형태로 출력이 되도록 DataFrame을 만들어보세요.

In [48]:
import pandas as pd

samsong_df = pd.read_csv('data/samsong.csv')
hyundee_df = pd.read_csv('data/hyundee.csv')

# 여기에 코드를 작성하세요
#samsong_df['요일']
#samsong_df['문화생활비']
#hyundee_df['문화생활비']

# 파이썬 사전(dictionary) 사용해서 DataFrame 만들기
analysis = pd.DataFrame({'day' : samsong_df['요일'],
           'samsong' : samsong_df['문화생활비'],
           'hyundee' : hyundee_df['문화생활비']})

analysis

Unnamed: 0,day,samsong,hyundee
0,MON,4308,5339
1,TUE,7644,3524
2,WED,5674,5364
3,THU,8621,9942
4,FRI,23052,33511
5,SAT,15330,19397
6,SUN,19030,19925


## 여러 줄 한꺼번에 받아오기

In [49]:
# row 한 줄 받아오기
iphone_df.loc['iPhone X']

출시일        2017-11-03
디스플레이             5.8
메모리               3GB
출시 버전        iOS 11.1
Face ID           Yes
Name: iPhone X, dtype: object

In [52]:
# row 여러 줄 받아오기
# iPhone X와 iPhone 8 모두 받아오기
iphone_df.loc[['iPhone X', 'iPhone 8']]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No


In [53]:
type(iphone_df.loc[['iPhone X', 'iPhone 8']])

pandas.core.frame.DataFrame

iphone_df.loc[['iPhone X', 'iPhone 8']] 는 **2차원**이기 때문에 Series가 아닌 **DataFrame**

In [54]:
# column 한 줄 받아오기
iphone_df['Face ID']

iPhone 7          No
iPhone 7 Plus     No
iPhone 8          No
iPhone 8 Plus     No
iPhone X         Yes
iPhone XS        Yes
iPhone XS Max    Yes
Name: Face ID, dtype: object

In [55]:
# column 여러 줄 받아오기
iphone_df[['Face ID', '출시일', '메모리']]

Unnamed: 0,Face ID,출시일,메모리
iPhone 7,No,2016-09-16,2GB
iPhone 7 Plus,No,2016-09-16,3GB
iPhone 8,No,2017-09-22,2GB
iPhone 8 Plus,No,2017-09-22,3GB
iPhone X,Yes,2017-11-03,3GB
iPhone XS,Yes,2018-09-21,4GB
iPhone XS Max,Yes,2018-09-21,4GB


In [56]:
# row 슬라이싱
iphone_df.loc['iPhone 8' : 'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [59]:
# column 슬라이싱
iphone_df.loc[:, '메모리' : 'Face ID']
# iphone_df['메모리' : 'Face ID'] 으로는 사용 불가

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes
iPhone XS Max,4GB,iOS 12.0,Yes


In [60]:
iphone_df.loc['iPhone 8' : 'iPhone XS', '메모리' : 'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes


## 실습5
이번에는 DataFrame에서 연속된 여러 줄을 찾는 연습을 해보겠습니다.  

방송사는 **'KBS'에서 'SBS'까지**, 연도는 **2012년부터 2017년까지의 시청률만 확인**하려면 어떻게 하면 될까요?

In [62]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col=0)

# 여기에 코드를 작성하세요
df.loc[2012 : 2017, 'KBS' : 'SBS']

Unnamed: 0,KBS,MBC,SBS
2012,36.163,16.022,11.408
2013,31.989,16.778,9.673
2014,31.21,15.663,9.108
2015,27.777,16.573,9.099
2016,27.583,14.982,8.669
2017,26.89,12.465,8.661


## pandas DataFrame에서 Boolean으로 값 받아오기
총 리스트의 길이와 불린 리스트의 길이를 동일하게 적어주어야 한다.

In [64]:
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [63]:
# 0번, 2번, 3번, 5번에 True
iphone_df.loc[[True, False, True, True, False, True, False]]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [67]:
# 디스플레이가 5보다 큰 것들은 True, 작은 것들은 False로 출력
iphone_df['디스플레이'] > 5

iPhone 7         False
iPhone 7 Plus     True
iPhone 8         False
iPhone 8 Plus     True
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: 디스플레이, dtype: bool

In [68]:
type(iphone_df['디스플레이'] > 5)

pandas.core.series.Series

iphone_df['디스플레이'] > 5은 1차원이니까 pandas Series  
⇒ 파이썬 리스트와 비슷한 효과를 낸다.

In [80]:
# 디스플레이가 5보다 큰 것들만 필터링
iphone_df[iphone_df['디스플레이'] > 5]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [72]:
# 얼굴인식 되는 것만 필터링
iphone_df['Face ID'] == 'Yes'

iPhone 7         False
iPhone 7 Plus    False
iPhone 8         False
iPhone 8 Plus    False
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: Face ID, dtype: bool

In [75]:
# 얼굴인식 되는 것만 인덱싱
iphone_df.loc[iphone_df['Face ID'] == 'Yes']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [79]:
# 디스플레이가 5보다 크면서 얼굴인식 되는 것
(iphone_df['디스플레이'] > 5) & (iphone_df['Face ID'] == 'Yes')

iPhone 7         False
iPhone 7 Plus    False
iPhone 8         False
iPhone 8 Plus    False
iPhone X          True
iPhone XS         True
iPhone XS Max     True
dtype: bool

In [81]:
condition = (iphone_df['디스플레이'] > 5) & (iphone_df['Face ID'] == 'Yes')

In [82]:
iphone_df[condition]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [83]:
# 디스플레이가 5보다 크거나 얼굴인식 되는 것
(iphone_df['디스플레이'] > 5) | (iphone_df['Face ID'] == 'Yes')

iPhone 7         False
iPhone 7 Plus     True
iPhone 8         False
iPhone 8 Plus     True
iPhone X          True
iPhone XS         True
iPhone XS Max     True
dtype: bool

In [84]:
condition_or = (iphone_df['디스플레이'] > 5) | (iphone_df['Face ID'] == 'Yes')
iphone_df[condition_or]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


## 실습6
이번에는 DataFrame에서 조건에 해당하는 데이터를 찾는 연습을 해보겠습니다.  

**'KBS'에서 시청률이 30이 넘은 데이터만 확인**해보려면 어떻게 하면 될까요?

In [103]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col=0)
# 여기에 코드를 작성하세요
ratings = df['KBS'] > 30 # boolean값
df['KBS'][ratings] # df.loc[ratings, 'KBS']

2011    35.951
2012    36.163
2013    31.989
2014    31.210
Name: KBS, dtype: float64

## 실습7
이번에는 좀 더 DataFrame을 다방면으로 분석해봅시다.  

주어진 데이터에서 **SBS가 TV CHOSUN보다 더 시청률이 낮았던 시기**의 데이터를 확인해보려고 합니다.  

어떻게 하면 될까요?

In [115]:
import pandas as pd

df = pd.read_csv('data/broadcast.csv', index_col=0)
# 여기에 코드를 작성하세요
#compare = df['SBS'] < df['TV CHOSUN']
#df.loc[compare, ['SBS', 'TV CHOSUN']]
df.loc[df['SBS'] < df['TV CHOSUN'], ['SBS', 'TV CHOSUN']]

Unnamed: 0,SBS,TV CHOSUN
2014,9.108,9.44
2015,9.099,9.94
2016,8.669,9.829
2017,8.661,8.886


**numpy**에서는 값을 받아오기 위해 값의 위치, 즉 **값의 인덱스**를 사용  
**pandas**에서는 **row나 column 이름** 사용

## iloc
pandas에서 numpy처럼 숫자로 인덱싱  
(loc : location, ilocation : integer location)

In [119]:
iphone_df.iloc[2,4] # 2번 row(iPhone 8), 4번 column(Face ID)

'No'

In [120]:
# 1, 3번 row, 1, 4번 column
iphone_df.iloc[[1, 3], [1, 4]]

Unnamed: 0,디스플레이,Face ID
iPhone 7 Plus,5.5,No
iPhone 8 Plus,5.5,No


In [121]:
# 연속된 인덱스를 슬라이싱
iphone_df.iloc[3:, 1:4]

Unnamed: 0,디스플레이,메모리,출시 버전
iPhone 8 Plus,5.5,3GB,iOS 11.0
iPhone X,5.8,3GB,iOS 11.1
iPhone XS,5.8,4GB,iOS 12.0
iPhone XS Max,6.5,4GB,iOS 12.0


## DataFrame 인덱싱 문법 정리
DataFrame 인덱싱 하는 방법과 종류

|이름으로 인덱싱하기|기본 형태|단축 형태|
|:---:|:---:|:---:|
|하나의 row 이름|df.loc["row4"]| |
|row 이름의 리스트|df.loc[["row4", "row5", "row3"]]| |
|row 이름의 리스트 슬라이싱|df.loc["row2":"row5"]|df["row2":"row5"]|
|하나의 column 이름|df.loc[:, "col1"]|df["col1"]|
|column 이름의 리스트|df.loc[:, ["col4", "col6", "col3"]]|df[["col4", "col6", "col3"]]|
|column 이름의 리스트 슬라이싱|df.loc[:, "col2":"col5"]| |


|위치로 인덱싱하기|기본 형태|단축 형태|
|:---:|:---:|:---:|
|하나의 row 위치|df.iloc[8]||
|row 위치의 리스트|df.iloc[[4, 5, 3]]||
|row 위치의 리스트 슬라이싱|df.iloc[2:5]|df[2:5]|
|하나의 column 위치|df.iloc[:, 3]||
|column 위치의 리스트|df.iloc[:, [3, 5, 6]]||
|column 위치의 리스트 슬라이싱|df.iloc[:, 3:7]||