In [1]:
# 모듈 import
import numpy as np
import pandas as pd

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# pandas 데이터프레임 인덱서 loc, iloc

### 데이터프레임의 기본 인덱싱

1. 열인덱싱 
    - 하나의 열만 선택 : **` df['열이름'] `**
    - 여러 개 열 선택  : **` df[['열이름1', '열이름2',...]] `**


2. 행인덱싱 : 연속된 구간의 행데이터 선택(슬라이싱)
    - **`df['행_시작위치':'행_끝위치']`** 


3. 개별요소 접근 : 선택한 열에서 지정된 구간의 행데이터 선택
    - **`df['열이름']['행_시작위치':'행_끝위치']`**
    - **`df['열이름']['시작_행이름':'끝_행이름']`**

### 데이터프레임의 특별한 인덱서(indexer) : loc, iloc

- numpy와 같이 쉼표(,)를 사용하여 행과 열을 동시에 인덱싱하는 2차원 인덱싱
- [행 인덱스, 열 인덱스] 형식

- **loc** : 라벨값 기반의 2차원 인덱싱(명칭기반 인덱싱)
- **iloc** : 순서를 나타내는 정수 기반의 2차원 인덱싱(위치기반 인덱싱)

## 1. loc 인덱서

**명칭기반 인덱서**

1) **df.loc[행인덱싱 값]**   # 행우선 인덱서

2) **df.loc[행인덱싱 값,열인덱싱 값]**

**인덱싱 값 유형**

- 인덱스 데이터 : [index name] 또는 [index_name, column name]
- 인덱스 데이터 슬라이스 
- 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
     - 조건으로 추출 가능(불린 인덱싱)
- 위 값을 반환하는 함수    

In [3]:
# 예제 데이터프레임 생성
df=pd.DataFrame(np.arange(10,22).reshape(3,4),
               index=['a','b','c'],
               columns='A B C D'.split())
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
df[0:1] #df[0] 오류 기본적으로 열로 인식하기때문 

Unnamed: 0,A,B,C,D
a,10,11,12,13


### 1) 데이터프레임의 행 선택

**형식 : dataframe.loc['행인덱스값']**

In [5]:
df
df.loc['a'] #행 이름 하나만 지정 시 시리즈 반환

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [112]:
#리스트에서 행 이름 하나만 지정 시 데이터프레임으로 반환
#행 단독 사용이 아니라 슬라이스 사용 시 데이터프레임으로 반환
df.loc[['a']]
df.loc[:'a'] 
df.loc['a':'a']

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29


#### 주의. loc 인덱서에서는 열 단독 인덱싱은 불가능

In [7]:
#loc인덱서는 열이름을 먼저 사용불가 : 행우선 인덱싱
# df.loc['A']
df.A #열 인덱싱 방법

a    10
b    14
c    18
Name: A, dtype: int32

### 2) 데이터프레임의 여러 행 선택

#### ① 행인덱스 슬라이싱

**형식: dataFrame.loc['처음 행인덱스값' : '끝행인덱스값']**

- b행부터 c행의 모든 열 반환

In [8]:
df.loc['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [9]:
df.loc[['a','c']] #a와 b행을 선택

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [10]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [11]:
#행인덱스가 정수인덱스인 경우
df2=pd.DataFrame(np.arange(10,26).reshape(4,4),
                columns='A B C D'.split())
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [12]:
#행이름이 아닌 위치인덱스 사용
df2.loc[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [13]:
df2.loc[:1]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


In [14]:
df2.loc[0:2]


Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [15]:
df2[0:2] 

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


#### ② 행인덱스 데이터를 리스트로 지정

**형식: dataFrame[[행이름1, 행이름2,... ]]**

- 여러 행 선택시 인덱서 데이터를 리스트로 사용
- 반환값이 데이터프레임이 됨

In [16]:
df.loc[['a','c']]
#떨어져있는 a, c행을 선택 -> 리스트 사용 : 데이터프레임으로 반환

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [17]:
#위치인덱스를 갖는(행이름이 정수인) 데이터프레임에서
# df2[[0,3]] #기본인덱싱 : 열 기준 -> Keyerror
df2.loc[[0,3]] 

Unnamed: 0,A,B,C,D
0,10,11,12,13
3,22,23,24,25


※ 참고. 데이터프레임 기본 인덱싱은 **열기준**

In [18]:
# df2[[0,3]] #기본인덱싱 : 열 기준 -> Keyerror

In [19]:
df2[['A',"C"]]

Unnamed: 0,A,C
0,10,12
1,14,16
2,18,20
3,22,24


#### ③ boolean indexing으로 행 선택

**조건 식 수행**

In [20]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 큰 행만 추출

In [21]:
#열 값을 불러올 땐 굳이 loc 인덱싱 불필요 
# 기본인덱싱을 사용 
df['A'] >15 #시리즈
df[df['A']>15] #데이터프레임

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [22]:
df.A >15
df[df.A>15]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [23]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


#### ④ 인덱스 대신 인덱스 값을 반환하는 함수 사용

In [24]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 작은 행 추출

In [25]:
#인덱싱을 위한 함수 정의
def sel_row(df):
    return df.A < 15

In [26]:
#함수 호출
sel_row(df)

a     True
b     True
c    False
Name: A, dtype: bool

In [27]:
df.loc[sel_row(df)]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


### 3) loc 인덱서로 개별 요소 선택

- 인덱싱으로 행과 열을 모두 받는 경우
- 형식 : **df.loc[행인덱스, 열인덱스]**
    - 라벨(문자열)인덱스 사용

In [28]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- a행의 A열 값 선택

In [29]:
#기본인덱싱 방식
df['A']['a']

#loc인덱서 사용
df.loc['a','A']

10

10

- a행의 A열 값 수정

In [30]:
#기본인덱싱 방식
df['A']['a']=100
df
#loc인덱서 사용
df.loc['a','A']=200
df

Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


In [31]:
#'B'열 선택 : loc인덱서를 사용
df
df.T.loc['B']
df.loc[:,'B']
df.loc[:][['B']] #리스트로 지정했기에 데이터프레임 반환
df.loc[:,['B']] #리스트로 지정했기에 데이터프레임 반환
df.B

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


a    11
b    15
c    19
Name: B, dtype: int32

a    11
b    15
c    19
Name: B, dtype: int32

Unnamed: 0,B
a,11
b,15
c,19


Unnamed: 0,B
a,11
b,15
c,19


a    11
b    15
c    19
Name: B, dtype: int32

In [32]:
#loc인덱서를 이용하여 A,C열 선택
df
df.loc[:,['A','C']] #:모든행

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,C
a,200,12
b,14,16
c,18,20


In [33]:
df.loc['a':'b',['A','C']] 

Unnamed: 0,A,C
a,200,12
b,14,16


In [34]:
# df.loc[['a':'b'],['A','C']] #오류

In [35]:
df.loc[['a','c'],['A','C']] 

Unnamed: 0,A,C
a,200,12
c,18,20


In [36]:
df
df['a':'a'] #기본 인덱싱으로 한 행 단독 지정 시 a행 데이터프레임 반환
df.loc['a'] #loc 인덱싱으로 한 행 단독 지정 시 a행 시리즈 반환 

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,200,11,12,13


A    200
B     11
C     12
D     13
Name: a, dtype: int32

-------------------------------------------------

## 2. iloc 인덱서

- **위치기반 인덱스**
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 사용
- 위치 정수값은 0부터 시작
- **형식 : 데이터프레임.iloc[행, 열]**

- **데이터프레임의 기본 인덱싱은 [행번호,열번호] 인덱싱 불가**

- **iloc[] 사용하면 가능**
    - iloc[행번호,열번호]
    - loc[행이름,열이름]

In [37]:
df

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


### 1) iloc을 이용하여 개별요소 선택

형식 : 데이터프레임.iloc[행번호,열번호]

결과값 : **스칼라값 반환됨**

- 0행 1열 선택

In [38]:
df.iloc[0,1]

11

### 2) iloc에 슬라이싱 적용

- 1열의 0행과 1행 선택 : 데이터프레임 형태로 반환

In [39]:
df
df.iloc[[0,1],1]
#df.iloc[[0:1],1]#연속 슬라이스할땐 리스트쓰면 안됨
df.iloc[0:1,1] # 0행만 선택 끝값에서 하나 적은 값까지만 지정하기 때문
df.iloc[0:2,1]

#참고


Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


a    11
b    15
Name: B, dtype: int32

a    11
Name: B, dtype: int32

a    11
b    15
Name: B, dtype: int32

- 1열의 0행,1행 선택 : 시리즈 형태로 반환

In [40]:
df
df.iloc[[0,1],1:2]
df.iloc[0:2,1:2]
df.iloc[0:2,0:2]

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B
a,11
b,15


Unnamed: 0,B
a,11
b,15


Unnamed: 0,A,B
a,200,11
b,14,15


- 0행의 2번째 열부터 끝열까지 반환

In [41]:
df
#기본인덱싱의 경우
df[['B','C','D']]['a':'a'] #:은 행인덱스라 생각해서 열 전부 다 써줘야됨
#loc인덱서 사용하는 경우
df.loc['a']['B':'D'] 
#iloc인덱서 사용하는 경우
df.iloc[0,1:] #시리즈로 반환
df.iloc[0:1,1:] #데이터프레임으로 반환

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B,C,D
a,11,12,13


B    11
C    12
D    13
Name: a, dtype: int32

B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,B,C,D
a,11,12,13


**0행의 끝에서 두번째 열 이후까지 반환**

In [42]:
df
#기본인덱싱의 경우
df[['C','D']]['a':'a']
#loc인덱서 사용하는 경우
df.loc['a']['C':'D']
df.loc['a',['C','D']]
#iloc인덱서 사용하는 경우
df.iloc[0,-2:]

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,C,D
a,12,13


C    12
D    13
Name: a, dtype: int32

C    12
D    13
Name: a, dtype: int32

C    12
D    13
Name: a, dtype: int32

**iloc 정리**

- iloc[행위치,열위치] -> 원소값 반환
- iloc[행위치1:행위치2,열위치1:열위치2] -> 원소 반환: df 반환
- iloc[행위치,열위치1:열위치2] -> 원소반환 :시리즈 반환
- iloc[행위치1:행위치2,열위치] ->원소반환 : 시리즈 반환

-------------------------------------------------

### 연습문제 #1. loc을 이용한 인덱싱

In [43]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index='a b c'.split(),
                 columns = 'A B C D'.split())
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### 문제1. a행의 모든 열 가져오기

**1) a행의 모든 열을 시리즈로 가져오기**

In [69]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

**2) a행의 모든 열을 데이터프레임으로 가져오기**

In [45]:
df.loc[['a']]

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [71]:
df.loc['a':'a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


**3) loc[]을 사용하지 않고 데이터프레임 기본 인덱싱방법을 사용하여 a행의 모든 열 가져오기**

In [110]:
df.T['a']
df.iloc[0,:]
df[["A","B","C","D"]][:"a"]
df[["A","B","C","D"]]['a':"a"]
df.loc['a':'a']
df.loc[:'a']

A    25
B    26
C    27
D    28
E    29
Name: a, dtype: int32

A    25
B    26
C    27
D    28
E    29
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,25,26,27,28


Unnamed: 0,A,B,C,D
a,25,26,27,28


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29


#### 문제2. a행의 B,C 열 가져오기

In [109]:
df
df.loc['a':'a'][['B','C']]
df.loc[:'a'][['B','C']]

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


Unnamed: 0,B,C
a,26,27


Unnamed: 0,B,C
a,26,27


In [77]:
df.loc['a','B':'C']

B    11
C    12
Name: a, dtype: int32

#### 문제3. b행부터 그 이후 모든 행의 A열 가져오기

In [79]:
df['A']['b':]
df.loc[['b','c']]['A'] #왜 데이터베이스 형식이 아뉘지? 무조건 '열'을 리스트로 지정해야 데이터베이스 형식으로 나오는건가?
df.loc['b':,'A']

b    14
c    18
Name: A, dtype: int32

b    14
c    18
Name: A, dtype: int32

b    14
c    18
Name: A, dtype: int32

#### 문제4. a,b행의 B,C,D열 가져오기

**2) 데이터프레임으로 가져오기**

: 두 가지 이상의 방식을 사용할 것

In [49]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [83]:
df.loc[['a','b'],'B':'D']
df.loc['a':'b','B':'D']

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [65]:
df.iloc[0:2,1:4]

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [63]:
 df[['B','C','D']]['a':'b'] 
    

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [84]:
#급번외
df.loc['a',::2] 
#처음부터끝까지 2간격으로

A    10
C    12
Name: a, dtype: int32

#### 문제5. a,c 행의 B,D열 가져오기

In [53]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [86]:
df.loc[['a','c'],['B','D']]
df.loc[::2,'B'::2]

Unnamed: 0,B,D
a,11,13
c,19,21


Unnamed: 0,B,D
a,11,13
c,19,21


----------------------------------------------

### 연습문제 #2

#### 문제1. 모든 행과 열에 라벨을 가지는 5행 5열 이상 크기의 데이터프레임을 생성하기

- 최대한 간단한 코드로 작성할 것
- 예. numpy의 난수발생함수나 arange() 등 정수배열 생성함수 이용

In [87]:
df = pd.DataFrame(np.arange(25,50).reshape(5,5),
                index='a b c d e'.split(),
                columns = 'A B C D E'.split())

#### 문제2. 다음의 데이터프레임에 대하여 조건에 맞는 요소 가져오기

- 요소 추출을 위해 가능하면 2가지 이상의 방법(loc, iloc, 기본인덱싱)을 사용하고, 
- 어떤 방식을 사용하였고, 반환형식이 무엇인지 코드에 주석달기

In [None]:
# 5행 5열 크기의 데이터 프레임 생성
df = pd.DataFrame(np.arange(25,50).reshape(5,5),
                index='a b c d e'.split(),
                columns = 'A B C D E'.split())

In [88]:
df

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


**1) A열 추출**

In [89]:
df.A
df['A']
df.loc[:,'A']
df.iloc[:,0]

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

**2) 0행부터 2행까지 추출**

In [90]:
df['a':'c']
df.loc['a':'c']
df.iloc[0:3]

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


**3) 1행의 3,4열 추출**

In [105]:
df[['D','E']]['b':'b']
df.loc['b','D':'E']
df.iloc[0,3:]

Unnamed: 0,D,E
b,33,34


Unnamed: 0,D,E
a,28,29
b,33,34


D    33
E    34
Name: b, dtype: int32

D    28
E    29
Name: a, dtype: int32

**4) a행에서 c행까지 중 B열과 D열 추출**

In [95]:
df[['B','D']]['a':'c']
df.loc['a':'c',['B','D']]
df.iloc[0:3,[1,3]]
df.iloc[:3,1::2]

Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


**5) 끝에서 두번째 행부터 마지막행까지 추출**

In [97]:
df.loc['d':]
df.iloc[-2:]

Unnamed: 0,A,B,C,D,E
d,40,41,42,43,44
e,45,46,47,48,49


Unnamed: 0,A,B,C,D,E
d,40,41,42,43,44
e,45,46,47,48,49


**6) a행의 A열부터 B열을 시리즈로 추출**

In [106]:
#df[['A','B']]['a'] 안됨
df[['A','B']]['a':'a']
df.T['a'][['A','B']]
#df.loc['a',['A':'B']] 행만 : 쓸수
df.loc['a','A':'B']
df.loc['a',['A','B']]
df.iloc[0,:2]

Unnamed: 0,A,B
a,25,26


A    25
B    26
Name: a, dtype: int32

A    25
B    26
Name: a, dtype: int32

A    25
B    26
Name: a, dtype: int32

A    25
B    26
Name: a, dtype: int32

**7) a행의 A열부터 B열까지 데이터프레임으로 추출**

In [102]:
df[['A','B']]['a':'a']
df.loc['a':'a','A':'B']
df.iloc[0:1,:2]

Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


**8) 끝에서 두번째 행부터 마지막 행까지에서 끝에서 두번째 열부터 마지막 열까지 요소 추출**

In [None]:
df

In [101]:
df.iloc[-2:,-2:]
df.loc['d':,'D':]
df[['D','E']]['d':'e']

Unnamed: 0,D,E
d,43,44
e,48,49


Unnamed: 0,D,E
d,43,44
e,48,49


Unnamed: 0,D,E
d,43,44
e,48,49


**데이터 분석 과정:**
1. 수집: 기존의 데이터, 새로운 데이터 생성 : 실시간, 오프라인(배치)
    - DB
    - 공공
    - 웹수집 : 저작권
2. 저장=>DB
3. 처리(전처리)
    - 결측치, 변환, 삭제
   => 정제, 가공
4. 분석(모델링)
5. 시각화


-------------------------------------------