In [2]:
import pandas as pd
import numpy as np

### 데이터프레임 고급 인덱싱
판다스 데이터프레임의 인덱싱은 라벨, 레벨 리스트, 행 인덱스 슬라이스의 인덱싱 형태 뿐만 아니라  
numpy와 같은 `,`를 이용한 `(행 인덱스, 열 인덱스)` 형식의 2차원 인덱스도 제공한다.  

- `loc` 속성 : 라벨 기반의 2차원 인덱서
- `iloc` 속성 : 순서를 나타내는 정수 기반의 2차원 인덱서

### 'loc` 인덱서
행 인덱스 값과 열 인덱스 값을 이용하여 인덱싱을 해주는 인덱서

```python
df.loc[행인덱스값]
df.loc[행인덱스값, 열인덱스값]
```

In [4]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                  index=['a','b','c'],
                  columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [7]:
df.loc[['a','b']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [12]:
df.loc['a':'b']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [14]:
df.loc[['a']]

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [15]:
df.loc[df.A>13]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


인덱스 값으로 열 인덱스 값을 반환하는 함수를 사용할 수 있음

In [17]:
def select_rows(df):
    return df.A>12

In [18]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


`loc` 없이 인덱싱을 할 때는 `[]`에 열 인덱스에 대한 인덱싱을 하였는데 `loc`는 열 인덱싱으로 지정할 수 없음

In [None]:
df.loc['A']

`loc` 인덱싱에서 정수로 되어있는 행이라고 할 지라도 슬라이싱 시에 종료 인덱스 값에 대한 결과도 포함하여 출력됨

In [20]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [21]:
df2.loc[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


#### 인덱싱 값으로 행과 열 모두 지정
`loc[행인덱스, 열인덱스]` 로 행과 열에 대한 인덱싱을 할 수 있음

In [23]:
df.loc['a','A']

10

In [26]:
df.loc['b':,:'C']

Unnamed: 0,A,B,C
b,14,15,16
c,18,19,20


In [27]:
df.loc[df.A>13,['B','C']]

Unnamed: 0,B,C
b,15,16
c,19,20


### `iloc` 인덱서
`iloc` 인덱서는 `loc` 인덱서와 사용방법은 동일하지만 인덱스로 지정하는 값이 순서를 나타내는 정수 값임

In [29]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [31]:
df.iloc[0,1]

11

In [33]:
df.iloc[:2]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


##### 파이썬으로 다음 연산을 수행

1. real_estate 데이터베이스의 officetel_estate 테이블을 데이터프레임으로 가져옴
2. !! 상위 10개에 대한 레코드를 가지는 데이터프레임을 생성
3. locale이 seoul_downtown 인 레코드를 가지는 데이터프레임을 생성
4. between_lease_And_lease_deposit_ratio가 10 이상인 레코드의 locale, base_month 컬럼만 가지는 데이터프레임을 생성

In [41]:
import mysql.connector

In [None]:
# real_estate 데이터베이스의 officetel_estate 테이블을 데이터프레임으로 가져옴
office = None

try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
       SQL = 'SELECT * FROM officetel_estate'
       office = pd.read_sql_query(SQL, conn)
       
    
except Exception as e:
    pass
finally:
    if conn.is_connected():
        conn.close()

office

In [None]:
# 상위 10개에 대한 레코드를 가지는 데이터프레임을 생성
office.head(10)
# office.loc[:10] 

In [None]:
# locale이 seoul_downtown 인 레코드를 가지는 데이터프레임을 생성
office.loc[office.locale == 'seoul-downtown']

In [81]:
# between_lease_And_lease_deposit_ratio가 10 이상인 레코드의 locale, base_month 컬럼만 가지는 데이터프레임을 생성
office.loc[office.between_lease_and_lease_deposit_ratio >= 10, ['locale','base_month']]

Unnamed: 0,locale,base_month
9,busan,20-Jul
26,busan,20-Aug
43,busan,20-Sep
53,province,20-Oct
60,busan,20-Oct
...,...,...
699,province,23-Dec
706,busan,23-Dec
710,daejeon,23-Dec
721,seoul-southwestern,24-Jan
