In [None]:
import pandas as pd
import numpy as np

### <span style='background-color:rgba(200, 100, 100, 0.6);'>데이터프레임 고급 인덱싱</span>

판다스 데이터프레임의 인덱싱은 라벨, 라벨 리스트, 행 인덱스 슬라이스의 인덱싱  
형태 뿐만 아니라 numpy 와 같은 ',' 룰 이용한 `(행 인덱스, 열 인덱스)` 형식의 2차원 인덱스도 제공함

- `ioc` 속성 : 라벨 기반의 2차원 인덱서
- `iloc` 속성 : 순서를 나타내는 정수 기반의 2차원 인덱서

#### <span style='background-color:rgba(100, 50, 200, 0.5);'>`loc` 인덱서</span>
행 인덱스 값과 열 인덱스 값을 이용하여 인덱싱을 해주는 인덱서

df.loc[행인덱스값]  
df.loc[행인덱스값, 열인덱스값]

In [None]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=['a', 'b', 'c'], columns=['A', 'B', 'C', 'D'])
df

In [None]:
df.loc['a']

In [None]:
df.loc[['a', 'b']]

In [None]:
df.loc['a': 'b']

In [None]:
df.loc[['a']]  #하나만 넣어도, 데이터 프레임 형태로 반환

In [None]:
df.loc[df.A > 13]

인덱스 값으로 열 인덱스 값을 반환하는 함수를 사용할 수 있음

In [None]:
def select_rows(df):
    return df.A > 12

In [None]:
df.loc[select_rows(df)]

`loc` 없이 인덱싱을 할떄는 `[]`에 열 인덱스에 대한 인덱싱을 하였는데 `loc`는 열 인덱싱으로 지정할 수 없음

In [None]:
df.loc['A']  # 에러 발생

`loc` 인덱싱에서 정수로 되어있는 행이라고 할 지라도 슬라이싱시에 종료 인덱스 값에 대한 결과도 포함하여 출력됨

In [None]:
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4), columns=['A','B','C','D'])
df2

In [None]:
df2.loc[0:2] # 정수로 할 수 없음

#### <span style='background-color:rgba(100, 50, 200, 0.5);'>인덱싱 값으로 행과 열 모두 지정</span>
`loc[행인덱스, 열인덱스]` 로 행과 열에 대한 인덱싱을 할 수 있음

In [None]:
df.loc['a', 'A']

In [None]:
df.loc['b': ,:'C'] # B: B부터 가져온다

In [None]:
df.loc[df.A > 13, ['B', 'C']] # 13보다 작은 B,C

#### <span style='background-color:rgba(100, 50, 200, 0.5);'>`iloc` 인덱서</span>
`iloc` 인덱서는 `loc` 인덱서와 사용방법은 동일하나 인덱스로 지정하는 값이 순서를 나타내는 정수 값임

In [None]:
df

In [None]:
df.iloc[0, 1]

In [None]:
df.iloc[:2, 1:]

In [None]:
df.iloc[2]

=======================예제 문제===========================

##### <span style='color:yellow;'>파이썬으로 다음 연산을 수행한다.</span> 

1. real_estate 데이터베이스의 officetel_estate 테이블을 데이터프레임으로 가져옴  
2. 상위 10개에 대한 레코드를 가지는 데이터프레임을 생성  
3. locale이 seoul-downtown 인 레코드를 가지는 데이터프레임을 생성  
4. between_lease_and_lease_deposit_ratio가 10 이상인 레코드의   
locale, base_month 컬럼만 가지는 데이터프레임을 생성  

In [None]:
import mysql.connector

In [None]:
practice_df = None

try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )

    if conn.is_connected():
        SQL = 'SELECT * FROM officetel_estate'
        practice_df = pd.read_sql_query(SQL, conn, index_col='sequence')
        
except Exception as e:
    pass
finally:
    if conn.is_connected():
        conn.close()

In [None]:
# 1. real_estate 데이터베이스의 officetel_estate 테이블을 데이터프레임으로 가져옴
practice_df

In [None]:
# 2. 상위 10개에 대한 레코드를 가지는 데이터프레임을 생성
practice_df.iloc[:10]

In [None]:
# 3. locale이 seoul-downtown 인 레코드를 가지는 데이터프레임을 생성
practice_df.loc[practice_df.locale == 'seoul-downtown']

In [None]:
# 4. between_lease_and_lease_deposit_ratio가 10 이상인 레코드의 
#    locale, base_month 컬럼만 가지는 데이터프레임을 생성
practice_df.loc[practice_df.between_lease_and_lease_deposit_ratio >= 10, ['locale', 'base_month']]