# 고급 인덱싱 기법
    - loc[]
    - iloc[]
    - at[]
    - iat[]

In [None]:
# indexer : loc(), iloc()가 핵심 기법이다!

In [2]:
import numpy as np
import pandas as pd

## loc
    라벨값 기반의 2차원 인덱싱을 지원하는 인덱서

In [5]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"],
                 columns=["A", "B", "C", "D"])    # 10~21까지 1차원 배열, reshape:차원변경
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
print(df.loc["a"])
print(type(df.loc["a"]))    # series형식으로 인덱싱함

A    10
B    11
C    12
D    13
Name: a, dtype: int32
<class 'pandas.core.frame.DataFrame'>


In [17]:
print(df.loc["b":"c"])
print(df["b":"c"])   # 위의 결과와 동일 = 이 경우엔 굳이 loc을 쓰지 않아도 된다.

    A   B   C   D
b  14  15  16  17
c  18  19  20  21
    A   B   C   D
b  14  15  16  17
c  18  19  20  21


In [18]:
df.A > 15    # A 가 15보다 큰 행? 만 뽑기
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [20]:
# 복잡한 데이터 처리는 별도의 함수를 만들어 활용한다.
def select_rows(df):
    return df.A >15

select_rows(df)
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [23]:
# df.loc["A"] # error: loc은 행 기준이기 때문에! -> 기본 인덱서 사용한다
df["A"]
# df.loc[["A", "B"]]   # error
df[["A", "B"]]

a    10
b    14
c    18
Name: A, dtype: int32

In [31]:
# 인덱싱 값을 행과 열 모두 받는 경우
df["A"]["b"]    # A라는 열의 b라는 행을 가져온다
df.loc["b", "A"]  # b 행의 A열 (행과 열을 ","로 구분)

df.loc["b": ,"A"]   # b행부터 나머지행 모두 선택, A열만
df.loc["a", :]    # a 행 전체 열
df.loc[["a", "b"], ["B", "D"]]    # a, b 행 의  B,D 열
df.loc[df.A>10, ["C", "D"]]    # A열의 값이 10보다 큰 행의 C,D 열

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc
    정수인덱스 처리. loc인덱서와는 반대로 라벨이 아닌, 순서를 나타내는 정수 인덱스만 받는다.

In [35]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"],
                 columns=["A", "B", "C", "D"])    # 10~21까지 1차원 배열, reshape:차원변경
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [37]:
df.iloc[0, 1]
df.iloc[:2, 2]    # 1~2행의 3번째 열
df.iloc[0, -2:]   # a행의 마지막 2개 열

C    12
D    13
Name: a, dtype: int32

In [41]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


## at, iat

In [44]:
%timeit df.loc["a", "A"]   # a행의 A열
%timeit df.at["a", "A"]    # 위의 loc쓰는 것보다 실행이 빠름

6.08 µs ± 78.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.84 µs ± 20.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 데이터 조작

In [16]:
# 데이터 갯수 세기
s = pd.Series(range(10))
s.count()

s[3] = np.nan
s
s.count()

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df
df.iloc[2,3] = np.nan
print(df)
df.count()    # 모든 열의 개수를 출력..

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


0    4
1    4
2    4
3    3
dtype: int64

In [17]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [25]:
# 카테고리 값 세기

np.random.seed()
s2 = pd.Series(np.random.randint(6, size=100))
s2.head()   #맨 앞 5개까지   #s2.tail(): 맨 뒤에서 5개까지

s2.value_counts()

df[0].value_counts()   # dataframe자체에는 value가 없기때문에 슬라이싱으로 뽑아줘야 count가 된다

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [36]:
# 정렬 (sort_index, sort_values)
s2.value_counts().sort_index()
s.sort_values()    # NaN값이 있을 경우, 그것을 가장 마지막에..
s.sort_values(ascending=False)  # 내림차순

print(df)
df.sort_values(by=1)   # 1번열을 기준으로 정렬
df.sort_values(by=[1,2])   #1번열 중복값-> 2번열의 값을 비교하고 순서정한다

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [53]:
# 행/열 합계
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))   # 0~9까지 4행 8열
df2

df2.sum(axis=1)   # axis: 축지정
df2["RowSum"] = df2.sum(axis=1)
df2

df2.sum()    # 열의 합계, df2.sum(axis=0)
df2.loc["ColSum",:] = df2.sum(axis=0)    # Colsum이 밑으로 가도록 처리
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
