# 데이터 프레임 인덱서

In [42]:
#pandas에서는 numpy행렬과 같이 쉼표를 사용한(행,열)인덱스 형식의 2차원 인덱싱을 위해 특별한 인덱싱을 지원한다.


# loc 인덱서

In [2]:
#loc 인덱서를 사용할 때는 행/열 인덱스들이 모두 다음 중 하나이어야 한다.

#정수 인덱스가 아닌 라벨 값(원래 인덱스 자체가 정수 인덱스인 경우는 예외적으로 허용)
#라벨 값의 리스트나 슬라이싱
#부울리언 리스트, 1차원 배열, 시리즈 (데이터프레임은 안된다.)
#또는 데이터프레임을 입력으로 받고 위의 값들(1차원 배열, 시리즈, 부울리언 리스트)을 반환하는 함수
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index=["a","b","c"],
                 columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
df[["A"]]

Unnamed: 0,A
a,10
b,14
c,18


In [15]:
df[1:2]

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [17]:
df.loc["a","A"] #loc을 쓰려면 loc[행인덱스,열인덱스] 형태로 사용한다


10

In [18]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [28]:
x=df.loc["a", :]
x

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [30]:
y=df.loc[["a", "b"], ["B"]]
y

Unnamed: 0,B
a,11
b,15


In [21]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [26]:
y.ndim

2

In [27]:
x.ndim

1

In [34]:
#인덱스 대신에 인덱스 값을 반환하는 함수로 사용 할수 있다.
#다음함수는 A열의 값이 12보다 큰 행만 선택한다.
def select_rows(df):
    return df.B > 10

In [35]:
select_rows(df)
#A행에서 12 보다 큰데 b c열이 므로 true를 반환한다.

a    True
b    True
c    True
Name: B, dtype: bool

In [37]:
df.loc[select_rows(df), ["A"]]
#이는 loc(행,열)꼴에서 행에서 a b c가 다만족하기 때문에 행으로 지정된 것이고 해당 A열 인덱스를 반환한 것이다.

Unnamed: 0,A
a,10
b,14
c,18


In [38]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11]  # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [39]:
df.loc["a"]
#만약에 loc인덱서에 인덱스를 하나만 넣으면 row를 선택한다
#결론적으로 하나 넣으면 Series, 두개 넣으면 데이터 프레임

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [41]:
#원래 인덱스 자체가 정수값을 가지는 경우에는 loc 인덱서의 인덱스로 정수를 쓸 수 있다. 이때는 정수가 순서를 나타내는 값이 아닐 수 있다.
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=np.arange(1, 8, 2))
df2

Unnamed: 0,1,3,5,7
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


# iloc인덱서

In [None]:
#얘는 정수 인덱서만 받는다.

In [43]:
df.iloc[0, 1]

11

In [44]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [45]:
df.iloc[0, -2:]


C    12
D    13
Name: a, dtype: int32

In [46]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


# 연습문제 4.2.4

In [68]:
#1) 모든 행과 열에 라벨을 가지는 5*5 이상의 크기를 가지는 데이터 프레임을 만든다.
db=np.arange(1,26)
db

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25])

In [69]:
db=db.reshape(5,5)
df=pd.DataFrame(db,
                 index=["a","b","c","d","e"],
                 columns=["A","B","C","D","E"])
df

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15
d,16,17,18,19,20
e,21,22,23,24,25


In [61]:
df.loc["a"]


A    1
B    2
C    3
D    4
E    5
Name: a, dtype: int32

In [60]:
df.loc[["a"],["A"]]

Unnamed: 0,A
a,1


In [67]:
df.loc[:,"A"]

a     1
b     6
c    11
d    16
e    21
Name: A, dtype: int32

In [78]:
def select_rows(df):
    return df.D > 10
select_rows(df)

a    False
b    False
c     True
d     True
e     True
Name: D, dtype: bool

In [81]:
df.loc[select_rows(df),["D"]]

Unnamed: 0,D
c,14
d,19
e,24


In [90]:
df.loc[:,df.loc["a", :] <= 3]
#요예제가 가장 어려운것 같다.
#결론 적으로 81번 bool함수로 조건 넣어서 인덱싱하는 것과 89번 loc두번 넣는게 가장 어려운것 같다

Unnamed: 0,A,B,C
a,1,2,3
b,6,7,8
c,11,12,13
d,16,17,18
e,21,22,23
