# 고급 인덱싱 기법
    - loc[]
    - iloc[]
    - at[]
    - iat[]

In [None]:
# indexer : loc[], iloc[]가 핵심 기법이다!

In [1]:
import numpy as np
import pandas as pd

## loc
    라벨값 기반의 2차원 인덱싱을 지원하는 인덱서

In [5]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"],
                 columns=["A", "B", "C", "D"])    # 10~21까지 1차원 배열, reshape:차원변경
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
print(df.loc["a"])
print(type(df.loc["a"]))    # series형식으로 인덱싱함

A    10
B    11
C    12
D    13
Name: a, dtype: int32
<class 'pandas.core.frame.DataFrame'>


In [17]:
print(df.loc["b":"c"])
print(df["b":"c"])   # 위의 결과와 동일 = 이 경우엔 굳이 loc을 쓰지 않아도 된다.

    A   B   C   D
b  14  15  16  17
c  18  19  20  21
    A   B   C   D
b  14  15  16  17
c  18  19  20  21


In [18]:
df.A > 15    # A 가 15보다 큰 행? 만 뽑기
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [20]:
# 복잡한 데이터 처리는 별도의 함수를 만들어 활용한다.
def select_rows(df):
    return df.A >15

select_rows(df)
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [23]:
# df.loc["A"] # error: loc은 행 기준이기 때문에! -> 기본 인덱서 사용한다
df["A"]
# df.loc[["A", "B"]]   # error
df[["A", "B"]]

a    10
b    14
c    18
Name: A, dtype: int32

In [31]:
# 인덱싱 값을 행과 열 모두 받는 경우
df["A"]["b"]    # A라는 열의 b라는 행을 가져온다
df.loc["b", "A"]  # b 행의 A열 (행과 열을 ","로 구분)

df.loc["b": ,"A"]   # b행부터 나머지행 모두 선택, A열만
df.loc["a", :]    # a 행 전체 열
df.loc[["a", "b"], ["B", "D"]]    # a, b 행 의  B,D 열
df.loc[df.A>10, ["C", "D"]]    # A열의 값이 10보다 큰 행의 C,D 열

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc
    정수인덱스 처리. loc인덱서와는 반대로 라벨이 아닌, 순서를 나타내는 정수 인덱스만 받는다.

In [35]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"],
                 columns=["A", "B", "C", "D"])    # 10~21까지 1차원 배열, reshape:차원변경
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [37]:
df.iloc[0, 1]
df.iloc[:2, 2]    # 1~2행의 3번째 열
df.iloc[0, -2:]   # a행의 마지막 2개 열

C    12
D    13
Name: a, dtype: int32

In [41]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


## at, iat

In [44]:
%timeit df.loc["a", "A"]   # a행의 A열
%timeit df.at["a", "A"]    # 위의 loc쓰는 것보다 실행이 빠름

6.08 µs ± 78.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.84 µs ± 20.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 데이터 조작

In [16]:
# 데이터 갯수 세기
s = pd.Series(range(10))
s.count()

s[3] = np.nan
s
s.count()

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df
df.iloc[2,3] = np.nan
print(df)
df.count()    # 모든 열의 개수를 출력..

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


0    4
1    4
2    4
3    3
dtype: int64

In [17]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [25]:
# 카테고리 값 세기

np.random.seed()
s2 = pd.Series(np.random.randint(6, size=100))
s2.head()   #맨 앞 5개까지   #s2.tail(): 맨 뒤에서 5개까지

s2.value_counts()

df[0].value_counts()   # dataframe자체에는 value가 없기때문에 슬라이싱으로 뽑아줘야 count가 된다

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [36]:
# 정렬 (sort_index, sort_values)
s2.value_counts().sort_index()
s.sort_values()    # NaN값이 있을 경우, 그것을 가장 마지막에..
s.sort_values(ascending=False)  # 내림차순

print(df)
df.sort_values(by=1)   # 1번열을 기준으로 정렬
df.sort_values(by=[1,2])   #1번열 중복값-> 2번열의 값을 비교하고 순서정한다

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [53]:
# 행/열 합계
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))   # 0~9까지 4행 8열
df2

df2.sum(axis=1)   # axis: 축지정
df2["RowSum"] = df2.sum(axis=1)
df2

df2.sum()    # 열의 합계, df2.sum(axis=0)
df2.loc["ColSum",:] = df2.sum(axis=0)    # Colsum이 밑으로 가도록 처리
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [2]:
# apply Method : 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때 사용

df = pd.DataFrame({"A":[1,3,4,3,4],
                  "B":[2,3,1,2,3],
                  "C":[1,5,2,4,4],})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [3]:
# 함수를 df데이터에 적용하기
def diff(x):
    return x.max() - x.min()

# 행이나 열에 대해서 함수가 자동적용될 수 있게 = apply
df.apply(diff)  # 각 열에서 (최대-최소)의 값, A열 B열 C열
df.apply(diff, axis=1)

df.apply(lambda x:x.max()-x.min())   # 람다로 메모리 절약하면서 사용할 수 있음


A    3
B    2
C    4
dtype: int64

In [13]:
# df["A"].value_counts()
# df["B"].value_counts()
# df["C"].value_counts()
# 함수에서 (): 직접 호출함  / ()안쓰는 경우: 함수의 주소를 다른 애한테 알려주는 것

df.apply(pd.value_counts)

#NaN 값 0으로 대체
df.apply(pd.value_counts).fillna(0)
df.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [23]:
# 질적 데이터 : 명목, 카테고리
# 양적 데이터: 이산, 연속형
# 양적 데이터는 질적데이터로 표시할 수 있지만 반대의 경우는 불가하다

# 실수값을 카테고리 값으로 변환(cut(), qcut())
# qcut(): 데이터 균등하게 나눔

ages = [0,2,10,21,23,37,31,61,20,41,32,100]

labels = ["미성년자", "청년", "중년", "장년", "노년"]
bins = [1,15,25,35,60,99]    # binary라는 뜻
cats = pd.cut(x=ages, bins=bins, labels=labels)
cats

print(type(cats))
print(cats.categories)
print(cats.codes)

df4 = pd.DataFrame(ages, columns=["ages"])
df4
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)  #age_cat 열 추가..
df4

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [26]:
# qcut()
data = np.random.randn(1000)
#4개로 나눈다하면 250씩 나눠지는거임
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

pd.value_counts(cats)  # 250개씩 나뉘어진 것 확인가능

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

# 인덱스 조작

### 데이터프레임 인덱스 설정 및 제거
    set_index()
    reset_index()

In [36]:
# 임의의 데이터를 사용하기 위해 random을 사용한다
np.random.seed(0)   # seed로 고정? 특정한 시작 숫자를 정해주기?

#list("ABCDE")  # ABCDE도 5열이므로 위의 것과 배열 연결할 수 있다
df1 = pd.DataFrame(np.vstack([list("ABCDE"),np.round(np.random.rand(3,5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])

df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [37]:
# 인덱스 재설정 (내가 원하는대로!)
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [51]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [None]:
df2.reset_index()

### 다중 인덱스

In [43]:
np.random.seed(0)

# 다중 컬럼?
df3 = pd.DataFrame(np.round(np.random.randn(5,4),2),
                  columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df3

df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [49]:
# 다중 인덱스..
df4 = pd.DataFrame(np.round(np.random.randn(6,4),2),
                  columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index=[["M","M","M","F","F","F"],["id_" +str(i+1) for i in range(3)]*2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names=["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.95,-0.16,0.61,0.92
M,id_2,0.38,-1.1,0.3,1.33
M,id_3,-0.69,-0.15,-0.44,1.85
F,id_1,0.67,0.41,-0.77,0.54
F,id_2,-0.67,0.03,-0.64,0.68
F,id_3,0.58,-0.21,0.4,-1.09


In [57]:
# 행 인덱스와 열 인덱스의 교환 : stack()-열을 행으로, unstack()-행을 열로

df4.stack("Cidx1")
print(df4.stack(1))  # CDCD가 열로 감..

print(df4.unstack("Ridx2"))  # Ridx2열을 행으로 변환
df4.unstack(0) # 첫번째 열인 F M 열을 행으로 변환

Cidx1                 A     B
Ridx1 Ridx2 Cidx2            
M     id_1  C      0.95  0.61
            D     -0.16  0.92
      id_2  C      0.38  0.30
            D     -1.10  1.33
      id_3  C     -0.69 -0.44
            D     -0.15  1.85
F     id_1  C      0.67 -0.77
            D      0.41  0.54
      id_2  C     -0.67 -0.64
            D      0.03  0.68
      id_3  C      0.58  0.40
            D     -0.21 -1.09
Cidx1     A                                   B                              
Cidx2     C                 D                 C                 D            
Ridx2  id_1  id_2  id_3  id_1  id_2  id_3  id_1  id_2  id_3  id_1  id_2  id_3
Ridx1                                                                        
F      0.67 -0.67  0.58  0.41  0.03 -0.21 -0.77 -0.64  0.40  0.54  0.68 -1.09
M      0.95  0.38 -0.69 -0.16 -1.10 -0.15  0.61  0.30 -0.44  0.92  1.33  1.85


Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.67,0.95,0.41,-0.16,-0.77,0.61,0.54,0.92
id_2,-0.67,0.38,0.03,-1.1,-0.64,0.3,0.68,1.33
id_3,0.58,-0.69,-0.21,-0.15,0.4,-0.44,-1.09,1.85


In [67]:
# 인덱싱

# Cidx2 안에 C1, C2 각각 2개씩 -> 문자열로 인덱싱불가 -> B안의 C1 이렇게 접근해야한다
print(df3)
df3[("B", "C1")]
df3[("B", "C1")][0] # 첫번째 행의 값
#loc라는 인덱서를 사용했을 때
df3.loc[0, ("B","C1")]  # 0: 첫번째 행  -> "B"의 "C1" 열
df3.iloc[0, 2]   # iloc는 tuple사용 불가
df3["A"]

Cidx1     A           B      
Cidx2    C1    C2    C1    C2
0      1.76  0.40  0.98  2.24
1      1.87 -0.98  0.95 -0.15
2     -0.10  0.41  0.14  1.45
3      0.76  0.12  0.44  0.33
4      1.49 -0.21  0.31 -0.85


Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [86]:
print(df4)

# A의 C열의 id_1 출력
df4.iloc[0,0]
df4.loc[("M", "id_1"), ("A", "C")]   # 문자열일때에는 loc가 가독성이 더 좋긴함
df4[("A", "C")][0]

# A의 C 열 출력
df4[("A","C")]
df4.loc[:, ("A","C")]

# M의 id_1 행 출력
df4.loc[("M", "id_1"), :]

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.95 -0.16  0.61  0.92
      id_2   0.38 -1.10  0.30  1.33
      id_3  -0.69 -0.15 -0.44  1.85
F     id_1   0.67  0.41 -0.77  0.54
      id_2  -0.67  0.03 -0.64  0.68
      id_3   0.58 -0.21  0.40 -1.09


Cidx1  Cidx2
A      C        0.95
       D       -0.16
B      C        0.61
       D        0.92
Name: (M, id_1), dtype: float64

In [106]:
# df4.loc[("All","All"),:] = df4.sum()
# df4
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.95,-0.16,0.61,0.92
M,id_2,0.38,-1.1,0.3,1.33
M,id_3,-0.69,-0.15,-0.44,1.85
F,id_1,0.67,0.41,-0.77,0.54
F,id_2,-0.67,0.03,-0.64,0.68
F,id_3,0.58,-0.21,0.4,-1.09
All,,,,,
All,All,1.22,-1.18,-0.54,4.23


In [98]:
# swaplevel(i, j, axis)
# i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

df5 = df4.swaplevel("Ridx1", "Ridx2", axis=0)
print(df5)

# 인덱스 순서 바꾸기(swap)
df6 = df4.swaplevel("Cidx1", "Cidx2", 1)
df6

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx2 Ridx1                        
id_1  M      0.95 -0.16  0.61  0.92
id_2  M      0.38 -1.10  0.30  1.33
id_3  M     -0.69 -0.15 -0.44  1.85
id_1  F      0.67  0.41 -0.77  0.54
id_2  F     -0.67  0.03 -0.64  0.68
id_3  F      0.58 -0.21  0.40 -1.09
      All     NaN   NaN   NaN   NaN
All   All    1.22 -1.18 -0.54  4.23


Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.95,-0.16,0.61,0.92
M,id_2,0.38,-1.1,0.3,1.33
M,id_3,-0.69,-0.15,-0.44,1.85
F,id_1,0.67,0.41,-0.77,0.54
F,id_2,-0.67,0.03,-0.64,0.68
F,id_3,0.58,-0.21,0.4,-1.09
All,,,,,
All,All,1.22,-1.18,-0.54,4.23


In [101]:
# 정렬 : sort_index()

# print(df5)
# df5.sort_index(level=0)

print(df6)
df6.sort_index(axis=1, level=0)

Cidx2           C     D     C     D
Cidx1           A     A     B     B
Ridx1 Ridx2                        
M     id_1   0.95 -0.16  0.61  0.92
      id_2   0.38 -1.10  0.30  1.33
      id_3  -0.69 -0.15 -0.44  1.85
F     id_1   0.67  0.41 -0.77  0.54
      id_2  -0.67  0.03 -0.64  0.68
      id_3   0.58 -0.21  0.40 -1.09
All           NaN   NaN   NaN   NaN
      All    1.22 -1.18 -0.54  4.23


In [124]:
df_score = pd.read_csv("Book1.csv", encoding='CP949')
df_score

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,90,87,89
1,A,2,85,86,92
2,A,3,65,98,98
3,A,4,78,96,100
4,A,5,95,100,97
5,B,1,98,100,94
6,B,2,100,95,78
7,B,3,97,92,73
8,B,4,94,91,92
9,B,5,86,94,71
