다시 한번 강조하면 데이터프레임은 <strong><i>열 우선</i></strong>임 행부터 다루고싶다면 loc 인덱서 사용

# loc

 1. df.loc[행 이름] -> 시리즈 객체 반환
 2. df.loc[행 범위] -> 범위에 포함되는 데이터프레임 반환


In [8]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index = [f'r{i}' for i in range(1, 4)], columns = [chr(i) for i in range(65, 69)])
print(df)
print("--------" * 3)
print("DataFrame")
print(df.loc['r1' : 'r2'])
print("--------" * 3)
print("Series Object")
print(df.loc['r2'])

     A   B   C   D
r1  10  11  12  13
r2  14  15  16  17
r3  18  19  20  21
------------------------
DataFrame
     A   B   C   D
r1  10  11  12  13
r2  14  15  16  17
------------------------
Series Object
A    14
B    15
C    16
D    17
Name: r2, dtype: int64


<h2>슬라이싱</h2>
1. df.loc[행 범위, 열 범위] -> 부분 데이터프레임 반환
2. df.loc[행 범위, 열 이름] -> column의 일부분을 Series로 반환
3. df.loc[행 이름, 열 범위] -> row의 일부분을 Series로 반환
4. df.loc[행 이름, 열 이름] -> 개별 데이터 인덱싱

In [19]:
print(df.loc[:, :])
print('-' * 20)
print(df.loc['r2' :, ::2])
print('-' * 20)
print(df.loc['r3', ::-2])
print('-' * 20)
print(df.loc['r1' : 'r2', 'C'])
print('-' * 20)
print(df.loc['r1', 'D'])

     A   B   C   D
r1  10  11  12  13
r2  14  15  16  17
r3  18  19  20  21
--------------------
     A   C
r2  14  16
r3  18  20
--------------------
D    21
B    19
Name: r3, dtype: int64
--------------------
r1    12
r2    16
Name: C, dtype: int64
--------------------
13


<h2>논리 인덱싱</h2>

1. loc[논리행배열] -> 데이터프레임 반환
2. loc[논리행배열, 열범위] -> 열 범위 부분 데이터프레임 반환

In [33]:
print(df)
print('-' * 20)
print(df.loc[df.A != 14]) # 참인 행, B열 시리즈 반환
print('-' * 20)
print(df.loc[df.A < 17, 'B' : 'C']) # 참인 행, B ~ C 열 반환
print('-' * 20)

     A   B   C   D
r1  10  11  12  13
r2  14  15  16  17
r3  18  19  20  21
--------------------
     A   B   C   D
r1  10  11  12  13
r3  18  19  20  21
--------------------
     B   C
r1  11  12
r2  15  16
--------------------


# iloc인덱서

정수로 처리

In [29]:
print(df.iloc[:, :])
print('-' * 20)

print(df.iloc[1:3, 1])
print('-' * 20)

print(df.iloc[1:3, 1:3])
print('-' * 20)

print(df.iloc[1, 1:3])
print('-' * 20)

print(df.iloc[1, 1])
print('-' * 20)


     A   B   C   D
r1  10  11  12  13
r2  14  15  16  17
r3  18  19  20  21
--------------------
r2    15
r3    19
Name: B, dtype: int64
--------------------
     B   C
r2  15  16
r3  19  20
--------------------
B    15
C    16
Name: r2, dtype: int64
--------------------
15
--------------------


# 데이터프레임 열 갱신, 추가, 삭제

1.   갱신 : df[열이름] = 값_리스트
2.   추가 : df[새 열이름] = 값_리스트
3.   삭제 : del df[열이름] == df.drop(열이름, inplace=True, axis = 1)

In [48]:
data = {
    "2015" : np.random.randint(2222222, 9999999, size = 4),
    "2010" : np.random.randint(2222222, 9999999, size = 4),
    "2005" : np.random.randint(2222222, 9999999, size = 4),
    "2000" : np.random.randint(2222222, 9999999, size = 4),
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" : np.random.rand(4),
}
index = ["서울", "부산", "인천", "대구"]
columns = sorted(list(data.keys()), key = lambda x : x[0], reverse = True)


df = pd.DataFrame(data, index = index, columns = columns)

In [49]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100 # 열 시리즈 갱신
df["2005-2010 증가율"] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2) # 새로운 열 생성
del df['지역']

In [50]:
print(df)

       2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
서울  7524931  3432986  9776588  8011913      37.014485         -64.89
부산  5973520  2565626  3180493  7926803      56.473400         -19.33
인천  3661526  3032620  6098786  8479869      12.162226         -50.28
대구  8997921  2418274  5491644  4356082      57.962572         -55.96
