# 5. Getting Started with pandas

In [2]:
import numpy as np
np.random.seed(12345)

import pandas as pd
from pandas import Series, DataFrame

import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
pd.options.display.max_columns = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

## 1. Introduction to pandas Data Structures

### 1.1. Series  

- 동일 유형 값(NumPy 유형과 유사한 유형)과 데이터 레이블 배열(index)을 포함하는 1차원 배열형 객체

In [7]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
print(obj.array, '\n') # 값 배열 : NumPy 배열을 감싸고 있는 객체
print(obj.index) # 인덱스

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64 

RangeIndex(start=0, stop=4, step=1)


In [20]:
# 인덱스를 정의하여 Series 객체 생성
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [21]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [22]:
# 인덱스를 라벨로 사용하여 값을 선택
print(obj2["a"], '\n')
print(obj2, '\n')

obj2["d"] = 6 # 인덱스를 라벨로 사용하여 값을 할당

print(obj2[["c", "a", "d"]]) # 인덱스를 라벨 배열로 사용하여 값을 선택

-5 

d    4
b    7
a   -5
c    3
dtype: int64 

c    3
a   -5
d    6
dtype: int64


In [26]:
# Series 객체에 대해 Numpy 연산을 적용하거나 boolean 배열 기반의 필터링, 수학 연산 등을 하는 경우 값과 index 간의 관계는 그대로 유지됨.
print(obj2[obj2 > 0], '\n')
print(obj2 * 2, '\n')
print(np.exp(obj2))

d    6
b    7
c    3
dtype: int64 

d    12
b    14
a   -10
c     6
dtype: int64 

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [None]:
# Series 객체의 index:value의 관계는 dictionary와 key:value 형태로 유사함.
print("b" in obj2, '\n')
print("e" in obj2)

True 

False


In [29]:
# 따라서 dictionary를 사용하여 Series 객체를 생성할 수 있음.
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [30]:
# 반대로, Series 객체를 dictionary로 변환할 수 있음.
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [33]:
# 원하는 순서대로 인덱스를 재정렬하기 위해, dictinary의 key 형태로 인덱스를 정의하고 Series 객체를 생성할 수 있음.
# 정의한 dictionary에 포함되지 않는 인덱스는 NaN으로 처리됨.
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
# NaN 값을 확인하기 위해, isna() 메서드와 notna() 메서드를 사용할 수 있음.
# 결과는 index 개수와 같은 크기의 boolean 배열로 반환됨.
print(pd.isna(obj4), '\n')
print(pd.notna(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool 

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [36]:
# Series 객체는 그 자체로 isna() 메서드를 가지고 있음.
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [None]:
print(obj3, '\n')
print(obj4, '\n')

# Series 객체는 index를 기준으로 값이 자동으로 정렬됨.
# SQL 기준으로 보면 join 연산과 유사함.
print(obj3 + obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64 

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64 

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [39]:
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [None]:
print(obj, '\n')

# Series 객체의 index를 재정의할 수 있음.
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64 

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


### 1.2. Dataframe  

- 동일 index를 공유하는 다양한 Series 객체의 dictionary 형태

In [41]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [42]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [43]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [44]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [45]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [46]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
print(frame2, '\n')

print(frame2.columns)

   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN 

Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [49]:
# DataFrame 객체의 각 열은 Series 객체로 접근할 수 있음.
# 단, frame 내의 컬럼명이 파이썬 내 method와 동일한 경우나 컬럼명이 공백 등의 특수문자가 포함된 경우 접근 시 주의.
print(frame2["state"], '\n')
print(frame2.year)

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object 

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64


In [54]:
# loc는 라벨 기반 접근, iloc는 위치 기반 접근
print(frame2.loc[1], '\n')
print(frame2.iloc[2])

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object 

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object


### * loc vs. iloc  

- loc : 라벨 기반 인덱싱 (Label-based indexing)
- iloc : 위치 기반 인덱싱 (Position-based indexing)


In [55]:
# 예제 데이터 생성
import pandas as pd
import numpy as np

# 라벨이 있는 DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}, index=['row1', 'row2', 'row3', 'row4', 'row5'])

print("원본 데이터:")
print(df)
print("\n인덱스:", df.index.tolist())
print("컬럼:", df.columns.tolist())


원본 데이터:
      A   B    C
row1  1  10  100
row2  2  20  200
row3  3  30  300
row4  4  40  400
row5  5  50  500

인덱스: ['row1', 'row2', 'row3', 'row4', 'row5']
컬럼: ['A', 'B', 'C']


#### loc (라벨 기반 인덱싱)

- `loc`는 라벨(인덱스 이름, 컬럼 이름)을 사용하여 데이터에 접근.

In [56]:
# loc 사용 예제들
print("=== loc 사용 예제 ===")

# 1. 특정 행 선택 (라벨로)
print("1. 특정 행 선택:")
print("df.loc['row2']:")
print(df.loc['row2'])
print()

# 2. 여러 행 선택
print("2. 여러 행 선택:")
print("df.loc[['row1', 'row3', 'row5']]:")
print(df.loc[['row1', 'row3', 'row5']])
print()

# 3. 특정 컬럼 선택
print("3. 특정 컬럼 선택:")
print("df.loc[:, 'A']:")
print(df.loc[:, 'A'])
print()

# 4. 특정 행과 컬럼 선택
print("4. 특정 행과 컬럼 선택:")
print("df.loc['row2', 'B']:")
print(df.loc['row2', 'B'])
print()

# 5. 슬라이싱 (라벨 기준)
print("5. 슬라이싱 (라벨 기준):")
print("df.loc['row2':'row4', 'A':'B']:")
print(df.loc['row2':'row4', 'A':'B'])


=== loc 사용 예제 ===
1. 특정 행 선택:
df.loc['row2']:
A      2
B     20
C    200
Name: row2, dtype: int64

2. 여러 행 선택:
df.loc[['row1', 'row3', 'row5']]:
      A   B    C
row1  1  10  100
row3  3  30  300
row5  5  50  500

3. 특정 컬럼 선택:
df.loc[:, 'A']:
row1    1
row2    2
row3    3
row4    4
row5    5
Name: A, dtype: int64

4. 특정 행과 컬럼 선택:
df.loc['row2', 'B']:
20

5. 슬라이싱 (라벨 기준):
df.loc['row2':'row4', 'A':'B']:
      A   B
row2  2  20
row3  3  30
row4  4  40


#### 2. iloc (위치 기반 인덱싱)

`iloc`는 숫자 인덱스(0부터 시작하는 위치)를 사용하여 데이터에 접근.


In [57]:
# iloc 사용 예제들
print("=== iloc 사용 예제 ===")

# 1. 특정 행 선택 (위치로)
print("1. 특정 행 선택:")
print("df.iloc[1]:  # 두 번째 행 (인덱스 1)")
print(df.iloc[1])
print()

# 2. 여러 행 선택
print("2. 여러 행 선택:")
print("df.iloc[[0, 2, 4]]:  # 1번째, 3번째, 5번째 행")
print(df.iloc[[0, 2, 4]])
print()

# 3. 특정 컬럼 선택
print("3. 특정 컬럼 선택:")
print("df.iloc[:, 0]:  # 첫 번째 컬럼")
print(df.iloc[:, 0])
print()

# 4. 특정 행과 컬럼 선택
print("4. 특정 행과 컬럼 선택:")
print("df.iloc[1, 1]:  # 2번째 행, 2번째 컬럼")
print(df.iloc[1, 1])
print()

# 5. 슬라이싱 (위치 기준)
print("5. 슬라이싱 (위치 기준):")
print("df.iloc[1:4, 0:2]:  # 2~4번째 행, 1~2번째 컬럼")
print(df.iloc[1:4, 0:2])


=== iloc 사용 예제 ===
1. 특정 행 선택:
df.iloc[1]:  # 두 번째 행 (인덱스 1)
A      2
B     20
C    200
Name: row2, dtype: int64

2. 여러 행 선택:
df.iloc[[0, 2, 4]]:  # 1번째, 3번째, 5번째 행
      A   B    C
row1  1  10  100
row3  3  30  300
row5  5  50  500

3. 특정 컬럼 선택:
df.iloc[:, 0]:  # 첫 번째 컬럼
row1    1
row2    2
row3    3
row4    4
row5    5
Name: A, dtype: int64

4. 특정 행과 컬럼 선택:
df.iloc[1, 1]:  # 2번째 행, 2번째 컬럼
20

5. 슬라이싱 (위치 기준):
df.iloc[1:4, 0:2]:  # 2~4번째 행, 1~2번째 컬럼
      A   B
row2  2  20
row3  3  30
row4  4  40


#### 3. 핵심 차이점 비교  


| 구분 | loc | iloc |  
|------|-----|------|  
| **인덱싱 방식** | 라벨 기반 | 위치 기반 |  
| **사용하는 값** | 인덱스 이름, 컬럼 이름 | 숫자 인덱스 (0부터 시작) |  
| **슬라이싱** | 끝값 포함 (`'row2':'row4'`) | 끝값 제외 (`1:4`) |  
| **음수 인덱스** | 지원 안함 | 지원함 (`-1` = 마지막) |  
| **성능** | 상대적으로 느림 | 상대적으로 빠름 |


In [58]:
# 실제 비교 예제
print("=== 실제 비교 예제 ===")

# 같은 데이터를 loc와 iloc로 선택해보기
print("원본 데이터:")
print(df)
print()

print("1. 두 번째 행 선택:")
print("loc: df.loc['row2']")
print(df.loc['row2'])
print()
print("iloc: df.iloc[1]")
print(df.iloc[1])
print()

print("2. 2~4번째 행, A~B 컬럼 선택:")
print("loc: df.loc['row2':'row4', 'A':'B']")
print(df.loc['row2':'row4', 'A':'B'])
print()
print("iloc: df.iloc[1:4, 0:2]")
print(df.iloc[1:4, 0:2])
print()

print("3. 음수 인덱스 (iloc만 지원):")
print("iloc: df.iloc[-1]  # 마지막 행")
print(df.iloc[-1])
print()

# 음수 인덱스를 loc로 시도하면 에러 발생
try:
    print("loc: df.loc[-1]  # 에러 발생!")
    print(df.loc[-1])
except Exception as e:
    print(f"loc에서 음수 인덱스 사용 시 에러: {e}")


=== 실제 비교 예제 ===
원본 데이터:
      A   B    C
row1  1  10  100
row2  2  20  200
row3  3  30  300
row4  4  40  400
row5  5  50  500

1. 두 번째 행 선택:
loc: df.loc['row2']
A      2
B     20
C    200
Name: row2, dtype: int64

iloc: df.iloc[1]
A      2
B     20
C    200
Name: row2, dtype: int64

2. 2~4번째 행, A~B 컬럼 선택:
loc: df.loc['row2':'row4', 'A':'B']
      A   B
row2  2  20
row3  3  30
row4  4  40

iloc: df.iloc[1:4, 0:2]
      A   B
row2  2  20
row3  3  30
row4  4  40

3. 음수 인덱스 (iloc만 지원):
iloc: df.iloc[-1]  # 마지막 행
A      5
B     50
C    500
Name: row5, dtype: int64

loc: df.loc[-1]  # 에러 발생!
loc에서 음수 인덱스 사용 시 에러: -1


#### 4. 언제 어떤 것을 사용해야 할까?

- loc를 사용하는 경우:
    - **의미있는 라벨**이 있을 때 (예: 날짜, ID, 이름 등)
    - **가독성**이 중요할 때
    - **비즈니스 로직**에서 특정 라벨을 참조할 때
    - **슬라이싱에서 끝값을 포함**하고 싶을 때

- iloc를 사용하는 경우:
    - **위치 기반**으로 데이터를 처리할 때
    - **성능**이 중요할 때 (대용량 데이터)
    - **음수 인덱스**가 필요할 때
    - **일반적인 프로그래밍** 패턴을 사용하고 싶을 때

In [61]:
# 컬럼의 값을 scalar 값으로 할당하는 경우, 모든 행에 동일한 값이 할당됨.
frame2["debt"] = 16.5
print(frame2)
print()

# 컬럼의 값을 배열로 할당하는 경우, 배열의 크기와 행의 개수가 같아야 함.
# frame2["debt"] = np.arange(7.) # ValueError: Length of values (7) does not match length of index (6)
frame2["debt"] = np.arange(6.)
print(frame2, '\n')

   year   state  pop  debt
0  2000    Ohio  1.5  16.5
1  2001    Ohio  1.7  16.5
2  2002    Ohio  3.6  16.5
3  2001  Nevada  2.4  16.5
4  2002  Nevada  2.9  16.5
5  2003  Nevada  3.2  16.5

   year   state  pop  debt
0  2000    Ohio  1.5   0.0
1  2001    Ohio  1.7   1.0
2  2002    Ohio  3.6   2.0
3  2001  Nevada  2.4   3.0
4  2002  Nevada  2.9   4.0
5  2003  Nevada  3.2   5.0 



In [65]:
# 데이터프레임의 컬럼으로 Series 객체를 할당하는 경우, 인덱스가 일치하는 경우에만 할당됨.
# val = pd.Series([-1.2, -1.5, -1.7])

val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [71]:
# 새로운 컬럼 생성의 경우, frame2.column 형태로 접근하여 할당 불가.
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [72]:
# del 키워드를 사용하여 컬럼 삭제 가능.
# DataFrame 인덱싱에서 반환된 열은 복사본이 아닌 기본 데이터에 대한 view.
# 따라서 시리즈에 대한 모든 내부 수정은 DataFrame에 반영됨.
# Series의 복사 메소드를 사용하여 열을 명시적으로 복사할 수 있음.

del frame2["eastern"]
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [75]:
# nested dictionary를 사용하여 데이터프레임 생성 가능.
# outer dictionary의 key가 컬럼이 되고, inner dictionary의 key가 행의 라벨이 됨.
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}

In [76]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [82]:
# 전치된 데이터프레임을 재전치하는 경우, 데이터 타입이 손실될 수 있음.
# 이 경우에는 python object 배열로 변환됨.
# 모든 객체가 자료형에 상관없이 저장되기 때문에 메모리 낭비가 발생할 수 있음.
# 추가적인 연산 제한이 있을 수 있음.

# 원본 데이터프레임에 영향 없음.
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [83]:
# index를 명시하는 경우, inner dictionary의 key에서 공통적으로 존재하는 값만 포함됨.
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [80]:
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [None]:
# 데이터프레임의 인덱스와 컬럼에 이름을 부여할 수 있음.
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [None]:
# Series 객체와 달리, datafram 객체는 name 속성이 없음.
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [87]:
# 만약 2차원 배열로 변환된 데이터프레임의 자료형이 상이하다면, 모든 값이 object 타입으로 변환됨.
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 1.3. Index Objects  

- pandas의 Index 개체는 axis label(DataFrame의 column name 포함) 및 메타데이터(axis name 또는 name 등)를 보관하는 역할.  

- Series 또는 DataFrame을 구성할 때 사용하는 모든 배열 또는 기타 레이블 시퀀스는 내부적으로 인덱스로 변환됨.  

- index object method  

    | 메소드/속성 | 설명 |  
    |-------------|------|  
    | **append()** | 추가적인 Index 객체들과 연결하여 새로운 Index 생성 |  
    | **difference()** | 집합 차이를 Index로 계산 |  
    | **intersection()** | 집합 교집합을 계산 |  
    | **union()** | 집합 합집합을 계산 |  
    | **isin()** | 각 값이 전달된 컬렉션에 포함되어 있는지를 나타내는 Boolean 배열 계산 |  
    | **delete()** | Index i 위치의 요소를 삭제한 새로운 Index 계산 |  
    | **drop()** | 전달된 값들을 삭제하여 새로운 Index 계산 |  
    | **insert()** | Index i 위치에 요소를 삽입하여 새로운 Index 계산 |  
    | **is_monotonic** | 각 요소가 이전 요소보다 크거나 같으면 True 반환 |  
    | **is_unique** | Index에 중복 값이 없으면 True 반환 |  
    | **unique()** | Index에서 고유한 값들의 배열을 계산 |

In [89]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
index = obj.index
print(index)
print()

print(index[1:])

Index(['a', 'b', 'c'], dtype='object')

Index(['b', 'c'], dtype='object')


In [91]:
# index object는 ummutable 하며 유저가 직접 수정할 수 없음.
index[1] = "d"

TypeError: Index does not support mutable operations

In [90]:
labels = pd.Index(np.arange(3))
print(labels)
print()

obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2)
print()

print(obj2.index is labels)

Index([0, 1, 2], dtype='int64')

0    1.5
1   -2.5
2    0.0
dtype: float64

True


In [94]:
print(frame3)
print()

print(frame3.columns)
print()

print("Ohio" in frame3.columns)
print()

print(2003 in frame3.index)
print()

print(2002 in frame3.index)

state  Ohio  Nevada
year               
2000    1.5     NaN
2001    1.7     2.4
2002    3.6     2.9

Index(['Ohio', 'Nevada'], dtype='object', name='state')

True

False

True


In [None]:
# index object는 중복된 값을 허용.
# 중복된 값으로 데이터를 select 하는 경우, 중복된 값이 모두 반환됨.
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 2. Essential Functionality

### 2.1. Reindexing  

- series.reindex([index_list]) : 새 인덱스에 따라 데이터가 재정렬되어 인덱스에 해당하는 값이 없는 경우 NaN 할당.  

- 인덱스가 없는 경우에도 값을 넣고 싶은 경우에는 method = 'ffill' 사용 > 이전 값으로 자동 할당.  

<br>  

- Dataframe에 reindex를 적용하여 index 와 column을 모두 변환 가능함.  

<br>  

| argument | description |  
|------|------|  
| **labels** | 인덱스로 사용할 새로운 시퀀스. Index 인스턴스 또는 다른 시퀀스 형태의 Python 데이터 구조를 사용할 수 있습니다. Index는 복사 없이 그대로 사용됩니다. |  
| **index** | 새로운 인덱스 라벨로 전달된 시퀀스를 사용합니다. |  
| **columns** | 새로운 컬럼 라벨로 전달된 시퀀스를 사용합니다. |  
| **axis** | 재인덱싱할 축을 지정합니다. "index"(행) 또는 "columns"(컬럼) 중 선택할 수 있습니다. 기본값은 "index"입니다. reindex(index=new_labels) 또는 reindex(columns=new_labels)로도 사용할 수 있습니다. |  
| **method** | 보간(채우기) 방법을 지정합니다. "ffill"은 앞으로 채우고, "bfill"은 뒤로 채웁니다. |  
| **fill_value** | 재인덱싱으로 인해 누락된 데이터를 도입할 때 사용할 대체 값입니다. 결과에서 없는 라벨이 null 값을 가지도록 하려면 fill_value="missing"(기본 동작)을 사용합니다. |  
| **limit** | 앞으로 채우기 또는 뒤로 채우기 시 채울 수 있는 최대 간격 크기(요소 개수)를 지정합니다. |  
| **tolerance** | 앞으로 채우기 또는 뒤로 채우기 시 부정확한 일치에 대해 채울 수 있는 최대 간격 크기(절대 숫자 거리)를 지정합니다. |  
| **level** | MultiIndex의 특정 레벨에서 단순 Index를 일치시킵니다. 그렇지 않으면 부분 집합을 선택합니다. |  
| **copy** | True이면 새 인덱스가 이전 인덱스와 동일하더라도 항상 기본 데이터를 복사합니다. False이면 인덱스가 동일할 때 데이터를 복사하지 않습니다. |  


In [96]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [97]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [98]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
print(obj3)
print()

print(obj3.reindex(np.arange(6), method="ffill"))

0      blue
2    purple
4    yellow
dtype: object

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


In [101]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
print(frame)
print()

frame2 = frame.reindex(index=["a", "b", "c", "d"])
print(frame2)

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8

   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0


In [None]:
# reindex 메소드는 columns 속성에도 적용 가능함.
# 값이 없는 경우에는 NaN 할당.

states = ["California", "Utah", "Texas"]
frame.reindex(columns=states)

Unnamed: 0,California,Utah,Texas
a,2,,1
c,5,,4
d,8,,7


In [108]:
# axis 속성을 사용하여 처리하고자 하는 축의 기준 - index 또는 columns을 지정할 수 있음.
print(frame.reindex(states, axis="columns"))
print()

print(frame.reindex([0, 1, 'd'], axis="index"))
print()


   California  Utah  Texas
a           2   NaN      1
c           5   NaN      4
d           8   NaN      7

   Ohio  Texas  California
0   NaN    NaN         NaN
1   NaN    NaN         NaN
d   6.0    7.0         8.0



In [109]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


### 2.2. Dropping Entries from an Axis  

- drop 메소드 : 특정 axis에서 값이 제거된 새로운 객체 반환  


In [110]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
print(obj)
print()

new_obj = obj.drop("c")
print(new_obj)
print()

obj.drop(["d", "c"])

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64



a    0.0
b    1.0
e    4.0
dtype: float64

In [111]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [112]:
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [113]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [117]:
# axis = 1 : columns 축

print(data.drop("two", axis=1))
print()

print(data.drop("two", axis='columns'))

          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15

          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15


In [118]:
# axis = 0 : index 축

print(data.drop("Utah", axis=0))
print()

print(data.drop("Utah", axis='index'))

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York   12   13     14    15

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York   12   13     14    15


### 2.3. Indexing, Selection, and Filtering

In [119]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
print(obj)
print()

print(obj["b"])
print()

print(obj[1])
print()

print(obj[2:4])
print()

print(obj[["b", "a", "d"]])
print()

print(obj[[1, 3]])
print()

print(obj[obj < 2])

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

1.0

1.0

c    2.0
d    3.0
dtype: float64

b    1.0
a    0.0
d    3.0
dtype: float64

b    1.0
d    3.0
dtype: float64

a    0.0
b    1.0
dtype: float64


  print(obj[1])
  print(obj[[1, 3]])


In [None]:
# loc 사용이 권장됨
# loc : 라벨 기반 인덱싱
print(obj.loc[["b", "a", "d"]])

b    1.0
a    0.0
d    3.0
dtype: float64


In [122]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])
print(obj1)
print()

print(obj2)
print()

print(obj1[[0, 1, 2]])
print()

print(obj2[[0, 1, 2]])

2    1
0    2
1    3
dtype: int64

a    1
b    2
c    3
dtype: int64

0    2
1    3
2    1
dtype: int64

a    1
b    2
c    3
dtype: int64


  print(obj2[[0, 1, 2]])


In [None]:
# loc는 라벨 기반 인덱싱이므로 라벨이 없는 경우 오류 발생
obj2.loc[[0, 1]] # KeyError: "None of [Index([0, 1], dtype='int64')] are in the [index]"

KeyError: "None of [Index([0, 1], dtype='int64')] are in the [index]"

In [126]:
# iloc : 위치 기반 인덱싱
# loc의 경우 라벨이 없는 경우 오류 발생하지만, iloc의 경우 오류 발생하지 않음.
# 따라서, 보다 일반적으로 사용되는 인덱싱 방법.
print(obj1.iloc[[0, 1, 2]])
print()

print(obj2.iloc[[0, 1, 2]])

2    1
0    2
1    3
dtype: int64

a    1
b    2
c    3
dtype: int64


In [127]:
obj2.loc["b":"c"]

b    2
c    3
dtype: int64

In [129]:
# loc를 사용한 selection, 값 할당 가능
obj2.loc["b":"c"] = 5
obj2

a    1
b    5
c    5
dtype: int64

In [131]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
print(data)
print()

print(data["two"])
print()

print(data[["three", "one"]])

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
New York     14   12


In [132]:
print(data[:2])
print()

print(data[data["three"] > 5])

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7

          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [133]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [135]:
data[data < 5] = 0
print(data)


          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


#### 2.3.1. Selection on DataFrame with loc and iloc  

| 타입 | 설명 |  
|------|------|  
| **df[column]** | DataFrame에서 단일 컬럼 또는 컬럼 시퀀스를 선택. 특별한 편의 기능: 불린 배열(행 필터링), 슬라이스(행 슬라이싱), 또는 불린 DataFrame(특정 기준에 따라 값 설정) |  
| **df.loc[rows]** | 라벨을 사용하여 DataFrame에서 단일 행 또는 행의 부분 집합을 선택 |  
| **df.loc[:, cols]** | 라벨을 사용하여 단일 컬럼 또는 컬럼의 부분 집합을 선택 |  
| **df.loc[rows, cols]** | 라벨을 사용하여 행과 컬럼을 모두 선택 |  
| **df.iloc[rows]** | 정수 위치를 사용하여 DataFrame에서 단일 행 또는 행의 부분 집합을 선택 |  
| **df.iloc[:, cols]** | 정수 위치를 사용하여 단일 컬럼 또는 컬럼의 부분 집합을 선택 |  
| **df.iloc[rows, cols]** | 정수 위치를 사용하여 행과 컬럼을 모두 선택 |  
| **df.at[row, col]** | 행과 컬럼 라벨을 사용하여 단일 스칼라 값을 선택 |  
| **df.iat[row, col]** | 행과 컬럼 위치(정수)를 사용하여 단일 스칼라 값을 선택 |  
| **reindex method** | 라벨을 사용하여 행 또는 컬럼을 선택 |

In [None]:
print(data)
print()

print(data.loc["Colorado"]) # Series 반환

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64


In [137]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [138]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [140]:
print(data)
print()

print(data.iloc[2])
print()

print(data.iloc[2, 1])
print()

print(data.iloc[[2, 1]])
print()

print(data.iloc[2, [3, 0, 1]])
print()

print(data.iloc[[1, 2], [3, 0, 1]])

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

9

          one  two  three  four
Utah        8    9     10    11
Colorado    0    5      6     7

four    11
one      8
two      9
Name: Utah, dtype: int64

          four  one  two
Colorado     7    0    5
Utah        11    8    9


In [144]:
print(data.loc[:"Utah", "two"])
print()

print(data.iloc[:, :3][data.three > 6])

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

          one  two  three
Utah        8    9     10
New York   12   13     14


In [145]:
print(data.loc[data.three >= 2])

          one  two  three  four
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


#### 2.3.2. Integer indexing pitfalls  

- 정수형 인덱스에 대해서 코드가 사용자의 맥락을 완전히 이해하지 못할 수 있음.  

- 예를 들어 인덱스 라벨이 -1인 값을 원하는 것인지, 가장 마지막 값을 원하는 것인지 알 수 없음.  

- 따라서 iloc, loc 함수 사용을 권장함.  


In [None]:
ser = pd.Series(np.arange(3.))
print(ser)
print()

# 이렇게만 인덱스를 주는 경우, 정수형 인덱스에 대해서 코드가 사용자의 맥락을 완전히 이해하지 못할 수 있음.
# 인덱스 라벨이 -1인 값을 원하는 것인지, 가장 마지막 값을 원하는 것인지 알 수 없음.
print(ser[-1])

0    0.0
1    1.0
2    2.0
dtype: float64



KeyError: -1

In [None]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
print(ser2)
print()

# 이 경우 인덱스 라벨이 정수형이 아니기 때문에 가장 마지막 값을 원하는 것임을 알 수 있음.
# 하지만 경고를 발생시킴 : iloc 사용 권장
print(ser2[-1])

a    0.0
b    1.0
c    2.0
dtype: float64

2.0


  print(ser2[-1])


In [148]:
ser.iloc[-1]

np.float64(2.0)

In [149]:
ser[:2]

0    0.0
1    1.0
dtype: float64

#### 2.3.3. Pitfalls with chained indexing  


In [150]:
data.loc[:, "one"] = 1
print(data)
print()

data.iloc[2] = 5
print(data)
print()

data.loc[data["four"] > 5] = 3
print(data)

          one  two  three  four
Ohio        1    0      0     0
Colorado    1    5      6     7
Utah        1    9     10    11
New York    1   13     14    15

          one  two  three  four
Ohio        1    0      0     0
Colorado    1    5      6     7
Utah        5    5      5     5
New York    1   13     14    15

          one  two  three  four
Ohio        1    0      0     0
Colorado    3    3      3     3
Utah        5    5      5     5
New York    3    3      3     3


In [None]:
# 데이터 원본이 아닌 data.loc[data.three == 5]의 결과로 나오는 일시적 객체의 값을 변경하려 시도하는 것으로 인식 > SettingWithCopyWarning
data.loc[data.three == 5]["three"] = 6

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data.three == 5]["three"] = 6


In [152]:
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [153]:
data.loc[data.three == 5, "three"] = 6
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


### 2.4. Arithmetic and Data Alignment  


In [154]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])
print(s1)
print()

print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [156]:
# overlap되지 않는 인덱스에 대해서는 NaN 할당
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [157]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
print(df1)
print()

print(df2)

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0


In [159]:
# overlap되지 않는 index, column에 대해서는 NaN 할당
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [162]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})

print(df1)
print()

print(df2)
print()

# 두 객체의 인덱스가 다르기 때문에 더할 수 없음.
print(df1 + df2)

   A
0  1
1  2

   B
0  3
1  4

    A   B
0 NaN NaN
1 NaN NaN


#### 2.4.1. Arithmetic methods with fill values  

| 메소드 | 설명 |  
|-------|------|  
| **add, radd** | 덧셈(+)을 위한 메소드 |  
| **sub, rsub** | 뺄셈(-)을 위한 메소드 |  
| **div, rdiv** | 나눗셈(/)을 위한 메소드 |  
| **floordiv, rfloordiv** | 내림 나눗셈(//)을 위한 메소드 |  
| **mul, rmul** | 곱셈(*)을 위한 메소드 |  
| **pow, rpow** | 거듭제곱(**)을 위한 메소드 |

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
df2.loc[1, "b"] = np.nan

print(df1)
print()

print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [None]:
# overlap되지 않는 index, column에 대해서는 NaN 할당
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [None]:
# overlap 되지 않는 index, column에 대해서는 fill_value 값으로 할당하여 더하기 연산 진행
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [166]:
print(1 / df1)
print()

print(df1.rdiv(1))

       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909

       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909


In [168]:
# 또는, reindex를 사용하여 두 객체의 인덱스를 맞추고 fill_value 값으로 할당하여 더하기 연산 진행
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


#### 2.4.2. Operations between DataFrame and Series  


In [170]:
# Numpy 배열의 broadcasting 기능을 사용하여 상이한 차원 간의 연산 진행
arr = np.arange(12.).reshape((3, 4))
print(arr)
print()

print(arr[0])
print()

print(arr - arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]

[0. 1. 2. 3.]

[[0. 0. 0. 0.]
 [4. 4. 4. 4.]
 [8. 8. 8. 8.]]


In [None]:
# DataFrame과 Series 간의 연산 역시 위 numpy 배열 간의 연산 방식과 동일
# column 기준으로 연산 진행
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

print(frame)
print()

print(series)
print()

# 1
print(frame - series)
print()

# 2
print(frame.sub(series, axis="columns"))

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0


In [None]:
# 두 연산 대상의 index, columns가 다르기 때문에 연산 시 결과가 NaN 할당됨.
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
print(series2)
print()

print(frame + series2)

b    0
e    1
f    2
dtype: int64

          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN


In [None]:
# index 기준으로 연산 진행
series3 = frame["d"]
print(frame)
print()

print(series3)
print()

print(frame.sub(series3, axis="index"))

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0


### 2.5. Function Application and Mapping  


In [184]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
print(frame)
print()

print(np.abs(frame))

               b         d         e
Utah   -0.204708  0.478943 -0.519439
Ohio   -0.555730  1.965781  1.393406
Texas   0.092908  0.281746  0.769023
Oregon  1.246435  1.007189 -1.296221

               b         d         e
Utah    0.204708  0.478943  0.519439
Ohio    0.555730  1.965781  1.393406
Texas   0.092908  0.281746  0.769023
Oregon  1.246435  1.007189  1.296221


In [185]:
def f1(x):
    return x.max() - x.min()

frame.apply(f1)

b    1.802165
d    1.684034
e    2.689627
dtype: float64

In [None]:
print(frame.apply(f1, axis="index"))
print()

# apply across the columns
print(frame.apply(f1, axis="columns"))

b    1.802165
d    1.684034
e    2.689627
dtype: float64

Utah      0.998382
Ohio      2.521511
Texas     0.676115
Oregon    2.542656
dtype: float64


In [188]:
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.55573,0.281746,-1.296221
max,1.246435,1.965781,1.393406


In [192]:
def my_format(x):
    return f"{x:.2f}"

# print(frame.applymap(my_format)) # DataFrame.map() 함수로 통합
# print()

print(frame.map(my_format)) # applymap() 메소드와 동일한 기능

            b     d      e
Utah    -0.20  0.48  -0.52
Ohio    -0.56  1.97   1.39
Texas    0.09  0.28   0.77
Oregon   1.25  1.01  -1.30


In [193]:
frame["e"].map(my_format)

Utah      -0.52
Ohio       1.39
Texas      0.77
Oregon    -1.30
Name: e, dtype: object

### 2.6. Sorting and Ranking  

- Sorting  

    - index 기준 Sorting  
        - sort_index 메소드를 사용하여 Sorting > 정렬된 새로운 객체를 반환  

    - value 기준 Sorting  
        - sort_values 메소드를 사용하여 Sorting > 정렬된 새로운 객체를 반환  

<br>  

- Ranking  
    
    - rank() 메소드를 사용하여 순위를 매김 > 정렬된 새로운 객체를 반환   


#### 2.6.1. Sorting

In [194]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
print(obj)
print()

print(obj.sort_index())

d    0
a    1
b    2
c    3
dtype: int64

a    1
b    2
c    3
d    0
dtype: int64


In [195]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
print(frame)
print()

print(frame.sort_index())
print()

print(frame.sort_index(axis="columns"))

       d  a  b  c
three  0  1  2  3
one    4  5  6  7

       d  a  b  c
one    4  5  6  7
three  0  1  2  3

       a  b  c  d
three  1  2  3  0
one    5  6  7  4


In [196]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [197]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [None]:
# 결측치는 가장 뒤에 위치
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [199]:
# 결측치 위치 지정 가능
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

In [201]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
print(frame)
print()

print(frame.sort_values("b"))

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1

   b  a
2 -3  0
3  2  1
0  4  0
1  7  1


In [202]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


#### 2.6.2. Ranking  

| 메소드 | 설명 |  
|-------|------|  
| **"average"** | 기본값: 동일한 그룹의 각 항목에 평균 순위를 할당 |  
| **"min"** | 동일한 그룹에 대해 최소 순위를 사용 |  
| **"max"** | 동일한 그룹에 대해 최대 순위를 사용 |  
| **"first"** | 동일한 그룹에 대해 데이터에서 값이 나타나는 순서대로 순위를 할당 |  
| **"dense"** | 동일한 그룹이 있을 때 최소 순위를 부여하되, 다음 그룹은 연속된 순위로 부여 |

In [204]:
# 가장 낮은 값부터 시작하여 1부터 배열의 유효한 데이터 포인트 수까지 할당
# 동일한 값에 대해서는 평균 순위 할당

obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [None]:
# 가장 낮은 값부터 시작하여 1부터 배열의 유효한 데이터 포인트 수까지 할당
# 동일한 값에 대해서는 데이터에서 관측된 순서부터(인덱스가 낮은 순서대로) 낮은 순위 할당
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [206]:
# 내림차순 정렬
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [207]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
print(frame)
print()

print(frame.rank(axis="columns"))

     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5

     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0


### 2.7. Axis Indexes with Duplicate Labels  

- index 요소가 중복되는 경우, Sereis나 Dataframe 모두 중복된 인덱스로 접근 시 복수의 출력값을 가져옴.

In [3]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [4]:
obj.index.is_unique

False

In [7]:
print(obj["a"])
print()

print(obj["c"])

a    0
a    1
dtype: int64

4


In [8]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                  index=["a", "a", "b", "b", "c"])
print(df)
print()

print(df.loc["b"])
print()

print(df.loc["c"])

          0         1         2
a -0.204708  0.478943 -0.519439
a -0.555730  1.965781  1.393406
b  0.092908  0.281746  0.769023
b  1.246435  1.007189 -1.296221
c  0.274992  0.228913  1.352917

          0         1         2
b  0.092908  0.281746  0.769023
b  1.246435  1.007189 -1.296221

0    0.274992
1    0.228913
2    1.352917
Name: c, dtype: float64


## 3. Summarizing and Computing Descriptive Statistics  

| 메소드 | 설명 |  
|-------|------|  
| **count** | NA가 아닌 값의 개수 |  
| **describe** | 요약 통계의 집합을 계산 |  
| **min, max** | 최솟값과 최댓값을 계산 |  
| **argmin, argmax** | 최솟값 또는 최댓값이 얻어지는 인덱스 위치(정수)를 계산. DataFrame 객체에서는 사용할 수 없음 |  
| **idxmin, idxmax** | 최솟값 또는 최댓값이 얻어지는 인덱스 라벨을 계산 |  
| **quantile** | 0부터 1까지의 샘플 분위수를 계산 (기본값: 0.5) |  
| **sum** | 값들의 합계 |  
| **mean** | 값들의 평균 |  
| **median** | 값들의 산술 중앙값 (50% 분위수) |  
| **mad** | 평균값으로부터의 평균 절대 편차 |  
| **prod** | 모든 값들의 곱 |  
| **var** | 값들의 샘플 분산 |  
| **std** | 값들의 샘플 표준편차 |  
| **skew** | 값들의 샘플 왜도 (3차 모멘트) |  
| **kurt** | 값들의 샘플 첨도 (4차 모멘트) |  
| **cumsum** | 값들의 누적 합계 |  
| **cummin, cummax** | 값들의 누적 최솟값 또는 최댓값을 각각 계산 |  
| **cumprod** | 값들의 누적 곱 |  
| **diff** | 첫 번째 산술 차분을 계산 (시계열에 유용) |  
| **pct_change** | 백분율 변화를 계산 |

In [9]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


### 집계 방향 기준 정리  

- axis=0 (열 방향) : "0"은 세로축을 의미 → 각 열의 합계  
- axis=1 (행 방향) : "1"은 가로축을 의미 → 각 행의 합계  
- 기본값 : `df.sum()`은 `df.sum(axis=0)`과 동일  

<br>  


| 구분 | df.sum() | df.sum(axis="columns") |  
|------|----------|----------------------|  
| 기본값 | axis=0 | axis=1 |  
| 방향 | 열 방향 (세로) | 행 방향 (가로) |  
| 결과 | 각 컬럼의 합계 | 각 행의 합계 |  
| 결과 길이 | 컬럼 수와 동일 | 행 수와 동일 |  
| 결과 타입 | Series | Series |  

In [None]:
# 열 방향 합계
# 결과는 Series 형태로 반환
# NaN 값은 무시하고 연산
df.sum()

one    9.25
two   -5.80
dtype: float64

In [None]:
# 행 방향 합계
# df.sum(axis=1) 와 동일
# 모든 값이 결측치인 경우 결과는 0
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [None]:
print(df.sum(axis="index", skipna=True)) # 결측치를 무시하고 연산
print()
print(df.sum(axis="index", skipna=False)) # 결측치가 하나라도 있으면 결과는 NaN
print()

print(df.sum(axis="columns", skipna=True)) # 결측치를 무시하고 연산, 모두 결측치인 경우 결과는 0
print()
print(df.sum(axis="columns", skipna=False)) # 결측치가 하나라도 있으면 결과는 NaN

one    9.25
two   -5.80
dtype: float64

one   NaN
two   NaN
dtype: float64

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64


In [None]:
# 하나라도 값이 있으면 연산 가능, 모두 결측치인 경우 결과는 NaN
df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [19]:
# 컬럼 방향으로 최대값이 존재하는 인덱스 반환
print(df.idxmax())
print()

# 컬럼 방향으로 최소값이 존재하는 인덱스 반환
print(df.idxmin())

one    b
two    d
dtype: object

one    d
two    b
dtype: object


In [None]:
# 컬럼 방향으로 누적 합계 반환
# 결측치는 무시하고 연산
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [None]:
# 컬럼 방향으로 기술 통계량 반환
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [23]:
# 대상이 범주형 데이터인 경우, 빈도 관련 집계량 반환
obj = pd.Series(["a", "a", "b", "c"] * 4)
print(obj)
print()

obj.describe()

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object



count     16
unique     3
top        a
freq       8
dtype: object

### 3.1. Correlation and Covariance  


In [24]:
price = pd.read_pickle("examples/yahoo_price.pkl")
volume = pd.read_pickle("examples/yahoo_volume.pkl")

In [26]:
print(price.head())
print()

print(volume.head())

                 AAPL        GOOG         IBM       MSFT
Date                                                    
2010-01-04  27.990226  313.062468  113.304536  25.884104
2010-01-05  28.038618  311.683844  111.935822  25.892466
2010-01-06  27.592626  303.826685  111.208683  25.733566
2010-01-07  27.541619  296.753749  110.823732  25.465944
2010-01-08  27.724725  300.709808  111.935822  25.641571

                 AAPL      GOOG      IBM      MSFT
Date                                              
2010-01-04  123432400   3927000  6155300  38409100
2010-01-05  150476200   6031900  6841400  49749600
2010-01-06  138040000   7987100  5605300  58182400
2010-01-07  119282800  12876600  5840600  50559700
2010-01-08  111902700   9483900  4197200  51197400


In [None]:
# pct_change() 메소드 : 비율 변화를 계산
# pct_change = (현재값 - 이전값) / 이전값
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


In [28]:
# corr() 메소드 : 두 Series 객체 간의 상관계수 계산
# corr() = (X - X의 평균) * (Y - Y의 평균) / (X의 표준편차 * Y의 표준편차)
print(returns["MSFT"].corr(returns["IBM"]))
print()

# cov() 메소드 : 두 Series 객체 간의 공분산 계산
# cov() = (X - X의 평균) * (Y - Y의 평균) / (X의 표준편차 * Y의 표준편차)
print(returns["MSFT"].cov(returns["IBM"]))

0.49976361144151166

8.870655479703549e-05


In [30]:
print(returns.corr())
print()

print(returns.cov())

          AAPL      GOOG       IBM      MSFT
AAPL  1.000000  0.407919  0.386817  0.389695
GOOG  0.407919  1.000000  0.405099  0.465919
IBM   0.386817  0.405099  1.000000  0.499764
MSFT  0.389695  0.465919  0.499764  1.000000

          AAPL      GOOG       IBM      MSFT
AAPL  0.000277  0.000107  0.000078  0.000095
GOOG  0.000107  0.000251  0.000078  0.000108
IBM   0.000078  0.000078  0.000146  0.000089
MSFT  0.000095  0.000108  0.000089  0.000215


In [None]:
# corrwith() 메소드 : 두 Series 객체 간의 상관계수 계산
# 상이한 DataFrame 내에 있는 series 객체에 대해서도 상관계수 계산 가능
# corrwith() = (X - X의 평균) * (Y - Y의 평균) / (X의 표준편차 * Y의 표준편차)
print(returns.corrwith(returns["IBM"]))
print()

print(returns.corrwith(volume))
print()

# 두 객체 간의 상관계수 계산, 가로 방향으로 계산
print(returns.corrwith(volume, axis=1))

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

Date
2010-01-04         NaN
2010-01-05    0.737298
2010-01-06    0.017069
2010-01-07    0.507614
2010-01-08   -0.779646
                ...   
2016-10-17   -0.881606
2016-10-18   -0.303369
2016-10-19   -0.970723
2016-10-20   -0.304414
2016-10-21    0.927824
Length: 1714, dtype: float64


### 3.2. Unique Values, Value Counts, and Membership  


In [34]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

In [40]:
# unique() 메소드 : 고유한 값 반환
# 기본적으로 정렬된 결과를 보여주지는 않음. 정렬 필요 시 unique.sort() 사용
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [37]:
# value_counts() 메소드 : 고유한 값의 빈도 반환
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [41]:
pd.value_counts(obj.to_numpy(), sort=False)

  pd.value_counts(obj.to_numpy(), sort=False)


c    3
a    3
d    1
b    2
Name: count, dtype: int64

In [43]:
print(obj)
print()

# isin() 메소드 : series 객체 내에 특정 값이 포함되어 있는지 확인
mask = obj.isin(["b", "c"])
print(mask)
print()

# true인 경우만 추출
print(obj[mask])

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

0    c
5    b
6    b
7    c
8    c
dtype: object


In [45]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a", "z"])
unique_vals = pd.Series(["c", "b", "a"])

print(pd.Index(unique_vals)) # unique_vals 객체를 index로 변환
print()

indices = pd.Index(unique_vals).get_indexer(to_match) # to_match 객체 내에 unique_vals 객체가 있는지 확인
print(indices) # 있는 경우 unique_vals 객체에서의 해당 값의 인덱스 반환, 없는 경우 -1 반환

Index(['c', 'b', 'a'], dtype='object')

[ 0  2  1  1  0  2 -1]


In [None]:
# 히스토그램 그리기
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
print(data)
print()

print(data["Qu1"].value_counts().sort_index())
print()

# 경고 발생
# FutureWarning: pandas.value_counts is deprecated and will be removed in a future version. Use pd.Series(obj).value_counts() instead.
result = data.apply(pd.value_counts).fillna(0)
print(result)
print()


   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4

Qu1
1    1
3    2
4    2
Name: count, dtype: int64

   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0



  result = data.apply(pd.value_counts).fillna(0)


In [None]:
# 방법 1: apply를 사용하여 모든 컬럼에 한번에 적용
# apply가 데이터프레임의 각 컬럼을 series로 변환하여 함수에 전달
# 함수의 반환값은 각 컬럼의 value_counts를 포함하는 새로운 데이터프레임

# apply는 대략 다음과 같이 동작
# results = {}
# for col in data.columns:  # 이터레이션
#     series = data[col]     # Series로 변환
#     result = func(series)  # 함수 적용
#     results[col] = result # 결과 수집
# return pd.DataFrame(results)  # 새 DataFrame 생성

# ✅ 올바른 방법 (경고 없음)
def value_counts_func(series):
    return pd.Series(series).value_counts()

result = data.apply(value_counts_func).fillna(0)
print(result)


   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


In [None]:
# 방법 2: 람다 함수를 사용한 간단한 방법

result_lambda = data.apply(lambda x: pd.Series(x).value_counts()).fillna(0)
print(result_lambda)


   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


In [60]:
# 방법 3: 특정 컬럼만 선택해서 적용

# 특정 컬럼들만 선택
selected_cols = ["Qu1", "Qu2"]
result_selected = data[selected_cols].apply(lambda x: pd.Series(x).value_counts()).fillna(0)
print("선택된 컬럼들만:")
print(result_selected)

# 특정 컬럼 제외
excluded_cols = data.columns.difference(["Qu3"])
result_excluded = data[excluded_cols].apply(lambda x: pd.Series(x).value_counts()).fillna(0)
print("\nQu3 컬럼 제외:")
print(result_excluded)


선택된 컬럼들만:
   Qu1  Qu2
1  1.0  1.0
2  0.0  2.0
3  2.0  2.0
4  2.0  0.0

Qu3 컬럼 제외:
   Qu1  Qu2
1  1.0  1.0
2  0.0  2.0
3  2.0  2.0
4  2.0  0.0


In [63]:
# DataFrame.value_counts 메서드도 있지만 이는 DataFrame의 각 행을 튜플로 간주하여 개수를 계산하여 각 개별 쌍의 발생 횟수를 카운트

data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
print(data)
print()

print(data.value_counts())

   a  b
0  1  0
1  1  0
2  1  1
3  2  0
4  2  0

a  b
1  0    2
2  0    2
1  1    1
Name: count, dtype: int64
