In [1]:
import pandas as pd
import numpy as np

# DataFrame에서 인덱스를 사용해 특정 열 또는 행 지정하기.
# 대괄호를 사용해 컬럼명을 지정하거나 슬라이싱 문법으로 행 범위 선택 가능.

# 컬럼 선택 문법 (단일 선택 시 Series, 다중 선택 시 DataFrame)
# df['column_name']         # Series를 반환함.
# df(['col1', 'col2'])      # DataFrame을 반환함.

# 행 슬라이싱 문법
# df[start:end]             # 'start'부터 'end - 1'값 까지 반환.

In [2]:
# 단일 컬럼 선택 예제 코드
sales_data = pd.DataFrame({
    'product': ['노트북', '마우스', '키보드', '모니터', '스피커'],
    'price': [1200000, 25000, 80000, 350000, 120000],
    'quantity': [10, 50, 30, 15, 25],
    'category': ['전자제품', '주변기기', '주변기기', '전자제품', '주변기기']
})

product_series = sales_data['product']          # product column만 단일로 선택. index 번호도 같이 출력되는구나. [] 한 겹으로 감싸기.
print(product_series)

0    노트북
1    마우스
2    키보드
3    모니터
4    스피커
Name: product, dtype: object


In [3]:
# 다중 컬럼 선택 예제 코드
price_quantity = sales_data[['product', 'price', 'quantity']]       # 여러 column을 선택할 때는 [[]] 두 겹 사용하기.
print(price_quantity)

  product    price  quantity
0     노트북  1200000        10
1     마우스    25000        50
2     키보드    80000        30
3     모니터   350000        15
4     스피커   120000        25


In [4]:
# 행 슬라이싱 사용하기.
firtothr = sales_data[0:3]      # 실제로 0, 1, 2행 3개가 선택됨.
print(firtothr)             # column명과 index명이 동시에 출력됨.

  product    price  quantity category
0     노트북  1200000        10     전자제품
1     마우스    25000        50     주변기기
2     키보드    80000        30     주변기기


In [5]:
# 조건부 선택 (Boolean Indexing)
# 특정 조건을 만족하는 데이터만 필터링해 추출할 때 사용.

# 기본 문법
# df[condition]     # 조건을 만족하는 행 선택. condition 위치에조건 입력하기. True or False 중 택.
# df.query('condition_string')      # 조건을 나타내는 문자열 사용.

In [6]:
# Boolean Indexing 사용하기.
over_10000 = sales_data[sales_data['price'] >= 10000]           # price column의 값들 중 10000 이상인 것을 선택.
print(over_10000)

  product    price  quantity category
0     노트북  1200000        10     전자제품
1     마우스    25000        50     주변기기
2     키보드    80000        30     주변기기
3     모니터   350000        15     전자제품
4     스피커   120000        25     주변기기


In [7]:
# query method 사용.
high_quan = sales_data.query('quantity > 20')           # quantity column의 값이 20을 초과하는 행을 선택.
print(high_quan)

  product   price  quantity category
1     마우스   25000        50     주변기기
2     키보드   80000        30     주변기기
4     스피커  120000        25     주변기기


In [8]:
# loc과 iloc을 활용한 라벨/위치 기반 선택
# loc: 인덱스와 컬럼의 라벨을 기준으로 데이터를 선택함.
# iloc: 정수 위치를 기준으로 선택함.
# 특정 행과 컬럼의 교집합 영역을 정확히 지정해 데이터를 추출할 때 사용.

# 기본 문법
# df.loc[row_indexer, column_indexer]       # label 기반 선택 방법
# df.iloc[row_indexer, column_indexer]      # 정수 위치 기반 선택 방법.
# row_indexer: 행 선택자(라벨명, 슬라이스, 리스트, 불린 마스크)
# column_indexer: 컬럼 선택자(컬럼명, 슬라이스, 리스트)

In [9]:
# index 명을 설정하기.
sales_data_indexed = sales_data.set_index('product')
print(sales_data_indexed)

           price  quantity category
product                            
노트북      1200000        10     전자제품
마우스        25000        50     주변기기
키보드        80000        30     주변기기
모니터       350000        15     전자제품
스피커       120000        25     주변기기


In [10]:
# Pandas의 '.set_index' method
# 기존 컬럼을 행 인덱스로 승격시키는 method.
# index는 loc 기반 조회/정렬/조인/그룹핑/시계열 처리에서 핵심 축이 되기 때문에 데이터 파이프라인에서 정말 자주 사용함.

# 기본 구조
# DF.set_index(keys, *, drop=True, append=False, inplace=False, verify_integrity=False)
# DataFrame의 index를 기존 컬럼 또는 동일 길이의 배열로 설정함.
# 기본적으로 원본을 유지하면서 새 DF를 반환하고, 'inplace=True'면 원본을 수정함. 

# 왜 index를 바꾸는가?
# Pandas에서 index는 단순 '행 번호'가 아닌 '정렬/정합/라벨 기반 선택'의 기준이 되기 때문.
# (라벨 기반 조회) 'df.loc[키]' / 'df.loc[(키1, 키2)] (Multiindex)
# 'reset_index()'는 'set_index'의 역연산에 가깝게 동작함.
# 'reset_index()'는 index를 컬럼으로 내리고 기본 정수 인덱스로 다시 복구함.
# 'DataFrame.join()'은 index 또는 key 컬럼으로 결합을 수행함. (key보다는 index join이 더 자연스러움.)

# parameter 01: keys
# index로 올릴 대상.
# 컬럼 이름 1개, 컬럼 이름 리스트, 계산된 결과(array, Series, Index 등)를 사용 가능.
# 단, 계산된 결과는 길이가 행 수와 동일해야 함.

# parameter 02: drop
# 기본값은 True
# True: index로 사용한 열을 본문 컬럼에서 제거함.
# False: index로도 사용하고 컬럼에도 사용함. (ETL에서 디버깅과 가독성 때문에 가끔 유용함.)

# parameter 03: append
# 기본값은 False
# False: 기존 index를 교체함.
# True: 기존 index에 새 key를 추가해 Multiindex로 확장함.

# parameter 04: verify_integrity
# 기본값은 False
# True: 새 index에 중복된 key가 있는지 즉시 검사하고, 존재하면 error를 발생.
# False: 중복된 key 유무를 검사하지 않음.
# 중복 검사 비용이 발생할 수 있어서 기본이 False.

# parameter 05: inplace
# 기본값은 False
# True: 원본 객체를 수정함.
# False: 원본 객체를 수정하지 않음.
# Pandas는 Copy-on-Write 방향으로 가고 있어서 True가 항상 진짜 메모리 복사 없이 동작한다고 보긴 어렵다는 설계 논의가 있음.
# 그래서 실무에선 보통 할당(다시 대입) 스타일을 더 추구함.

In [11]:
# .set_index 예제 코드 01
# 단일 컬럼을 index로 변환.
df01 = pd.DataFrame({
    'id': [101, 102, 103, 104],
    'name': ['Kim', 'Lee', 'Park', 'Choi'],
    'dept': ['DS', 'DS', 'HR', 'HR'],
    'score': [90, 85, 90, 70],
    'date': ["2025-12-29", "2025-12-29", "2025-12-30", "2025-12-31"]
})

df_idx = df01.set_index("id")       # id 컬럼을 index로 설정.
print(df_idx)

     name dept  score        date
id                               
101   Kim   DS     90  2025-12-29
102   Lee   DS     85  2025-12-29
103  Park   HR     90  2025-12-30
104  Choi   HR     70  2025-12-31


In [12]:
# .set_index 예제 코드 02
# 'drop=False' parameter를 사용해 열도 보존하기.
df_keep = df01.set_index("id", drop=False)      # drop parameter의 값을 False로 설정해 기존 id 열을 보존시킴과 동시에 index로 설정하기.
print(df_keep)

      id  name dept  score        date
id                                    
101  101   Kim   DS     90  2025-12-29
102  102   Lee   DS     85  2025-12-29
103  103  Park   HR     90  2025-12-30
104  104  Choi   HR     70  2025-12-31


In [13]:
# .set_index 예제 코드 03
# 여러 컬럼을 사용해 Multiindex를 만들기.
df_mi = df01.set_index(["dept", "id"])      # []로 여러 개의 행을 감싸기. 앞에 있는 컬럼이 제일 바깥쪽의 index로 설정됨.
print(df_mi)

# Multiindex 조회하기.
print(f"\n{df_mi.loc["DS"]}")               # 1레벨(dept)로 슬라이싱.
print(f"\n{df_mi.loc[("HR", 104)]}")        # (dept, id) 튜플로 두 조건을 모두 만족하는 결과값 출력.

          name  score        date
dept id                          
DS   101   Kim     90  2025-12-29
     102   Lee     85  2025-12-29
HR   103  Park     90  2025-12-30
     104  Choi     70  2025-12-31

    name  score        date
id                         
101  Kim     90  2025-12-29
102  Lee     85  2025-12-29

name           Choi
score            70
date     2025-12-31
Name: (HR, 104), dtype: object


In [14]:
# .set_index 예제 코드 04
# 'append=True' parameter를 사용해 기존 인덱스에 추가하기
df_append = df01.set_index("id").set_index("dept", append=True)     # id 컬럼을 index로 먼저 설정하고, 추가로 .set_index를 사용해 dept 컬럼도 인덱스로 추가. 이 때 dept를 뒤에 추가하기 위해 'append=True' 값을 사용.
print(df_append)

          name  score        date
id  dept                         
101 DS     Kim     90  2025-12-29
102 DS     Lee     85  2025-12-29
103 HR    Park     90  2025-12-30
104 HR    Choi     70  2025-12-31


In [15]:
# .set_index 예제 코드 05
# 계산된 배열 및 Series로 index 만들기.
df_dateidx = df01.set_index(pd.to_datetime(df01["date"]))       # pd.to_datetime method를 사용해 문자 및 숫자를 시간 형식의 배열로 변환. 
print(df_dateidx)

# .set_index의 key에 컬럼 이름이 아닌 계산된 Series를 부여.
# 그래서 'drop=True'여도 원본의 'date' 컬럼이 그대로 유지됨. 이는 컬럼을 index로 지정한 것이 아니기 때문.
# 'keys'가 'label' 또는 'array-like'가 될 수 있다는 규칙을 이용.

             id  name dept  score        date
date                                         
2025-12-29  101   Kim   DS     90  2025-12-29
2025-12-29  102   Lee   DS     85  2025-12-29
2025-12-30  103  Park   HR     90  2025-12-30
2025-12-31  104  Choi   HR     70  2025-12-31


In [16]:
# .set_index 예제 코드 06
# 'verify_integrity=True'로 중복 인덱스 즉시 차단하기.
try:
    df01.set_index('dept', verify_integrity=True)
except Exception as e:
    print(type(e).__name__, e)

# dept 컬럼에 DS와 HR이 각각 2개씩 들어있어 중복이기 때문에, ValueError가 발생함.
# 중복 index가 위험한 pipeline에서 아주 유용함.

ValueError Index has duplicate keys: Index(['DS', 'HR'], dtype='object', name='dept')


In [17]:
# .set_index method 사용 후 자주 이어지는 method들
# .reset_index(): index를 다시 컬럼으로 강등
# .set_index()의 역연산을 하는 method.
# Multiindex의 일부 레벨만 내리는 것도 가능.
df_back = df_mi.reset_index()               # multiindex로 적용한 dept와 id 컬럼을 다시 일반 컬럼으로 변환.
print(df_back)

# .sort_index(): index를 정렬하기.
df02 = df01.set_index("id").sort_index()    # index를 오름차순으로 정렬. (defalut)
print(f"\n{df02}")

  dept   id  name  score        date
0   DS  101   Kim     90  2025-12-29
1   DS  102   Lee     85  2025-12-29
2   HR  103  Park     90  2025-12-30
3   HR  104  Choi     70  2025-12-31

     name dept  score        date
id                               
101   Kim   DS     90  2025-12-29
102   Lee   DS     85  2025-12-29
103  Park   HR     90  2025-12-30
104  Choi   HR     70  2025-12-31


In [18]:
# 실무에서 .set_index가 활용되는 case 01
# index 기반의 join을 깔끔하게 진행.
# df.join()은 index 또는 key 컬럼 기반의 결합을 지원함. key 컬럼을 인덱스로 올려놓고 join하면 코드가 깔끔해짐.
# left = df01.set_index("id")
# right = df01.set_index("id")
# out = left.join(right)

# print(out)

# 위 코드는 error가 발생함. 완전히 동일한 대상끼리 join을 했기 때문.
# join으로 'left의 컬럼 + right의 컬럼'을 할 때 같은 이름이 중복되어 결과 DF의 칼럼명이 충돌함.
# 해결 방법 01. 'lsuffix' 또는 'rsuffix' 지정.
# 겹치는 컬럼명에 자동으로 접미사가 붙어 충돌이 사라짐.
left = df01.set_index("id")
right = df02
out = left.join(right, lsuffix="_L", rsuffix="_R")

print(out)

# 해결 방법 02. right에서 추가로 붙일 컬럼만 선택하기.
left = df01.set_index("id")
right = df02[["date"]]      # 'df02.loc[:, ["date"]]'로도 사용 가능.
out = left.join(right, rsuffix="_R")        # 겹치는 부분이 없기 때문에 suffix 사용이 필수는 아님.

print(f"\n{out}")

# 해결 방법 03. merge()로 명시적 join 후 'suffixes' 사용
# index 올림 및 내림이 번거롭거나, Key 컬럼 기반 병합을 더 명확히 하고 싶을 때 merge()를 사용.
out = df01.merge(df02.reset_index(), on="id", how="left", suffixes=("_L", "_R"))
print(f"\n{out}")

    name_L dept_L  score_L      date_L name_R dept_R  score_R      date_R
id                                                                       
101    Kim     DS       90  2025-12-29    Kim     DS       90  2025-12-29
102    Lee     DS       85  2025-12-29    Lee     DS       85  2025-12-29
103   Park     HR       90  2025-12-30   Park     HR       90  2025-12-30
104   Choi     HR       70  2025-12-31   Choi     HR       70  2025-12-31

     name dept  score        date      date_R
id                                           
101   Kim   DS     90  2025-12-29  2025-12-29
102   Lee   DS     85  2025-12-29  2025-12-29
103  Park   HR     90  2025-12-30  2025-12-30
104  Choi   HR     70  2025-12-31  2025-12-31

    id name_L dept_L  score_L      date_L name_R dept_R  score_R      date_R
0  101    Kim     DS       90  2025-12-29    Kim     DS       90  2025-12-29
1  102    Lee     DS       85  2025-12-29    Lee     DS       85  2025-12-29
2  103   Park     HR       90  2025-12-30   Par

In [19]:
# 실제 다른 DF를 사용해 join을 하는 코드
df01 = pd.DataFrame({
    'id': [101, 102, 103, 104],
    'name': ["Kim", "Lee", "Park", "Choi"],
    'dept': ["DS", "DS", "HR", "HR"],
    'score': [90, 85, 90, 70],
    'date': ["2025-12-29", "2025-12-29", "2025-12-30", "2025-12-31"]
})

df02 = pd.DataFrame({
    "id": [101, 103, 104, 105],
    "email": ["kim@corp.com", "park@corp.com", "choi@corp.com", "new@corp.com"],
    "risk_score": [0.12, 0.35, 0.80, 0.50],
    "last_login": ["2025-12-30", "2025-12-31", "2025-12-31", "2025-12-31"]
})

left = df01.set_index("id")
right = df02.set_index("id")
out = left.join(right, how='left', validate='one_to_one')       # validate는 join key가 양쪽에서 유일한지 확인하는 안전 장치.

print(out)

# 'how=left'를 사용해 df01의 모든 id가 유지됨.
# df02에 없는 102는 오른쪽 컬럼들이 NaN으로 채워짐.
# df02에만 있는 105는 left join 방식이라서 결과에 나오지 않음.

     name dept  score        date          email  risk_score  last_login
id                                                                      
101   Kim   DS     90  2025-12-29   kim@corp.com        0.12  2025-12-30
102   Lee   DS     85  2025-12-29            NaN         NaN         NaN
103  Park   HR     90  2025-12-30  park@corp.com        0.35  2025-12-31
104  Choi   HR     70  2025-12-31  choi@corp.com        0.80  2025-12-31


In [20]:
# 실무에서 .set_index가 활용되는 case 02
# 계층형 집계(부서 -> 사번)용 Multiindex 설계
# 부서, 날짜, 환자 ID 등 계층이 있는 key는 Multiindex로 모델링하기 좋음.

In [21]:
# 실무에서 .set_index가 활용되는 case 03
# pipeline에서 inplace 대신 '재대입'을 기본값으로 사용할 때.
# Pandas는 'Copy-On-Write' 방향이라 'Inplace=True'가 메모리 및 성능을 항상 보장하진 않음.
# 그래서 실무에서는 아래와 같이 새 변수에 할당하는 방식으로 사용함.
# df = df.set_index("id")

In [22]:
print(f"{df01}")
print(f"\n{df02}")
print(f"\n{df01.columns}")
print(f"\n{df02.columns}")
print(f"\n{df01['id'].duplicated().any()}")

    id  name dept  score        date
0  101   Kim   DS     90  2025-12-29
1  102   Lee   DS     85  2025-12-29
2  103  Park   HR     90  2025-12-30
3  104  Choi   HR     70  2025-12-31

    id          email  risk_score  last_login
0  101   kim@corp.com        0.12  2025-12-30
1  103  park@corp.com        0.35  2025-12-31
2  104  choi@corp.com        0.80  2025-12-31
3  105   new@corp.com        0.50  2025-12-31

Index(['id', 'name', 'dept', 'score', 'date'], dtype='object')

Index(['id', 'email', 'risk_score', 'last_login'], dtype='object')

False


In [23]:
# 다시 교재의 내용으로 복귀
# loc: 라벨 기반으로 선택하기.
notebook_info = sales_data_indexed.loc['노트북', 'price']

print(f"노트북 가격: {notebook_info}")

노트북 가격: 1200000


In [24]:
# loc으로 여러 데이터를 선택하기.
selected_data = sales_data_indexed.loc[['노트북', '모니터'], ['price', 'quantity']]

print(f"{selected_data}")

           price  quantity
product                   
노트북      1200000        10
모니터       350000        15


In [25]:
# iloc 사용
# 라벨이 아닌 위치 기반으로 선택.
positional_data = sales_data.iloc[[0, 2], [1, 2]]       # 앞의 []는 행, 뒤의 []는 컬럼. 둘 다 index 값을 사용.
print(positional_data)

     price  quantity
0  1200000        10
2    80000        30


In [26]:
# 다중 조건 선택
# 여러 조건을 동시에 적용해 더 정교한 데이터 필터링을 수행할 때 사용.
# 각 조건을 괄호로 묶고, 논리 연산자를 사용해 조건들을 결합함.

# 기본 문법
# df[(condition01) & (condition02)]         # AND 조건
# df[(condition01) | (condition02)]         # OR 조건
# df[~condition]                            # NOT 조건
# 반환값은 DataFrame

In [27]:
# 다중 조건 선택 예제 코드 01
# 가격이 50000원 이상이면서 수량이 20개 이상인 제품 추출
filter_product = sales_data[(sales_data['price'] >= 50000) & (sales_data['quantity'] >= 20)]

print(f"가격이 5만원 이상이면서 수량이 20개인 제품 정보: \n{filter_product}")

가격이 5만원 이상이면서 수량이 20개인 제품 정보: 
  product   price  quantity category
2     키보드   80000        30     주변기기
4     스피커  120000        25     주변기기


In [28]:
# 다중 조건 선택 예제 코드 02
# 전자제품이거나 가격이 3만원 이하인 제품의 정보 추출
filter02 = sales_data[(sales_data['category'] == '전자제품') | (sales_data['price'] <= 30000)]

print(f"전자제품이거나 가격이 3만원 이하인 제품의 정보: \n{filter02}")

전자제품이거나 가격이 3만원 이하인 제품의 정보: 
  product    price  quantity category
0     노트북  1200000        10     전자제품
1     마우스    25000        50     주변기기
3     모니터   350000        15     전자제품


In [29]:
# 그룹 별로 데이터 선택하기.
# 데이터를 특정 기준으로 그룹화한 후 특정 그룹만 선택하거나, 그룹별로 계산된 결과를 원본 데이터에 적용할 때 사용.
# 그룹화는 데이터 분석에서 카테고리별, 지역별, 시간대별 등 특정 기준으로 데이터를 나눠 분석할 때 필수적인 기법.

# 기본 문법
# df.groupby('column').get_group('group_value')             # 특정 그룹을 선택.
# df.groupby('column')['target_column'].transform(func)     # 그룹 별로 변환.

# parameter 01. column
# 그룹화를 할 기준이 되는 컬럼명

# parameter 02. group_value
# 선택할 그룹의 값.

# parameter 03. target_column
# 변환할 대상 컬럼.

# parameter 04. func
# 적용할 함수

# .get_group() method는 특정 그룹에 속하는 모든 행을 DataFrame 형태로 반환함.
# .transform() method는 원본 DataFrame과 동일한 크기의 Series를 반환하고, 각 행에 해당 그룹의 계산 결과가 할당됨.

In [30]:
# 그룹 별 데이터 선택 예제 코드 01
# '.get_group()'으로 카테고리별 그룹화를 진행한 후 전자제품 그룹만 선택하기.
category_group = sales_data.groupby('category').get_group('전자제품')

print(f"카테고리별 그룹화 후 전자제품만 추출하기: \n{category_group}")

카테고리별 그룹화 후 전자제품만 추출하기: 
  product    price  quantity category
0     노트북  1200000        10     전자제품
3     모니터   350000        15     전자제품


In [31]:
# 그룹 별 데이터 선택 예제 코드 02
# '.transform' method를 사용해 각 카테고리별 평균 가격을 원본 데이터에 추가하기.
sales_data['avg_price'] = sales_data.groupby('category')['price'].transform('mean')         # 원본 DataFrame에 추가할 컬럼 이름을 설정하고, 'category' 컬럼을 기준으로 그룹화를 진행한 다음 'price' 컬럼에 mean 함수를 사용한 transform method를 적용.

print(f"{sales_data}")

  product    price  quantity category  avg_price
0     노트북  1200000        10     전자제품   775000.0
1     마우스    25000        50     주변기기    75000.0
2     키보드    80000        30     주변기기    75000.0
3     모니터   350000        15     전자제품   775000.0
4     스피커   120000        25     주변기기    75000.0


In [32]:
# 시계열 데이터 선택하기.
# 시계열 데이터에서 특정 기간, 시간대, 날짜 범위의 데이터를 선택할 때 사용.
# index가 'datetime' 형태로 되어 있어야 효과적으로 활용 가능.
# 시계열 분석은 주가 데이터, 판매 추이, 온도 변화 등 시간에 따라 변하는 데이터를 다룰 때 필수.

# 기본 문법
# df[df.index.year == year]                     # 특정 연도를 선택하는 구문. (year는 정수값)
# df.between_time(start_time, end_time)         # 시간 범위를 선택하는 구문. (.between_time() method) 'start_time'과 'end_time'은 문자열.
# df.loc['start_date':'end_date']               # 날짜 범위를 선택하는 구문. 'start_date'와 'end_date'는 문자열.
# 지정된 시간 조건을 만족하는 데이터를 반환.

In [33]:
# 시계열 데이터 예제 코드 01
# 먼저 날짜 컬럼을 index로 설정해야 날짜 기반 선택과 filtering이 가능해짐.
dates = pd.date_range('2024-01-01', periods=5, freq='D')        # 'periods': 만들 날짜의 개수 / 'freq': 연/일/월 중 택. (default는 D(day))
time_series_data = pd.DataFrame({
    'date': dates,
    'sales': [100, 150, 200, 120, 180],
    'returns': [5, 8, 12, 6, 9]
})

time_series_data.set_index('date', inplace=True)            # date를 index로 적용. 그리고 원본 객체를 수정하기 위해 'inplace=True' 옵션을 사용하고, 새 변수에 할당하지 않음.

print(time_series_data)

print(f"\n\n{dates}")

            sales  returns
date                      
2024-01-01    100        5
2024-01-02    150        8
2024-01-03    200       12
2024-01-04    120        6
2024-01-05    180        9


DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05'],
              dtype='datetime64[ns]', freq='D')


In [34]:
# 시계열 데이터 예제 코드 02
# 특정 날짜 범위를 선택하기.
# loc을 사용해서 시작일과 종료일을 모두 포함하는 범위를 반환하기.
# 문자열 형태로 날짜를 지정할 수 있어 직관적이고 편리함.
# 특정 기간의 매출 분석, 월별 또는 분기별 데이터 추출 등에 사용되는 방법.
jan_1to3 = time_series_data.loc['2024-01-01':'2024-01-03']              # '시작일':'종료일' 형식. 종료일은 -1 없이 종료일도 그대로 포함됨.

print(jan_1to3)

            sales  returns
date                      
2024-01-01    100        5
2024-01-02    150        8
2024-01-03    200       12


In [35]:
# 시계열 데이터 예제 코드 03
# 연도 기준으로 filtering 하기.
# index의 year 속성을 사용하면 특정 연도의 데이터만 선택 가능.
# 여러 해에 걸친 데이터에서 연도별 비교 분석에 유용.
# month, day, dayofweek 등의 속성을 사용해 월별, 일별, 요일별 filtering도 가능.
year_2024 = time_series_data[time_series_data.index.year == 2024]               # DF에서 index 중 year 속성이 2024 인 것만 filtering 해서 추출.

print(year_2024)

            sales  returns
date                      
2024-01-01    100        5
2024-01-02    150        8
2024-01-03    200       12
2024-01-04    120        6
2024-01-05    180        9
