<a href="https://colab.research.google.com/github/zzhining/python_data_basic2/blob/main/3%EC%9E%A5/3_2_3_data_selection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 기본 인덱싱과 슬라이싱

In [None]:
import pandas as pd

# 예시 데이터 생성
sales_data = pd.DataFrame({
    'product': ['노트북', '마우스', '키보드', '모니터', '스피커'],
    'price': [1200000, 25000, 80000, 350000, 120000],
    'quantity': [10, 50, 30, 15, 25],
    'category': ['전자제품', '주변기기', '주변기기', '전자제품', '주변기기']
})

## 1) 단일 컬럼 선택

In [None]:
# 단일 컬럼 선택
product_series = sales_data['product']
print(product_series)

In [None]:
# 다중 컬럼 선택
price_quantity = sales_data[['product', 'price', 'quantity']]
print(price_quantity)

In [None]:
# 행 슬라이싱 (첫 3개 행 선택)
first_three = sales_data[0:3]
print(first_three)

# 2. 조건부 선택 (Boolean Indexing)

## 1) 가격이 100000원 이상인 제품 선택

In [None]:
# 가격이 100000원 이상인 제품 선택
expensive_products = sales_data[sales_data['price'] >= 100000]
print(expensive_products)

## 2) query 메서드 사용

In [None]:
# query 메서드 사용
high_quantity = sales_data.query('quantity > 20')
print(high_quantity)

# 3. loc과 iloc을 활용한 라벨/위치 기반 선택

In [None]:
# 인덱스 설정
sales_data_indexed = sales_data.set_index('product')
print(sales_data_indexed)

## 1) loc

In [None]:
# loc: 라벨 기반 선택
notebook_info = sales_data_indexed.loc['노트북', 'price']
print(f"노트북 가격: {notebook_info}")

## 2) loc - 여러 제품

In [None]:
# 여러 제품의 가격과 수량 선택
selected_data = sales_data_indexed.loc[['노트북', '모니터'], ['price', 'quantity']]
print(selected_data)

## 3) iloc

In [None]:
# iloc: 위치 기반 선택 (첫 번째와 세 번째 행, 두 번째와 세 번째 컬럼)
positional_data = sales_data.iloc[[0, 2], [1, 2]]
print(positional_data)

# 4. 다중 조건 선택

## 1) 가격이 50000원 이상이면서 수량이 20개 이상인 제품

In [None]:
# 가격이 50000원 이상이면서 수량이 20개 이상인 제품
filtered_products = sales_data[(sales_data['price'] >= 50000) & (sales_data['quantity'] >= 20)]
print(filtered_products)

## 2) 전자제품이거나 가격이 30000원 이하인 제품

In [None]:
# 전자제품이거나 가격이 30000원 이하인 제품
electronic_or_cheap = sales_data[(sales_data['category'] == '전자제품') | (sales_data['price'] <= 30000)]
print(electronic_or_cheap)

# 5. 그룹별 데이터 선택

In [None]:
# 카테고리별 그룹화 후 전자제품 그룹만 선택
electronics_group = sales_data.groupby('category').get_group('전자제품')
print(electronics_group)

In [None]:
# 각 카테고리별 평균 가격을 원본 데이터에 추가
sales_data['category_avg_price'] = sales_data.groupby('category')['price'].transform('mean')
print(sales_data[['product', 'category', 'price', 'category_avg_price']])

# 6. 시계열 데이터 선택

In [None]:
# 시계열 데이터 생성
dates = pd.date_range('2024-01-01', periods=5, freq='D')
time_series_data = pd.DataFrame({
    'date': dates,
    'sales': [100, 150, 200, 120, 180],
    'returns': [5, 8, 12, 6, 9]
})
time_series_data.set_index('date', inplace=True)

print(time_series_data)

## 1) 특정 날짜 범위 선택

In [None]:
# 특정 날짜 범위 선택
jan_1_to_3 = time_series_data.loc['2024-01-01':'2024-01-03']
print(jan_1_to_3)

## 2) 연도 기준 필터링

In [None]:
# 2024년 데이터만 선택 (연도 기준 필터링)
year_2024 = time_series_data[time_series_data.index.year == 2024]
print(year_2024)