In [1]:
import numpy as np
import pandas as pd

pd.set_option("display.expand_frame_repr", False)

In [2]:
# 데이터 탐색 및 집계 연산

In [3]:
# 기본 데이터 탐색 함수
# 데이터의 전체적인 구조 및 특성을 파악하기 위해 처음 데이터를 접했을 때 사용하는 기본 함수.
# 데이터의 크기, 타입, 분포, 결측치 등을 빠르게 확인 가능.

# df.info()
# DataFrame의 기본 정보 출력.

# df.describe()
# DataFrame의 기술통계량 요약

# df.head(n)
# DataFrame의 상위 n개 행을 출력.

# df.tail(n)
# DataFrame의 하위 n개 행을 출력.

# df.shape
# DataFrame의 크기 반환

# df.dtypes
# DataFrame의 컬럼별 데이터 타입을 반환.

# df.isnull().sum()
# 총 결측치 개수를 구함.

# df.value_counts()
# 값의 빈도수를 반환.

In [4]:
# 데이터 탐색 함수 활용 예제 코드 01
# 전자상거래 주문 데이터 관련 DataFrame 생성
order_data = pd.DataFrame({
    'order_id': ['ORD001', 'ORD002', 'ORD003', 'ORD004', 'ORD005', 'ORD006', 'ORD007', 'ORD008'],
    'customer_id': ['C001', 'COO2', 'COO1', 'COO3', 'COO2', 'COO4', 'COO1', 'COO3'],
    'product_category': ['전자제품', '의류', '전자제품', '도서', '의류', '전자제품', '도서', '의류'],
    'order_amount': [150000, 45000, 320000, 25000, 67000, 89000, 35000, 52000],
    'customer_age': [28, 35, 28, 42, 35, 31, 28, 42],
    'region': ['서울', '부산', '서울', '대구', '부산', '서울', '서울', '대구'],
    'order_date': ['2024-01-15', '2024-01-16', '2024-01-18', '2024-01-20', '2024-01-22', '2024-01-25', '2024-01-28', '2024-01-30']
})

# 기본 데이터 정보 탐색
print(f"==== DataFrame 기본 정보 ====")
print(f"\n데이터 크기: {order_data.shape}")
print(f"\n컬럼명: {list(order_data.columns)}")

print(f"\n==== 데이터 타입 정보 ====")
print(f"\n데이터 타입: {order_data.dtypes}")

print(f"\n==== 기술 통계량 ====")
print(f"\n기술통계량: {order_data.describe()}")

print(f"\n==== 카테고리별 주문 빈도 ====")
print(f"\n카테고리별 주문 빈도: {order_data['product_category'].value_counts()}")

print(f"\n==== 지역별 분포 ====")
print(f"지역별 분포: {order_data['region'].value_counts()}")

print(f"\n결측치 개수: {order_data.isnull().sum()}")

==== DataFrame 기본 정보 ====

데이터 크기: (8, 7)

컬럼명: ['order_id', 'customer_id', 'product_category', 'order_amount', 'customer_age', 'region', 'order_date']

==== 데이터 타입 정보 ====

데이터 타입: order_id            object
customer_id         object
product_category    object
order_amount         int64
customer_age         int64
region              object
order_date          object
dtype: object

==== 기술 통계량 ====

기술통계량:        order_amount  customer_age
count       8.00000      8.000000
mean    97875.00000     33.625000
std     98018.12879      5.926635
min     25000.00000     28.000000
25%     42500.00000     28.000000
50%     59500.00000     33.000000
75%    104250.00000     36.750000
max    320000.00000     42.000000

==== 카테고리별 주문 빈도 ====

카테고리별 주문 빈도: product_category
전자제품    3
의류      3
도서      2
Name: count, dtype: int64

==== 지역별 분포 ====
지역별 분포: region
서울    4
부산    2
대구    2
Name: count, dtype: int64

결측치 개수: order_id            0
customer_id         0
product_category    0
order_amount   

In [5]:
# 기술통계량 및 데이터 요약
# 데이터의 분포, 중심경향성, 변산성 등을 종합적으로 파악하고 변수 간 관계를 분석할 때 사용.
# 수치형 데이터의 통계적 특성을 자세히 분석하는데 유리함.

# df.agg(['function01', 'function02'])      # 다중 집계 함수
# df.quantile([0.25, 0.5, 0.75])            # 분위수 계산
# df.corr()                                 # 상관계수 행렬
# df.nunique()                              # 고유값의 개수
# df.mode()                                 # 최빈값

In [6]:
# 기술 통계량 및 데이터 요약 예제 코드 01
# 주문금액에 대한 다양한 통계량 계산하기.
amount_stats = order_data['order_amount'].agg(['mean', 'median', 'std', 'min', 'max', 'count'])

print(f"=== 주문 금액 통계량 ===\n{amount_stats}")

=== 주문 금액 통계량 ===
mean       97875.00000
median     59500.00000
std        98018.12879
min        25000.00000
max       320000.00000
count          8.00000
Name: order_amount, dtype: float64


In [7]:
# 기술 통계량 및 데이터 요약 예제 코드 02
# 분위 수 계산하기.
quantiles = order_data['order_amount'].quantile([0.25, 0.5, 0.75, 0.9])

print(f"=== 주문금액 분위수 ===\n{quantiles}")

=== 주문금액 분위수 ===
0.25     42500.0
0.50     59500.0
0.75    104250.0
0.90    201000.0
Name: order_amount, dtype: float64


In [8]:
# 기술 통계량 및 데이터 요약 예제 코드 03
# 고객 연령과 주문금액 간 상관관계
numeric_corr = order_data[['customer_age', 'order_amount']].corr()

print(f"=== 수치형 변수 간 상관관계 ===\n{numeric_corr}")

=== 수치형 변수 간 상관관계 ===
              customer_age  order_amount
customer_age      1.000000     -0.559552
order_amount     -0.559552      1.000000


In [9]:
# 기술 통계량 및 데이터 요약 예제 코드 04
# 카테고리별 고유값 개수 구하기.
print(f"=== 카테고리별 고유값의 개수 ===\n{order_data.nunique()}")

=== 카테고리별 고유값의 개수 ===
order_id            8
customer_id         5
product_category    3
order_amount        8
customer_age        4
region              3
order_date          8
dtype: int64


In [11]:
# 피벗 테이블 (Pivot table)
# 데이터를 행과 열의 교차점에 따라 재굿어해 집계 분석 수행 시 사용.
# 엑셀의 피벗테이블과 기능이 유사하고, 다차원 데이터 분석에 매우 유용.

# 기본 문법
# pd.pivot_table(data, values, index, columns, aggfunc, fill_value)
# df.pivot_table(values, index, columns, aggfunc, margins)

# parameter 01. data
# 피봇할 DatFrame

# parameter 02. values
# 집계할 값 컬럼

# parameter 03. index
# 행 인덱스로 사용할 컬럼

# parameter 04. columns
# 열로 사용할 컬럼

# parameter 05. aggfunc
# 집계 함수 (default는 mean)

# parameter 06. fill_value
# 결측치를 대체할 값.

# parameter 07. margins
# 합계 행/열 추가 여부

# pivot된 형태의 DataFrame을 반환함.

In [13]:
# pivot table 예제 코드 01
# 지역별과 카테고리별 평균 주문금액을 구하는 피봇테이블
region_category_pivot = pd.pivot_table(
    order_data,
    values='order_amount',
    index='region',
    columns='product_category',
    aggfunc='mean',
    fill_value=0
)

print(f"=== 지역별 카테고리별 평균 주문금액===\n{region_category_pivot}")

=== 지역별 카테고리별 평균 주문금액===
product_category       도서       의류           전자제품
region                                           
대구                25000.0  52000.0       0.000000
부산                    0.0  56000.0       0.000000
서울                35000.0      0.0  186333.333333


In [15]:
# pivot table 예제 코드 02
# 다중 집계 함수 적용하기
multi_agg_pivot = pd.pivot_table(
    order_data,
    values = 'order_amount',
    index = 'region',
    columns = 'product_category',
    aggfunc = ['mean', 'count', 'sum'],
    fill_value = 0,
    margins = True
)

print(f"=== 지역별 카테고리별 평균 주문 금액, 주문 횟수, 주문 금액 총합 ===\n{multi_agg_pivot}")

=== 지역별 카테고리별 평균 주문 금액, 주문 횟수, 주문 금액 총합 ===
                     mean                                        count                sum                        
product_category       도서            의류           전자제품       All    도서 의류 전자제품 All     도서      의류    전자제품     All
region                                                                                                           
대구                25000.0  52000.000000       0.000000   38500.0     1  1    0   2  25000   52000       0   77000
부산                    0.0  56000.000000       0.000000   56000.0     0  2    0   2      0  112000       0  112000
서울                35000.0      0.000000  186333.333333  148500.0     1  0    3   4  35000       0  559000  594000
All               30000.0  54666.666667  186333.333333   97875.0     2  3    3   8  60000  164000  559000  783000


In [22]:
# pivot table 예제 03
# 고객 연령대별 및 지역별 주문 건수를 나타내는 pivot table
order_data['age_group'] = pd.cut(order_data['customer_age'],
                                 bins = [0, 30, 40, 50],
                                 labels = ['20대', '30대', '40대'])

age_region_pivot = pd.pivot_table(
    order_data,
    values = 'order_id',
    index = 'age_group',
    columns = 'region',
    aggfunc = 'count',
    fill_value = 0,
    observed = True
)

print(f"=== 연령대별 지역별 주문 건수 pivot table ===\n{age_region_pivot}")

=== 연령대별 지역별 주문 건수 pivot table ===
region     대구  부산  서울
age_group            
20대         0   0   3
30대         0   2   1
40대         2   0   0


In [19]:
# 그룹별 집계 연산 (groupby)
# 특정 기준에 따라 데이터를 그룹화하고, 각 그룹에 대해 집계 연산을 수행할 때 사용.

# groupby 연산의 세 단계
# 단계 01. Split(분할)
# 지정된 기준에 따라 데이터를 여러 그룹으로 분할함.
# 단계 02. Apply(적용)
# 각 그룹에 독립적으로 함수나 연산을 적용.
# 단계 03. Combine(결합)
# 결과를 하나의 데이터 구조로 결합.

# Groupby() method 호출 시 GroupBy 객체를 반환(=Lazy Evaluation)하고, 실졔 연산은 집계 함수(agg, mean, sum)가 호출될 때 수행됨.

# 기본 문법
# df.groupby('column').agg(func)                                그룹별 집계를 구함.
# df.groupby(['col1', 'col2']).func()                           다중 컬럼을 그룹화함.
# df.groupby('column')['target'].agg(['func1', 'func2'])        그룹화를 한 영역에 다중 함수 적용
# df.groupby('column').size()                                   그룹별 크기 반환
# df.groupby('column').describe()                               그룹별 기술통계 반환

# parameter 01. column
# 그룹화를 진행할 기준이 되는 컬럼.

# parameter 02. func
# 적용할 집계 함수

# parameter 03. target
# 집계 대상 컬럼

# 그룹별 집계 결과가 담긴 DataFrame 또는 Series를 반환.

In [21]:
# groupby 예제 코드 01
# 고객별 주문 통계 구하기
customer_stats = order_data.groupby('customer_id').agg({
    'order_amount': ['count', 'sum', 'mean', 'max'],
    'order_id': 'count'
})

print(f"=== 고객별 주문 통계량 ===\n{customer_stats}")

=== 고객별 주문 통계량 ===
            order_amount                           order_id
                   count     sum      mean     max    count
customer_id                                                
C001                   1  150000  150000.0  150000        1
COO1                   2  355000  177500.0  320000        2
COO2                   2  112000   56000.0   67000        2
COO3                   2   77000   38500.0   52000        2
COO4                   1   89000   89000.0   89000        1


In [24]:
# groupby 예제 코드 02
# 지역별로 상세 분석하기
region_analysis = order_data.groupby('region', observed=True).agg({
    'order_amount': ['count', 'sum', 'mean', 'std'],
    'customer_age': 'mean',
    'customer_id': 'nunique',
}).round(2)

print(f"=== 지역별 상세 분석 ===\n{region_analysis}")

=== 지역별 상세 분석 ===
       order_amount                              customer_age customer_id
              count     sum      mean        std         mean     nunique
region                                                                   
대구                2   77000   38500.0   19091.88        42.00           1
부산                2  112000   56000.0   15556.35        35.00           1
서울                4  594000  148500.0  123608.25        28.75           3


In [29]:
# groupby 예제 코드 03
# 상품 카테고리별 월별 주문 트렌드
# 교재의 코드에서 에러가 발생함.
# order_data DF의 'order_month'의 형식이 datetime이 아닌데, '.dt'를 사용했기 때문.
# 그래서 ChatGPT의 조언대로 'order_month'의 형식을 datetime으로 수정.

# 01. order_date 컬럼을 datetime 형식으로 변환.
# 'errors=coerce'는 실무 사용 기법으로, 파싱 실패 값을 NaT(결측 datetime)으로 변환해 pipeline이 끊기지 않게 함.
order_data['order_date'] = pd.to_datetime(order_data['order_date'], errors='coerce')

# 02. 변환 실패(NaT) 행 점검 및 제거.
invalid_cnt = order_data['order_date'].isna().sum()
if invalid_cnt > 0:
    print(f"order_date 변환 실패(NaT) 행이 {invalid_cnt}개 존재합니다. 해당 행은 집계에서 제외합니다.")

order_data = order_data.dropna(subset=['order_date'])

# 03. month 추출하기.
order_data['order_month'] = order_data['order_date'].dt.month

# 04. 월별 카테고리별 주문 현황 구하기.
monthly_category = (order_data.groupby(['order_month', 'product_category'], as_index=False).agg(
    order_count = ('order_amount', 'count'),
    order_amount_sum = ('order_amount', 'sum'),
    unique_customers = ('customer_id', 'nunique')
)).sort_values(['order_month', 'product_category'])

print(f"=== 상품 카테고리별 월별 주문 트렌드 ===\n{monthly_category}")

=== 상품 카테고리별 월별 주문 트렌드 ===
   order_month product_category  order_count  order_amount_sum  unique_customers
0            1               도서            2             60000                 2
1            1               의류            3            164000                 2
2            1             전자제품            3            559000                 3


In [None]:
# groupby 예제 코드 04
# 그룹별 크기 구하기
print(f"=== 지역별 그룹 크기 ===\n{order_data.groupby('region').size()}")

=== 지역별 그룹 크기 ===
region
대구    2
부산    2
서울    4
dtype: int64
