In [1]:
# 필요한 라이브러리 불러오기
import pandas as pd

In [2]:
# ===================== 1. 데이터 로드 =====================
# 판매 데이터 파일 경로 설정
sales_file_path = "../data/sales_data.csv"

# CSV 파일을 데이터프레임으로 로드
df_sales = pd.read_csv(sales_file_path)

In [3]:
# ===================== 2. 데이터 확인 =====================
# 데이터프레임 기본 정보 출력
print("=== 판매 데이터 정보 ===")
df_sales.info()  # 컬럼 정보 및 데이터 타입 확인

=== 판매 데이터 정보 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Region    1000 non-null   object
 1   Product   1000 non-null   object
 2   Price     1000 non-null   int64 
 3   Quantity  1000 non-null   int64 
 4   Date      1000 non-null   object
dtypes: int64(2), object(3)
memory usage: 39.2+ KB


In [4]:
# 데이터의 상위 5개 행 출력
print("\n=== 판매 데이터 샘플 ===")
df_sales.head()


=== 판매 데이터 샘플 ===


Unnamed: 0,Region,Product,Price,Quantity,Date
0,East,Product B,56,13,2023-01-01
1,West,Product C,21,2,2023-01-02
2,North,Product A,71,8,2023-01-03
3,East,Product A,89,2,2023-01-04
4,East,Product A,97,4,2023-01-05


In [6]:
# ===================== 3. 결측치 처리 =====================
# 각 컬럼별 결측치 개수 확인
print("\n=== 결측치 개수 확인 ===")
print(df_sales.isna().sum())  # 각 컬럼의 결측치 개수 확인

# 결측치가 있는 경우 제거 (현재 데이터에는 결측치 없음)
df_sales = df_sales.dropna()


=== 결측치 개수 확인 ===
Region      0
Product     0
Price       0
Quantity    0
Date        0
dtype: int64


In [7]:
# ===================== 4. 총 매출(Total Sales) 컬럼 생성 =====================
# 총 매출(TotalSales) = 가격(Price) * 판매량(Quantity)
df_sales["TotalSales"] = df_sales["Price"] * df_sales["Quantity"]

# 총 매출 컬럼이 추가된 데이터 확인
print("\n=== 총 매출(TotalSales) 컬럼 추가 후 데이터 확인 ===")
print(df_sales.head())


=== 총 매출(TotalSales) 컬럼 추가 후 데이터 확인 ===
  Region    Product  Price  Quantity        Date  TotalSales
0   East  Product B     56        13  2023-01-01         728
1   West  Product C     21         2  2023-01-02          42
2  North  Product A     71         8  2023-01-03         568
3   East  Product A     89         2  2023-01-04         178
4   East  Product A     97         4  2023-01-05         388


In [8]:
# ===================== 5. 제품별 가격과 판매량 분석 =====================
# 제품별 평균 가격 계산
df_avg_price = df_sales.groupby("Product")["Price"].mean().reset_index()

# 제품별 평균 판매량 계산
df_avg_quantity = df_sales.groupby("Product")["Quantity"].mean().reset_index()

# 제품별 평균 가격과 평균 판매량 데이터 병합
df_product_analysis = pd.merge(df_avg_price, df_avg_quantity, on="Product")

# 제품별 평균 가격과 평균 판매량 출력
print("\n=== 제품별 평균 가격과 평균 판매량 분석 ===")
print(df_product_analysis)


=== 제품별 평균 가격과 평균 판매량 분석 ===
     Product      Price   Quantity
0  Product A  56.194757  10.179775
1  Product B  52.509506  10.102662
2  Product C  54.069498   9.756757
3  Product D  52.042654   9.981043


In [9]:
# ===================== 6. 가격과 판매량 간의 상관관계 계산 =====================
# --------------------------------------------------------------
# [상관관계란?]
# - 두 변수 간의 관계가 얼마나 밀접한지를 나타내는 통계적 지표
# - 상관계수(correlation coefficient)는 -1 ~ 1 사이의 값을 가짐
# 
# 
# 상관계수 해석:
#   -  1.0  : 완전한 양의 상관관계 (가격이 오르면 판매량도 반드시 오름)
#   -  0.0  : 상관관계 없음 (가격과 판매량은 무관함)
#   - -1.0 : 완전한 음의 상관관계 (가격이 오르면 판매량은 반드시 떨어짐)
# 
# 
# 예시:
#   - 상관계수 -0.85: 가격이 오를수록 판매량이 확실히 줄어드는 패턴
#   - 상관계수 +0.60: 가격이 오르면 판매량도 어느 정도 함께 오르는 경향

# 주의할 점:
#   - 이 상관계수는 선형 관계(linear relationship)만 측정합니다.
#   - 만약 두 변수 사이가 곡선(비선형) 관계라면, 상관계수가 0 근처라도 실제로는 관련이 있을 수 있습니다.
#   - 따라서 상관계수만 보고 관계 유무를 단정하면 안 되고, 시각화(산점도) 등을 함께 보는 것이 좋습니다.
# --------------------------------------------------------------


# 전체 데이터에서 가격과 판매량 간의 상관계수 계산
correlation = df_sales[["Price", "Quantity"]].corr()

# 상관계수 출력
print("\n=== 가격과 판매량 간의 상관관계 분석 ===")
print(correlation)


=== 가격과 판매량 간의 상관관계 분석 ===
             Price  Quantity
Price     1.000000  0.018428
Quantity  0.018428  1.000000


In [11]:
# ===================== 7. 제품별 상관관계 분석 =====================
# 제품별 가격과 판매량의 상관계수 계산
df_product_corr = df_sales.groupby("Product")[["Price", "Quantity"]].corr()

# 데이터 변환 과정 설명:
# 1. groupby("Product")로 제품별 데이터를 그룹화한 후 Price와 Quantity 간의 상관관계를 계산함
# 2. corr() 함수는 기본적으로 두 변수 간의 상관계수를 포함하는 **멀티 인덱스(multi-index) 형태**의 DataFrame을 반환함
# 3. unstack()을 사용하면 멀티 인덱스 형태에서 **행을 확장(flatten)하여 단순한 형태의 데이터프레임으로 변환** 가능
# 4. unstack() 후, 필요한 상관계수 값을 가져오기 위해 `iloc[:, 1]`을 사용하여 Price와 Quantity 간의 상관계수를 추출

# print(df_product_corr)
df_product_corr = df_product_corr.unstack().iloc[:, 1]  # Price와 Quantity 간의 상관계수만 추출

# 제품별 가격과 판매량의 상관계수 출력
print("\n=== 제품별 가격과 판매량 간의 상관관계 분석 ===")
print(df_product_corr)


=== 제품별 가격과 판매량 간의 상관관계 분석 ===
Product
Product A   -0.012294
Product B    0.034287
Product C    0.022198
Product D    0.032146
Name: (Price, Quantity), dtype: float64
