# 지역내 농식품 관련 소비 데이터

* **어떤 연령대가 농식품 소비에서 가장 큰 비중을 차지할까요?**
* **남성과 여성 중, 농식품 소비에 더 많은 돈을 쓰는 쪽은 누구일까요?**
* **지역별로 농식품 소비 패턴은 어떻게 다를까요?**
* **소비금액과 소비건수 사이에는 어떤 관계가 있을까요?**
* **계절에 따라 농식품 소비 패턴이 어떻게 변할까요?**
* **특정 연령대가 농식품 소비의 핵심 고객층인 이유는 무엇일까요?**
* **농식품 소비, 성별에 따라 정말 차이가 있을까요?**
* **소비금액이 높지만 소비건수가 낮은 소비자의 특징은 무엇일까요?**
* **지역 특성에 맞춘 농식품 마케팅 전략은 어떻게 세울 수 있을까요?**
* **농식품 소비 패턴에서 가장 눈에 띄는 트렌드는 무엇일까요?**

오늘날의 소비 패턴은 개인의 성별, 연령, 지역 등 다양한 요인에 의해 크게 좌우됩니다. 특히 농식품과 같은 생활 필수품의 소비는 이들 요인에 따라 복잡하고도 흥미로운 양상을 보입니다. 이러한 소비 패턴을 이해하는 것은 지역 경제의 활성화, 농업 및 식품 산업의 성장, 그리고 효과적인 마케팅 전략 수립에 중요한 기초 자료를 제공합니다.

지역 내 농식품 소비 데이터를 바탕으로, 성별 및 연령대별로 소비 행동이 어떻게 다른지 분석하고자 합니다. 이 데이터는 각 지역별 월간 소비금액과 소비건수를 포함하며, 남성과 여성, 다양한 연령대(20대 미만부터 60대 이상까지)의 소비 패턴을 면밀히 살펴볼 수 있는 기회를 제공합니다.

우리는 이 데이터를 통해 특정 지역에서 어떤 연령대와 성별이 농식품 소비의 주요 고객층인지 파악할 수 있습니다. 또한, 소비금액과 소비건수 간의 상관관계를 분석함으로써 소비 성향의 차이를 이해하고, 이를 바탕으로 보다 타겟팅된 마케팅 전략을 개발할 수 있을 것입니다.

이 분석의 목적은 단순히 데이터를 분석하는 것에 그치지 않고, 이를 통해 지역 경제와 농식품 산업의 성장 가능성을 모색하고, 소비자 행태의 변화에 따른 대응 방안을 제시하는 데 있습니다. 나아가, 이 데이터를 활용한 종합적인 분석을 통해 보다 심층적인 인사이트를 도출하고, 향후 관련 분야 연구 및 실무에 활용할 수 있을 것입니다.

데이터 출처 : https://kadx.co.kr/opmk/frn/pmumkproductDetail/PMU_cc3f23ff-3ac5-4f4a-90ef-a2062238856a/5

## 데이터 개요

해당 데이터는 특정 지역 내에서 농식품 관련 소비를 발생시킨 고객의 성별 및 연령대별 월단위 소비금액과 소비건수를 포함하고 있습니다. 이 데이터를 통해 농식품 소비 패턴을 분석하고, 성별 및 연령대별로 소비의 차이를 파악할 수 있습니다.

## 데이터 구조

### 레이아웃
- **기준월**: 소비 데이터가 수집된 월 단위의 기간 정보
- **지역**: 
  - **광역시/도**: 소비가 발생한 광역시 또는 도 단위의 지역 정보
  - **시군구**: 소비가 발생한 시, 군, 구 단위의 지역 정보
- **성별**: 남성 또는 여성에 따른 소비 구분
  - **소비금액**: 각 성별에 따른 월간 소비 금액
  - **소비건수**: 각 성별에 따른 월간 소비 건수
- **성연령별**: 연령대별 성별 소비 구분
  - **연령대**: 20대 미만, 20대, 30대, 40대, 50대, 60대 이상(10세 단위로 구분)
  - **소비금액**: 각 연령대별 소비 금액
  - **소비건수**: 각 연령대별 소비 건수

## 성별 및 연령대

- **성별**: 남성, 여성
- **연령대**:
  - 20대 미만
  - 20대
  - 30대
  - 40대
  - 50대
  - 60대 이상

이 데이터는 농식품 소비 패턴 분석, 마케팅 전략 수립, 정책 수립 등을 위한 중요한 정보를 제공합니다.

In [None]:
# 데이터 분석에 필요한 라이브러리들을 불러옵니다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import koreanize_matplotlib

## 데이터 로드 및 초기 전처리

In [None]:
# 데이터 컬럼 정보를 불러옵니다.
df_col = pd.read_csv("data/kadx_data_info_detail.csv")
df_col.shape

In [None]:
# 데이터 컬럼 정보를 확인합니다.
df_col

In [None]:
# 원본 데이터를 불러옵니다.
raw = pd.read_csv("data/kadx_CSP_SPL-2023.csv", encoding="cp949")
raw.shape

In [None]:
# 데이터의 처음 몇 줄을 확인합니다.
raw.head()

In [None]:
# 영문 컬럼명을 한글로 변환하기 위한 매핑 딕셔너리를 생성합니다.
col_dict = df_col[["nameEn","nameKo"]].set_index("nameEn")['nameKo'].to_dict()
col_dict

In [None]:
# 원본 데이터의 컬럼명을 한글로 변환합니다.
raw = raw.rename(columns=col_dict)

In [None]:
# 변환된 데이터의 첫 몇 줄을 확인합니다.
raw.head()

In [None]:
raw["기준연월"].value_counts()

In [None]:
# 데이터를 히스토그램으로 시각화하여 분포를 확인합니다.
raw.hist(figsize=(12, 10), bins=50);

데이터의 전반적인 분포를 파악하고, 성별 및 연령대별 소비 패턴을 시각적으로 확인합니다.
히스토그램과 밀도 플롯을 통해 소비금액과 소비건수의 분포를 확인할 수 있으며, 이를 통해 데이터의 특성을 이해할 수 있습니다. 예를 들어, 특정 연령대에서 소비가 집중되거나, 특정 성별에서 소비 패턴이 다르게 나타날 수 있습니다.

In [None]:
# 소비건수에 대한 히스토그램을 그려 분포를 분석합니다.
raw.filter(regex="소비건수", axis=1).plot(kind="hist", bins=100, alpha=0.5, figsize=(6, 3))

In [None]:
# 소비건수에 대한 KDE (Kernel Density Estimation) 플롯을 생성하여 분포를 확인합니다.
raw.filter(regex="소비건수", axis=1).plot(kind="kde", alpha=0.5, figsize=(6, 3));

In [None]:
# 성별에 따른 소비금액의 밀도 플롯을 생성하여 분포를 비교합니다.
raw.filter(regex="(남성|여성)소비금액", axis=1).plot(kind="density", alpha=0.5, figsize=(6, 3));

In [None]:
# 연령대별 소비금액에 대한 히스토그램을 그려 분포를 분석합니다.
raw.filter(regex="(\d+대미만|\d+대|60대이상)소비금액", axis=1).plot(kind="hist", bins=100, alpha=0.5, figsize=(6, 3))

In [None]:
# 연령대별 소비금액에 대한 히스토그램을 그려 분포를 분석합니다.
raw.filter(regex="(\d+대미만|\d+대|60대이상)소비금액", axis=1).plot(kind="hist", bins=100, alpha=0.5, figsize=(6, 3))

In [None]:
# 연령대별 소비금액에 대한 히스토그램을 하위 플롯으로 생성하여 분포를 비교합니다.
raw.filter(regex="(\d+대미만|\d+대|60대이상)소비금액", axis=1).plot(kind="hist", bins=100, alpha=0.5, subplots=True, figsize=(12, 8));

In [None]:
# 각 변수 간의 상관관계를 히트맵으로 시각화합니다.
corr = raw.corr(numeric_only=True)
plt.figure(figsize=(10, 10))
mask = np.triu(np.ones_like(corr))
sns.heatmap(corr, annot=True, cmap="coolwarm", mask=mask)
plt.show()

## 깔끔한 데이터(Tidy-data) 만들기

In [None]:
# 데이터를 tidy 형태로 변환합니다.
tidy_df = pd.melt(
    raw,
    id_vars=['기준연월', '소비지역광역시도명', '소비지역시군구명'],
    var_name='성별_연령대_항목',
    value_name='값'
)
tidy_df

In [None]:
# '성별', '연령대', '항목' 컬럼으로 분리합니다.
tidy_df[['성별', '연령대', '항목']] = tidy_df['성별_연령대_항목'].str.extract(r'(남성|여성)(\d+대미만|\d+대|60대이상)?(소비금액|소비건수)')
tidy_df

In [None]:
# 불필요한 컬럼을 제거합니다.
tidy_df = tidy_df.drop(columns=['성별_연령대_항목'])

In [None]:
# Tidy 데이터를 확인합니다.
tidy_df.head()

In [None]:
# 항목별 데이터의 빈도를 확인합니다.
tidy_df["항목"].value_counts()

In [None]:
# 항목별 기술 통계를 확인합니다.
tidy_df.groupby(["항목"])["값"].describe()

## pivot 으로 컬럼 전환하기

In [None]:
# 소비금액과 소비건수를 별도의 컬럼으로 변환합니다.
df = tidy_df.pivot(
    index=['기준연월', '소비지역광역시도명', '소비지역시군구명', '성별', '연령대'],
    columns='항목'
).reset_index()
df

### 컬럼명 전처리

In [None]:
# 새로운 컬럼명을 생성합니다.
col_name = []
for col in df.columns:
    col_name.append("".join(col).replace("값", ""))
col_name

# 컬럼명을 설정합니다.
df.columns = col_name

In [None]:
# 변환된 데이터의 처음 몇 줄을 확인합니다.
df.head()

In [None]:
# 데이터의 정보와 구조를 확인합니다.
df.info()

In [None]:
# 데이터의 기술 통계를 확인합니다.
df.describe().style.format("{:,.0f}")

In [None]:
# 수치형 데이터가 아닌 컬럼에 대한 기술 통계를 확인합니다.
df.describe(exclude="number")

In [None]:
# 데이터의 히스토그램을 생성합니다.
df.hist(bins=50, figsize=(12, 3));

In [None]:
# 성별에 따른 소비금액의 기술 통계를 확인합니다.
df.groupby(["성별"])["소비금액"].describe().style.format("{:,.0f}")

In [None]:
# 성별과 연령대별 소비금액의 기술 통계를 확인합니다.
gender_age = df.groupby(["연령대", "성별"])["소비금액"].describe()
gender_age.style.format("{:,.0f}")

In [None]:
# 연령대별 고유값을 확인합니다.
df["연령대"].unique()

In [None]:
# 연령대의 순서를 설정합니다.
age_order = ['20대미만', '20대', '30대', '40대', '50대', '60대이상']

# 연령대 순서에 따른 성별 소비금액의 기술 통계를 시각화합니다.
gender_age.loc[age_order].style.background_gradient(cmap="Blues").format("{:,.0f}")

### 가설 설정

1. **연령대 및 성별에 따른 소비 패턴 분석**: 연령대별로 소비 패턴이 다를 것으로 예상되며, 성별에 따라서도 차이가 있을 수 있습니다. 이를 통해 특정 연령대와 성별이 소비에 더 적극적이라는 가설을 세울 수 있습니다.

2. **상관관계 분석**: 소비금액과 소비건수 간의 상관관계를 분석하여, 소비금액이 높은 경우 소비건수도 비례해서 증가하는지 확인할 수 있습니다. 또한, 지역별로 소비 패턴의 차이를 분석하여, 특정 지역이 농식품 소비에서 더 높은 비율을 차지할 가능성이 있다는 가설을 세울 수 있습니다.

3. 시각화 해석 : 연령대와 성별에 따른 소비금액의 평균을 막대 그래프로 시각화합니다. 이를 통해 각 연령대별로 소비 패턴의 차이를 명확히 볼 수 있습니다.

In [None]:
# 연령대 및 성별에 따른 소비금액의 평균을 비교합니다.
plt.figure(figsize=(12, 6))
sns.barplot(x="연령대", y="소비금액", hue="성별", data=df, errorbar=None, order=age_order)
plt.title("연령대 및 성별에 따른 소비금액 평균 비교")
plt.show()


#### 2. 지역별 소비금액 분석
각 지역별로 소비금액의 평균을 계산하여 막대 그래프로 시각화합니다. 이를 통해 어떤 지역이 농식품 소비에서 더 높은 소비를 기록하고 있는지 알 수 있습니다.

In [None]:
# 지역별 소비금액 평균을 계산하여 시각화합니다.
region_mean = df.groupby("소비지역광역시도명")["소비금액"].mean().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x=region_mean.index, y=region_mean.values)
plt.title("지역별 소비금액 평균")
plt.xticks(rotation=45)
plt.show()

#### 3. 소비금액과 소비건수 간의 상관관계 분석

상관관계 히트맵을 통해 어떤 변수들이 서로 강하게 연관되어 있는지 확인할 수 있습니다. 예를 들어, 소비금액이 증가할 때 소비건수도 함께 증가하는지 여부를 파악할 수 있습니다.

In [None]:
# 소비금액과 소비건수 간의 상관관계를 분석합니다.
corr = df[["소비금액", "소비건수"]].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.title("소비금액과 소비건수 간의 상관관계")
plt.show()

소비금액과 소비건수 간의 상관관계를 분석하여 두 변수 간의 관계를 시각화합니다. 높은 상관관계가 나타난다면, 소비금액이 증가할수록 소비건수도 증가할 가능성이 있음을 시사합니다.



### 결론

이번 분석을 통해 지역 내 농식품 소비가 성별과 연령대에 따라 어떻게 다른 양상을 보이는지 명확하게 파악할 수 있었습니다. 특히, 특정 연령대와 성별이 농식품 소비의 핵심 고객층으로 부각되는 것을 확인하였으며, 소비금액과 소비건수 간의 관계를 분석함으로써 소비자들의 구매 행동 패턴을 더욱 심층적으로 이해할 수 있었습니다.

이러한 인사이트는 귀사의 마케팅 전략 수립에 있어 강력한 기초 자료가 될 것입니다. 예를 들어, 특정 연령대에서 소비가 집중된다면 그에 맞춘 마케팅 캠페인을 전개하여 보다 높은 효과를 기대할 수 있을 것입니다. 또한, 소비금액이 높지만 소비건수가 낮은 고객군에게는 추가적인 구매 동기를 부여하는 전략을 고려해 볼 수 있습니다.

### 추가적으로 살펴볼 내용

이번 분석에서 도출된 결과는 매우 유의미하지만, 다음과 같은 추가적인 요소를 고려함으로써 더욱 정교한 전략 수립이 가능할 것입니다.

1. **시간에 따른 소비 패턴의 변화**: 연도별 또는 계절별 소비 패턴 변화를 분석함으로써, 시간에 따른 트렌드를 파악하고 시즌별로 최적화된 마케팅 전략을 마련할 수 있습니다.

2. **지역별 특성 분석**: 지역별로 소비 패턴이 어떻게 차별화되는지를 분석하여, 각 지역의 특성에 맞춘 맞춤형 전략을 개발할 수 있습니다. 이는 지역 시장에서의 경쟁력을 크게 강화할 것입니다.

3. **소비자 세분화**: 성별과 연령대뿐만 아니라, 소득 수준이나 라이프스타일에 따른 세분화를 통해 더 정밀한 타겟팅이 가능합니다. 이를 통해 더욱 효과적인 마케팅과 고객 맞춤형 서비스를 제공할 수 있을 것입니다.

결론적으로, 이번 분석은 귀사의 비즈니스 성장을 위한 중요한 인사이트를 제공하며, 이를 토대로 한 전략적 접근은 실질적인 성과로 이어질 것입니다. 추가적인 분석을 통해 더 깊이 있는 이해를 도모하고, 시장에서의 경쟁력을 지속적으로 강화해 나가시기를 권장드립니다.