- from dataset, readme 
- 연습 내용 중 하나 제안만 선택해 분석
- 결측치나 이상치는 분석가 판단해 처리
- 공통 주제 제안 4

1. 동일한 시기에 동일한 차종(product)을 선택했다고 했을 때, 
2. 사람들이 금액을 얼만큼(amount)을 사용했는지 최대와 미니멈, 그리고 평균을 확인 할 수 있게, 
3. 또한 차종별 가장 많은 돈을 쓴 비율에 많은 세대와 반대로 적은 돈을 쓴 세대는 어디인지? 확인하기
4. 특정한 세대를 통해 다른 데이터들의 상관관계 분석후 +1에 가까운 컬럼을 통해 전략 세우기 

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl # 한글 폰트 설정 (NanumGothic)

mpl.rcParams['font.family'] = 'Noto Serif CJK KR'

mpl.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지 
rentAcar = pd.read_csv('../../datasets/LetalCarOfContractType.csv')
rentAcar.head()

In [149]:
# datetime 컬럼 변환
rentAcar['datetime'] = pd.to_datetime(rentAcar['datetime'])

# 연령대 함수 수정 (Unknown 포함)
def get_age_group(age):
    if pd.isna(age):
        return 'Unknown'
    return f"{(age//10)*10}"

# 연령대 컬럼 추가
rentAcar['age'] = rentAcar['age'].apply(get_age_group)

# 날짜별, 차종별, 연령대별 그룹화하여 통계 계산
grouped_stats = rentAcar.groupby(['datetime', 'product', 'age'])['amount'].agg([
    'min',
    'max',
    'mean',
    'count'
]).reset_index()

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# 3. seaborn 스타일 설정
sns.set_theme(style="whitegrid")

# 4. 연령대 함수 수정
def get_age_group(age):
    if pd.isna(age) or age == 'Unknown':
        return 'Unknown'
    age = int(float(age))
    return f"{(age//10)*10}대"

# 5. 데이터 처리
rentAcar['product'] = rentAcar['product'].astype(str)
rentAcar['temp_age_group'] = rentAcar['age'].apply(get_age_group)
rentAcar['month'] = pd.to_datetime(rentAcar['datetime']).dt.to_period('M')

# 6. 월별, 차종별, 연령대별 평균 지출액 계산 (Unknown 제외)
monthly_stats = (rentAcar[rentAcar['temp_age_group'] != 'Unknown']
                .groupby(['month', 'product', 'temp_age_group'])['amount']
                .mean()
                .reset_index())

# 7. 그래프 설정
plt.figure(figsize=(15, 8))

# 8. 차종별로 색상 구분하여 막대 그래프 그리기
sns.barplot(data=monthly_stats, x='temp_age_group', y='amount', hue='product', errorbar=None)

# 9. 그래프 제목 및 레이블 설정
plt.title('월별 차종 및 연령대 평균 지출액', fontproperties=font_prop)
plt.xlabel('연령대', fontproperties=font_prop)
plt.ylabel('평균 지출액 (원)', fontproperties=font_prop)
plt.legend(title='차종', bbox_to_anchor=(1.05, 1), loc='upper left', prop=font_prop)

# 10. x축 레이블 회전
plt.xticks(rotation=45)

# 11. 그래프 보여주기
plt.tight_layout()
plt.show()

# 12. 임시 컬럼 제거
rentAcar.drop(['temp_age_group', 'month'], axis=1, inplace=True)


In [None]:
# 연령대를 계산하는 함수
def get_age_group(age):
    return f"{(age // 10) * 10}대"

# 데이터프레임 리스트 생성
dfs = [K1Df, K2Df, K3Df, K4Df, K5Df, K6Df]
df_names = ['K1', 'K2', 'K3', 'K4', 'K5', 'K6']

for df, name in zip(dfs, df_names):
    print(f"\n{'='*50}")
    print(f"{name} 데이터 분석 결과")
    print('='*50)
    
    # amount 기준으로 상위 25%와 하위 25% 데이터 추출
    top_25_mask = df['amount'] >= df['amount'].quantile(0.75)
    bottom_25_mask = df['amount'] <= df['amount'].quantile(0.25)
    
    # 각 그룹의 데이터 추출
    top_25 = df[top_25_mask].copy()
    bottom_25 = df[bottom_25_mask].copy()
    
    # 연령대 컬럼 추가
    top_25['age_group'] = top_25['age'].apply(get_age_group)
    bottom_25['age_group'] = bottom_25['age'].apply(get_age_group)
    
    # 각 그룹의 연령대별 분포 계산
    top_25_dist = top_25['age_group'].value_counts().sort_index()
    bottom_25_dist = bottom_25['age_group'].value_counts().sort_index()
    
    # 비율 계산
    top_25_ratio = (top_25_dist / len(top_25) * 100).round(2)
    bottom_25_ratio = (bottom_25_dist / len(bottom_25) * 100).round(2)
    
    print("\n상위 25% amount 그룹의 연령대별 분포:")
    print("인원수:")
    print(top_25_dist)
    print("\n비율(%):")
    print(top_25_ratio)
    
    print("\n하위 25% amount 그룹의 연령대별 분포:")
    print("인원수:")
    print(bottom_25_dist)
    print("\n비율(%):")
    print(bottom_25_ratio)


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 결과를 저장할 빈 데이터프레임 생성
results = []

# 연령대를 계산하는 함수 수정
def get_age_group(age):
    if pd.isna(age):
        return 'Unknown'
    return f"{(age//10)*10}대"  # 수정된 부분

# 데이터프레임 리스트 생성
dfs = [K1Df, K2Df, K3Df, K4Df, K5Df, K6Df]
df_names = ['K1', 'K2', 'K3', 'K4', 'K5', 'K6']

# 각 데이터프레임에 대한 분석
for df, name in zip(dfs, df_names):
    # amount 기준으로 상위 25%와 하위 25% 데이터 추출
    top_25_mask = df['amount'] >= df['amount'].quantile(0.75)
    bottom_25_mask = df['amount'] <= df['amount'].quantile(0.25)
    
    # 각 그룹의 데이터 추출
    top_25 = df[top_25_mask].copy()
    bottom_25 = df[bottom_25_mask].copy()
    
    # 연령대 컬럼 추가
    top_25['age_group'] = top_25['age'].apply(get_age_group)
    bottom_25['age_group'] = bottom_25['age'].apply(get_age_group)
    
    # 각 그룹의 연령대별 분포 계산
    top_25_dist = top_25['age_group'].value_counts()
    bottom_25_dist = bottom_25['age_group'].value_counts()
    
    # 비율 계산
    top_25_ratio = (top_25_dist / len(top_25) * 100).round(2)
    bottom_25_ratio = (bottom_25_dist / len(bottom_25) * 100).round(2)
    
    # 결과 저장
    for age_group in sorted(set(top_25['age_group'].unique()) | set(bottom_25['age_group'].unique())):
        results.append({
            'Dataset': name,
            'Age_Group': age_group,
            'Percentage': top_25_ratio.get(age_group, 0),
            'Group': 'Top 25%'
        })
        results.append({
            'Dataset': name,
            'Age_Group': age_group,
            'Percentage': bottom_25_ratio.get(age_group, 0),
            'Group': 'Bottom 25%'
        })

# 결과를 데이터프레임으로 변환
results_df = pd.DataFrame(results)

# 연령대 순서 정의 (Unknown은 마지막에 표시)
age_order = sorted([x for x in results_df['Age_Group'].unique() if x != 'Unknown']) + ['Unknown']

# 그래프 생성을 위한 피벗 테이블 생성
def create_plot(data, title):
    plt.figure(figsize=(15, 8))
    
    # 피벗 테이블 생성
    pivot_data = data.pivot(index='Dataset', columns='Age_Group', values='Percentage').fillna(0)
    
    # 컬럼 순서 재정렬
    pivot_data = pivot_data[age_order]
    
    # 누적 막대 그래프 생성
    ax = pivot_data.plot(kind='bar', stacked=True, figsize=(15, 8))
    
    plt.title(title, fontsize=14, pad=20)
    plt.xlabel('데이터셋', fontsize=12)
    plt.ylabel('비율 (%)', fontsize=12)
    plt.legend(title='연령대', bbox_to_anchor=(1.05, 1), loc='upper left')
    
    # 각 막대의 총합이 100%가 되도록 조정
    for c in ax.containers:
        ax.bar_label(c, fmt='%.1f%%', label_type='center')
    
    plt.tight_layout()
    plt.show()

# 상위 25% 그래프 생성
create_plot(results_df[results_df['Group'] == 'Top 25%'], '연령대별 분포 비교 (상위 25%)')

# 하위 25% 그래프 생성
create_plot(results_df[results_df['Group'] == 'Bottom 25%'], '연령대별 분포 비교 (하위 25%)')


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 이전 결과 데이터프레임(results_df)을 활용하여 차이 계산
def calculate_difference():
    # 상위 25%와 하위 25% 데이터 분리
    top_25 = results_df[results_df['Group'] == 'Top 25%']
    bottom_25 = results_df[results_df['Group'] == 'Bottom 25%']
    
    # 피벗 테이블 생성
    top_pivot = top_25.pivot(index='Dataset', columns='Age_Group', values='Percentage').fillna(0)
    bottom_pivot = bottom_25.pivot(index='Dataset', columns='Age_Group', values='Percentage').fillna(0)
    
    # 차이 계산 (절댓값)
    difference = abs(top_pivot - bottom_pivot)
    
    return difference

# 차이 계산
diff_df = calculate_difference()

# 시각화
plt.figure(figsize=(15, 8))

# 각 데이터셋별로 연령대 차이를 막대 그래프로 표시
x = np.arange(len(diff_df.index))
width = 0.8 / len(diff_df.columns)  # 막대 너비

# 각 연령대별로 막대 그래프 생성
for i, age_group in enumerate(diff_df.columns):
    plt.bar(x + i * width, diff_df[age_group], 
            width, label=age_group, alpha=0.7)

# 그래프 꾸미기
plt.xlabel('데이터셋', fontsize=12)
plt.ylabel('상위 25% - 하위 25% 차이 (절댓값, %)', fontsize=12)
plt.title('연령대별 상위 25%와 하위 25% 간의 차이', fontsize=14, pad=20)
plt.xticks(x + width * len(diff_df.columns) / 2, diff_df.index)
plt.legend(title='연령대', bbox_to_anchor=(1.05, 1), loc='upper left')

# 값 레이블 표시
for i, age_group in enumerate(diff_df.columns):
    for j, value in enumerate(diff_df[age_group]):
        if value > 0:  # 0보다 큰 값만 표시
            plt.text(j + i * width, value, f'{value:.1f}%', 
                    ha='center', va='bottom')

plt.tight_layout()
plt.show()

# 수치로도 확인
print("\n연령대별 상위 25%와 하위 25% 간의 차이 (절댓값):")
print(diff_df.round(2))


**K1**
- 가장 큰 차이: Unknown(11.75%), 40대(4.30%)
- 30대(2.31%)와 50대(1.75%)에서도 비교적 큰 차이
- 80대(0.07%), 90대(0.05%), 100대(0.01%)는 매우 작은 차이

**K2**
- 전반적으로 차이가 작은 편
- 가장 큰 차이: Unknown(4.45%), 20대(1.83%)
- 30대(0.76%), 40대(0.71%), 60대(0.70%) 비슷한 수준
- 90대(0.01%)에서 가장 작은 차이

**K3**
- Unknown(12.07%)이 가장 큰 차이
- 젊은층에서 큰 차이: 30대(3.64%), 20대(3.37%)
- 50대(2.36%), 40대(2.02%)도 상당한 차이
- 100대(0.00%)에서 차이 없음

**K4**
- 중장년층에서 가장 큰 차이: 60대(5.80%), 50대(4.66%)
- 70대(3.88%)도 높은 차이
- Unknown은 4.13%
- 젊은층은 상대적으로 작은 차이: 20대(0.28%), 30대(0.27%)
- 100대(0.00%)에서 차이 없음

**K5**
- 전 연령대에서 가장 작은 차이를 보임
- 최대 차이는 30대(1.43%)
- Unknown(0.02%)도 매우 작음
- 100대(0.00%)에서 차이 없음

**K6**
- Unknown(9.05%)이 가장 큰 차이
- 40대(2.50%)에서 가장 큰 실제 연령대 차이
- 30대와 50대 모두 1.91%로 동일
- 90대와 100대(0.00%)에서 차이 없음