In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

filename = "C:/Users/bird1/Downloads/final_balanced_data.csv"

# CSV 파일 읽기
df = pd.read_csv(filename)  # 데이터 파일명

# 데이터의 첫 몇 행 보기
print("데이터 미리보기:")
print(df.head())

# # 독립 변수와 종속 변수 분리
# X = df.drop('sub_category', axis=1)  # 독립 변수
# y = df['sub_category']                 # 종속 변수

selected_columns = ['bth_yymm','age_val','sex_cd','gnt_itm_nm','inco_typ_nm','inco_nm','category','duration_year']
#['age_val', 'category', 'duration_year', 'sex_cd']  # 원하는 열 이름으로 수정

X = df[selected_columns]  # 독립 변수
y = df['sub_category']     # 종속 변수

# 원-핫 인코딩 (모든 범주형 독립 변수에 대해 적용)
X_encoded = pd.get_dummies(X, drop_first=True)

# 레이블 인코딩 (종속 변수가 범주형일 경우)
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# 데이터 분할 (훈련 세트와 테스트 세트: 8:2)
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y_encoded, test_size=0.2, random_state=42)

# 데이터 정규화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Random Forest 모델 생성
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 모델 학습
model.fit(X_train_scaled, y_train)

# 예측 수행
y_pred = model.predict(X_test_scaled)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print(f'정확도: {accuracy:.2f}')

# F1 점수 및 추가 평가 지표 출력
print(classification_report(y_test, y_pred, target_names=le.classes_))

데이터 미리보기:
   bth_yymm  age_val sex_cd gnt_itm_nm inco_typ_nm   inco_nm  hld_cont_cnt  \
0    199203       31      M   교통상해후유장해        손해보험   AIG손해보험             2   
1    199208       31      M     고액암진단비        생명보험    교보생명보험            92   
2    199212       31      F     유방암진단비          기타  교직원공제회보험             2   
3    199201       31      F     뇌졸중진단비        손해보험    KB손해보험           156   
4    199206       31      F   대중교통상해사망          기타    우정사업본부            77   

  category sub_category duration_year  
0     tour       picnic            5+  
1  hobbies          pet           1~2  
2     tour      camping           1~2  
3     tour       picnic           3~5  
4  hobbies       hiking            5+  
정확도: 0.73
              precision    recall  f1-score   support

     camping       0.73      0.91      0.81        87
     classic       0.77      0.77      0.77        61
     concert       0.64      0.68      0.66        50
     fishing       0.61      0.74      0.67        54


In [2]:
import pandas as pd
import plotly.express as px

# CSV 파일 읽기
filename = "C:/Users/bird1/Downloads/final_balanced_data.csv"
df = pd.read_csv(filename)  # 실제 CSV 파일 경로로 바꿔주세요

# 'age_val'을 10단위로 구간화하여 'age_group' 생성
bins = range(20, 61, 10)  # 20부터 60까지 10단위로 구간 설정
labels = [f'{i}-{i+9}' for i in bins[:-1]]  # 구간 레이블 생성
df['age_group'] = pd.cut(df['age_val'], bins=bins, labels=labels, right=False)

# age_group의 순서 설정
ordered_categories = ['20-29', '30-39', '40-49', '50-59']
df['age_group'] = pd.Categorical(df['age_group'], categories=ordered_categories, ordered=True)

# count plot 그리기
fig = px.histogram(df, 
                   x='category', 
                   color='age_group', 
                   title='Count Plot of Category by Age Group',
                   barmode='group',
                   category_orders={'age_group': ordered_categories}, # 범례 순서 설정
                   color_discrete_sequence=px.colors.qualitative.Pastel)
                   #plot_bgcolor=px.colors.)

# 그래프 레이아웃 설정
fig.update_layout(xaxis_title='Category',
                  yaxis_title='Count',
                  xaxis_tickangle=-45)

# 그래프 출력
fig.show()


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import numpy as np
import plotly.express as px

# 파일 경로
filename = "C:/Users/bird1/Downloads/final_balanced_data.csv"

# CSV 파일 읽기
df = pd.read_csv(filename)

# 'age_group'을 구간으로 나누기
bins = [20, 30, 40, 50, 60, 70]  # 70으로 조정하여 60대 이상 포함
labels = ['20-30', '30-40', '40-50', '50-60', '60-70']
df['age_group'] = pd.cut(df['age_val'], bins=bins, labels=labels, right=False)

# 독립 변수와 종속 변수 설정
feature_list = ['age_group', 'sex_cd', 'duration_year'] #'category', 'gnt_itm_nm', 'inco_typ_nm', 'inco_nm', 'bth_yymm'
X = df[feature_list]  # 독립 변수
y = df['sub_category']  # 종속 변수

# 원-핫 인코딩 (모든 범주형 독립 변수에 대해 적용)
X_encoded = pd.get_dummies(X, drop_first=True)

# 레이블 인코딩 (종속 변수가 범주형일 경우)
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# 데이터 분할 (훈련 세트와 테스트 세트: 8:2)
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y_encoded, test_size=0.2, random_state=42)

# Random Forest 모델 생성
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 모델 학습
model.fit(X_train, y_train)

# 특성 중요도 계산
importances = model.feature_importances_
feature_names = X_encoded.columns

# 중요도를 그룹화하여 합산
group_importance = {}

# 각 피처의 중요도를 그룹화
for name, importance in zip(feature_names, importances):
    # 그룹 이름을 결정
    group_name = None
    if 'age_group' in name:
        group_name = 'age_group'
    elif 'sex_cd' in name:
        group_name = 'sex_cd'
    elif 'duration_year' in name:
        group_name = 'duration_year'
    elif 'gnt_itm_nm' in name:
        group_name = 'gnt_itm_nm'
    elif 'inco_typ_nm' in name:
        group_name = 'inco_typ_nm'
    elif 'inco_nm' in name:
        group_name = 'inco_nm'
    elif 'category' in name:
        group_name = 'category'
    elif 'bth_yymm' in name:
        group_name = 'bth_yymm'
    
    if group_name:
        if group_name in group_importance:
            group_importance[group_name] += importance
        else:
            group_importance[group_name] = importance

# 중요도를 데이터프레임으로 변환
group_names = list(group_importance.keys())
group_importances = list(group_importance.values())

# Plotly로 중요도 시각화
fig = px.bar(x=group_importances, y=group_names, 
             labels={'x': 'Importance Score', 'y': 'Feature Groups'},
             title='Grouped Feature Importance from Random Forest',
             orientation='h',
             color_continuous_scale=px.colors.qualitative.Pastel)

fig.update_layout(yaxis_title='Feature Groups', xaxis_title='Importance Score')
fig.show()


In [8]:
import pandas as pd
import scipy.stats as stats
import os

# CSV 파일 읽기
# path = 'C:/Users/jae_4/OneDrive/바탕 화면/조작'
# os.chdir(path)
# os.getcwd()
filename = "C:/Users/bird1/OneDrive/문서/SeSAC/1st project/12_train_병종류분류.csv"
data = pd.read_csv(filename)

# 두 범주형 칼럼 선택
col1 = 'sub_category'  # 실제 칼럼명으로 변경
col2 = 'gnt_itm_nm'    # 중분류로 사용할 칼럼

# 중분류 리스트 정의
death = ['질병사망', '암사망', '대중교통상해사망', '교통상해사망', '상해사망']
cancer = ['고액암진단비', '암진단비', '유방암진단비', '자궁암진단비', '전립선암진단비', '방광암진단비', '기타피부암', '갑상선암', '제자리암', '다발성소아암진단비', '경계성종양']
brain = ['뇌경색증진단비', '치매진단비', '뇌혈관질환수술비', '뇌출혈진단비', '뇌졸중진단비', '뇌혈관질환진단비']
surgery_loss = ['암수술비', '허혈성심장질환수술비', '질병수술비', '실손질병통원의료비', '급성심근경색진단비', '실손질병약제비', '실손질병입원의료비', '실손상해통원의료비', '실손상해약제비', '실손상해입원의료비', '허혈성심장질환진단비', '골절진단비']
hospitalization = ['암입원일당', '암요양병원일당', '질병입원일당', '상해입원일당', '장기간병요양진단비1급', '장기간병요양진단비1,2급', '장기간병요양진단비1,2,3급', '대중교통상해후유장해']
others = ['임플란트', '브릿지', '틀니', '아말감', '치과보존치료', '치과보철치료', '크라운', '복합레진', '인레이/온레이', '교통상해후유장해', '교통사고처리지원금', '벌금담보', '상해후유장해3%이상', '질병후유장해3%이상', '변호사선임비용']

# 중분류로 변환하는 함수 정의
def categorize_income_type(gnt_itm_nm):
    if gnt_itm_nm in death:
        return 'death'
    elif gnt_itm_nm in cancer:
        return 'cancer'
    elif gnt_itm_nm in brain:
        return 'brain'
    elif gnt_itm_nm in surgery_loss:
        return 'surgery_loss'
    elif gnt_itm_nm in hospitalization:
        return 'hospitalization'
    elif gnt_itm_nm in others:
        return 'others'
    else:
        return 'others'  # 기본값

# 'gnt_itm_nm' 컬럼을 중분류로 변환
data['income_category'] = data[col2].apply(categorize_income_type)

# 연령대 구분
def categorize_age_group(age):
    if 20 <= age < 30:
        return '20대'
    elif 30 <= age < 40:
        return '30대'
    elif 40 <= age < 50:
        return '40대'
    elif 50 <= age < 60:
        return '50대'
    else:
        return '기타'  # 60대 이상이나 미정은 기타로 간주

# age_val을 기반으로 age_group 생성
data['age_group'] = data['age_val'].apply(categorize_age_group)

# 연령대별로 카이제곱 검정 수행
for age_group in ['20대', '30대', '40대', '50대']:
    group_data = data[data['age_group'] == age_group]
    
    if not group_data.empty:
        cross_tab = pd.crosstab(group_data['income_category'], group_data[col1])

        # 교차표 및 고유값 확인
        print(f'연령대: {age_group}의 교차표:\n{cross_tab}\n')
        print(f'교차표의 고유값:\nincome_category: {cross_tab.index.unique()}, col1: {cross_tab.columns.unique()}\n')

        # 카이제곱 검정 수행하기 전에 최소 샘플 수 확인
        if (cross_tab.values < 5).any():
            print(f'연령대: {age_group}의 교차표에 최소 5개 미만의 샘플이 있는 범주가 있어 카이제곱 검정을 수행할 수 없습니다.\n')
            continue
        
        # 카이제곱 검정
        chi2, p_value, dof, expected = stats.chi2_contingency(cross_tab)

        # 결과 출력
        print(f'연령대: {age_group} 카이제곱 검정 결과:\nChi2 값: {chi2}, p-value: {p_value}, 자유도: {dof}')
        if p_value < 0.05:
            print('두 변수는 통계적으로 유의미한 관계가 있습니다.\n')
        else:
            print('두 변수는 통계적으로 유의미한 관계가 없습니다.\n')
    else:
        print(f'연령대: {age_group}에 해당하는 데이터가 없습니다.\n')


연령대: 20대의 교차표:
sub_category     camping  classic  concert  fishing  golf  hiking  musical  \
income_category                                                              
brain                 29       41       73       20    38      79      114   
cancer                57       92      193       44    81     168      255   
death                 30       46       70       20    38      56      146   
hospitalization       44       63      125       36    59     129      198   
others                64       87      205       57    87     173      293   
surgery_loss          41       98      176       44    86     182      239   

sub_category     pet  picnic  work_out  yoga  
income_category                               
brain            102      12       418   110  
cancer           202      25       794   229  
death             99       8       381   119  
hospitalization  151      24       639   182  
others           222      29       920   266  
surgery_loss     236      25   

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

# CSV 파일 읽기
filename = "C:/Users/bird1/Downloads/final_balanced_data_with_money_spend.csv"  # 실제 CSV 파일 경로로 바꿔주세요
df = pd.read_csv(filename)

# 제외할 열 설정
excluded_columns = ['sub_category', 'gnt_itm_nm', 'inco_nm']
                    #bth_yymm,age_val,sex_cd,gnt_itm_nm,inco_typ_nm,inco_nm,category,sub_category,duration_year] 
                    #'column_to_exclude1', 'column_to_exclude2']  # 제외할 열 이름 리스트

# 독립 변수와 종속 변수 설정
X = df.drop(columns=excluded_columns)  # 제외할 열을 삭제하여 독립 변수 설정
y = df['sub_category']  # 'sub_category'를 종속 변수로 사용

# 범주형 변수 원-핫 인코딩
X_encoded = pd.get_dummies(X, drop_first=True)

# 데이터 분할 (훈련 세트와 테스트 세트)
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# SVM 모델 초기화 및 훈련
model = SVC(kernel='rbf')  # 선형 커널 사용
model.fit(X_train, y_train)

# 테스트 데이터에 대한 예측
y_pred = model.predict(X_test)

# 결과 평가
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Confusion Matrix:
[[87  0  0  0  0  0  0  0  0  0  0]
 [61  0  0  0  0  0  0  0  0  0  0]
 [50  0  0  0  0  0  0  0  0  0  0]
 [54  0  0  0  0  0  0  0  0  0  0]
 [82  0  0  0  0  0  0  0  0  0  0]
 [93  0  0  0  0  0  0  0  0  0  0]
 [82  0  0  0  0  0  0  0  0  0  0]
 [66  0  0  0  0  0  0  0  0  0  0]
 [71  0  0  0  0  0  0  0  0  0  0]
 [75  0  0  0  0  0  0  0  0  0  0]
 [79  0  0  0  0  0  0  0  0  0  0]]

Classification Report:
              precision    recall  f1-score   support

     camping       0.11      1.00      0.20        87
     classic       0.00      0.00      0.00        61
     concert       0.00      0.00      0.00        50
     fishing       0.00      0.00      0.00        54
        golf       0.00      0.00      0.00        82
      hiking       0.00      0.00      0.00        93
     musical       0.00      0.00      0.00        82
         pet       0.00      0.00      0.00        66
      picnic       0.00      0.00      0.00        71
    work_out       0


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.

