<a href="https://colab.research.google.com/github/park-hoyeon/park-hoyeon.github.io/blob/master/skt_6_24_%EC%86%8C%EB%93%9D_%EC%88%98%EC%A4%80_%EC%98%88%EC%B8%A1_%EC%8B%A4%EC%8A%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 시각화 스타일 설정
plt.style.use('seaborn-v0_8-whitegrid')
# 한글 폰트 설정 (Colab 환경에서 필요한 경우)
#!sudo apt-get install -y fonts-nanum
#!sudo fc-cache -fv
#!rm ~/.cache/matplotlib -rf
# plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] = False # 마이너스 기호 깨짐 방지

In [None]:
# 데이터셋 URL
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'

# 데이터셋의 열 이름 정의
column_names = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income'
]

# 데이터 불러오기
# names 파라미터로 열 이름을 지정하고, na_values로 결측치 문자를 지정합니다.
# strip() 함수를 사용하여 각 열의 값 앞뒤에 있을 수 있는 공백을 제거합니다.
df = pd.read_csv(url, header=None, names=column_names,
                 na_values='?', sep=',\s*', engine='python')

# 데이터의 첫 5행 확인
print("데이터 샘플 (상위 35개):")
print(df.head(35))


In [None]:
# 기본 정보 확인
# 데이터의 차원 확인 (행, 열 개수)
print(f"데이터 차원: {df.shape}")

# 데이터의 전반적인 정보 확인
print("\n데이터 기본 정보:")
df.info()


In [None]:
# 한글 폰트 설정 (Colab 환경에서 필요한 경우)
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
import seaborn as sns
import matplotlib.pyplot as plt

# 'capital-loss'가 0보다 큰 경우를 자본 손실이 발생한 것으로 정의
df['has_capital_loss'] = (df['capital-loss'] > 0).astype(int)

# 자본 손실 발생 여부에 따른 소득 분포 시각화
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='has_capital_loss', hue='income', palette='viridis')
plt.title("자본 손실 발생 여부에 따른 소득 분포")
plt.xlabel("자본 손실 발생 (0: 없음, 1: 있음)")
plt.ylabel("사람 수")
plt.xticks([0, 1], ['자본 손실 없음', '자본 손실 있음'])
plt.legend(title="소득")
plt.show()

In [None]:
# 남성이면서 백인인 데이터 필터링
male_white_df = df[(df['sex'] == 'Male') & (df['race'] == 'White')].copy()

# 필터링된 데이터에서 자본 손실 발생 여부에 따른 소득 분포 시각화
plt.figure(figsize=(8, 6))
sns.countplot(data=male_white_df, x='has_capital_loss', hue='income', palette='viridis')
plt.title("남성 백인의 자본 손실 발생 여부에 따른 소득 분포")
plt.xlabel("자본 손실 발생 (0: 없음, 1: 있음)")
plt.ylabel("사람 수")
plt.xticks([0, 1], ['자본 손실 없음', '자본 손실 있음'])
plt.legend(title="소득")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 시각화 스타일 설정
plt.figure(figsize=(12, 6))
sns.set(style="whitegrid")

# race별로 age vs hours-per-week 산점도 (income 색상)
sns.scatterplot(
    data=df,
    x='age',
    y='hours-per-week',
    hue='income',
    style='race',
    palette='Set1',
    alpha=0.7
)

plt.title("인종(race) 및 소득에 따른 나이-근무시간 산점도")
plt.xlabel("나이 (age)")
plt.ylabel("주당 근무시간 (hours-per-week)")
plt.legend(title='소득 & 인종')
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# 자본 이득이 0보다 큰 데이터만 필터링
df_gain_only = df[df['capital-gain'] > 0].copy()

if not df_gain_only.empty:
    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df_gain_only, x='income', y='capital-gain', palette='viridis')
    plt.title("Distribution of Capital Gain by Income (>0)")  # 제목 변경
    plt.xlabel("Income")  # x축 라벨 변경
    plt.ylabel("Capital Gain")  # y축 라벨 변경
    plt.yscale('log') # 값의 범위가 넓을 수 있으므로 로그 스케일 적용
    plt.show()
else:
    print("No data with capital gain greater than 0.") # 메시지 변경

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# 자본 손실이 0보다 큰 데이터만 필터링
df_loss_only = df[df['capital-loss'] > 0].copy()

if not df_loss_only.empty:
    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df_loss_only, x='income', y='capital-loss', palette='viridis')
    plt.title("Distribution of Capital Loss by Income (>0)")  # 제목 변경
    plt.xlabel("Income")  # x축 라벨 변경
    plt.ylabel("Capital Loss")  # y축 라벨 변경
    plt.yscale('log') # 값의 범위가 넓을 수 있으므로 로그 스케일 적용
    plt.show()
else:
    print("No data with capital loss greater than 0.") # 메시지 변경

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='race', hue='income', palette='pastel')
plt.title("인종별 소득 분포 (<=50K vs >50K)")
plt.xlabel("인종")
plt.ylabel("사람 수")
plt.xticks(rotation=30)
plt.legend(title="소득")
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(data=df, x='race', y='hours-per-week', palette='Blues')
plt.title("인종별 평균 주당 근무시간")
plt.xlabel("인종")
plt.ylabel("평균 근무시간")
plt.xticks(rotation=30)
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='age', y='hours-per-week', hue='race', alpha=0.6)
plt.title("인종별 나이 vs 근무시간 산점도")
plt.xlabel("나이")
plt.ylabel("근무시간")
plt.legend(title='인종')
plt.tight_layout()
plt.show()


In [None]:
# 각 열의 결측치 개수 확인
print("열별 결측치 개수:")
print(df.isnull().sum())

# 결측치 비율 계산
missing_percentage = (df.isnull().sum() / len(df)) * 100
print("\n열별 결측치 비율 (%):")
print(missing_percentage[missing_percentage > 0])


In [None]:
# 예: education별로 결측 비율
df['missing_group'] = df['workclass'].isnull()
df.groupby('education')['missing_group'].mean().sort_values(ascending=False)


In [None]:
df['workclass'] = df['workclass'].fillna('Unknown')
df['occupation'] = df['occupation'].fillna('Unknown')


In [None]:
# workclass == 'Unknown'의 고소득 비율
df[df['workclass'] == 'Unknown']['income'].value_counts(normalize=True)


In [None]:
# workclass가 결측치인 행에서 occupation 열의 상태 확인
missing_workclass_rows = df[df['workclass'].isnull()]
print(f"workclass가 결측치인 행의 수: {len(missing_workclass_rows)}")
print(f"그 중 occupation도 결측치인 행의 수: {missing_workclass_rows['occupation'].isnull().sum()}")


In [None]:
# workclass와 occupation의 결측치를 'Unknown'으로 채우기
df['workclass'].fillna('Unknown', inplace=True)
df['occupation'].fillna('Unknown', inplace=True)

# native-country는 결측치 비율이 낮고, 대부분이 'United-States'이므로 최빈값으로 채우거나 행을 제거할 수 있습니다.
# 여기서는 분석의 일관성을 위해 최빈값으로 채우겠습니다.
mode_country = df['native-country'].mode()
df['native-country'].fillna(mode_country, inplace=True)

# 결측치가 모두 처리되었는지 다시 확인
print("\n결측치 처리 후 데이터 정보:")
df.info()


In [None]:
#목표 변수(Income) 정리
# income 열의 고유값 확인
print("\nIncome 변수의 고유값:")
print(df['income'].value_counts())

# income 열을 0과 1로 변환하여 새로운 열 'income_binary' 생성
df['income_binary'] = df['income'].apply(lambda x: 1 if x == '>50K' else 0)

# 변환 결과 확인
print("\nIncome 변수 변환 후 (상위 5개):")
print(df[['income', 'income_binary']].head())


In [None]:
# 수치형 데이터의 기술 통계량 확인
print(df.describe())


In [None]:
# 수치형 변수 리스트
numerical_features = ['age', 'fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']

# 히스토그램으로 분포 확인
df[numerical_features].hist(bins=30, figsize=(15, 10))
plt.suptitle("Distribution of Numerical Features", size=20)
plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()


In [None]:
# 주요 범주형 변수 리스트
categorical_features = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex']

# 각 범주형 변수에 대한 countplot 그리기
fig, axes = plt.subplots(4, 2, figsize=(15, 25))
axes = axes.flatten() # 2차원 배열을 1차원으로 변환

for i, col in enumerate(categorical_features):
    order = df[col].value_counts().index
    sns.countplot(y=col, data=df, order=order, ax=axes[i], palette='viridis')
    axes[i].set_title(f'Count of Individuals by {col}')
    axes[i].set_xlabel('Count')
    axes[i].set_ylabel('')

# 마지막 subplot이 비어있으면 숨기기
if len(categorical_features) < len(axes):
    axes[-1].set_visible(False)

plt.tight_layout()
plt.show()


In [None]:
#우리가 예측하고자 하는 소득 그룹의 분포부터 확인하기!
plt.figure(figsize=(6, 5))
sns.countplot(x='income', data=df, palette='magma')
plt.title('Distribution of Income Groups')
plt.xlabel('Income')
plt.ylabel('Count')

# 비율 출력
income_counts = df['income'].value_counts(normalize=True) * 100
print(f"<=50K 비율: {income_counts['<=50K']:.2f}%")
print(f">50K 비율: {income_counts['>50K']:.2f}%")

plt.show()


In [None]:
# 교육 수준별 고소득자 비율 시각화
plt.figure(figsize=(12, 8))
# 각 education 카테고리 내에서 income 비율을 계산하여 정규화된 막대 그래프를 그립니다.
prop_df = df.groupby('education')['income_binary'].mean().reset_index().sort_values('income_binary', ascending=False)
sns.barplot(x='income_binary', y='education', data=prop_df, palette='coolwarm')
plt.title('Proportion of >50K Earners by Education Level', fontsize=15)
plt.xlabel('Proportion of >50K Earners')
plt.ylabel('Education Level')
plt.xticks(np.arange(0, 1.0, 0.1))
plt.show()


In [None]:
#수치형 변수와 소득의 관계

fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# 나이(age)와 소득의 관계 - Use the first Axes object (axes[0])
sns.boxplot(x='income', y='age', data=df, ax=axes[0], palette='viridis')
axes[0].set_title('Distribution of Age by Income Group')
axes[0].set_xlabel('Income')
axes[0].set_ylabel('Age')

# 주당 근무 시간(hours-per-week)과 소득의 관계 - Use the second Axes object (axes[1])
sns.boxplot(x='income', y='hours-per-week', data=df, ax=axes[1], palette='viridis')
axes[1].set_title('Distribution of Hours-per-week by Income Group')
axes[1].set_xlabel('Income')
axes[1].set_ylabel('Hours per Week')

plt.tight_layout()
plt.show()

In [None]:
# 피처 엔지니어링
# education-num을 기준으로 교육 수준을 그룹화하는 함수 정의
def group_education(num):
    if num < 9:
        return 'No-HS-Diploma'
    elif num == 9:
        return 'HS-Graduate'
    elif num > 9 and num < 13:
        return 'Some-College'
    elif num == 13:
        return 'Bachelors'
    else:
        return 'Post-Graduate'

# 새로운 'education_group' 열 생성
df['education_group'] = df['education-num'].apply(group_education)

# 그룹화된 교육 수준별 고소득자 비율 확인
edu_group_prop = df.groupby('education_group')['income_binary'].mean().sort_values(ascending=False)
print(edu_group_prop)


In [None]:
#자본 이득/손실 이진화
df['has_capital_gain'] = (df['capital-gain'] > 0).astype(int)
df['has_capital_loss'] = (df['capital-loss'] > 0).astype(int)

print("\n자본 이득 발생 여부에 따른 고소득자 비율:")
print(df.groupby('has_capital_gain')['income_binary'].mean())


In [None]:
# 나이와 소득의 관계를 성별로 나누어 시각화
sns.catplot(x='income', y='age', data=df, kind='violin', col='sex', palette='pastel')
plt.suptitle('Age Distribution by Income and Sex', y=1.02)
plt.show()


In [None]:
# 근무 시간과 소득의 관계를 새로 만든 교육 그룹별로 나누어 시각화
sns.catplot(x='income', y='hours-per-week', data=df, kind='box',col='education_group', palette='Set3')
plt.suptitle('Hours-per-week Distribution by Income and Education Group', y=1.02)
plt.show()


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 1. 결측 그룹 레이블 생성 (결측치 채우기 전에 생성)
# workclass 열의 null 여부를 기반으로 missing_label 생성
df['missing_label'] = df['workclass'].isnull().astype(int)

# 참고: 이미 결측치를 'Unknown'으로 채웠기 때문에,
# 만약 이전에 'Unknown'으로 채우는 셀을 실행했다면,
# df['workclass'].isnull()은 모두 False가 될 것입니다.
# 따라서 이 셀은 결측치를 채우기 전의 df 상태에서 실행되어야 정확합니다.
# 또는, 결측치를 채우기 전에 이 부분을 먼저 실행하거나
# 원본 데이터셋을 다시 로드하여 missing_label을 생성해야 합니다.

# 2. 수치형 + 범주형 주요 변수 선택
# df_model을 생성할 때 missing_label을 포함하고,
# 나머지 결측치는 dropna() 전에 이미 처리되었다고 가정합니다.
# 만약 다른 열에 결측치가 있다면 dropna()가 여전히 일부 행을 제거할 수 있습니다.
cols = ['age', 'education-num', 'hours-per-week', 'sex', 'relationship', 'native-country']
# missing_label 컬럼은 dropna()에 포함시키지 않거나, 이미 결측치가 없도록 처리해야 합니다.
# 여기서는 missing_label이 이미 생성되었으므로, dropna()는 선택된 cols에만 적용됩니다.
df_model = df[cols + ['missing_label']].copy() # .copy()를 사용하여 SettingWithCopyWarning 방지

# 3. 범주형 라벨 인코딩
# df_model에 포함된 범주형 컬럼만 인코딩합니다.
for col in df_model.select_dtypes(include='object').columns:
    # dropna() 이후에도 missing_label 컬럼은 남아야 하므로 missing_label이 object 타입이 아니라고 가정
    if col != 'missing_label': # missing_label이 정수형이므로 이 조건은 불필요할 수 있지만 명시적으로 제외
        df_model[col] = LabelEncoder().fit_transform(df_model[col])

# 4. 학습 및 평가
X = df_model.drop('missing_label', axis=1)
y = df_model['missing_label']

# y에 0과 1이 모두 포함되어 있는지 확인
print(f"Unique values in y: {y.unique()}")

# y에 2개 이상의 클래스가 있는지 확인하고 stratify 사용
if len(y.unique()) >= 2:
    X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)
    model = LogisticRegression(max_iter=1000)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    print(classification_report(y_test, y_pred))
else:
    print("Target variable 'missing_label' contains only one class. Cannot train the model.")