# Census-Income-Prediction

* 다양한 특성을 가진 사람들의 소득이 50k 이상인지 아닌지를 예측하기 위한 데이터셋

* 데이터셋은 Kaggle의 Adult census income dataset을 사용하며, 32561개의 행과 15개의 특성으로 구성되어 있으며, <a href="https://www.kaggle.com/uciml/adult-census-income">링크</a>에서 다운로드 가능

* 데이터셋에는 레이블이 포함되어 있으며, 이 레이블을 예측해야 함

| Column ID |  Column Name   | Data type | Values type |         Description          |
| :-------: | :------------: | :-------: | :---------: | :--------------------------: |
|     0     |      age       |   int64   |  Continous  |        Age of person         |
|     1     |   workclass    |  object   |  Discrete   |     Workclass of person      |
|     2     |     fnlwgt     |   int64   |  Continous  |         Final weight         |
|     3     |   education    |  object   |  Discrete   |  Education Degree of person  |
|     4     | education.num  |   int64   |  Continous  | Number of years of education |
|     5     | marital.status |  object   |  Discrete   |   Marital status of person   |
|     6     |   occupation   |  object   |  Discrete   |     Occupation of person     |
|     7     |  relationship  |  object   |  Discrete   |    Relationship of person    |
|     8     |      race      |  object   |  Discrete   |        Race of person        |
|     9     |      sex       |  object   |  Discrete   |        Sex of person         |
|    10     |  capital.gain  |   int64   |  Continous  |    Capital gain of person    |
|    11     |  capital.loss  |   int64   |  Continous  |    Capital loss of person    |
|    12     | hours.per.week |   int64   |  Continous  |   Number of hours per week   |
|    13     | native.country |  object   |  Discrete   |   Native country of person   |
|    14     |     income     |  object   |  Discrete   |  Income category of person   |

## Step 0: 라이브러리 및 데이터셋 로드

In [None]:
# Import libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [None]:
# 데이터 불러오기
dataset = pd.read_csv('adult.csv')

## Step 1: 데이터셋 관찰

In [None]:
# 데이터셋의 형태를 확인합니다. 첫 5개의 데이터를 출력
dataset.head()

In [None]:
# Shape of dataset
print('Rows: {} Columns: {}'.format(dataset.shape[0], dataset.shape[1]))

In [None]:
# Features data-type
dataset.info()

In [None]:
# Statistical summary
dataset.describe().T

#### Problem 1

1) 데이터셋의 행의 수를 출력해주세요.  
2) 결측치가 있는지 확인하고, 있다면 어떤 특성에 결측치가 얼마나 있는지 확인해보세요. (비율로 표현)  
3) 결측치가 있다면, 결측치를 처리해주세요. (결측치가 있는 행 삭제)  
4) 삭제된 후 데이터셋의 행의 수를 출력해주세요.  
5) 타겟 변수인 income의 분포를 확인해주세요.  

In [None]:
# 1-1 데이터셋의 행의 수를 출력해주세요.

In [None]:
# 1-2 결측치가 있는지 확인하고, 있다면 어떤 특성에 결측치가 얼마나 있는지 확인해보세요. (비율로 표현)

# 결측치 확인 (nan/null)

In [None]:
# 1-2 결측치가 있는지 확인하고, 있다면 어떤 특성에 결측치가 얼마나 있는지 확인해보세요. (비율로 표현)

# 결측치 확인 (?)

In [None]:
# 1-3 결측치가 있다면, 결측치를 처리해주세요. (결측치가 있는 행 삭제)

# Replace '?' with NaN

# Drop rows with missing values

In [None]:
# 1-4 삭제된 후 데이터셋의 행의 수를 출력해주세요.

In [None]:
# 1-5 타겟 변수인 income의 분포를 확인해주세요.

#### 관찰 내용

* 

## Step 2: Exploratory Data Analysis

### 2.1: 일변량 분석 (Univariate Analysis)

#### Problem 2

1) Income 분포를 막대 그래프로 그려주세요. (좌측 막대: 50k 이하, 우측 막대: 50k 이상)  
2) Age 분포를 히스토그램으로 그려주세요. (빈 개수=20)  
3) Sex 분포를 가로 막대 그래프로 그려주세요.  
4) Education 분포를 막대 그래프로 그려주세요.  
5) Education Year 분포를 히스토그램으로 그려주세요. (빈 개수=10)  
6) Workclass 분포를 막대 그래프로 그려주세요.  
7) Marital Status 분포를 원형 그래프로 그려주세요. (비율로 표현, 범례 표시, 원판이 그림의 중심에 오도록 조정, 'never-married' 범주를 떨어뜨려 강조, startangle: 10)  
8) Relationship 분포를 도넛 그래프로 그려주세요. (비율로 표현, 범례 표시, 원판이 그림의 중심에 오도록 조정, startangle: 50, donut 내경이 외경의 70%가 되도록 설정)  
9) Occupation 분포를 막대 그래프로 그려주세요.  
10) hours per week을 히스토그램으로 그려주세요. (빈 개수=10, x축 범위: 20~80)  


참고사항
- 그래프의 제목, x축 레이블, y축 레이블을 꼭 표시해주세요.
- 막대 그래프의 경우, x축 레이블이 겹치지 않도록 적절히 회전해주세요.
- 그래프가 너무 작아서/커서 보기 어려운 경우, figsize를 조절해주세요.
- 글씨 크기가 너무 작아서/커서 보기 어려운 경우, fontsize를 조절해주세요.
- 필요하다면 범례(legend)를 표시해주세요.

In [None]:
# 2-1 Income 분포를 막대 그래프로 그려주세요. (좌측 막대: 50k 이하, 우측 막대: 50k 이상)


In [None]:
# 2-2 Age 분포를 히스토그램으로 그려주세요. (빈 개수=20)


In [None]:
# 2-3 Sex 분포를 가로 막대 그래프로 그려주세요.



In [None]:
# 2-4 Education 분포를 막대 그래프로 그려주세요.



In [None]:
# 2-5 Education Year 분포를 히스토그램으로 그려주세요. (빈 개수=10)



In [None]:
# 2-6 Workclass 분포를 막대 그래프로 그려주세요.



In [None]:
# 2-7 Marital Status 분포를 원형 그래프로 그려주세요. (비율로 표현, 범례 표시, 원판이 그림의 중심에 오도록 조정, 'never-married' 범주를 떨어뜨려 강조, startangle: 10)



marital status (결혼 상태) 변수 설명
- married-civ-spouse: marries civilian spouse (민간인 배우자와 결혼)
- never-married: never married (결혼하지 않음)
- divorced: divorced (이혼)
- separated: separated (분리)
- widowed: widowed (사별)
- married-spouse-absent: married spouse absent (결혼 후 직장 등의 사유로 떨어져있음)
- married-AF-spouse: married Armed Forces spouse (군인 배우자와 결혼)

In [None]:
# 2-8 Relationship 분포를 도넛 그래프로 그려주세요. (비율로 표현, 범례 표시, 원판이 그림의 중심에 오도록 조정, startangle: 50, donut 내경이 외경의 70%가 되도록 설정)



In [None]:
# 2-9 Occupation 분포를 막대 그래프로 그려주세요.





In [None]:
# 2-10 hours per week을 히스토그램으로 그려주세요. (빈 개수=10, x축 범위: 20~80)




### 2.2 이변량 분석 (Bivariate Analysis)

#### Problem 3

1) Age 분포를 Income에 따라 나누어 박스 플롯으로 그려주세요.(좌측: 50k 이하, 우측: 50k 이상)  
2) Age 분포를 Income에 따라 나누어 개수 분포로 그려주세요. (rotation: 90)  
3) Education에 따른 소득 분포를 막대 그래프로 그려주세요.  
4) Years of Education에 따른 소득 분포를 막대 그래프로 그려주세요.  
5) Occupation에 따른 소득 분포를 막대 그래프로 그려주세요.  
6) Age와 Hours per week의 관계를 산점도로 그려주세요. (x축: Age, y축: Hours per week, alpha: 0.3)  
7) Years of Education과 Hours per week의 관계를 Income에 따라 다른 색상으로 표현하는 jointplot로 그려주세요. (x축: Years of Education, y축: Hours per week, alpha: 0.3, hue: income)  


참고사항
- 그래프의 제목, x축 레이블, y축 레이블을 꼭 표시해주세요.
- 막대 그래프의 경우, x축 레이블이 겹치지 않도록 적절히 회전해주세요.
- 그래프가 너무 작아서/커서 보기 어려운 경우, figsize를 조절해주세요.
- 글씨 크기가 너무 작아서/커서 보기 어려운 경우, fontsize를 조절해주세요.
- 필요하다면 범례(legend)를 표시해주세요.

In [None]:
# 3-1 Age 분포를 Income에 따라 나누어 박스 플롯으로 그려주세요.(좌측: 50k 이하, 우측: 50k 이상)



In [None]:
# 3-2 Age 분포를 Income에 따라 나누어 개수 분포로 그려주세요.




In [None]:
# 3-3 Education에 따른 소득 분포를 막대 그래프로 그려주세요.



In [None]:
# 3-4 Years of Education에 따른 소득 분포를 막대 그래프로 그려주세요.




In [None]:
# 3-5 Occupation에 따른 소득 분포를 막대 그래프로 그려주세요.



In [None]:
# 3-6 Age와 Hours per week의 관계를 산점도로 그려주세요. (x축: Age, y축: Hours per week, alpha: 0.3)




In [None]:
# 3-7 Years of Education과 Hours per week의 관계를 Income에 따라 다른 색상으로 표현하는 jointplot로 그려주세요. (x축: Years of Education, y축: Hours per week, alpha: 0.3, hue: income)




### 2.3: 다변량 분석 (Multivariate Analysis)

#### Problem 4

1) 수치형 변수들의 상관관계를 pairplot으로 그려주세요. (색상: income, 투명도: 0.3, 마커 사이즈: 3)  
2) 수치형 변수들의 상관관계를 heatmap으로 그려주세요. (color map: 'coolwarm', 주대각선 아래 요소에만 상관관계 표시)

In [None]:
# 4-1 수치형 변수들의 상관관계를 pairplot으로 그려주세요. (색상: income, 투명도: 0.3, 마커 사이즈: 3)




In [None]:
# 4-2 수치형 변수들의 상관관계를 heatmap으로 그려주세요. (color map: 'coolwarm', 주대각선 아래 요소에만 상관관계 표시)




#### 관찰 내용

- 