# 서울시 인구 분석

<img src='https://raw.githubusercontent.com/Jangrae/img/master/people2.png' width="650" align="left">

## 1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [1]:
# 기본 라이브러리 가져오기
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

* 데이터 불러오기

    - 다음 경로의 파일을 읽어와 pop01, pop02, pop03 데이터프레임을 만듭니다.
    - 파일 경로1: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv
    - 파일 경로2: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv
    - 파일 경로3: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv

In [2]:
pop01 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv')

In [3]:
pop02 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv')

In [4]:
pop03 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv')

## 2. 데이터 탐색

다음과 같은 정보 확인을 통해 처리할 대상 데이터를 이해합니다.
- 상/하위 데이터 확인
- 데이터프레임 크기 확인
- 열 이름, 데이터 형식, 값 개수 등 확인
- 기초 통계정보 확인
- 결측치 확인
- 범주형 데이터 확인
- 개별 열 값 상세 확인 등

**1) 데이터프레임 크기 확인**

- 세 개의 데이터프레임 크기(행 수, 열 수)를 확인합니다.

In [6]:
display(pop01.shape)
display(pop02.shape)
display(pop03.shape)

(40, 3)

(36, 3)

(40, 3)

**2) year 최솟값, 최댓값 확인**

- 세 개의 데이터프레임 year열 최솟값, 최댓값 크기를 비교해 차이가 있는 지 각각 확인합니다.

In [8]:
display(pop01['year'].agg(['min','max']))
display(pop02['year'].agg(['min','max']))
display(pop03['year'].agg(['min','max']))

min    1981
max    2020
Name: year, dtype: int64

min    1985
max    2020
Name: year, dtype: int64

min    1981
max    2020
Name: year, dtype: int64

**3) 결측치 확인**

- 세 개의 데이터프레임에 결측치가 있는 지 각각 확인합니다.

In [10]:
display(pop01.isnull().sum())
display(pop02.isnull().sum())
display(pop03.isnull().sum())

year        0
k_male      0
k_female    0
dtype: int64

year        0
f_male      0
f_female    0
dtype: int64

year         0
household    0
older_65     0
dtype: int64

**4) 열 정보 확인**

- 세 개의 데이터프레임의 열 정보를 확인합니다.

In [12]:
display(pop01.columns)
display(pop02.columns)
display(pop03.columns)

Index(['year', 'k_male', 'k_female'], dtype='object')

Index(['year', 'f_male', 'f_female'], dtype='object')

Index(['year', 'household', 'older_65'], dtype='object')

## 3. 데이터 전처리

전처리 과정에서 다음과 같은 처리를 할 수 있습니다.

- 결측치 처리
- 값 변경
- 열 추가
- 불필요한 열 제거
- 열 이름 변경
- 데이터 통합(연결 또는 조인)
- 가변수화 등

**1) 데이터 통합**

- concat을 사용해 연결하면 인덱스 값을 기준으로 연결되어 데이터가 어긋납니다.
- **year** 열을 기준으로 **outer** 방식으로 조인(병합)합니다.
- 외국인 정보가 1981 ~ 1984년이 누락되어 결측치가 발생할 것입니다.
- 세 개의 데이터프레임을 병합(조인)하여 pop 데이터프레임을 선언합니다.
- 이후의 모든 작업은 pop 데이터프레임을 대상으로 진행합니다.

**2) 결측치 확인**

- 결측치가 있는지 확인합니다.

**3) 결측치 처리**

- 연도별 인구 현황이므로 임의의 값을 채우는 것이 바람직하지 않아 보입니다.
- 이후 값, 즉 1985년 값으로 채우는 것도 정확한 분석을 방해할 것 같습니다.
- 이에 결측치가 있는 1981년~1984년 행을 제거할 것입니다.

**3) 열 추가**

- 이후 분석의 편의를 위해 다음과 같은 의미를 갖는 열을 추가하고자 합니다.
    - k_total = 전체 한국인 인구수
    - f_total = 전체 외국인 인구수
    - male = 전체 남자 인구수
    - female = 전체 여자 인구수
    - total = 전체 인구수
- 추가할 열에 대한 공식은 다음과 같습니다.
    - k_total = k_male + k_female
    - f_total = f_male + f_female
    - male = k_male + f_male
    - female = k_female + f_female
    - total = k_total + f_total
- 정리한 공식에 따라 데이터프레임에 열을 추가합니다.

**4) 열 순서 변경**

- 데이터 이해를 돕기 위해 다음과 같은 순서로 데이터프레임 열 순서를 변경합니다.
- year, household, total, male, female, k_total, k_male, k_female, f_total, f_male, f_female, older_65


**5) 인덱스 초기화**

- 인덱스가 0부터 시작하는 일련 변호를 갖지 않는다면 인덱스를 초기화합니다.

## 4. 추가 전처리

* x, y 구분

    - x : feature
    - y : target <- total

* train test split

* Scaling

    - min-max scaling

## 5. 모델링

* 모델 선언

* 모델 학습

* 학습한 모델 기반으로 예측값 생성

## 6. 평가