# 서울시 인구 분석

<img src='https://raw.githubusercontent.com/Jangrae/img/master/people2.png' width="650" align="left">

## 1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [1]:
import pandas as pd
import numpy as np

* 데이터 불러오기

    - 다음 경로의 파일을 읽어와 pop01, pop02, pop03 데이터프레임을 만듭니다.
    - 파일 경로1: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv
    - 파일 경로2: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv
    - 파일 경로3: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv

In [2]:
pop01 = pd.read_csv("https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv")

In [3]:
pop02 = pd.read_csv("https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv")

In [4]:
pop03 = pd.read_csv("https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv")

## 2. 데이터 탐색

다음과 같은 정보 확인을 통해 처리할 대상 데이터를 이해합니다.
- 상/하위 데이터 확인
- 데이터프레임 크기 확인
- 열 이름, 데이터 형식, 값 개수 등 확인
- 기초 통계정보 확인
- 결측치 확인
- 범주형 데이터 확인
- 개별 열 값 상세 확인 등

**1) 데이터프레임 크기 확인**

- 세 개의 데이터프레임 크기(행 수, 열 수)를 확인합니다.

In [5]:
print(pop01.shape)
print(pop02.shape)
print(pop03.shape)

(40, 3)
(36, 3)
(40, 3)


**2) year 최솟값, 최댓값 확인**

- 세 개의 데이터프레임 year열 최솟값, 최댓값 크기를 비교해 차이가 있는 지 각각 확인합니다.

In [6]:
print(pop01['year'].max(),pop02['year'].max(),pop03['year'].max())
print(pop01['year'].min(),pop02['year'].min(),pop03['year'].min())

2020 2020 2020
1981 1985 1981


**3) 결측치 확인**

- 세 개의 데이터프레임에 결측치가 있는 지 각각 확인합니다.

In [7]:
pop01.isna().sum()

year        0
k_male      0
k_female    0
dtype: int64

In [8]:
pop02.isna().sum()

year        0
f_male      0
f_female    0
dtype: int64

In [9]:
pop03.isna().sum()

year         0
household    0
older_65     0
dtype: int64

**4) 열 정보 확인**

- 세 개의 데이터프레임의 열 정보를 확인합니다.

In [10]:
pop01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      40 non-null     int64
 1   k_male    40 non-null     int64
 2   k_female  40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB


In [11]:
pop02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      36 non-null     int64
 1   f_male    36 non-null     int64
 2   f_female  36 non-null     int64
dtypes: int64(3)
memory usage: 992.0 bytes


In [12]:
pop03.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   year       40 non-null     int64
 1   household  40 non-null     int64
 2   older_65   40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB


## 3. 데이터 전처리

전처리 과정에서 다음과 같은 처리를 할 수 있습니다.

- 결측치 처리
- 값 변경
- 열 추가
- 불필요한 열 제거
- 열 이름 변경
- 데이터 통합(연결 또는 조인)
- 가변수화 등

**1) 데이터 통합**

- concat을 사용해 연결하면 인덱스 값을 기준으로 연결되어 데이터가 어긋납니다.
- **year** 열을 기준으로 **outer** 방식으로 조인(병합)합니다.
- 외국인 정보가 1981 ~ 1984년이 누락되어 결측치가 발생할 것입니다.
- 세 개의 데이터프레임을 병합(조인)하여 pop 데이터프레임을 선언합니다.
- 이후의 모든 작업은 pop 데이터프레임을 대상으로 진행합니다.

In [13]:
pop = pd.merge(pop01, pop02, how="outer", on='year')

In [14]:
pop = pd.merge(pop, pop03, how = "outer", on = 'year')

In [15]:
pop.head()

Unnamed: 0,year,k_male,k_female,f_male,f_female,household,older_65
0,1981,4160,4191,,,1915,246
1,1982,4160,4191,,,2001,260
2,1983,4160,4191,,,2116,260
3,1984,4160,4191,,,2246,275
4,1985,4160,4191,7.0,6.0,2338,211


In [16]:
# reduce 함수
# 어떤 함수를 누적해서 사용할 때 사용
from functools import reduce

data_list = [pop01, pop02, pop03]
pop = reduce(lambda x, y : pd.merge(x,y,on ='year', how = "outer"), data_list)
pop.head()

Unnamed: 0,year,k_male,k_female,f_male,f_female,household,older_65
0,1981,4160,4191,,,1915,246
1,1982,4160,4191,,,2001,260
2,1983,4160,4191,,,2116,260
3,1984,4160,4191,,,2246,275
4,1985,4160,4191,7.0,6.0,2338,211


**2) 결측치 확인**

- 결측치가 있는지 확인합니다.

In [17]:
pop.isna().sum()

year         0
k_male       0
k_female     0
f_male       4
f_female     4
household    0
older_65     0
dtype: int64

**3) 결측치 처리**

- 연도별 인구 현황이므로 임의의 값을 채우는 것이 바람직하지 않아 보입니다.
- 이후 값, 즉 1985년 값으로 채우는 것도 정확한 분석을 방해할 것 같습니다.
- 이에 결측치가 있는 1981년~1984년 행을 제거할 것입니다.

In [18]:
pop.dropna(axis=0, inplace=True)

**3) 열 추가**

- 이후 분석의 편의를 위해 다음과 같은 의미를 갖는 열을 추가하고자 합니다.
    - k_total = 전체 한국인 인구수
    - f_total = 전체 외국인 인구수
    - male = 전체 남자 인구수
    - female = 전체 여자 인구수
    - total = 전체 인구수
- 추가할 열에 대한 공식은 다음과 같습니다.
    - k_total = k_male + k_female
    - f_total = f_male + f_female
    - male = k_male + f_male
    - female = k_female + f_female
    - total = k_total + f_total
- 정리한 공식에 따라 데이터프레임에 열을 추가합니다.

In [19]:
pop['k_total'] = pop['k_male'] + pop['k_female']
pop['f_total'] = pop['f_male'] + pop['f_female']
pop['male'] = pop['k_male'] + pop['f_male']
pop['female'] = pop['k_female'] + pop['f_female']
pop['total'] = pop['k_total'] + pop['f_total']

In [20]:
pop.head()

Unnamed: 0,year,k_male,k_female,f_male,f_female,household,older_65,k_total,f_total,male,female,total
4,1985,4160,4191,7.0,6.0,2338,211,8351,13.0,4167.0,4197.0,8364.0
5,1986,4899,4888,7.0,5.0,2428,305,9787,12.0,4906.0,4893.0,9799.0
6,1987,5000,4979,6.0,5.0,2518,329,9979,11.0,5006.0,4984.0,9990.0
7,1988,5156,5120,5.0,5.0,2658,349,10276,10.0,5161.0,5125.0,10286.0
8,1989,5305,5261,6.0,5.0,2817,363,10566,11.0,5311.0,5266.0,10577.0


**4) 열 순서 변경**

- 데이터 이해를 돕기 위해 다음과 같은 순서로 데이터프레임 열 순서를 변경합니다.
- year, household, total, male, female, k_total, k_male, k_female, f_total, f_male, f_female, older_65


In [21]:
pop = pop[['year', 'household', 'total', 'male', 'female', 'k_total', 'k_male', 'k_female', 'f_total', 'f_male', 'f_female', 'older_65']]

In [22]:
pop.head()

Unnamed: 0,year,household,total,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
4,1985,2338,8364.0,4167.0,4197.0,8351,4160,4191,13.0,7.0,6.0,211
5,1986,2428,9799.0,4906.0,4893.0,9787,4899,4888,12.0,7.0,5.0,305
6,1987,2518,9990.0,5006.0,4984.0,9979,5000,4979,11.0,6.0,5.0,329
7,1988,2658,10286.0,5161.0,5125.0,10276,5156,5120,10.0,5.0,5.0,349
8,1989,2817,10577.0,5311.0,5266.0,10566,5305,5261,11.0,6.0,5.0,363


**5) 인덱스 초기화**

- 인덱스가 0부터 시작하는 일련 변호를 갖지 않는다면 인덱스를 초기화합니다.

In [23]:
pop.reset_index(inplace=True, drop=True)

## 4. 추가 전처리

* x, y 구분

    - x : feature
    - y : target <- total

In [24]:
x = pop.drop("total", axis=1)

In [25]:
y = pop[['total']]

* train test split

In [26]:
from sklearn.model_selection import train_test_split

In [27]:
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=1)

In [28]:
train_x.shape, train_y.shape

((25, 11), (25, 1))

* Scaling

    - min-max scaling

In [29]:
from sklearn.preprocessing import MinMaxScaler

In [30]:
# 사용할 함수 선언
scaler = MinMaxScaler()

In [31]:
# 변환시키기
train_x = scaler.fit_transform(train_x)
test_x = scaler.fit_transform(test_x)

In [32]:
train_x

array([[0.94285714, 0.92596154, 0.55029586, 0.75119617, 0.54760062,
        0.45820896, 0.64389068, 1.        , 1.        , 1.        ,
        0.88798821],
       [0.68571429, 0.85528846, 0.75      , 0.86602871, 0.71865325,
        0.67089552, 0.77009646, 0.89818182, 0.88636364, 0.90909091,
        0.5394252 ],
       [0.71428571, 0.90673077, 0.79068047, 0.90988836, 0.75890093,
        0.70970149, 0.81189711, 0.92      , 0.90909091, 0.93006993,
        0.58732498],
       [0.11428571, 0.23028846, 0.84615385, 0.85247209, 0.85719814,
        0.85447761, 0.86012862, 0.00727273, 0.00757576, 0.00699301,
        0.11201179],
       [0.05714286, 0.08653846, 0.62056213, 0.62759171, 0.63003096,
        0.62686567, 0.63344051, 0.00727273, 0.00757576, 0.00699301,
        0.08695652],
       [0.4       , 0.55432692, 0.74260355, 0.76076555, 0.74032508,
        0.73208955, 0.74919614, 0.17818182, 0.18939394, 0.16783217,
        0.23507738],
       [0.28571429, 0.53365385, 0.85724852, 0.85566188, 0.

In [33]:
test_x

array([[0.87096774, 0.91736527, 0.56193353, 0.55102041, 0.53564899,
        0.4538835 , 0.55497382, 0.97426471, 0.98461538, 0.95804196,
        0.80897887],
       [1.        , 1.        , 0.        , 0.04081633, 0.        ,
        0.        , 0.        , 1.        , 0.99230769, 1.        ,
        1.        ],
       [0.80645161, 0.91257485, 0.74924471, 0.69897959, 0.75868373,
        0.6407767 , 0.79057592, 0.86029412, 0.86923077, 0.84615385,
        0.72007042],
       [0.        , 0.        , 0.85498489, 0.        , 1.        ,
        1.        , 0.70680628, 0.        , 0.        , 0.        ,
        0.        ],
       [0.51612903, 0.67185629, 0.75830816, 0.17346939, 0.81170018,
        0.80339806, 0.59162304, 0.38602941, 0.37692308, 0.39160839,
        0.3028169 ],
       [0.4516129 , 0.57844311, 0.80664653, 0.05102041, 0.8738574 ,
        0.88592233, 0.59162304, 0.23161765, 0.23846154, 0.22377622,
        0.23239437],
       [0.58064516, 0.79101796, 0.80664653, 0.43877551, 0.

## 5. 모델링

* 모델 선언

In [34]:
# Linear Regression
from sklearn.linear_model import LinearRegression        # Linear Model

In [35]:
# 모델 선언
model = LinearRegression()

* 모델 학습

In [36]:
model.fit( train_x , train_y )

LinearRegression()

* 학습한 모델 기반으로 예측값 생성

In [37]:
# 예측값을 뽑자.
test_pred = model.predict(test_x)

## 6. 평가

In [38]:
from sklearn.metrics import mean_squared_error         # Metric  MSE

In [39]:
mean_squared_error( test_y, test_pred, squared=False ) #RMSE

688.3985339833923