# 서울시 인구 분석

<img src='https://raw.githubusercontent.com/Jangrae/img/master/people2.png' width="650" align="left">

## 1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [1]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import MinMaxScaler, StandardScaler



* 데이터 불러오기

    - 다음 경로의 파일을 읽어와 pop01, pop02, pop03 데이터프레임을 만듭니다.
    - 파일 경로1: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv
    - 파일 경로2: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv
    - 파일 경로3: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv

In [3]:
urls = ['https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv',
       'https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv',
       'https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv']

In [5]:
pops = []

for url in urls:
       pops.append(pd.read_csv(url))

In [9]:
for pop in pops:
       print(pop.head(5))

   year  k_male  k_female
0  1981    4160      4191
1  1982    4160      4191
2  1983    4160      4191
3  1984    4160      4191
4  1985    4160      4191
   year  f_male  f_female
0  1985       7         6
1  1986       7         5
2  1987       6         5
3  1988       5         5
4  1989       6         5
   year  household  older_65
0  1981       1915       246
1  1982       2001       260
2  1983       2116       260
3  1984       2246       275
4  1985       2338       211


## 2. 데이터 탐색

다음과 같은 정보 확인을 통해 처리할 대상 데이터를 이해합니다.
- 상/하위 데이터 확인
- 데이터프레임 크기 확인
- 열 이름, 데이터 형식, 값 개수 등 확인
- 기초 통계정보 확인
- 결측치 확인
- 범주형 데이터 확인
- 개별 열 값 상세 확인 등

**1) 데이터프레임 크기 확인**

- 세 개의 데이터프레임 크기(행 수, 열 수)를 확인합니다.

In [6]:
for pop in pops:
       print(pop.shape)

(40, 3)
(36, 3)
(40, 3)


**2) year 최솟값, 최댓값 확인**

- 세 개의 데이터프레임 year열 최솟값, 최댓값 크기를 비교해 차이가 있는 지 각각 확인합니다.

In [13]:
for pop in pops:
       print(pop.describe())

              year       k_male     k_female
count    40.000000    40.000000    40.000000
mean   2000.500000  4982.550000  5025.525000
std      11.690452   365.083408   339.917485
min    1981.000000  4160.000000  4191.000000
25%    1990.750000  4893.500000  5018.250000
50%    2000.500000  5062.500000  5122.500000
75%    2010.250000  5158.750000  5159.500000
max    2020.000000  5500.000000  5435.000000
              year      f_male    f_female
count    36.000000   36.000000   36.000000
mean   2002.500000   65.472222   69.472222
std      10.535654   51.371747   57.121168
min    1985.000000    5.000000    4.000000
25%    1993.750000   20.500000   18.500000
50%    2002.500000   42.500000   45.500000
75%    2011.250000  122.250000  132.500000
max    2020.000000  137.000000  148.000000
              year    household     older_65
count    40.000000    40.000000    40.000000
mean   2000.500000  3493.300000   711.150000
std      11.690452   732.856624   398.925644
min    1981.000000  1915.000

**3) 결측치 확인**

- 세 개의 데이터프레임에 결측치가 있는 지 각각 확인합니다.

In [15]:
pops[0].isna().sum()

year        0
k_male      0
k_female    0
dtype: int64

In [16]:
pops[1].isna().sum()

year        0
f_male      0
f_female    0
dtype: int64

In [17]:
pops[2].isna().sum()

year         0
household    0
older_65     0
dtype: int64

**4) 열 정보 확인**

- 세 개의 데이터프레임의 열 정보를 확인합니다.

In [18]:
for pop in pops:
       print(pop.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      40 non-null     int64
 1   k_male    40 non-null     int64
 2   k_female  40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      36 non-null     int64
 1   f_male    36 non-null     int64
 2   f_female  36 non-null     int64
dtypes: int64(3)
memory usage: 992.0 bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   year       40 non-null     int64
 1   household  40 non-null     int64
 2   older_65   40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB
None


## 3. 데이터 전처리

전처리 과정에서 다음과 같은 처리를 할 수 있습니다.

- 결측치 처리
- 값 변경
- 열 추가
- 불필요한 열 제거
- 열 이름 변경
- 데이터 통합(연결 또는 조인)
- 가변수화 등

**1) 데이터 통합**

- concat을 사용해 연결하면 인덱스 값을 기준으로 연결되어 데이터가 어긋납니다.
- **year** 열을 기준으로 **outer** 방식으로 조인(병합)합니다.
- 외국인 정보가 1981 ~ 1984년이 누락되어 결측치가 발생할 것입니다.
- 세 개의 데이터프레임을 병합(조인)하여 pop 데이터프레임을 선언합니다.
- 이후의 모든 작업은 pop 데이터프레임을 대상으로 진행합니다.

In [23]:
pop = pd.merge(pops[0], pops[1], how='outer')
pop = pd.merge(pop, pops[2], how='outer')

In [24]:
pop.head(5)

Unnamed: 0,year,k_male,k_female,f_male,f_female,household,older_65
0,1981,4160,4191,,,1915,246
1,1982,4160,4191,,,2001,260
2,1983,4160,4191,,,2116,260
3,1984,4160,4191,,,2246,275
4,1985,4160,4191,7.0,6.0,2338,211


In [25]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 40 entries, 0 to 39
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   year       40 non-null     int64  
 1   k_male     40 non-null     int64  
 2   k_female   40 non-null     int64  
 3   f_male     36 non-null     float64
 4   f_female   36 non-null     float64
 5   household  40 non-null     int64  
 6   older_65   40 non-null     int64  
dtypes: float64(2), int64(5)
memory usage: 2.5 KB


**2) 결측치 확인**

- 결측치가 있는지 확인합니다.

In [26]:
pop.isna().sum()

year         0
k_male       0
k_female     0
f_male       4
f_female     4
household    0
older_65     0
dtype: int64

**3) 결측치 처리**

- 연도별 인구 현황이므로 임의의 값을 채우는 것이 바람직하지 않아 보입니다.
- 이후 값, 즉 1985년 값으로 채우는 것도 정확한 분석을 방해할 것 같습니다.
- 이에 결측치가 있는 1981년~1984년 행을 제거할 것입니다.

In [28]:
pop.dropna(axis=0, inplace=True)
pop.head(10)

Unnamed: 0,year,k_male,k_female,f_male,f_female,household,older_65
4,1985,4160,4191,7.0,6.0,2338,211
5,1986,4899,4888,7.0,5.0,2428,305
6,1987,5000,4979,6.0,5.0,2518,329
7,1988,5156,5120,5.0,5.0,2658,349
8,1989,5305,5261,6.0,5.0,2817,363
9,1990,5321,5282,5.0,4.0,2820,363
10,1991,5468,5405,18.0,14.0,3330,424
11,1992,5500,5435,19.0,16.0,3383,434
12,1993,5478,5412,19.0,17.0,3431,445
13,1994,5409,5351,21.0,19.0,3456,454


**3) 열 추가**

- 이후 분석의 편의를 위해 다음과 같은 의미를 갖는 열을 추가하고자 합니다.
    - k_total = 전체 한국인 인구수
    - f_total = 전체 외국인 인구수
    - male = 전체 남자 인구수
    - female = 전체 여자 인구수
    - total = 전체 인구수
- 추가할 열에 대한 공식은 다음과 같습니다.
    - k_total = k_male + k_female
    - f_total = f_male + f_female
    - male = k_male + f_male
    - female = k_female + f_female
    - total = k_total + f_total
- 정리한 공식에 따라 데이터프레임에 열을 추가합니다.

In [29]:
pop['k_total'] = pop['k_male'] + pop['k_female']
pop['f_total'] = pop['f_male'] + pop['f_female']
pop['male'] = pop['k_male'] + pop['f_male']
pop['female'] = pop['k_female'] + pop['f_female']
pop['total'] = pop['k_total'] + pop['f_total']

**4) 열 순서 변경**

- 데이터 이해를 돕기 위해 다음과 같은 순서로 데이터프레임 열 순서를 변경합니다.
- year, household, total, male, female, k_total, k_male, k_female, f_total, f_male, f_female, older_65

In [30]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36 entries, 4 to 39
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   year       36 non-null     int64  
 1   k_male     36 non-null     int64  
 2   k_female   36 non-null     int64  
 3   f_male     36 non-null     float64
 4   f_female   36 non-null     float64
 5   household  36 non-null     int64  
 6   older_65   36 non-null     int64  
 7   k_total    36 non-null     int64  
 8   f_total    36 non-null     float64
 9   male       36 non-null     float64
 10  female     36 non-null     float64
 11  total      36 non-null     float64
dtypes: float64(6), int64(6)
memory usage: 3.7 KB


In [33]:
pop = pop[['year', 'household', 'total', 'male', 'female', 'k_total', 'k_male', 'k_female', 'f_total', 'f_male', 'f_female', 'older_65']]
pop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36 entries, 4 to 39
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   year       36 non-null     int64  
 1   household  36 non-null     int64  
 2   total      36 non-null     float64
 3   male       36 non-null     float64
 4   female     36 non-null     float64
 5   k_total    36 non-null     int64  
 6   k_male     36 non-null     int64  
 7   k_female   36 non-null     int64  
 8   f_total    36 non-null     float64
 9   f_male     36 non-null     float64
 10  f_female   36 non-null     float64
 11  older_65   36 non-null     int64  
dtypes: float64(6), int64(6)
memory usage: 3.7 KB


**5) 인덱스 초기화**

- 인덱스가 0부터 시작하는 일련 변호를 갖지 않는다면 인덱스를 초기화합니다.

In [37]:
pop.reset_index(drop=True, inplace=True)
pop.head()

Unnamed: 0,year,household,total,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
0,1985,2338,8364.0,4167.0,4197.0,8351,4160,4191,13.0,7.0,6.0,211
1,1986,2428,9799.0,4906.0,4893.0,9787,4899,4888,12.0,7.0,5.0,305
2,1987,2518,9990.0,5006.0,4984.0,9979,5000,4979,11.0,6.0,5.0,329
3,1988,2658,10286.0,5161.0,5125.0,10276,5156,5120,10.0,5.0,5.0,349
4,1989,2817,10577.0,5311.0,5266.0,10566,5305,5261,11.0,6.0,5.0,363


## 4. 추가 전처리

* x, y 구분

    - x : feature
    - y : target <- total

In [39]:
x = pop.drop('total', axis=1)
y = pop.loc[:, 'total']

x.head()

Unnamed: 0,year,household,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
0,1985,2338,4167.0,4197.0,8351,4160,4191,13.0,7.0,6.0,211
1,1986,2428,4906.0,4893.0,9787,4899,4888,12.0,7.0,5.0,305
2,1987,2518,5006.0,4984.0,9979,5000,4979,11.0,6.0,5.0,329
3,1988,2658,5161.0,5125.0,10276,5156,5120,10.0,5.0,5.0,349
4,1989,2817,5311.0,5266.0,10566,5305,5261,11.0,6.0,5.0,363


In [40]:
y.head()

0     8364.0
1     9799.0
2     9990.0
3    10286.0
4    10577.0
Name: total, dtype: float64

* train test split

* Scaling

    - min-max scaling

In [46]:
scaler = MinMaxScaler()

x_s = scaler.fit_transform(x)

df = pd.DataFrame(x_s, columns=list(x))
df.describe()

Unnamed: 0,year,household,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
count,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0
mean,0.5,0.63149,0.719243,0.79005,0.712537,0.682048,0.745378,0.45798,0.458123,0.454668,0.40549
std,0.301019,0.280032,0.173338,0.16277,0.17159,0.18672,0.1614,0.394446,0.38918,0.396675,0.286831
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.25,0.531611,0.688425,0.757376,0.670182,0.623134,0.723071,0.109091,0.117424,0.100694,0.177413
50%,0.5,0.640144,0.738905,0.80303,0.717105,0.682463,0.749598,0.287273,0.284091,0.288194,0.309875
75%,0.75,0.8875,0.779031,0.858852,0.76132,0.755224,0.794011,0.895455,0.888258,0.892361,0.628961
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


## 5. 모델링

* 모델 선언

* 모델 학습

* 학습한 모델 기반으로 예측값 생성

## 6. 평가