# 서울시 인구 분석

<img src='https://raw.githubusercontent.com/Jangrae/img/master/people2.png' width="650" align="left">

## 1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [1]:
import pandas as pd

* 데이터 불러오기

    - 다음 경로의 파일을 읽어와 pop01, pop02, pop03 데이터프레임을 만듭니다.
    - 파일 경로1: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv
    - 파일 경로2: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv
    - 파일 경로3: https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv

In [2]:
pop01 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h01.csv')

In [3]:
pop02 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h02.csv')

In [4]:
pop03 = pd.read_csv('https://raw.githubusercontent.com/Jangrae/csv/master/seoul_pop_h03.csv')

## 2. 데이터 탐색

다음과 같은 정보 확인을 통해 처리할 대상 데이터를 이해합니다.
- 상/하위 데이터 확인
- 데이터프레임 크기 확인
- 열 이름, 데이터 형식, 값 개수 등 확인
- 기초 통계정보 확인
- 결측치 확인
- 범주형 데이터 확인
- 개별 열 값 상세 확인 등

**1) 데이터프레임 크기 확인**

- 세 개의 데이터프레임 크기(행 수, 열 수)를 확인합니다.

In [5]:
pop01.shape, pop02.shape, pop03.shape

((40, 3), (36, 3), (40, 3))

**2) year 최솟값, 최댓값 확인**

- 세 개의 데이터프레임 year열 최솟값, 최댓값 크기를 비교해 차이가 있는 지 각각 확인합니다.

In [7]:
pop01.describe() #1981-2020

Unnamed: 0,year,k_male,k_female
count,40.0,40.0,40.0
mean,2000.5,4982.55,5025.525
std,11.690452,365.083408,339.917485
min,1981.0,4160.0,4191.0
25%,1990.75,4893.5,5018.25
50%,2000.5,5062.5,5122.5
75%,2010.25,5158.75,5159.5
max,2020.0,5500.0,5435.0


In [9]:
pop02.describe() #1985-2020

Unnamed: 0,year,f_male,f_female
count,36.0,36.0,36.0
mean,2002.5,65.472222,69.472222
std,10.535654,51.371747,57.121168
min,1985.0,5.0,4.0
25%,1993.75,20.5,18.5
50%,2002.5,42.5,45.5
75%,2011.25,122.25,132.5
max,2020.0,137.0,148.0


In [8]:
pop03.describe() #1981-2020

Unnamed: 0,year,household,older_65
count,40.0,40.0,40.0
mean,2000.5,3493.3,711.15
std,11.690452,732.856624,398.925644
min,1981.0,1915.0,211.0
25%,1990.75,3202.5,408.75
50%,2000.5,3555.0,573.0
75%,2010.25,4179.0,1018.25
max,2020.0,4418.0,1568.0


**3) 결측치 확인**

- 세 개의 데이터프레임에 결측치가 있는 지 각각 확인합니다.

In [10]:
pop01.isna().sum()

year        0
k_male      0
k_female    0
dtype: int64

In [12]:
pop02.isna().sum()

year        0
f_male      0
f_female    0
dtype: int64

In [11]:
pop03.isna().sum()

year         0
household    0
older_65     0
dtype: int64

**4) 열 정보 확인**

- 세 개의 데이터프레임의 열 정보를 확인합니다.

In [13]:
pop01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      40 non-null     int64
 1   k_male    40 non-null     int64
 2   k_female  40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB


In [14]:
pop02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   year      36 non-null     int64
 1   f_male    36 non-null     int64
 2   f_female  36 non-null     int64
dtypes: int64(3)
memory usage: 992.0 bytes


In [15]:
pop03.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   year       40 non-null     int64
 1   household  40 non-null     int64
 2   older_65   40 non-null     int64
dtypes: int64(3)
memory usage: 1.1 KB


## 3. 데이터 전처리

전처리 과정에서 다음과 같은 처리를 할 수 있습니다.

- 결측치 처리
- 값 변경
- 열 추가
- 불필요한 열 제거
- 열 이름 변경
- 데이터 통합(연결 또는 조인)
- 가변수화 등

**1) 데이터 통합**

- concat을 사용해 연결하면 인덱스 값을 기준으로 연결되어 데이터가 어긋납니다.
- **year** 열을 기준으로 **outer** 방식으로 조인(병합)합니다.
- 외국인 정보가 1981 ~ 1984년이 누락되어 결측치가 발생할 것입니다.
- 세 개의 데이터프레임을 병합(조인)하여 pop 데이터프레임을 선언합니다.
- 이후의 모든 작업은 pop 데이터프레임을 대상으로 진행합니다.

In [26]:
pop_temp = pd.merge(pop01, pop03, how='outer', on='year')

In [27]:
pop_temp.shape

(40, 5)

In [28]:
pop = pd.merge(pop_temp, pop02, how='outer', on='year')

**2) 결측치 확인**

- 결측치가 있는지 확인합니다.

In [29]:
pop.shape

(40, 7)

In [30]:
pop.isna().sum()

year         0
k_male       0
k_female     0
household    0
older_65     0
f_male       4
f_female     4
dtype: int64

In [31]:
pop.head()

Unnamed: 0,year,k_male,k_female,household,older_65,f_male,f_female
0,1981,4160,4191,1915,246,,
1,1982,4160,4191,2001,260,,
2,1983,4160,4191,2116,260,,
3,1984,4160,4191,2246,275,,
4,1985,4160,4191,2338,211,7.0,6.0


**3) 결측치 처리**

- 연도별 인구 현황이므로 임의의 값을 채우는 것이 바람직하지 않아 보입니다.
- 이후 값, 즉 1985년 값으로 채우는 것도 정확한 분석을 방해할 것 같습니다.
- 이에 결측치가 있는 1981년~1984년 행을 제거할 것입니다.

In [32]:
pop = pop.dropna(axis=0)
pop

Unnamed: 0,year,k_male,k_female,household,older_65,f_male,f_female
4,1985,4160,4191,2338,211,7.0,6.0
5,1986,4899,4888,2428,305,7.0,5.0
6,1987,5000,4979,2518,329,6.0,5.0
7,1988,5156,5120,2658,349,5.0,5.0
8,1989,5305,5261,2817,363,6.0,5.0
9,1990,5321,5282,2820,363,5.0,4.0
10,1991,5468,5405,3330,424,18.0,14.0
11,1992,5500,5435,3383,434,19.0,16.0
12,1993,5478,5412,3431,445,19.0,17.0
13,1994,5409,5351,3456,454,21.0,19.0


**3) 열 추가**

- 이후 분석의 편의를 위해 다음과 같은 의미를 갖는 열을 추가하고자 합니다.
    - k_total = 전체 한국인 인구수
    - f_total = 전체 외국인 인구수
    - male = 전체 남자 인구수
    - female = 전체 여자 인구수
    - total = 전체 인구수
- 추가할 열에 대한 공식은 다음과 같습니다.
    - k_total = k_male + k_female
    - f_total = f_male + f_female
    - male = k_male + f_male
    - female = k_female + f_female
    - total = k_total + f_total
- 정리한 공식에 따라 데이터프레임에 열을 추가합니다.

In [33]:
pop['k_total'] = pop['k_female'] + pop['k_male']
pop['f_total'] = pop['f_female'] + pop['f_male']
pop['male'] = pop['k_male'] + pop['f_male']
pop['female'] = pop['k_female'] + pop['f_female']
pop['total'] = pop['k_total'] + pop['f_total']
pop.head()

Unnamed: 0,year,k_male,k_female,household,older_65,f_male,f_female,k_total,f_total,male,female,total
4,1985,4160,4191,2338,211,7.0,6.0,8351,13.0,4167.0,4197.0,8364.0
5,1986,4899,4888,2428,305,7.0,5.0,9787,12.0,4906.0,4893.0,9799.0
6,1987,5000,4979,2518,329,6.0,5.0,9979,11.0,5006.0,4984.0,9990.0
7,1988,5156,5120,2658,349,5.0,5.0,10276,10.0,5161.0,5125.0,10286.0
8,1989,5305,5261,2817,363,6.0,5.0,10566,11.0,5311.0,5266.0,10577.0


**4) 열 순서 변경**

- 데이터 이해를 돕기 위해 다음과 같은 순서로 데이터프레임 열 순서를 변경합니다.
- year, household, total, male, female, k_total, k_male, k_female, f_total, f_male, f_female, older_65


In [34]:
pop = pop[['year', 'household', 'total', 'male', 'female', 'k_total', 'k_male', 'k_female', 'f_total', 'f_male', 'f_female', 'older_65']]
pop.head()

Unnamed: 0,year,household,total,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
4,1985,2338,8364.0,4167.0,4197.0,8351,4160,4191,13.0,7.0,6.0,211
5,1986,2428,9799.0,4906.0,4893.0,9787,4899,4888,12.0,7.0,5.0,305
6,1987,2518,9990.0,5006.0,4984.0,9979,5000,4979,11.0,6.0,5.0,329
7,1988,2658,10286.0,5161.0,5125.0,10276,5156,5120,10.0,5.0,5.0,349
8,1989,2817,10577.0,5311.0,5266.0,10566,5305,5261,11.0,6.0,5.0,363


**5) 인덱스 초기화**



- 인덱스가 0부터 시작하는 일련 변호를 갖지 않는다면 인덱스를 초기화합니다.

In [35]:
pop.reset_index(drop=True, inplace=True)
pop.head()

Unnamed: 0,year,household,total,male,female,k_total,k_male,k_female,f_total,f_male,f_female,older_65
0,1985,2338,8364.0,4167.0,4197.0,8351,4160,4191,13.0,7.0,6.0,211
1,1986,2428,9799.0,4906.0,4893.0,9787,4899,4888,12.0,7.0,5.0,305
2,1987,2518,9990.0,5006.0,4984.0,9979,5000,4979,11.0,6.0,5.0,329
3,1988,2658,10286.0,5161.0,5125.0,10276,5156,5120,10.0,5.0,5.0,349
4,1989,2817,10577.0,5311.0,5266.0,10566,5305,5261,11.0,6.0,5.0,363


## 4. 추가 전처리

* x, y 구분

    - x : feature
    - y : target <- total

In [36]:
x = pop.drop('total', axis=1)
y = pop['total']

In [37]:
x, y

(    year  household    male  female  k_total  k_male  k_female  f_total  \
 0   1985       2338  4167.0  4197.0     8351    4160      4191     13.0   
 1   1986       2428  4906.0  4893.0     9787    4899      4888     12.0   
 2   1987       2518  5006.0  4984.0     9979    5000      4979     11.0   
 3   1988       2658  5161.0  5125.0    10276    5156      5120     10.0   
 4   1989       2817  5311.0  5266.0    10566    5305      5261     11.0   
 5   1990       2820  5326.0  5286.0    10603    5321      5282      9.0   
 6   1991       3330  5486.0  5419.0    10873    5468      5405     32.0   
 7   1992       3383  5519.0  5451.0    10935    5500      5435     35.0   
 8   1993       3431  5497.0  5429.0    10890    5478      5412     36.0   
 9   1994       3456  5430.0  5370.0    10760    5409      5351     40.0   
 10  1995       3448  5326.0  5270.0    10551    5302      5249     45.0   
 11  1996       3457  5258.0  5212.0    10418    5231      5187     52.0   
 12  1997   

* train test split

In [38]:
from sklearn.model_selection import train_test_split

In [39]:
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state=42)

In [40]:
train_x.shape

(25, 11)

In [42]:
train_y.shape

(25,)

* Scaling

    - min-max scaling

In [43]:
from sklearn.preprocessing import MinMaxScaler

In [44]:
mmscaler = MinMaxScaler()

In [47]:
train_x = mmscaler.fit_transform(train_x)
test_x = mmscaler.fit_transform(test_x)

In [48]:
pd.DataFrame(train_x).describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
count,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0
mean,0.484706,0.623015,0.708994,0.777129,0.702198,0.672955,0.733698,0.445818,0.445455,0.443056,0.41033
std,0.324099,0.324631,0.18888,0.187415,0.187714,0.198041,0.182179,0.404781,0.400179,0.406329,0.304512
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.176471,0.498492,0.696746,0.754386,0.678019,0.626866,0.721865,0.083636,0.098485,0.069444,0.16719
50%,0.529412,0.69196,0.735207,0.80941,0.713622,0.673881,0.754823,0.341818,0.333333,0.347222,0.344584
75%,0.735294,0.924623,0.79068,0.856459,0.758901,0.751493,0.800643,0.894545,0.886364,0.888889,0.625589
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


## 5. 모델링

* 모델 선언

In [49]:
from sklearn.linear_model import LinearRegression

In [51]:
model = LinearRegression()

* 모델 학습

In [52]:
model.fit(train_x, train_y)

LinearRegression()

* 학습한 모델 기반으로 예측값 생성

In [53]:
test_predict = model.predict(test_x)

In [54]:
test_predict.shape

(11,)

In [58]:
test_y

35     9912.0
13    10322.0
26    10530.0
30    10297.0
16    10332.0
31    10205.0
21    10356.0
12    10390.0
8     10926.0
17    10280.0
9     10800.0
Name: total, dtype: float64

In [57]:
test_predict

array([ 8523.85621779,  9509.99221401,  9902.41993779,  9373.80927122,
        9523.5837625 ,  9162.4280387 ,  9540.75660245,  9665.18425978,
       10951.93730439,  9399.49626314, 10650.07743244])

## 6. 평가

In [50]:
from sklearn.metrics   import mean_squared_error 

In [56]:
mean_squared_error(test_predict, test_y, squared=False )

829.0929750194039