<br>

# 1. 데이터 탐색

**데이터 셋 조회 및 내용 탐색**

In [1]:
import numpy as np
import pandas as pd

In [2]:
import warnings

warnings.filterwarnings(action='ignore')
#  warnings.filterwarnings(action='default')

In [3]:
data = pd.read_csv("Busan_Covid-19.csv")

In [4]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,deceased,total_negative,isolated,total_released
0,2021-03-07,일,3326,13,3019,110,354692,5124,108827
1,2021-03-06,토,3313,5,3003,110,352827,4953,108391
2,2021-03-05,금,3308,12,2982,110,351708,4949,107889
3,2021-03-04,목,3296,22,2950,109,349082,4863,107404
4,2021-03-03,수,3274,18,2937,109,347315,5027,111925
...,...,...,...,...,...,...,...,...,...
377,2020-02-25,화,51,13,0,0,1823,618,21
378,2020-02-24,월,38,22,0,0,1499,263,22
379,2020-02-23,일,16,11,0,0,1076,145,15
380,2020-02-22,토,5,3,0,0,1092,115,15


In [5]:
print(data.shape)
data.info()

(382, 9)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 382 entries, 0 to 381
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   date            382 non-null    object
 1   day             382 non-null    object
 2   total_coronic   382 non-null    object
 3   new_coronic     382 non-null    int64 
 4   total_be_cured  382 non-null    object
 5   deceased        382 non-null    int64 
 6   total_negative  382 non-null    object
 7   isolated        382 non-null    object
 8   total_released  382 non-null    object
dtypes: int64(2), object(7)
memory usage: 27.0+ KB


In [6]:
data.dtypes

date              object
day               object
total_coronic     object
new_coronic        int64
total_be_cured    object
deceased           int64
total_negative    object
isolated          object
total_released    object
dtype: object

<br>

# 2. Missing Value & NA

**각각의 변수 중에 결측치가 존재할 시 처리 및 제거**

In [7]:
data.isnull().sum()

date              0
day               0
total_coronic     0
new_coronic       0
total_be_cured    0
deceased          0
total_negative    0
isolated          0
total_released    0
dtype: int64

In [8]:
data.isna().sum()

date              0
day               0
total_coronic     0
new_coronic       0
total_be_cured    0
deceased          0
total_negative    0
isolated          0
total_released    0
dtype: int64

데이터 셋에 결측치 및 NA값 모두 존재하지 않음을 알 수 있다.

<br>

# 3. Type Conversion

**각각의 변수 타입에 맞게 모두 변환**

In [9]:
data.groupby('day').size()

day
금    56
목    54
수    54
월    54
일    55
토    55
화    54
dtype: int64

In [10]:
data1 = data[['date', 'day']]
data1

Unnamed: 0,date,day
0,2021-03-07,일
1,2021-03-06,토
2,2021-03-05,금
3,2021-03-04,목
4,2021-03-03,수
...,...,...
377,2020-02-25,화
378,2020-02-24,월
379,2020-02-23,일
380,2020-02-22,토


In [11]:
data1 = data1.astype(str)

In [12]:
data1.dtypes

date    object
day     object
dtype: object

In [13]:
data2 = data.iloc[:, 2]
data2

0      3,326
1      3,313
2      3,308
3      3,296
4      3,274
       ...  
377       51
378       38
379       16
380        5
381        2
Name: total_coronic, Length: 382, dtype: object

In [14]:
data2 = data2.str.replace(',','').astype('int64')
data2 = data2.apply(pd.to_numeric)
data2

0      3326
1      3313
2      3308
3      3296
4      3274
       ... 
377      51
378      38
379      16
380       5
381       2
Name: total_coronic, Length: 382, dtype: int64

In [15]:
data3 = data.iloc[:, 3]
data3

0      13
1       5
2      12
3      22
4      18
       ..
377    13
378    22
379    11
380     3
381     2
Name: new_coronic, Length: 382, dtype: int64

In [16]:
data4 = data.iloc[:, 4]
data4

0      3,019
1      3,003
2      2,982
3      2,950
4      2,937
       ...  
377        0
378        0
379        0
380        0
381        0
Name: total_be_cured, Length: 382, dtype: object

In [17]:
data4 = data4.str.replace(',','').astype('int64')
data4 = data4.apply(pd.to_numeric)
data4

0      3019
1      3003
2      2982
3      2950
4      2937
       ... 
377       0
378       0
379       0
380       0
381       0
Name: total_be_cured, Length: 382, dtype: int64

In [18]:
data5 = data.iloc[:, 5]
data5

0      110
1      110
2      110
3      109
4      109
      ... 
377      0
378      0
379      0
380      0
381      0
Name: deceased, Length: 382, dtype: int64

In [19]:
data6 = data.iloc[:,6:9]
data6.dtypes

total_negative    object
isolated          object
total_released    object
dtype: object

In [20]:
for i in range(0,3):
    data6.iloc[:,i] = data6.iloc[:,i].str.replace(',','').astype('int64')

In [21]:
data6

Unnamed: 0,total_negative,isolated,total_released
0,354692,5124,108827
1,352827,4953,108391
2,351708,4949,107889
3,349082,4863,107404
4,347315,5027,111925
...,...,...,...
377,1823,618,21
378,1499,263,22
379,1076,145,15
380,1092,115,15


In [22]:
data6 = data6.apply(pd.to_numeric)

In [23]:
data = pd.concat([data1, data2, data3, data4, data5, data6], axis=1)

In [24]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,deceased,total_negative,isolated,total_released
0,2021-03-07,일,3326,13,3019,110,354692,5124,108827
1,2021-03-06,토,3313,5,3003,110,352827,4953,108391
2,2021-03-05,금,3308,12,2982,110,351708,4949,107889
3,2021-03-04,목,3296,22,2950,109,349082,4863,107404
4,2021-03-03,수,3274,18,2937,109,347315,5027,111925
...,...,...,...,...,...,...,...,...,...
377,2020-02-25,화,51,13,0,0,1823,618,21
378,2020-02-24,월,38,22,0,0,1499,263,22
379,2020-02-23,일,16,11,0,0,1076,145,15
380,2020-02-22,토,5,3,0,0,1092,115,15


In [25]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
deceased           int64
total_negative     int64
isolated           int64
total_released     int64
dtype: object

<br>

# 4. New Variable

**기존 변수를 활용해 새로운 파생 변수 생성**

##### new_be_cured
완치자수(누계)를 활용하여 완치자수(추가) 변수를 생성

In [26]:
data1 = data.total_be_cured
data1

0      3019
1      3003
2      2982
3      2950
4      2937
       ... 
377       0
378       0
379       0
380       0
381       0
Name: total_be_cured, Length: 382, dtype: int64

In [27]:
type(data1)

pandas.core.series.Series

In [28]:
data2 = []
data2 = pd.Series(data2)
type(data2)

pandas.core.series.Series

In [29]:
n = len(data1)
n

382

In [30]:
for i in data1.index:
    if i < n-1:
        data2[i] = data1[i]-data1[i+1]
    else :
        data2[i] = data1[i]

In [31]:
data2

0      16
1      21
2      32
3      13
4      15
       ..
377     0
378     0
379     0
380     0
381     0
Length: 382, dtype: int64

In [32]:
len(data2[data2<0])

0

##### new_deceased
사망자수(누계)를 이용하여 사망자수(추가) 변수 생성

In [33]:
data1 = data.deceased
data1

0      110
1      110
2      110
3      109
4      109
      ... 
377      0
378      0
379      0
380      0
381      0
Name: deceased, Length: 382, dtype: int64

In [34]:
data6 = []
data6 = pd.Series(data6)
type(data6)

pandas.core.series.Series

In [35]:
n = len(data1)
n

382

In [36]:
for i in data1.index:
    if i < n-1:
        data6[i] = data1[i]-data1[i+1]
    else :
        data6[i] = data1[i]

In [37]:
len(data6[data6<0])

0

##### new_negative
검사결과 음성(누계)를 활용하여 검사결과 음성(추가) 변수 생성

In [38]:
data1 = data.total_negative
data1

0      354692
1      352827
2      351708
3      349082
4      347315
        ...  
377      1823
378      1499
379      1076
380      1092
381       613
Name: total_negative, Length: 382, dtype: int64

In [39]:
type(data1)

pandas.core.series.Series

In [40]:
data3 = []
data3 = pd.Series(data3)
type(data3)

pandas.core.series.Series

In [41]:
n = len(data1)
n

382

In [42]:
for i in data1.index:
    if i < n-1:
        data3[i] = data1[i]-data1[i+1]
    else :
        data3[i] = data1[i]

In [43]:
data3

0      1865
1      1119
2      2626
3      1767
4      1615
       ... 
377     324
378     423
379     -16
380     479
381     613
Length: 382, dtype: int64

In [44]:
outlier = data3[data3<0]

In [45]:
outlier.index

Int64Index([62, 63, 379], dtype='int64')

In [46]:
len(data3[data3==0])

1

음성판정(누계)에서 다음날로 넘어갔을 때 감소하는 날이 3일 존재한다.  
2021-01-03 ~ 2021-01-05 & 2020-02-22 ~ 2020-02-23  
1번인 경우 : 음성판정받은 사람 -> 갑자기 양성으로 변경  
2번인 경우 : 오류로 그날 추가 음성판정자 수가 0인 경우 BUT, 모든 날에 걸쳐 0인 경우가 없다.  
1번을 선택할 경우 모든 값들이 추가 확진자 수보다 크기 때문에 불가능하다.  
즉, 0으로 구분  
데이터 자체에서 그 전날의 값과 동일하게 변경 이후 다시 생성

In [47]:
data.total_negative[outlier.index[0]] = data.total_negative[outlier.index[1]+1]
data.total_negative[outlier.index[1]] = data.total_negative[outlier.index[1]+1]

In [48]:
data.total_negative[outlier.index[2]] = data.total_negative[outlier.index[2]+1]

In [49]:
data1 = data.total_negative
data1

0      354692
1      352827
2      351708
3      349082
4      347315
        ...  
377      1823
378      1499
379      1092
380      1092
381       613
Name: total_negative, Length: 382, dtype: int64

In [50]:
data3 = []
data3 = pd.Series(data3)
type(data3)

pandas.core.series.Series

In [51]:
for i in data1.index:
    if i < n-1:
        data3[i] = data1[i]-data1[i+1]
    else :
        data3[i] = data1[i]

In [52]:
data3

0      1865
1      1119
2      2626
3      1767
4      1615
       ... 
377     324
378     407
379       0
380     479
381     613
Length: 382, dtype: int64

0으로 구분했지만 이상치라고 생각하며 분석!!!

In [53]:
data3[data3<0]

Series([], dtype: int64)

##### diagnosed
추가 확진자수와 검사결과 음성(추가)를 합한 인원의 수가 검사를 받은 사람의 수라고 생각   
즉, 검사를 받은 인원수에 대한 변수 생성

In [54]:
data4 = []
data4 = pd.Series(data4)
type(data4)

pandas.core.series.Series

In [55]:
n = len(data1)
n

382

In [56]:
for i in data1.index:
    data4[i] = data.new_coronic[i] + data3[i]

In [57]:
data.new_coronic

0      13
1       5
2      12
3      22
4      18
       ..
377    13
378    22
379    11
380     3
381     2
Name: new_coronic, Length: 382, dtype: int64

In [58]:
data4[data4<0]

Series([], dtype: int64)

In [59]:
data4

0      1878
1      1124
2      2638
3      1789
4      1633
       ... 
377     337
378     429
379      11
380     482
381     615
Length: 382, dtype: int64

##### new_released
격리해제(누계)를 활용하여 격리해제(추가) 변수 생성

In [60]:
data1 = data.total_released
data1

0      108827
1      108391
2      107889
3      107404
4      111925
        ...  
377        21
378        22
379        15
380        15
381        15
Name: total_released, Length: 382, dtype: int64

In [61]:
type(data1)

pandas.core.series.Series

In [62]:
data5 = []
data5 = pd.Series(data5)
type(data5)

pandas.core.series.Series

In [63]:
n = len(data1)
n

382

In [64]:
for i in data1.index:
    if i < n-1:
        data5[i] = data1[i]-data1[i+1]
    else :
        data5[i] = data1[i]

In [65]:
outlier2 = data5[data5<0]

In [66]:
outlier2.index

Int64Index([3, 377], dtype='int64')

총 352개의 값 중에 1개의 음수 값이 존재합니다.  
누계에서 음수값이 존재함은 불가능하기 때문에 0으로 변경!!  
또한 0으로 변경 시 그 다음날의 값 또한 영향을 받으므로 변경!!

In [67]:
data5[outlier2.index] = 0
data5[outlier2.index-1] = 3

In [68]:
data5.tail(10)

372      2
373    287
374     97
375     31
376      3
377      0
378      7
379      0
380      0
381     15
dtype: int64

In [69]:
data5[data5<0]

Series([], dtype: int64)

In [70]:
# 원 데이터에서도 변경해주자.
data.total_released[outlier2.index] = 22

#### 위의 4개의 변수를 원데이터에 합쳐 새로운 데이터를 생성

In [71]:
data = pd.concat([data[['date', 'day', 'total_coronic', 'new_coronic', 'total_be_cured']],data2,
                 data[['deceased']], data6, data[['total_negative']], data3, data4,
                 data[['isolated', 'total_released']], data5], axis=1)

In [72]:
data.columns = ['date', 'day', 'total_coronic', 'new_coronic', 'total_be_cured', 'new_be_cured', 'deceased', 'new_deceased', 
                'total_negative', 'new_negative', 'diagnosed', 'isolated', 'total_released', 'new_released']

In [73]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
new_be_cured       int64
deceased           int64
new_deceased       int64
total_negative     int64
new_negative       int64
diagnosed          int64
isolated           int64
total_released     int64
new_released       int64
dtype: object

# 5. Variable Description

<br>

In [74]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,new_be_cured,deceased,new_deceased,total_negative,new_negative,diagnosed,isolated,total_released,new_released
0,2021-03-07,일,3326,13,3019,16,110,0,354692,1865,1878,5124,108827,436
1,2021-03-06,토,3313,5,3003,21,110,0,352827,1119,1124,4953,108391,502
2,2021-03-05,금,3308,12,2982,32,110,1,351708,2626,2638,4949,107889,3
3,2021-03-04,목,3296,22,2950,13,109,0,349082,1767,1789,4863,22,0
4,2021-03-03,수,3274,18,2937,15,109,0,347315,1615,1633,5027,111925,276
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
377,2020-02-25,화,51,13,0,0,0,0,1823,324,337,618,22,0
378,2020-02-24,월,38,22,0,0,0,0,1499,407,429,263,22,7
379,2020-02-23,일,16,11,0,0,0,0,1092,0,11,145,15,0
380,2020-02-22,토,5,3,0,0,0,0,1092,479,482,115,15,0


In [75]:
data.describe()

Unnamed: 0,total_coronic,new_coronic,total_be_cured,new_be_cured,deceased,new_deceased,total_negative,new_negative,diagnosed,isolated,total_released,new_released
count,382.0,382.0,382.0,382.0,382.0,382.0,382.0,382.0,382.0,382.0,382.0,382.0
mean,784.858639,8.730366,636.041885,7.903141,21.342932,0.287958,123798.905759,928.513089,937.243455,3538.725131,40740.740838,295.460733
std,986.035023,13.221238,828.75999,11.740794,33.851152,0.73589,98985.188664,830.293547,837.854034,1795.70266,31533.314701,338.131608
min,2.0,0.0,0.0,0.0,0.0,0.0,613.0,0.0,9.0,15.0,15.0,0.0
25%,141.0,0.0,131.5,0.0,3.0,0.0,42906.75,418.5,420.25,2479.0,13689.75,150.25
50%,293.0,2.0,203.5,2.0,3.0,0.0,96707.0,583.0,585.5,3169.5,35106.0,232.5
75%,898.0,13.0,613.5,11.0,16.0,0.0,178199.5,1150.25,1165.25,4953.75,58806.5,373.0
max,3326.0,82.0,3019.0,67.0,110.0,4.0,354692.0,4883.0,4894.0,8681.0,111925.0,5545.0


In [76]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
new_be_cured       int64
deceased           int64
new_deceased       int64
total_negative     int64
new_negative       int64
diagnosed          int64
isolated           int64
total_released     int64
new_released       int64
dtype: object

In [77]:
data.shape

(382, 14)

### 총 14개의 Variable과 2020년 2월 21일부터 오늘 날짜까지의 일 수 만큼의  Observation으로 구성된 데이터 프레임

**date : 날짜**  
2020년 2월 21일부터 2021년 2월 6일까지 총 352일의 자료로 구성되어 있습니다.
<br>

**day : 요일**  
총 352일간의 요일을 나타내고 있습니다.
<br>

**total_coronic : 확진자수(누계)**  
2020년 2월 21일부터 시작해서 매일 매일 코로나 확진자 수의 총합
<br>

**new_coronic : 확진자수(신규)**  
매일 추가로 확진 판정받은 확진자 수
<br>

**total_be_cured : 완치자수(누계)**  
2020년 2월 21일부터 시작해서 매일 매일 코로나 완치자 수의 총합
<br>

**new_be_cured : 완치자수(추가)**  
매일 추가로 완치 판정받은 완치자 수
<br>

**deceased : 사망자수(누계)**  
현재까지 코로나로 인해 사망한 사람 수의 총합
<br>

**new_deceased : 사망자수(추가)**  
매일 추가로 사망한 확진자의 수
<br>

**total_negative : 검사결과 음성(누계)**  
2020년 2월 21일부터 코로나 검사결과 양성이 아닌 음성 판정을 받은 사람 수의 총합
<br>

**new_negative : 검사결과 음성(추가)**  
매일 코로나 검사결과 음성 판정을 받은 인원 수  
총 3개의 `Outlier`가 존재한다. 즉, 이 부분을 제대로 파악해서 분석에 활용할 것!!
<br>

**dianosed : 코로나 검사를 받은 인원수**  
추가 확진자수와 음성판정받은 사람수의 합
<br>

**isolated : 격리중인 인원수**  
코로나 확진자와 밀접한 접촉자로 판단되어 격리 중인 인원의 수
<br>

**total_released : 격리해제 인원수(누계)**  
격리 기간 이후 음성 판정으로 인해 격리가 해제된 사람 수의 총합
<br>

**new_released : 격리해제 인원수(추가)**  
격리 기간을 거쳐 격리 해제된 인원의 수

<br>
<br>

In [78]:
data.to_csv("Busan_Covid-19.csv", index=False)