<br>

# 1. 데이터 탐색

**데이터 셋 조회 및 내용 탐색**

In [1]:
import numpy as np
import pandas as pd

In [2]:
import warnings

warnings.filterwarnings(action='ignore')
#  warnings.filterwarnings(action='default')

In [3]:
data = pd.read_csv("Busan_Covid-19.csv")

In [4]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,deceased,total_negative,isolated,total_released
0,2021-02-06,토,2879,11,2445,96,313750,5281,96416
1,2021-02-05,금,2868,15,2409,96,310850,5275,95983
2,2021-02-04,목,2853,34,2386,96,308964,5289,95570
3,2021-02-03,수,2819,24,2366,95,306300,5273,95246
4,2021-02-02,화,2795,21,2339,94,304772,5269,94753
...,...,...,...,...,...,...,...,...,...
347,2020-02-25,화,51,13,0,0,1823,618,21
348,2020-02-24,월,38,22,0,0,1499,263,22
349,2020-02-23,일,16,11,0,0,1076,145,15
350,2020-02-22,토,5,3,0,0,1092,115,15


In [5]:
print(data.shape)
data.info()

(352, 9)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 352 entries, 0 to 351
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   date            352 non-null    object
 1   day             352 non-null    object
 2   total_coronic   352 non-null    object
 3   new_coronic     352 non-null    int64 
 4   total_be_cured  352 non-null    object
 5   deceased        352 non-null    int64 
 6   total_negative  352 non-null    object
 7   isolated        352 non-null    object
 8   total_released  352 non-null    object
dtypes: int64(2), object(7)
memory usage: 24.9+ KB


In [6]:
data.dtypes

date              object
day               object
total_coronic     object
new_coronic        int64
total_be_cured    object
deceased           int64
total_negative    object
isolated          object
total_released    object
dtype: object

<br>

# 2. Missing Value & NA

**각각의 변수 중에 결측치가 존재할 시 처리 및 제거**

In [7]:
data.isnull().sum()

date              0
day               0
total_coronic     0
new_coronic       0
total_be_cured    0
deceased          0
total_negative    0
isolated          0
total_released    0
dtype: int64

In [8]:
data.isna().sum()

date              0
day               0
total_coronic     0
new_coronic       0
total_be_cured    0
deceased          0
total_negative    0
isolated          0
total_released    0
dtype: int64

데이터 셋에 결측치 및 NA값 모두 존재하지 않음을 알 수 있다.

<br>

# 3. Type Conversion

**각각의 변수 타입에 맞게 모두 변환**

In [9]:
data.groupby('day').size()

day
금    51
목    50
수    50
월    50
일    50
토    51
화    50
dtype: int64

In [10]:
data1 = data[['date', 'day']]
data1

Unnamed: 0,date,day
0,2021-02-06,토
1,2021-02-05,금
2,2021-02-04,목
3,2021-02-03,수
4,2021-02-02,화
...,...,...
347,2020-02-25,화
348,2020-02-24,월
349,2020-02-23,일
350,2020-02-22,토


In [11]:
data1 = data1.astype(str)

In [12]:
data1.dtypes

date    object
day     object
dtype: object

In [13]:
data2 = data.iloc[:, 2]
data2

0      2,879
1      2,868
2      2,853
3      2,819
4      2,795
       ...  
347       51
348       38
349       16
350        5
351        2
Name: total_coronic, Length: 352, dtype: object

In [14]:
data2 = data2.str.replace(',','').astype('int64')
data2 = data2.apply(pd.to_numeric)
data2

0      2879
1      2868
2      2853
3      2819
4      2795
       ... 
347      51
348      38
349      16
350       5
351       2
Name: total_coronic, Length: 352, dtype: int64

In [15]:
data3 = data.iloc[:, 3]
data3

0      11
1      15
2      34
3      24
4      21
       ..
347    13
348    22
349    11
350     3
351     2
Name: new_coronic, Length: 352, dtype: int64

In [16]:
data4 = data.iloc[:, 4]
data4

0      2,445
1      2,409
2      2,386
3      2,366
4      2,339
       ...  
347        0
348        0
349        0
350        0
351        0
Name: total_be_cured, Length: 352, dtype: object

In [17]:
data4 = data4.str.replace(',','').astype('int64')
data4 = data4.apply(pd.to_numeric)
data4

0      2445
1      2409
2      2386
3      2366
4      2339
       ... 
347       0
348       0
349       0
350       0
351       0
Name: total_be_cured, Length: 352, dtype: int64

In [18]:
data5 = data.iloc[:, 5]
data5

0      96
1      96
2      96
3      95
4      94
       ..
347     0
348     0
349     0
350     0
351     0
Name: deceased, Length: 352, dtype: int64

In [19]:
data6 = data.iloc[:,6:9]
data6.dtypes

total_negative    object
isolated          object
total_released    object
dtype: object

In [20]:
for i in range(0,3):
    data6.iloc[:,i] = data6.iloc[:,i].str.replace(',','').astype('int64')

In [21]:
data6

Unnamed: 0,total_negative,isolated,total_released
0,313750,5281,96416
1,310850,5275,95983
2,308964,5289,95570
3,306300,5273,95246
4,304772,5269,94753
...,...,...,...
347,1823,618,21
348,1499,263,22
349,1076,145,15
350,1092,115,15


In [22]:
data6 = data6.apply(pd.to_numeric)

In [23]:
data = pd.concat([data1, data2, data3, data4, data5, data6], axis=1)

In [24]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,deceased,total_negative,isolated,total_released
0,2021-02-06,토,2879,11,2445,96,313750,5281,96416
1,2021-02-05,금,2868,15,2409,96,310850,5275,95983
2,2021-02-04,목,2853,34,2386,96,308964,5289,95570
3,2021-02-03,수,2819,24,2366,95,306300,5273,95246
4,2021-02-02,화,2795,21,2339,94,304772,5269,94753
...,...,...,...,...,...,...,...,...,...
347,2020-02-25,화,51,13,0,0,1823,618,21
348,2020-02-24,월,38,22,0,0,1499,263,22
349,2020-02-23,일,16,11,0,0,1076,145,15
350,2020-02-22,토,5,3,0,0,1092,115,15


In [25]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
deceased           int64
total_negative     int64
isolated           int64
total_released     int64
dtype: object

<br>

# 4. New Variable

**기존 변수를 활용해 새로운 파생 변수 생성**

##### new_be_cured
완치자수(누계)를 활용하여 완치자수(추가) 변수를 생성

In [26]:
data1 = data.total_be_cured
data1

0      2445
1      2409
2      2386
3      2366
4      2339
       ... 
347       0
348       0
349       0
350       0
351       0
Name: total_be_cured, Length: 352, dtype: int64

In [27]:
type(data1)

pandas.core.series.Series

In [28]:
data2 = []
data2 = pd.Series(data2)
type(data2)

pandas.core.series.Series

In [29]:
n = len(data1)
n

352

In [30]:
for i in data1.index:
    if i < n-1:
        data2[i] = data1[i]-data1[i+1]
    else :
        data2[i] = data1[i]

In [31]:
data2

0      36
1      23
2      20
3      27
4      38
       ..
347     0
348     0
349     0
350     0
351     0
Length: 352, dtype: int64

In [32]:
len(data2[data2<0])

0

##### new_negative
검사결과 음성(누계)를 활용하여 검사결과 음성(추가) 변수 생성

In [33]:
data1 = data.total_negative
data1

0      313750
1      310850
2      308964
3      306300
4      304772
        ...  
347      1823
348      1499
349      1076
350      1092
351       613
Name: total_negative, Length: 352, dtype: int64

In [34]:
type(data1)

pandas.core.series.Series

In [35]:
data3 = []
data3 = pd.Series(data3)
type(data3)

pandas.core.series.Series

In [36]:
n = len(data1)
n

352

In [37]:
for i in data1.index:
    if i < n-1:
        data3[i] = data1[i]-data1[i+1]
    else :
        data3[i] = data1[i]

In [38]:
data3

0      2900
1      1886
2      2664
3      1528
4      1904
       ... 
347     324
348     423
349     -16
350     479
351     613
Length: 352, dtype: int64

In [39]:
outlier = data3[data3<0]

In [40]:
outlier.index

Int64Index([32, 33, 349], dtype='int64')

In [41]:
len(data3[data3==0])

0

음성판정(누계)에서 다음날로 넘어갔을 때 감소하는 날이 3일 존재한다.  
2021-01-03 ~ 2021-01-05 & 2020-02-22 ~ 2020-02-23  
1번인 경우 : 음성판정받은 사람 -> 갑자기 양성으로 변경  
2번인 경우 : 오류로 그날 추가 음성판정자 수가 0인 경우 BUT, 모든 날에 걸쳐 0인 경우가 없다.  
1번을 선택할 경우 모든 값들이 추가 확진자 수보다 크기 때문에 불가능하다.  
즉, 0으로 구분  
데이터 자체에서 그 전날의 값과 동일하게 변경 이후 다시 생성

In [42]:
data.total_negative[outlier.index[0]] = data.total_negative[outlier.index[1]+1]
data.total_negative[outlier.index[1]] = data.total_negative[outlier.index[1]+1]

In [43]:
data.total_negative[outlier.index[2]] = data.total_negative[outlier.index[2]+1]

In [44]:
data1 = data.total_negative
data1

0      313750
1      310850
2      308964
3      306300
4      304772
        ...  
347      1823
348      1499
349      1092
350      1092
351       613
Name: total_negative, Length: 352, dtype: int64

In [45]:
data3 = []
data3 = pd.Series(data3)
type(data3)

pandas.core.series.Series

In [46]:
for i in data1.index:
    if i < n-1:
        data3[i] = data1[i]-data1[i+1]
    else :
        data3[i] = data1[i]

In [47]:
data3

0      2900
1      1886
2      2664
3      1528
4      1904
       ... 
347     324
348     407
349       0
350     479
351     613
Length: 352, dtype: int64

0으로 구분했지만 이상치라고 생각하며 분석!!!

In [48]:
data3[data3<0]

Series([], dtype: int64)

##### diagnosed
추가 확진자수와 검사결과 음성(추가)를 합한 인원의 수가 검사를 받은 사람의 수라고 생각   
즉, 검사를 받은 인원수에 대한 변수 생성

In [49]:
data4 = []
data4 = pd.Series(data4)
type(data4)

pandas.core.series.Series

In [50]:
n = len(data1)
n

352

In [51]:
for i in data1.index:
    data4[i] = data.new_coronic[i] + data3[i]

In [52]:
data.new_coronic

0      11
1      15
2      34
3      24
4      21
       ..
347    13
348    22
349    11
350     3
351     2
Name: new_coronic, Length: 352, dtype: int64

In [53]:
data4[data4<0]

Series([], dtype: int64)

In [54]:
data4

0      2911
1      1901
2      2698
3      1552
4      1925
       ... 
347     337
348     429
349      11
350     482
351     615
Length: 352, dtype: int64

##### new_released
격리해제(누계)를 활용하여 격리해제(추가) 변수 생성

In [55]:
data1 = data.total_released
data1

0      96416
1      95983
2      95570
3      95246
4      94753
       ...  
347       21
348       22
349       15
350       15
351       15
Name: total_released, Length: 352, dtype: int64

In [56]:
type(data1)

pandas.core.series.Series

In [57]:
data5 = []
data5 = pd.Series(data5)
type(data5)

pandas.core.series.Series

In [58]:
n = len(data1)
n

352

In [59]:
for i in data1.index:
    if i < n-1:
        data5[i] = data1[i]-data1[i+1]
    else :
        data5[i] = data1[i]

In [60]:
outlier2 = data5[data5<0]

In [61]:
outlier2.index

Int64Index([347], dtype='int64')

총 352개의 값 중에 1개의 음수 값이 존재합니다.  
누계에서 음수값이 존재함은 불가능하기 때문에 0으로 변경!!  
또한 0으로 변경 시 그 다음날의 값 또한 영향을 받으므로 변경!!

In [62]:
data5[outlier2.index] = 0
data5[outlier2.index-1] = 3

In [63]:
data5.tail(10)

342      2
343    287
344     97
345     31
346      3
347      0
348      7
349      0
350      0
351     15
dtype: int64

In [64]:
data5[data5<0]

Series([], dtype: int64)

In [65]:
# 원 데이터에서도 변경해주자.
data.total_released[outlier2.index] = 22

#### 위의 4개의 변수를 원데이터에 합쳐 새로운 데이터를 생성

In [66]:
data = pd.concat([data[['date', 'day', 'total_coronic', 'new_coronic', 'total_be_cured']],data2,
                 data[['deceased', 'total_negative']], data3, data4,
                 data[['isolated', 'total_released']], data5], axis=1)

In [67]:
data.columns = ['date', 'day', 'total_coronic', 'new_coronic', 'total_be_cured', 'new_be_cured', 'deceased', 
                'total_negative', 'new_negative', 'diagnosed', 'isolated', 'total_released', 'new_released']

In [68]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
new_be_cured       int64
deceased           int64
total_negative     int64
new_negative       int64
diagnosed          int64
isolated           int64
total_released     int64
new_released       int64
dtype: object

# 5. Variable Description

<br>

In [69]:
data

Unnamed: 0,date,day,total_coronic,new_coronic,total_be_cured,new_be_cured,deceased,total_negative,new_negative,diagnosed,isolated,total_released,new_released
0,2021-02-06,토,2879,11,2445,36,96,313750,2900,2911,5281,96416,433
1,2021-02-05,금,2868,15,2409,23,96,310850,1886,1901,5275,95983,413
2,2021-02-04,목,2853,34,2386,20,96,308964,2664,2698,5289,95570,324
3,2021-02-03,수,2819,24,2366,27,95,306300,1528,1552,5273,95246,493
4,2021-02-02,화,2795,21,2339,38,94,304772,1904,1925,5269,94753,410
...,...,...,...,...,...,...,...,...,...,...,...,...,...
347,2020-02-25,화,51,13,0,0,0,1823,324,337,618,22,0
348,2020-02-24,월,38,22,0,0,0,1499,407,429,263,22,7
349,2020-02-23,일,16,11,0,0,0,1092,0,11,145,15,0
350,2020-02-22,토,5,3,0,0,0,1092,479,482,115,15,0


In [70]:
data.describe()

Unnamed: 0,total_coronic,new_coronic,total_be_cured,new_be_cured,deceased,total_negative,new_negative,diagnosed,isolated,total_released,new_released
count,352.0,352.0,352.0,352.0,352.0,352.0,352.0,352.0,352.0,352.0,352.0
mean,584.747159,8.178977,456.122159,6.946023,14.315341,105812.329545,891.335227,899.514205,3396.045455,35718.613636,273.909091
std,736.597855,13.497676,574.337651,11.536141,24.724695,80580.209634,841.072302,848.732076,1798.894511,26955.218768,204.929458
min,2.0,0.0,0.0,0.0,0.0,613.0,0.0,11.0,15.0,15.0,0.0
25%,141.0,0.0,127.75,0.0,3.0,39550.75,408.0,410.25,2453.0,12650.25,146.75
50%,201.0,2.0,157.0,2.0,3.0,82589.0,545.5,546.0,2978.0,31157.5,219.5
75%,599.0,8.25,552.25,7.0,15.0,160614.75,1005.0,1014.5,3838.0,54062.0,355.25
max,2879.0,82.0,2445.0,67.0,96.0,313750.0,4883.0,4894.0,8681.0,96416.0,1271.0


In [71]:
data.dtypes

date              object
day               object
total_coronic      int64
new_coronic        int64
total_be_cured     int64
new_be_cured       int64
deceased           int64
total_negative     int64
new_negative       int64
diagnosed          int64
isolated           int64
total_released     int64
new_released       int64
dtype: object

In [72]:
data.shape

(352, 13)

### 총 9개의 Variable과 351개의 Observation으로 구성된 데이터 프레임

**date : 날짜**  
2020년 2월 21일부터 2021년 2월 6일까지 총 352일의 자료로 구성되어 있습니다.
<br>

**day : 요일**  
총 352일간의 요일을 나타내고 있습니다.
<br>

**total_coronic : 확진자수(누계)**  
2020년 2월 21일부터 시작해서 매일 매일 코로나 확진자 수의 총합
<br>

**new_coronic : 확진자수(신규)**  
매일 추가로 확진 판정받은 확진자 수
<br>

**total_be_cured : 완치자수(누계)**  
2020년 2월 21일부터 시작해서 매일 매일 코로나 완치자 수의 총합
<br>

**new_be_cured : 완치자수(추가)**  
매일 추가로 완치 판정받은 완치자 수
<br>

**deceased : 사망자수(누계)**  
현재까지 코로나로 인해 사망한 사람 수의 총합
<br>

**total_negative : 검사결과 음성(누계)**  
2020년 2월 21일부터 코로나 검사결과 양성이 아닌 음성 판정을 받은 사람 수의 총합
<br>

**new_negative : 검사결과 음성(추가)**  
매일 코로나 검사결과 음성 판정을 받은 인원 수  
총 3개의 `Outlier`가 존재한다. 즉, 이 부분을 제대로 파악해서 분석에 활용할 것!!
<br>

**dianosed : 코로나 검사를 받은 인원수**  
추가 확진자수와 음성판정받은 사람수의 합
<br>

**isolated : 격리중인 인원수**  
코로나 확진자와 밀접한 접촉자로 판단되어 격리 중인 인원의 수
<br>

**total_released : 격리해제 인원수(누계)**  
격리 기간 이후 음성 판정으로 인해 격리가 해제된 사람 수의 총합
<br>

**new_released : 격리해제 인원수(추가)**  
격리 기간을 거쳐 격리 해제된 인원의 수

<br>
<br>

In [73]:
data.to_csv("Busan_Covid-19.csv", index=False)