# 파이썬과 판다스를 사용해서 표 데이터 처리하기
![](https://i.imgur.com/zfxLzEv.png)


이번 장에서는 다음과 같은 주제들을 다룬다:

- CSV파일을 판다스(Pandas) 데이터 프레임으로 읽기
- 판다스 데이터 프라임의 데이터 다루기
- 데이터에 쿼리, 정렬, 분석 해보기
- 데이터 합치기, 묶기, 집계 수행해보기
- 데이터로부터 유용한 정보 추출해보기
- 막대 그래프와 꺾은선 그래프 만들어 보기
- 데이터를 CSV 파일로 저장하기

## 판다스를 이용해 CSV 파일 읽기

[Pandas](https://pandas.pydata.org/) 는 테이블 데이터를 다루기 위해 많이 사용되는 유명한 파이썬 라이브러리이다.<br>
판다스는 CSV, Excel, HTML, JSON, SQL 등과 같은 데이터 파일에 대한 함수들을 지원해준다.<br>
이탈리아의 일별 Covid-19 데이터를 담고 있는 `italy-covid-daywise.csv`파일을 다운로드해보도록하자.
```
date,new_cases,new_deaths,new_tests
2020-04-21,2256.0,454.0,28095.0
2020-04-22,2729.0,534.0,44248.0
2020-04-23,3370.0,437.0,37083.0
2020-04-24,2646.0,464.0,95273.0
2020-04-25,3021.0,420.0,38676.0
2020-04-26,2357.0,415.0,24113.0
2020-04-27,2324.0,260.0,26678.0
2020-04-28,1739.0,333.0,37554.0
...
```

데이터 형식이 CSV로 구성되어 있다는 것을 확인할 수 있다.  

> **CSVs**: A comma-separated values (CSV) file is a delimited text file that uses a comma to separate values. Each line of the file is a data record. Each record consists of one or more fields, separated by commas. A CSV file typically stores tabular data (numbers and text) in plain text, in which case each line will have the same number of fields. (Wikipedia)


다운로드는  `urllib.request`라이브러리의 `urlretrieve` 함수를 이용해서 수행할 수 있다.

In [48]:
from urllib.request import urlretrieve

In [49]:
urlretrieve('https://hub.jovian.ml/wp-content/uploads/2020/09/italy-covid-daywise.csv', 
            'italy-covid-daywise.csv')

('italy-covid-daywise.csv', <http.client.HTTPMessage at 0x26f10ad4ca0>)

파일을 읽기 위해서 `Pandas` 라이브러리의 `read_csv`함수를 사용한다.<br>
먼저 판다스 라이브러리를 설치한다.

In [50]:
#!pip install pandas --upgrade --quiet

이제 `pandas` 라이브러리를 사용할 수 있다! <br>
편의를 위해서 `pd` 라는 이름으로 사용하자

In [51]:
import pandas as pd

In [52]:
covid_df = pd.read_csv('italy-covid-daywise.csv')

파일에서 읽어온 데이터는 `DataFrame` 형태로 저장된다.<br>
`DataFrame`이란?
- 판다스의 테이블 데이터를 저장하는 핵심 자료구조 중 하나
- 보통 `_df` 라는 접미를 변수명에 넣어서 데이터프레임인 것을 명시한다.

In [53]:
type(covid_df)

pandas.core.frame.DataFrame

In [54]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
0,2019-12-31,0.0,0.0,
1,2020-01-01,0.0,0.0,
2,2020-01-02,0.0,0.0,
3,2020-01-03,0.0,0.0,
4,2020-01-04,0.0,0.0,
...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0
245,2020-09-01,996.0,6.0,54395.0
246,2020-09-02,975.0,8.0,


데이터 프레임을 훝어보는 것으로 알 수 있는 것들:

- 파일은 이탈리아의 4가지 일별 코로나 데이터를 가지고 있다.
- 표는 신규 확진자, 사망자, 검사자 로 구성되어 있다.
- 데이터는 248일 분량으로 구성되어 있으며 2019년 12월부터 2020년 9월까지 이다.

공시적으로 보고된 통계치라는 점을 명심하자. <br>
실제 사망자와 확진자는 더 많을 수도 있다.

`info`함수를 사용한다면 몇가지 기본적인 정보들을 추가적으로 확인할 수 있다.

In [55]:
covid_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   date        248 non-null    object 
 1   new_cases   248 non-null    float64
 2   new_deaths  248 non-null    float64
 3   new_tests   135 non-null    float64
dtypes: float64(3), object(1)
memory usage: 7.9+ KB


각각의 열은 특정 날자에 대한 값을 가지고 있는 것 같다.<br>
`.describe`를 활용하면, 수치 데이터로 구성된 열들에 대해서는 요약 통계정보를 확인할 수 있다.


In [56]:
covid_df.describe()

Unnamed: 0,new_cases,new_deaths,new_tests
count,248.0,248.0,135.0
mean,1094.818548,143.133065,31699.674074
std,1554.508002,227.105538,11622.209757
min,-148.0,-31.0,7841.0
25%,123.0,3.0,25259.0
50%,342.0,17.0,29545.0
75%,1371.75,175.25,37711.0
max,6557.0,971.0,95273.0


`columns` 특성은 데이터의 열 정보를 리스트의 형태로 가지고 있다.

In [57]:
covid_df.columns

Index(['date', 'new_cases', 'new_deaths', 'new_tests'], dtype='object')

`.shape`특성은 데이터의 행과 열으 수를 가지고 있다.

In [58]:
covid_df.shape

(248, 4)

지금까지 확인한 함수와 특성들을 요약하면 다음과 같다.

* `pd.read_csv` - CSV파일로 부터 데이터를 읽어와 `DataFrame` 형태의 객체로 저장한다.
* `.info()` - 행, 열, 데이터 타입과 같은 기본적인 데이터 구조를 확인한다.
* `.describe()` - 수치형 데이터에 대한 요약 통계 정보를 확인한다.
* `.columns` - 열 이름 정보를 리스트로 가지고 있다.
* `.shape` - 행과 열 개수를 튜플 형태로 가지고 있다.


## 데이터 프레임의 데이터 다루기

가장 먼저 하는 일은 특정한 행의 특정한 열의 데이터를 얻는 것처럼 데이터 프레임의 데이터에 접근하는 것이다. <br>
이를 쉽게 하기 위해서는 데이터 프레임의 내부 구조를 이해하는 것이 좋다.<br>
개념적으로 데이터프레임은 리스트를 가지고 있는 하나의 딕셔너리로 구성되어 있다고 생각하면 된다.<br>
키 값이 열 이름이고 각각의 리스트들은 하나의 행을 의미한다.

In [59]:
# 데이터 프레임은 이런 모양이다
covid_data_dict = {
    'date':       ['2020-08-30', '2020-08-31', '2020-09-01', '2020-09-02', '2020-09-03'],
    'new_cases':  [1444, 1365, 996, 975, 1326],
    'new_deaths': [1, 4, 6, 8, 6],
    'new_tests': [53541, 42583, 54395, None, None]
}

위와 같이 데이터를 표현하는 것에는 몇가지 장점이 있다.

* 하나의 열 안에 있 는 값들은 대부분 같은 데이터 타입을 가지고 있기 떄문에, 하나의 어레이로 관리하는 것이 좋다.
* 특정 행의 데이터에 접근하는 것은 각각의 열에 대해 해당 행의 인덱스로 접근하는 방법으로 행 데이터를 구한다.
* 이러한 방법은 딕셔너리와 리스트를 함께 사용하는 기존의 방법들 보다 훨씬 간결하다(아래와 비교)

In [60]:
# 데이터 프레임이 이런 모양은 아니다
covid_data_list = [
    {'date': '2020-08-30', 'new_cases': 1444, 'new_deaths': 1, 'new_tests': 53541},
    {'date': '2020-08-31', 'new_cases': 1365, 'new_deaths': 4, 'new_tests': 42583},
    {'date': '2020-09-01', 'new_cases': 996, 'new_deaths': 6, 'new_tests': 54395},
    {'date': '2020-09-02', 'new_cases': 975, 'new_deaths': 8 },
    {'date': '2020-09-03', 'new_cases': 1326, 'new_deaths': 6},
]

리스트로 구성된 딕셔너리라는 것을 이해하고 있다면, 데이터프레임에서 데이터에 어떻게 접근하는지 알 수 있을 것이다.<br>
예를 들어 우리는 특정 열에 행의 인덱스 값을 넣어 데이터에 접근할 수 있다.

In [61]:
covid_data_dict['new_cases']

[1444, 1365, 996, 975, 1326]

In [62]:
covid_df['new_cases']

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
        ...  
243    1444.0
244    1365.0
245     996.0
246     975.0
247    1326.0
Name: new_cases, Length: 248, dtype: float64

각 열들은 `Series`라 불리는 데이터 구조로 표현된다.<br>
`Series`는 몇가지 추가적인 특성을 가지고 있는 넘파이 배열과 같다.

In [63]:
type(covid_df['new_cases'])

pandas.core.series.Series

배열과 같이, `[]`와 인겟싱을 통해 특정한 값에 접근할 수 있다.

In [64]:
covid_df['new_cases'][246]

975.0

In [65]:
covid_df['new_tests'][240]

57640.0

판다스는 `at`이라는 함수를 통해, 특정행과 특정 열을 명시적으로 접근할 수 있다.

In [66]:
covid_df.at[246, 'new_cases']

975.0

In [67]:
covid_df.at[240, 'new_tests']

57640.0

`[]` 표기법을 사용하는 것 대신에, 판다스는 열에 접근할때 `.`표기법을 사용할 수 있게 해준다.<br>
그러나, 이 방법은 열의 이름에 __공백이 있거나 특수문자가 있다면 불가능하다.__

In [68]:
covid_df.new_cases

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
        ...  
243    1444.0
244    1365.0
245     996.0
246     975.0
247    1326.0
Name: new_cases, Length: 248, dtype: float64

게다가, `[]`을 이용해 데이터 프레임의 특정 열들로 구성된 하부 데이터셋을 구성할 수도 있다.

In [69]:
cases_df = covid_df[['date', 'new_cases']]
cases_df

Unnamed: 0,date,new_cases
0,2019-12-31,0.0
1,2020-01-01,0.0
2,2020-01-02,0.0
3,2020-01-03,0.0
4,2020-01-04,0.0
...,...,...
243,2020-08-30,1444.0
244,2020-08-31,1365.0
245,2020-09-01,996.0
246,2020-09-02,975.0


새로운 데이터 프레임인 `casses_df`는 단순히 원본 데이터를 보여주는 역할을 한다.<br>
두 변수에서 데이터는 하나의 메모리에 할당되기 때문에 한 변수에서 데이터에 변화를 주게 되면 다른 쪽에도 영향을 준다.<br>
이러한 방법은 판다스를 사용해 대량의 데이터를 처리할 때 ,속도를 높히고 와 메모리의 사용을 줄여준다는 기능이 있다.<br>

그러나 가끔 독립적인 하부 데이터셋이 필요한 경우도 있다. <br>
이런 경우 `.copy`함수를 사용해서 깊은 복사를 수행한다.

In [70]:
covid_df_copy = covid_df.copy()


`covid_df_copy`안에 있는 데이터들은 `covid_df` 로 부터 완전히 분리된 데이터이며, 값의 변화는 서로 영향을 주지 않는다.

특정 행의 데이터에 접근하기 위해서 `.loc` 함수를 사용할 수 있다.

In [71]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
0,2019-12-31,0.0,0.0,
1,2020-01-01,0.0,0.0,
2,2020-01-02,0.0,0.0,
3,2020-01-03,0.0,0.0,
4,2020-01-04,0.0,0.0,
...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0
245,2020-09-01,996.0,6.0,54395.0
246,2020-09-02,975.0,8.0,


In [72]:
covid_df.loc[243]

date          2020-08-30
new_cases         1444.0
new_deaths           1.0
new_tests        53541.0
Name: 243, dtype: object

각각의 행들은 `Series` 형태로 구성되어 있다.

In [73]:
type(covid_df.loc[243])

pandas.core.series.Series

 `.head` 와 `.tail`함수는 처음 행 또는 끝 행의 일부만 반환해주는 기능을 한다. 

In [74]:
covid_df.head(5)

Unnamed: 0,date,new_cases,new_deaths,new_tests
0,2019-12-31,0.0,0.0,
1,2020-01-01,0.0,0.0,
2,2020-01-02,0.0,0.0,
3,2020-01-03,0.0,0.0,
4,2020-01-04,0.0,0.0,


In [75]:
covid_df.tail(4)

Unnamed: 0,date,new_cases,new_deaths,new_tests
244,2020-08-31,1365.0,4.0,42583.0
245,2020-09-01,996.0,6.0,54395.0
246,2020-09-02,975.0,8.0,
247,2020-09-03,1326.0,6.0,


`new_tests` 의 head부분을 보면 NaN으로 구성된 값들이 존재한다는 것을 알 수 있다. <br>
이는 0의 값을 가지고 있는 `new_cases`와 `new_death`와는 다르게 값이 누락되어 있는 상태를 의미한다.<br>

In [76]:
covid_df.at[0, 'new_tests']

nan

In [77]:
type(covid_df.at[0, 'new_tests'])

numpy.float64

`0`과 `NaN`의 차이는 미묘하지만 매우 중요하다.<br>
이 데이터셋에서는 일부 날들에 대해서는 검사자가 보고되지 않았다.<br>
이탈리아는 2020년 4월19일부터 일간 검사자를 보고하기 시작했기 때문이다.<br>

우리는 `first_vaild_index` 함수를 통해서 처음으로 결측치가 아닌 값이 언제 나오는지 확인할 수도 있다.

In [78]:
covid_df.new_tests.first_valid_index()

111

`NaN`에서 측정값으로 바뀌기 전의 몇몇 행들을 보도록하자, `loc` 함수를 사용해서 행 데이터에 접근할 수 있다.

In [79]:
covid_df.loc[108:113]

Unnamed: 0,date,new_cases,new_deaths,new_tests
108,2020-04-17,3786.0,525.0,
109,2020-04-18,3493.0,575.0,
110,2020-04-19,3491.0,480.0,
111,2020-04-20,3047.0,433.0,7841.0
112,2020-04-21,2256.0,454.0,28095.0
113,2020-04-22,2729.0,534.0,44248.0


`sample` 함수는 데이터 프레임에서 랜덤으로 일부 행들을 보여준다.

In [80]:
covid_df.sample(10)

Unnamed: 0,date,new_cases,new_deaths,new_tests
132,2020-05-11,802.0,165.0,25823.0
85,2020-03-25,5249.0,743.0,
241,2020-08-28,1409.0,5.0,65135.0
32,2020-02-01,0.0,0.0,
193,2020-07-11,276.0,12.0,25449.0
25,2020-01-25,0.0,0.0,
10,2020-01-10,0.0,0.0,
65,2020-03-05,587.0,27.0,
214,2020-08-01,379.0,9.0,31905.0
175,2020-06-23,221.0,23.0,23225.0


랜덤으로 추출한 샘플 데이터 안에서도, 각각의 행들의 원래 인덱스가 보존된다는 것을 확인할 수 있다.<br>
이는 데이터 프레임의 유용한 특성이다.

앞에서 사용한 함수와 특성을 정리하면 다음과 같다. 

- `.copy()` - 데이터 프레임의 깊은 복사
- `.loc[]` - 데이터프레임으로부터 행단위의 데이터 접근
- `head`, `tail`, `sample` - 데이터 프레임에서 앞, 두, 랜덤의 샘플데이터를 다루기
- `first_valid_index` - 처음으로 유효값이 나오는 인덱스 찾기



## 데이터 프레임의 데이터 분석하기

아래 질문에 대한 답을 생각해보자<br>

**Q: 이탈리아에서 총 보고된 신규 확진자와 사망자는 몇명인가?**

넘파이와 비슷하게 판다스는 `sum` 함수를 사용하여 합을 구할 수 있다.

In [81]:

total_cases = covid_df.new_cases.sum()
total_deaths = covid_df.new_deaths.sum()

In [82]:
print('The number of reported cases is {} and the number of reported deaths is {}.'.format(int(total_cases), int(total_deaths)))

The number of reported cases is 271515 and the number of reported deaths is 35497.


**Q: 전체 사망률은 어떻게 되는가?**

In [83]:
death_rate = covid_df.new_deaths.sum() / covid_df.new_cases.sum()

In [84]:
print("The overall reported death rate in Italy is {:.2f} %.".format(death_rate*100))

The overall reported death rate in Italy is 13.07 %.


**Q: 전체 검사자는 몇명 인가? 935310명의 검사자가 보고되기 전에 존재했다.**


In [85]:
initial_tests = 935310
total_tests = initial_tests + covid_df.new_tests.sum()

In [86]:
total_tests

5214766.0

**Q: 검사 중 양성 판정이 나온 비율은 얼마나 되는가?**

In [87]:
positive_rate = total_cases / total_tests

In [88]:
print('{:.2f}% of tests in Italy led to a positive diagnosis.'.format(positive_rate*100))

5.21% of tests in Italy led to a positive diagnosis.


## 쿼리와 데이터 정렬

1000건이 넘는 보고가 존재한 날짜의 데이터만 보고싶다고 생각해보자.<br>
boolean 표현을 이용해 이를 만족하는 행의 데이터를 추출하면 된다!

In [89]:
high_new_cases = covid_df.new_cases > 1000

In [90]:
high_new_cases

0      False
1      False
2      False
3      False
4      False
       ...  
243     True
244     True
245    False
246    False
247     True
Name: new_cases, Length: 248, dtype: bool

위의 부울 표현식은 인덱스별로 `True` 와 `False`로 값이 존재하는 결과를 반환한다.<br>
이를 이용해서 `True`값을 가지는 인덱스에 대한 데이터만 추출하는 것도 가능하다

In [91]:
covid_df[high_new_cases]

Unnamed: 0,date,new_cases,new_deaths,new_tests
68,2020-03-08,1247.0,36.0,
69,2020-03-09,1492.0,133.0,
70,2020-03-10,1797.0,98.0,
72,2020-03-12,2313.0,196.0,
73,2020-03-13,2651.0,189.0,
...,...,...,...,...
241,2020-08-28,1409.0,5.0,65135.0
242,2020-08-29,1460.0,9.0,64294.0
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0


우리는 인덱스 칸안에 boolean 표현식을 넣어서 한줄로 간결하게 표현할 수도 있다.

In [92]:
high_cases_df = covid_df[covid_df.new_cases > 1000]

In [93]:
high_cases_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
68,2020-03-08,1247.0,36.0,
69,2020-03-09,1492.0,133.0,
70,2020-03-10,1797.0,98.0,
72,2020-03-12,2313.0,196.0,
73,2020-03-13,2651.0,189.0,
...,...,...,...,...
241,2020-08-28,1409.0,5.0,65135.0
242,2020-08-29,1460.0,9.0,64294.0
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0


데이터 프레임은 72개의 행을 가지고 있다. <br>
데이터가 많아서 위아래 몇개의 데이터만 표현된다. <br>
전체데이터를 보고 싶을 때는 아래와 같이 데이터 프레임에 접근한다

In [94]:
from IPython.display import display
with pd.option_context('display.max_rows', 100):
    display(covid_df[covid_df.new_cases > 1000])

Unnamed: 0,date,new_cases,new_deaths,new_tests
68,2020-03-08,1247.0,36.0,
69,2020-03-09,1492.0,133.0,
70,2020-03-10,1797.0,98.0,
72,2020-03-12,2313.0,196.0,
73,2020-03-13,2651.0,189.0,
74,2020-03-14,2547.0,252.0,
75,2020-03-15,3497.0,173.0,
76,2020-03-16,2823.0,370.0,
77,2020-03-17,4000.0,347.0,
78,2020-03-18,3526.0,347.0,


여러개의 열에 한번에 접근하고 데이터를 처리하기 위해 보다 복잡한 쿼리문을 만드는 것도 가능하다. <br>
예를들어 전체 양성비율보다 일별 양성비율이 높은 날의 데이터만을 추출하는 것도 가능하다.

In [95]:
positive_rate

0.05206657403227681

In [96]:
high_ratio_df = covid_df[covid_df.new_cases / covid_df.new_tests > positive_rate]

In [97]:
high_ratio_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
111,2020-04-20,3047.0,433.0,7841.0
112,2020-04-21,2256.0,454.0,28095.0
113,2020-04-22,2729.0,534.0,44248.0
114,2020-04-23,3370.0,437.0,37083.0
116,2020-04-25,3021.0,420.0,38676.0
117,2020-04-26,2357.0,415.0,24113.0
118,2020-04-27,2324.0,260.0,26678.0
120,2020-04-29,2091.0,382.0,38589.0
123,2020-05-02,1965.0,269.0,31231.0
124,2020-05-03,1900.0,474.0,27047.0


두개의 열을 처리하게 되면 새로운 Series 데이터가 생겨나게 된다.

In [98]:
covid_df.new_cases / covid_df.new_tests

0           NaN
1           NaN
2           NaN
3           NaN
4           NaN
         ...   
243    0.026970
244    0.032055
245    0.018311
246         NaN
247         NaN
Length: 248, dtype: float64

이 Series 데이터를 데이터프레임에 추가할 수도 있다.

In [99]:
covid_df['positive_rate'] = covid_df.new_cases / covid_df.new_tests

In [100]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,positive_rate
0,2019-12-31,0.0,0.0,,
1,2020-01-01,0.0,0.0,,
2,2020-01-02,0.0,0.0,,
3,2020-01-03,0.0,0.0,,
4,2020-01-04,0.0,0.0,,
...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,0.026970
244,2020-08-31,1365.0,4.0,42583.0,0.032055
245,2020-09-01,996.0,6.0,54395.0,0.018311
246,2020-09-02,975.0,8.0,,


그러나 코로나 검사는 몇일이 소요되기 때문에, 양성 결과 비율을 날짜에 그대로 대입하는 것은 부적절한 겨우가 될수도 있다.<br>
이러한 부정확한 내용은 전체 데이터를 분석함에 있어서 부적절하기 때문에 해당 열을 제거하도록한다.<br>


`positive_rate` 열을 판다스의 `drop`함수를 이용해서 제거하도록 하자.

In [101]:
covid_df.drop(columns=['positive_rate'], inplace=True)

`inplace` 파라미터의 목적이 이해가 되는가?

### 열 데이터를 이용해서 행 정렬

`sort_values`를 이용하면 행 데이터를 특정 열을 기준으로 정렬할 수 있다. <br>
신규확진자가 많은 순서대로 데이터를 정렬하기 위해 `new_cases`를 기준으로 내림차순 정렬을 해보자


In [102]:
covid_df.sort_values('new_cases', ascending=False).head(10)

Unnamed: 0,date,new_cases,new_deaths,new_tests
82,2020-03-22,6557.0,795.0,
87,2020-03-27,6153.0,660.0,
81,2020-03-21,5986.0,625.0,
89,2020-03-29,5974.0,887.0,
88,2020-03-28,5959.0,971.0,
83,2020-03-23,5560.0,649.0,
80,2020-03-20,5322.0,429.0,
85,2020-03-25,5249.0,743.0,
90,2020-03-30,5217.0,758.0,
86,2020-03-26,5210.0,685.0,


It looks like the last two weeks of March had the highest number of daily cases. Let's compare this to the days where the highest number of deaths were recorded.

In [103]:
covid_df.sort_values('new_deaths', ascending=False).head(10)

Unnamed: 0,date,new_cases,new_deaths,new_tests
88,2020-03-28,5959.0,971.0,
89,2020-03-29,5974.0,887.0,
92,2020-04-01,4053.0,839.0,
91,2020-03-31,4050.0,810.0,
82,2020-03-22,6557.0,795.0,
95,2020-04-04,4585.0,764.0,
94,2020-04-03,4668.0,760.0,
90,2020-03-30,5217.0,758.0,
85,2020-03-25,5249.0,743.0,
93,2020-04-02,4782.0,727.0,


일별 사망자는 일별 확진자가 최고치를 기록한 몇일후부터 최고치가 기록되는 것을 확인할 수 있다.

최소 확진자를 처음으로 보기위해서 오름차순으로 정렬을 해볼 수도 있다.

In [104]:
covid_df.sort_values('new_cases').head(10)

Unnamed: 0,date,new_cases,new_deaths,new_tests
172,2020-06-20,-148.0,47.0,29875.0
0,2019-12-31,0.0,0.0,
29,2020-01-29,0.0,0.0,
30,2020-01-30,0.0,0.0,
32,2020-02-01,0.0,0.0,
33,2020-02-02,0.0,0.0,
34,2020-02-03,0.0,0.0,
36,2020-02-05,0.0,0.0,
37,2020-02-06,0.0,0.0,
38,2020-02-07,0.0,0.0,


가장 적은 수의 값이 `-148`로 음수가 기록되어 있다는 것을 확인할 수 있었다!<br>
이는 실제로 발생할 수 없는 값으로 잘못된 기록일 것이다. <br>

이상치가 나온 2020년 6월 20일 이전의 자료들을 확인해보도록하자

In [105]:
covid_df.loc[169:175]

Unnamed: 0,date,new_cases,new_deaths,new_tests
169,2020-06-17,210.0,34.0,33957.0
170,2020-06-18,328.0,43.0,32921.0
171,2020-06-19,331.0,66.0,28570.0
172,2020-06-20,-148.0,47.0,29875.0
173,2020-06-21,264.0,49.0,24581.0
174,2020-06-22,224.0,24.0,16152.0
175,2020-06-23,221.0,23.0,23225.0



현재로서, 데이터 값이 잘못되었다는 것을 확인할 수 있었다.<br>
이와 같은 이상 데이터에 대해서는 다음과 같은 몇가지 처리방법들로 해당 값을 대체해야한다. <br>
<br>
1. `0`으로 대체
2. 전체에 대한 평균으로 대체
3. 이전날과 다음날에 대한 평균으로 대체
4. 해당 열 전체를 삭제
<br>
어떠한 방법론을 선택할지는 데이터와 문제의 문맥이 중요하다 <br>

여기서는 날짜 단위의 데이터를 다루고 있기 때문에 3번째 방법론을 사용하기로 한다.<br>

`at` 함수를 사용해서 특정 값을 바꿀 수 있다.

In [106]:
covid_df.at[172, 'new_cases'] = (covid_df.at[171, 'new_cases'] + covid_df.at[173, 'new_cases'])/2

여기까지의 함수를 요약한다면 다음과 같다:

- `covid_df.new_cases.sum()` - 특정 열 또는 특정 행 Series 내의 합을 구함
- `covid_df[covid_df.new_cases > 1000]` - 특정 조건을 만족하는 행 데이터만 추출한다.
- `df['pos_rate'] = df.new_cases/df.new_tests` - 존재하는 열의 데이터를 이용해서 새로운 열을 만들어 낸다.
- `covid_df.drop('positive_rate')` -한개 또는 여러개의 열을 제거한다.
- `sort_values` - 열 값을 이용해서 데이터를 정렬한다.
- `covid_df.at[172, 'new_cases'] = ...` - 특정 값으로 데이터를 대체한다.

## 시간의 활용

이전까지는 전반적인 데이터들의 개수를 다루는 작업을 해보았다.<br>
이러한 데이터들을 날짜, 시간 기준으로 접근할 수 있다면 더욱 유용할 것이다!<br>
`date` 열은 데이터의 시간 정보를 담고 있는 특성이다.

In [107]:
covid_df.date

0      2019-12-31
1      2020-01-01
2      2020-01-02
3      2020-01-03
4      2020-01-04
          ...    
243    2020-08-30
244    2020-08-31
245    2020-09-01
246    2020-09-02
247    2020-09-03
Name: date, Length: 248, dtype: object

현재 data 데이터의 형식은 `object`로 되어 있다. <br>
따라서 판다스 데이터 프레임은 해당 열이 어떤 데이터인지 정확하게 이해하고 있지 못한 상태이다.<br>
data 데이터를 시계열 특성에 맞게 처리하기 위해서 `pd.to_datetime`함수를 이용할 수 있다.

In [108]:
covid_df['date'] = pd.to_datetime(covid_df.date)

In [109]:
covid_df['date']

0     2019-12-31
1     2020-01-01
2     2020-01-02
3     2020-01-03
4     2020-01-04
         ...    
243   2020-08-30
244   2020-08-31
245   2020-09-01
246   2020-09-02
247   2020-09-03
Name: date, Length: 248, dtype: datetime64[ns]

`datetime64`라는  데이터 타입으로 변환된 것을 확인할 수 있다.<br>
이제 데이터 프레임에 존재하는 데이터들은 시간 단위로 접근하여 추출하고 수정할 수 있게 되었다.<br>
시계열 데이터를 시간단위로 사용하기 위해서는 `DatetimeIndex` 클래스를 사용한다 ([view docs](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DatetimeIndex.html)).

In [110]:
covid_df['year'] = pd.DatetimeIndex(covid_df.date).year
covid_df['month'] = pd.DatetimeIndex(covid_df.date).month
covid_df['day'] = pd.DatetimeIndex(covid_df.date).day
covid_df['weekday'] = pd.DatetimeIndex(covid_df.date).weekday

In [111]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,year,month,day,weekday
0,2019-12-31,0.0,0.0,,2019,12,31,1
1,2020-01-01,0.0,0.0,,2020,1,1,2
2,2020-01-02,0.0,0.0,,2020,1,2,3
3,2020-01-03,0.0,0.0,,2020,1,3,4
4,2020-01-04,0.0,0.0,,2020,1,4,5
...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,2020,8,30,6
244,2020-08-31,1365.0,4.0,42583.0,2020,8,31,0
245,2020-09-01,996.0,6.0,54395.0,2020,9,1,1
246,2020-09-02,975.0,8.0,,2020,9,2,2


5월의 전반적인 데이터 프레임을 확인해보도록하자.<br>
열을 찾는 인덱스를 5월로 주고 접근하고자 하는 열을 선택하면 된다<br>
그리고 `sum` 함수를 사용해서 각 열들의 합계를 구해보자<br>

In [112]:
#5월의 행을 구하는 쿼리
covid_df_may = covid_df[covid_df.month == 5]

# 처리하고자 하는 열에 접근
covid_df_may_metrics = covid_df_may[['new_cases', 'new_deaths', 'new_tests']]

# 열에 대한 합 구하기
covid_may_totals = covid_df_may_metrics.sum()

In [113]:
covid_may_totals

new_cases       29073.0
new_deaths       5658.0
new_tests     1078720.0
dtype: float64

In [114]:
type(covid_may_totals)

pandas.core.series.Series

위의 연산들을 한줄의 코드로 축약할 수도 있다.

In [115]:
covid_df[covid_df.month == 5][['new_cases', 'new_deaths', 'new_tests']].sum()

new_cases       29073.0
new_deaths       5658.0
new_tests     1078720.0
dtype: float64

또다른 예시를 확인해보자 <br>
일요일에 보고된 내용들이 다른 날에 보고된 평균보다 높은지 확인해보자 <br>
이번에는 `.mean`함수를 사용해서 열들의 평균정보를 구해보자

In [116]:
# 전체 평균
covid_df.new_cases.mean()

1096.6149193548388

In [117]:
# 일요일의 평균
covid_df[covid_df.weekday == 6].new_cases.mean()

1247.2571428571428

## 데이터 묶어내기와 분리하기

이번에는, 데이터를 월데이터가 없이 일단위로만 묶어서 데이터를 정렬한 새로운 데이터프레임을 만들어 보도록하자<br>
`groupby`함수를 사용해서 각 달의 데이터를 추출하고 `sum`함수를 사용해서 열 데이터를 합친다.

In [118]:
covid_month_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].sum()

In [119]:
covid_month_df

Unnamed: 0_level_0,new_cases,new_deaths,new_tests
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,3.0,0.0,0.0
2,885.0,21.0,0.0
3,100851.0,11570.0,0.0
4,101852.0,16091.0,419591.0
5,29073.0,5658.0,1078720.0
6,8217.5,1404.0,830354.0
7,6722.0,388.0,797692.0
8,21060.0,345.0,1098704.0
9,3297.0,20.0,54395.0
12,0.0,0.0,0.0


`groupby`와 인덱스 접근을 활용해서 데이터 프레임을 특정 조건에 맞게 그룹으로 묶어서 사용할 수 있다.<br>
이러한 묶어내는 작업은 판다스 데이터 프레임의 강력한 기능이고 큰 장점 중 하나이다.<br>

합을 기준으로 그룹을 만드는 것 대신에 평균을 기준으로 그룹을 만들수도 있다.<br>
데이터들의 월별 평균을 구해서 그룹을 만들어보도록하자

In [120]:
covid_month_mean_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].mean()

In [121]:
covid_month_mean_df

Unnamed: 0_level_0,new_cases,new_deaths,new_tests
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.096774,0.0,
2,30.517241,0.724138,
3,3253.258065,373.225806,
4,3395.066667,536.366667,38144.636364
5,937.83871,182.516129,34797.419355
6,273.916667,46.8,27678.466667
7,216.83871,12.516129,25732.0
8,679.354839,11.129032,35442.064516
9,1099.0,6.666667,54395.0
12,0.0,0.0,


존재하는 데이터들을 가지고 만들어내는 그룹을 만드는 것 대신에, 누적데이터를 만들어내는 것도 가능하다.<br>

`cumsum`함수 를 사용해서 Series데이터의 누적합을 구할 수 있다<br>
다음 세가지 열을 만들어 보도록 하자: `total_cases`, `total_deaths`, `total_tests`.

In [122]:
covid_df['total_cases'] = covid_df.new_cases.cumsum()

In [123]:
covid_df['total_deaths'] = covid_df.new_deaths.cumsum()

In [124]:
covid_df['total_tests'] = covid_df.new_tests.cumsum() + initial_tests

In [125]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,year,month,day,weekday,total_cases,total_deaths,total_tests
0,2019-12-31,0.0,0.0,,2019,12,31,1,0.0,0.0,
1,2020-01-01,0.0,0.0,,2020,1,1,2,0.0,0.0,
2,2020-01-02,0.0,0.0,,2020,1,2,3,0.0,0.0,
3,2020-01-03,0.0,0.0,,2020,1,3,4,0.0,0.0,
4,2020-01-04,0.0,0.0,,2020,1,4,5,0.0,0.0,
...,...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,2020,8,30,6,267298.5,35473.0,5117788.0
244,2020-08-31,1365.0,4.0,42583.0,2020,8,31,0,268663.5,35477.0,5160371.0
245,2020-09-01,996.0,6.0,54395.0,2020,9,1,1,269659.5,35483.0,5214766.0
246,2020-09-02,975.0,8.0,,2020,9,2,2,270634.5,35491.0,


`total_test`의 `NaN` 값은 영향력이 없다는 것을 알아두자

## 다양한 데이터들을 합치기

현재 데이터만으로는 알 수 없는 정보를 얻고 싶을 때는 다른 데이터를 가져와 합칠 수 있다.<br>
이탈리아를 포함한 여러 나라의 데이터를 가지고 있는 `location.csv`를 다운로드 받아서 사용해 보도록 하자

In [126]:
urlretrieve('https://gist.githubusercontent.com/aakashns/8684589ef4f266116cdce023377fc9c8/raw/99ce3826b2a9d1e6d0bde7e9e559fc8b6e9ac88b/locations.csv', 
            'locations.csv')

('locations.csv', <http.client.HTTPMessage at 0x26f10b819d0>)

In [127]:
locations_df = pd.read_csv('locations.csv')

In [128]:
locations_df

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,Afghanistan,Asia,3.892834e+07,64.83,0.500,1803.987
1,Albania,Europe,2.877800e+06,78.57,2.890,11803.431
2,Algeria,Africa,4.385104e+07,76.88,1.900,13913.839
3,Andorra,Europe,7.726500e+04,83.73,,
4,Angola,Africa,3.286627e+07,61.15,,5819.495
...,...,...,...,...,...,...
207,Yemen,Asia,2.982597e+07,66.12,0.700,1479.147
208,Zambia,Africa,1.838396e+07,63.89,2.000,3689.251
209,Zimbabwe,Africa,1.486293e+07,61.49,1.700,1899.775
210,World,,7.794799e+09,72.58,2.705,15469.207


In [129]:
locations_df[locations_df.location == "Italy"]

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
97,Italy,Europe,60461828.0,83.51,3.18,35220.084


서로 다른 두 데이터프레임을 합칠 수 있다.<br>
그러나 합치기 위해서는 하나 이상의 공통된 열을 가지고 있어야 한다. <br>
`locataion`이라는 열을 추가하여 `Italy`로 모든 값을 채운 후 데이터를 합쳐보도록 하자

In [130]:
covid_df['location'] = "Italy"

In [131]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,year,month,day,weekday,total_cases,total_deaths,total_tests,location
0,2019-12-31,0.0,0.0,,2019,12,31,1,0.0,0.0,,Italy
1,2020-01-01,0.0,0.0,,2020,1,1,2,0.0,0.0,,Italy
2,2020-01-02,0.0,0.0,,2020,1,2,3,0.0,0.0,,Italy
3,2020-01-03,0.0,0.0,,2020,1,3,4,0.0,0.0,,Italy
4,2020-01-04,0.0,0.0,,2020,1,4,5,0.0,0.0,,Italy
...,...,...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,2020,8,30,6,267298.5,35473.0,5117788.0,Italy
244,2020-08-31,1365.0,4.0,42583.0,2020,8,31,0,268663.5,35477.0,5160371.0,Italy
245,2020-09-01,996.0,6.0,54395.0,2020,9,1,1,269659.5,35483.0,5214766.0,Italy
246,2020-09-02,975.0,8.0,,2020,9,2,2,270634.5,35491.0,,Italy


이제 우리는 `merge`함수를 사용해서 `locataion_df`를 `covid_df`로 합칠 수 있다.


In [132]:
merged_df = covid_df.merge(locations_df, on="location")

In [133]:
merged_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,year,month,day,weekday,total_cases,total_deaths,total_tests,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,2019-12-31,0.0,0.0,,2019,12,31,1,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
1,2020-01-01,0.0,0.0,,2020,1,1,2,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
2,2020-01-02,0.0,0.0,,2020,1,2,3,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
3,2020-01-03,0.0,0.0,,2020,1,3,4,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
4,2020-01-04,0.0,0.0,,2020,1,4,5,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,2020,8,30,6,267298.5,35473.0,5117788.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
244,2020-08-31,1365.0,4.0,42583.0,2020,8,31,0,268663.5,35477.0,5160371.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
245,2020-09-01,996.0,6.0,54395.0,2020,9,1,1,269659.5,35483.0,5214766.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
246,2020-09-02,975.0,8.0,,2020,9,2,2,270634.5,35491.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084


이제 두데이터가 합쳐져 더 큰 데이터셋을 구성하게 되었고 이를 이용해 이전에는 구하지 못했던 보다 큰 범위의 평균을 구할 수 있다.

In [134]:
merged_df['cases_per_million'] = merged_df.total_cases * 1e6 / merged_df.population

In [135]:
merged_df['deaths_per_million'] = merged_df.total_deaths * 1e6 / merged_df.population

In [136]:
merged_df['tests_per_million'] = merged_df.total_tests * 1e6 / merged_df.population

In [137]:
merged_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,year,month,day,weekday,total_cases,total_deaths,total_tests,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita,cases_per_million,deaths_per_million,tests_per_million
0,2019-12-31,0.0,0.0,,2019,12,31,1,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,0.000000,0.000000,
1,2020-01-01,0.0,0.0,,2020,1,1,2,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,0.000000,0.000000,
2,2020-01-02,0.0,0.0,,2020,1,2,3,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,0.000000,0.000000,
3,2020-01-03,0.0,0.0,,2020,1,3,4,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,0.000000,0.000000,
4,2020-01-04,0.0,0.0,,2020,1,4,5,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,0.000000,0.000000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,2020,8,30,6,267298.5,35473.0,5117788.0,Italy,Europe,60461828.0,83.51,3.18,35220.084,4420.946386,586.700753,84644.943252
244,2020-08-31,1365.0,4.0,42583.0,2020,8,31,0,268663.5,35477.0,5160371.0,Italy,Europe,60461828.0,83.51,3.18,35220.084,4443.522614,586.766910,85349.238862
245,2020-09-01,996.0,6.0,54395.0,2020,9,1,1,269659.5,35483.0,5214766.0,Italy,Europe,60461828.0,83.51,3.18,35220.084,4459.995818,586.866146,86248.897403
246,2020-09-02,975.0,8.0,,2020,9,2,2,270634.5,35491.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084,4476.121695,586.998461,


## 데이터를 다시 파일로 저장하기

분석과 열 추가가 완료된 데이터는 새롭게 파일에 저장해야한다. <br>
그렇지 않으면 주피터 노트북이 닫힘과 동시에 데이터가 손실될 것이다. <br>
데이터를 저장하기 전에 저장하기를 원하는 열로만 구성된 데이터프레임을 만들자.

In [138]:
result_df = merged_df[['date',
                       'new_cases', 
                       'total_cases', 
                       'new_deaths', 
                       'total_deaths', 
                       'new_tests', 
                       'total_tests', 
                       'cases_per_million', 
                       'deaths_per_million', 
                       'tests_per_million']]

In [139]:
result_df

Unnamed: 0,date,new_cases,total_cases,new_deaths,total_deaths,new_tests,total_tests,cases_per_million,deaths_per_million,tests_per_million
0,2019-12-31,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
1,2020-01-01,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
2,2020-01-02,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
3,2020-01-03,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
4,2020-01-04,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,267298.5,1.0,35473.0,53541.0,5117788.0,4420.946386,586.700753,84644.943252
244,2020-08-31,1365.0,268663.5,4.0,35477.0,42583.0,5160371.0,4443.522614,586.766910,85349.238862
245,2020-09-01,996.0,269659.5,6.0,35483.0,54395.0,5214766.0,4459.995818,586.866146,86248.897403
246,2020-09-02,975.0,270634.5,8.0,35491.0,,,4476.121695,586.998461,


데이터프레임의 데이터를 파일로 저장하기 위해 `to_csv`함수를 사용하면 된다.

In [140]:
result_df.to_csv('results.csv', index=None)

`to_csv` 함수는 인덱스를 하나의 열로 구성하여 넣는 것을 기본값으로 가지고 있다.<br>
`index=None` 를 사용해서 이 동작을 멈출 수 있다. <br>

이제 `results.csv` 가 생성되었고 CSV 형태로 저장되어 있는 것을 알 수 있다:

```
date,new_cases,total_cases,new_deaths,total_deaths,new_tests,total_tests,cases_per_million,deaths_per_million,tests_per_million
2020-02-27,78.0,400.0,1.0,12.0,,,6.61574439992122,0.1984723319976366,
2020-02-28,250.0,650.0,5.0,17.0,,,10.750584649871982,0.28116913699665186,
2020-02-29,238.0,888.0,4.0,21.0,,,14.686952567825108,0.34732658099586405,
2020-03-01,240.0,1128.0,8.0,29.0,,,18.656399207777838,0.47964146899428844,
2020-03-02,561.0,1689.0,6.0,35.0,,,27.93498072866735,0.5788776349931067,
2020-03-03,347.0,2036.0,17.0,52.0,,,33.67413899559901,0.8600467719897585,
...
```

## 보너스: 판다스 시각화

보통 `matplotlib`이나 `seaborn` 라이브러리를 사용해서 그래프를 만든다. <br>
그러나 판다스 데이터프레임이나 Series도 `plot` 함수를 제공해서 시각화 기능이 있다!<br>
<br>
시계열에 따른 그래프를 그려보자

In [141]:
result_df.new_cases.plot();

이 그래프가 전체적인 추세를 보여주고 있지만, x-축 데이터가 없기 때문에, 언제 정점이 발생하는지 알기 어렵다.<br>
`date`열의 인덱스를 사용해서 x 축정보를 알 수 있다.

In [142]:
result_df.set_index('date', inplace=True)

In [143]:
result_df

Unnamed: 0_level_0,new_cases,total_cases,new_deaths,total_deaths,new_tests,total_tests,cases_per_million,deaths_per_million,tests_per_million
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2019-12-31,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
2020-01-01,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
2020-01-02,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
2020-01-03,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
2020-01-04,0.0,0.0,0.0,0.0,,,0.000000,0.000000,
...,...,...,...,...,...,...,...,...,...
2020-08-30,1444.0,267298.5,1.0,35473.0,53541.0,5117788.0,4420.946386,586.700753,84644.943252
2020-08-31,1365.0,268663.5,4.0,35477.0,42583.0,5160371.0,4443.522614,586.766910,85349.238862
2020-09-01,996.0,269659.5,6.0,35483.0,54395.0,5214766.0,4459.995818,586.866146,86248.897403
2020-09-02,975.0,270634.5,8.0,35491.0,,,4476.121695,586.998461,


인덱스를 통해 해당 날짜를 알아낼 수 있고 `loc`을 이용해 해당 날짜의 데이터를 추출할 수 있다.

In [144]:
result_df.loc['2020-09-01']

new_cases             9.960000e+02
total_cases           2.696595e+05
new_deaths            6.000000e+00
total_deaths          3.548300e+04
new_tests             5.439500e+04
total_tests           5.214766e+06
cases_per_million     4.459996e+03
deaths_per_million    5.868661e+02
tests_per_million     8.624890e+04
Name: 2020-09-01 00:00:00, dtype: float64

신규 확진자와 신규 사망자를 그래프로 그려보자!

In [145]:
result_df.new_cases.plot()
result_df.new_deaths.plot();

전체 감염자와 총 사망자를 비교할 수도 있다.

In [146]:
result_df.total_cases.plot()
result_df.total_deaths.plot();

사망률과 양성 결과율이 시간에 따라 어떻게 바뀌는지도 볼 수 있다!

In [147]:
death_rate = result_df.total_deaths / result_df.total_cases

In [148]:
death_rate.plot(title='Death Rate');

In [149]:
positive_rates = result_df.total_cases / result_df.total_tests
positive_rates.plot(title='Positive Rate');

마지막으로, 월별로 신규확진자 발생을 막대그래프를 통해서 그려보자

In [150]:
covid_month_df.new_cases.plot(kind='bar');

In [151]:
covid_month_df.new_tests.plot(kind='bar')

<AxesSubplot:title={'center':'Positive Rate'}, xlabel='month'>

## 요약

이번 장을 통해 다음과 같은 내용을 배워보았다:
- CSV 파일을 판다스 데이터 프레임으로 읽어오기
- 판다스 데이터 프레임을 통해 데이터 처리하기
- 데이터 쿼리, 정렬, 분석하기
- 데이터를 합치기, 분리하기
- 데이터에서 유용한 정보 추출하기
- 기본적인 막대그래프와 꺽은선 그래프 만들기
- 데이터 프레임 파일을 CSV 파일로 저장하기

추가적인 판다스에 대한 자료는 다음 웹페이지에서 확인해볼 수 있다.

* Pandas: https://pandas.pydata.org/docs/user_guide/index.html
* Data Analysis (book by Wes McKinney - creator of Pandas): https://www.oreilly.com/library/view/python-for-data/9781491957653/

## 수정을 위한 질문

이 노트북에서 다루는 주제에 대한 이해도를 테스트하기 위해 다음 질문에 답해 보십시오.

1. 판다는 무엇입니까? 무엇에 유용하게 사용될까요?
2. Pandas 라이브러리는 어떻게 설치하나요(anaconda 혹은 pip)?
3. `pandas` 모듈을 어떻게 가져오나요(import)?
4. `pandas` 모듈을 가져올 때 사용되는 공통 별칭은(alias) 무엇입니까?
5. Pandas를 사용하여 CSV 파일을 어떻게 읽는지 예를 들어설명해 보세요?
6. Pandas를 사용하여 읽을 수 있는 다른 파일 형식은 무엇인지? 예를 들어 설명해보세요.
7. Pandas 데이터 프레임이란 무엇인지?
8. Pandas 데이터 프레임은 Numpy 배열과 어떻게 다른지?
9. 데이터 프레임에서 행과 열의 수를 어떻게 찾는지?
10. 데이터 프레임의 열 목록을 어떻게 얻는지?
11. 데이터 프레임의 'describe' 메소드의 목적은 무엇인지?
12. `info`와 `describe` 데이터프레임 메소드(Method)는 어떻게 다른지 설명하세요?
13. Pandas 데이터 프레임(DataFrame)은 개념적으로 dictionary로 구성된 list 혹은 list들고 구성된 dictionary와 비슷한지 예를 들어 설명하십시오.
14. 판다스 'Series'란? Numpy 배열과 어떻게 다른지?
15. 데이터 프레임에서 열에 어떻게 접근하는지 설명해보세요.
16. 데이터 프레임에서 행에 어떻게 접근하는지 설명해보세요.
17. 데이터 프레임의 특정 행과 열에 있는 요소에 어떻게 접근하는지?
18. 특정 열 집합이 있는 데이터 프레임의 하위 집합을 어떻게 생성합니까?
19. 특정 범위의 행이 있는 데이터 프레임의 하위 집합을 어떻게 생성하는지?
20. 데이터 프레임 내에서 값을 변경하면 행 또는 열의 하위 집합을 사용하여 생성된 다른 데이터 프레임에 영향을 주는지? 왜 그래야만하지설명해보세요.
21. 데이터 프레임의 복사본을 어떻게 생성하는지?
22. 데이터 프레임의 복사본을 너무 많이 생성하지 말아야 하는 이유는 무엇인지?
23. 데이터 프레임의 처음 몇 행을 어떻게 보는지?
24. 데이터 프레임의 마지막 몇 행을 어떻게 보나요?
25. 데이터 프레임에서 무작위로 선택된 행을 어떻게 보는지?
26. 데이터 프레임의 "Index"은 무엇인지? 어떻게 유용하게 사용되는지?
27. Pandas 데이터 프레임의 'NaN' 값은 무엇을 나타내는지?
28. 'NaN'은 '0'과 어떻게 다릅니까
29. Pandas 시리즈 또는 열에서 비어 있지 않은 첫 번째 행을 어떻게 식별하는지?
30. `df.loc`과 `df.at`의 차이점은 무엇인지?
31. Pandas `DataFrame` 및 `Series` 객체가 지원하는 전체 메소드 목록은 어디에서 찾을 수 있는지?
32. 데이터 프레임의 열에서 숫자의 합을 찾는 방법은 무엇인지?
33. 데이터 프레임의 열에서 숫자의 평균을 찾는 방법은 무엇인지?
34. 데이터 프레임의 열에서 비어 있지 않은 숫자의 수를 찾는 방법은 무엇인지?
35. 부울 표현식에서 Pandas 열을 사용하여 얻은 결과는 무엇인지 예를 들어 설명해보세요.
36. 특정 열의 값이 주어진 조건을 충족하는 행의 하위 집합을 어떻게 선택하는지 예를 들어 설명해보세요.
37. `df[df.new_cases > 100]` 표현의 결과는 무엇인지?
38. Jupyter 셀 출력에서 ​​팬더 데이터 프레임의 모든 행을 어떻게 표시하는지?
39. 데이터 프레임의 두 열 사이에 산술 연산을 수행할 때 얻은 결과는 무엇인지 예를 들어 설명해보세요.
40. 두 개의 기존 열의 값을 결합하여 데이터 프레임에 새 열을 어떻게 추가하는지 예를 들어 설명해보세요.
41. 데이터 프레임에서 열을 어떻게 제거하는지 예를 들어 설명해보세요.
42. 데이터 프레임 메소드에서 'inplace' 인수의 목적은 무엇인지 설명해보세요.
43. 특정 열의 값을 기준으로 데이터 프레임의 행을 어떻게 정렬하는지 설명해보세요.
44. 여러 열의 값을 사용하여 pandas 데이터 프레임을 어떻게 정렬하는지 설명해보세요.
45. Pandas 데이터 프레임을 정렬할 때 오름차순 또는 내림차순으로 정렬할지 어떻게 지정하는지 설명해보세요.
46. ​​데이터 프레임 내에서 특정 값을 어떻게 변경하는지 설명해보세요.
47. 데이터 프레임 열을 `datetime` 데이터 유형으로 어떻게 변환하는지 설명해 보세요
48. `object` 대신 `datetime` 데이터 유형을 사용하면 어떤 장점이 있는지 설명해 보세요.
49. 월, 연도, 월, 요일 등과 같은 날짜 열의 다른 부분을 어떻게 별도의 열로 추출합니까? 예를 들어 설명해보세요.
50. 데이터 프레임의 여러 열을 함께 집계하는 방법은 무엇인지?
51. 데이터 프레임의 'groupby' 방식의 목적은 무엇입니까? 예를 들어 설명해보세요.
52. `groupby`에서 생성된 그룹을 집계할 수 있는 다양한 방법은 무엇인지?
53. 누적 합계 또는 누적 합계는 무엇을 의미하는지?
54. 다른 열의 누적 합계 또는 누적 합계를 포함하는 새 열을 어떻게 생성하는지?
55. Pandas 데이터 프레임에서 지원하는 다른 누적 측정값은 무엇인지 설명해보세요.
56. 두 데이터 프레임을 병합한다는 것은 무엇을 의미하느지 설명하는지 예를 들어 보세요.
57. 두 데이터 프레임을 병합하는 데 사용해야 하는 열을 어떻게 지정하는지 설명해보세요.
58. Pandas 데이터 프레임의 데이터를 CSV 파일에 어떻게 쓰나요? 예를 들어보세요.
59. Pandas 데이터 프레임에서 쓸 수 있는 다른 파일 형식은 무엇입니까? 예를 들어 설명해보세요.
60. 데이터 프레임의 열 내의 값을 보여주는 선 플롯을 어떻게 생성하는지 설명해보세요?
61. 데이터 프레임의 열을 인덱스로 어떻게 변환할 수 있습니까?
62. 데이터 프레임의 인덱스가 숫자가 아닐 수 있을까요?
63. 숫자가 아닌 데이터 프레임을 사용하면 어떤 이점이 있습니까? 예를 들어 설명해보세요.
64. 데이터 프레임의 열에 있는 값을 보여주는 막대 그림을 어떻게 생성합니까?
65. 지원하는 다른 유형의 플롯에는 어떤 것이 있을까요?