# Python과 Pandas를 이용한 데이터프레임 처리
![](https://i.imgur.com/zfxLzEv.png)


이번 장에서는 다음과 같은 주제들을 다룹니다:

- CSV파일을 판다스(Pandas) 데이터 프레임으로 읽기
- 판다스 데이터 프라임의 데이터 다루기
- 데이터에 쿼리, 정렬, 분석 해보기
- 데이터 합치기, 묶기, 집계 수행해보기
- 데이터로부터 유용한 정보 추출해보기
- 막대 그래프와 꺾은선 그래프 만들어 보기
- 데이터를 CSV 파일로 저장하기

## Pandas를 이용해 CSV 파일 읽기

[Pandas](https://pandas.pydata.org/) 는 테이블 데이터를 다루기 위해 많이 사용되는 유명한 파이썬 라이브러리입니다. 
판다스는 CSV, Excel, HTML, JSON, SQL 등과 같은 데이터 파일에 대한 함수들을 지원해줍니다.  
이탈리아의 일별 Covid-19 데이터를 담고 있는 `italy-covid-daywise.csv`파일을 다운로드 해보겠습니다.
```
date,new_cases,new_deaths,new_tests
2020-04-21,2256.0,454.0,28095.0
2020-04-22,2729.0,534.0,44248.0
2020-04-23,3370.0,437.0,37083.0
2020-04-24,2646.0,464.0,95273.0
2020-04-25,3021.0,420.0,38676.0
2020-04-26,2357.0,415.0,24113.0
2020-04-27,2324.0,260.0,26678.0
2020-04-28,1739.0,333.0,37554.0
...
```

데이터 형식이 CSV로 구성되어 있다는 것을 확인할 수 있습니다.  
> **CSV**: CSV 파일은 쉼표를 사용하여 값을 구분하는 텍스트 파일입니다. 파일의 각 줄은 데이터 레코드이며, 각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다.  
CSV 파일은 일반적으로 테이블 데이터(숫자와 텍스트)를 일반 텍스트로 저장하며, 이 경우 각 행은 동일한 수의 필드를 가집니다.
<!--
> **CSVs**: A comma-separated values (CSV) file is a delimited text file that uses a comma to separate values. Each line of the file is a data record. Each record consists of one or more fields, separated by commas. A CSV file typically stores tabular data (numbers and text) in plain text, in which case each line will have the same number of fields. (Wikipedia)
-->

다운로드는  `urllib.request`라이브러리의 `urlretrieve` 함수를 이용해서 이전과 같이 수행할 수 있습니다.  
하지만, 이번에는 csv 실습 파일을 제공하도록 하겠습니다.

파일을 읽기 위해서 `Pandas` 라이브러리의 `read_csv`함수를 사용합니다..<br>
이를 위해, 먼저 Pandas 라이브러리를 설치합니다.

In [1]:
# !pip install pandas --upgrade --quiet

위 코드 셀을 실행했다면, 이제 `pandas` 라이브러리를 사용할 수 있습니다. <br>
보통 `pd` 라는 이름으로 사용하므로, 우리도 그렇게 사용하도록 하겠습니다.

In [2]:
import pandas as pd

In [3]:
covid_df = pd.read_csv('italy-covid-daywise.csv')


파일에서 읽어온 데이터는 `DataFrame` 형태로 저장됩니다.<br>
> `DataFrame`: Pandas의 테이블 데이터를 저장하는 핵심 자료구조 중 하나로, 보통 `_df` 라는 접미를 변수명에 넣어서 데이터프레임인 것을 명시합니다.

In [4]:
type(covid_df)

pandas.core.frame.DataFrame

In [5]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
0,2019-12-31,0.0,0.0,
1,2020-01-01,0.0,0.0,
2,2020-01-02,0.0,0.0,
3,2020-01-03,0.0,0.0,
4,2020-01-04,0.0,0.0,
...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0
245,2020-09-01,996.0,6.0,54395.0
246,2020-09-02,975.0,8.0,


데이터 프레임을 훝어보는 것으로 알 수 있는 것들:

- 파일은 이탈리아의 4가지 일별 코로나 데이터를 가지고 있다.
- 표는 신규 확진자, 사망자, 검사자 로 구성되어 있다.
- 데이터는 248일 분량으로 구성되어 있으며 2019년 12월부터 2020년 9월까지 이다.

공시적으로 보고된 통계치지만, 실제 사망자와 확진자는 더 많을 수도 있습니다. <br>

`info`함수를 사용한다면 몇가지 기본적인 정보들을 추가적으로 확인할 수 있습니다.

In [6]:
covid_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   date        248 non-null    object 
 1   new_cases   248 non-null    float64
 2   new_deaths  248 non-null    float64
 3   new_tests   135 non-null    float64
dtypes: float64(3), object(1)
memory usage: 7.9+ KB


각각의 열은 특정 날자에 대한 값을 가지고 있는 것으로 추측할 수 있습니다.<br>
`.describe`를 활용하면, 수치 데이터로 구성된 열들에 대해서는 요약 통계정보를 확인할 수 있습니다.


In [7]:
covid_df.describe()

Unnamed: 0,new_cases,new_deaths,new_tests
count,248.0,248.0,135.0
mean,1094.818548,143.133065,31699.674074
std,1554.508002,227.105538,11622.209757
min,-148.0,-31.0,7841.0
25%,123.0,3.0,25259.0
50%,342.0,17.0,29545.0
75%,1371.75,175.25,37711.0
max,6557.0,971.0,95273.0


`columns` 함수는 데이터의 열 정보를 리스트의 형태로 return 합니다.

In [8]:
covid_df.columns

Index(['date', 'new_cases', 'new_deaths', 'new_tests'], dtype='object')

`.shape`함수는 데이터의 행과 열의 개수를 return 합니다.

In [9]:
covid_df.shape

(248, 4)

지금까지 확인한 함수와 특성들을 요약하면 다음과 같습니다.

* `pd.read_csv` - CSV파일로 부터 데이터를 읽어와 `DataFrame` 형태의 객체로 저장한다.
* `.info()` - 행, 열, 데이터 타입과 같은 기본적인 데이터 구조를 확인한다.
* `.describe()` - 수치형 데이터에 대한 요약 통계 정보를 확인한다.
* `.columns` - 열 이름 정보를 리스트로 가지고 있다.
* `.shape` - 행과 열 개수를 튜플 형태로 가지고 있다.


## 데이터 프레임의 데이터 다루기

가장 먼저 하는 일은 특정한 행의 특정한 열의 데이터를 얻는 것처럼 데이터 프레임의 데이터에 접근하는 것입니다. <br>
이를 쉽게 하기 위해서는 데이터 프레임의 내부 구조를 이해하는 것이 좋습니다.<br>
개념적으로 데이터프레임은 리스트를 가지고 있는 하나의 딕셔너리로 구성되어 있다고 생각하면 되고,<br>
키 값은 열 이름이며 각각의 리스트들은 하나의 행을 의미합니다.

In [10]:
# 데이터 프레임은 이런 모양입니다.
covid_data_dict = {
    'date':       ['2020-08-30', '2020-08-31', '2020-09-01', '2020-09-02', '2020-09-03'],
    'new_cases':  [1444, 1365, 996, 975, 1326],
    'new_deaths': [1, 4, 6, 8, 6],
    'new_tests': [53541, 42583, 54395, None, None]
}

위와 같이 데이터를 표현하는 것에는 몇가지 장점이 있습니다.

* 하나의 Column(열) 안에 있는 값들은 대부분 같은 데이터 타입을 가지고 있기 떄문에, 하나의 array로 관리하는 것이 좋습니다.
* 특정 Row(행)의 데이터에 접근하는 것은 각각의 열에 대해 해당 행의 인덱스로 접근하는 방법으로 행 데이터를 구하는 것입니다.
* 이러한 방법은 딕셔너리와 리스트를 함께 사용하는 기존의 방법들 보다 훨씬 간결합니다. (아래와 비교)

In [11]:
# 데이터 프레임이 이런 모양은 아닙니다.
covid_data_list = [
    {'date': '2020-08-30', 'new_cases': 1444, 'new_deaths': 1, 'new_tests': 53541},
    {'date': '2020-08-31', 'new_cases': 1365, 'new_deaths': 4, 'new_tests': 42583},
    {'date': '2020-09-01', 'new_cases': 996, 'new_deaths': 6, 'new_tests': 54395},
    {'date': '2020-09-02', 'new_cases': 975, 'new_deaths': 8 },
    {'date': '2020-09-03', 'new_cases': 1326, 'new_deaths': 6},
]

리스트로 구성된 딕셔너리라는 것을 이해하고 있다면, 데이터프레임에서 데이터에 어떻게 접근하는지 알 수 있을 것입니다.<br>
예를 들어, 우리는 특정 열에 행의 인덱스 값을 넣어 데이터에 접근할 수 있습니다.

In [12]:
covid_data_dict['new_cases']

[1444, 1365, 996, 975, 1326]

In [13]:
covid_df['new_cases']

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
        ...  
243    1444.0
244    1365.0
245     996.0
246     975.0
247    1326.0
Name: new_cases, Length: 248, dtype: float64

각 열들은 `Series`라 불리는 데이터 구조로 표현됩니다.<br>
`Series`는 몇가지 추가적인 특성을 가지고 있는 Numpy 배열과 같습니다.

In [14]:
type(covid_df['new_cases'])

pandas.core.series.Series

배열과 같이, `[]`와 인덱싱을 통해 특정한 값에 접근할 수 있습니다.

In [15]:
covid_df['new_cases'][246]

975.0

In [16]:
covid_df['new_tests'][240]

57640.0

Pandas는 `at`이라는 함수를 통해, 특정 행과 특정 열에 명시적으로 접근할 수 있습니다.

In [17]:
covid_df.at[246, 'new_cases']

975.0

In [18]:
covid_df.at[240, 'new_tests']

57640.0

`[]` 표기법을 사용하는 것 대신에, 판다스는 열에 접근할때 `.`표기법을 사용할 수 있게 해줍니다.<br>
그러나, 이 방법은 열의 이름에 __공백이 있거나 특수문자가 있다면 불가능__ 합니다.

In [19]:
covid_df.new_cases

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
        ...  
243    1444.0
244    1365.0
245     996.0
246     975.0
247    1326.0
Name: new_cases, Length: 248, dtype: float64

게다가, `[]`을 이용해 데이터 프레임의 특정 열들로 구성된 하부 데이터셋을 구성할 수도 있습니다.

In [20]:
cases_df = covid_df[['date', 'new_cases']]
cases_df

Unnamed: 0,date,new_cases
0,2019-12-31,0.0
1,2020-01-01,0.0
2,2020-01-02,0.0
3,2020-01-03,0.0
4,2020-01-04,0.0
...,...,...
243,2020-08-30,1444.0
244,2020-08-31,1365.0
245,2020-09-01,996.0
246,2020-09-02,975.0


새로운 데이터 프레임인 `casses_df`는 단순히 원본 데이터를 보여주는 역할을 합니다.<br>
두 변수에서 데이터는 하나의 메모리에 할당되기 때문에 한 변수에서 데이터에 변화를 주게 되면 다른 쪽에도 영향을 줍니다.<br>
이러한 방법은 Pandas를 사용해 대량의 데이터를 처리할 때, 속도를 높이고 메모리의 사용을 줄여준다는 장점이 있습니다.<br>

그러나 가끔 독립적인 하부 데이터셋이 필요한 경우도 있는데, 이런 경우 `.copy`함수를 사용해서 깊은 복사를 수행하면 됩니다.

In [21]:
covid_df_copy = covid_df.copy()


`covid_df_copy`안에 있는 데이터들은 `covid_df` 로 부터 완전히 분리된 데이터이며, 값의 변화는 서로 영향을 주지 않습니다.

여기서 잠깐!! Pandas에서 특정 위치의 값을 획득하거나 바꿀 때 사용하는 loc, iloc, iat, at 함수를 사용할 수 있습니다.

| 절대 좌표(위치) 지정 | x | o | x  | o  |
| --- | --- | --- | --- | --- |
| 라벨명 지정 | o | x | o | x |
| 여러개의 요소 지정 | o | o | x | x |
| 슬라이스 표기 | o | o | x | x |


**1) 좌표(위치)의 지정 방법**

- at, loc : 행 명(행 라벨), 열 명(열 라벨)
- iat, iloc : 행 번호, 열 번호(절대 좌표(위치)지정)

**2) 선택하여 확인, 변경할 수 있는 데이터**

- at, iat : 하나의 요소 값
- loc, iloc : 하나 혹은 여러 개의 요소 값
- 리스트, 슬라이스로 범위를 지정할 수 있다.
- 행, 열을 선택하여 값을 획득하고 변경할 수 있다.

**3) 그 외의 차이점**

- 처리 속도는 at 과 iat의 경우가 loc과 iloc보다 빠르다
- 라벨과 번호를 합쳐서 위치를 지정하고 싶은 경우는 at 혹은 loc과 index나 column을 조합합니다.

- at, iat : 하나의 요소 값을 선택, 획득, 변경
- loc, iloc : 하나 혹은 여러 개의 요소 값을 선택, 획득, 변경
- 하나의 요소 값을 선택
- 여러 개의 요소 값을 선택
- 행, 열을 선택
- 행 명, 열 명이 중복된 값을 가진 경우
- 번호와 라벨 단위를 지정
- 행을 pandas.Series로 선택할 때 묵시적형 변환

참고) pandas.DataFrame의 행, 열, pandas.Series의 요소 값을 선택, 획득하는 경우는 인덱스 참고 df[]도 사용할 수 있습니다. 또한 DataFrame.get_value(), DataFrame.ix[]도 있지만, 둘 다 최신 버전에서는 추천하지 않습니다.

이번 샘플 코드에서는 아래의 csv 데이터를 read_csv로 읽어들여 사용합니다. 인수 index_col로 맨 처음의 행을 index로 사용하고 있습니다.

In [22]:
import pandas as pd

df = pd.read_csv('sample_pandas.normal.csv', index_col=0)
print(df)

         age state  point
name                     
Alice     24    NY     64
Bob       42    CA     92
Charlie   18    CA     70
Dave      68    TX     70
Ellen     24    CA     88
Frank     30    NY     57


In [23]:
print(df.index.values)
# ['Alice' 'Bob' 'Charlie' 'Dave' 'Ellen' 'Frank']

print(df.columns.values)
# ['age' 'state' 'point']

['Alice' 'Bob' 'Charlie' 'Dave' 'Ellen' 'Frank']
['age' 'state' 'point']


### **at, iat : 하나의 요소 값을 선택, 획득, 변경**

at은 행 명과 열 명으로 위치를 지정한다. 데이터를 획득하기 위할 뿐만 아니라, 그 위치에 새로운 값을 설정(대입)하는 것도 가능합니다.


In [24]:
print(df.at['Bob', 'age'])
print(df.at['Dave', 'state'])
# 42
# TX

df.at['Bob', 'age'] = 60
print(df.at['Bob', 'age'])
# 60

42
TX
60



iat은 행 번호와 열 번호로 위치를 지정합니다. 행 번호, 열 번호는 0부터 시작합니다.

iat도 at과 동일하게, 데이터를 획득할 뿐 아니라 그 위치에 새로운 값을 설정(대입)할 수 있습니다.

In [25]:
print(df.iat[1, 0])
print(df.iat[3, 1])
# 60
# TX

df.iat[1, 0] = 42
print(df.iat[1, 0])
# 42

60
TX
42


### **loc, iloc : 하나 혹은 여러 개의 요소 값을 선택, 획득, 변경**

loc과 iloc은 하나의 값뿐 아니라, 범위를 지정하여 여러 개의 데이터를 선택할 수 있습니다. loc은 행 명과 열 명으로 위치를 지정하고, iloc은 행 번호와 열 번호로 위치를 지정합니다.

####  **하나의 요소 값을 선택**

하나의 값에 액세스할 경우 at, iat와 동일하다. 처리 속도는 앞에서 말했듯 at, iat의 쪽이 빠릅니다.

In [26]:
print(df.loc['Bob', 'age'])
print(df.iloc[3, 1])
# 42
# TX

42
TX


데이터를 참고할 뿐만 아니라, 그 위치에 새로운 값을 설정(대입)하는 것도 가능합니다.

In [27]:
df.loc['Bob', 'age'] = 60
print(df.loc['Bob', 'age'])
# 60

df.iloc[1, 0] = 42
print(df.iloc[1, 0])
# 42

60
42



### **여러 개의 요소 값을 선택**

여러 개의 값에 액세스할 경우는 리스트[a, b, c, ...]나 슬라이스 start:stop:step으로 데이터의 범위, 위치를 지정할 수 있다. pandas.Series 혹은 pandas.DataFrame가 반환된다.

슬라이스는 보통의 슬라이스 작성법과 같다. step은 생략가능하다.

슬라이스 start:stop:step으로 지정할 때, iloc으로 행 번호, 열 번호를 사용하는 경우 일반적인 슬라이스와 동일하게 stop의 한 단계 전까지이지만, loc으로 행 명, 열 명을 사용하는 경우는 stop의 값도 포함되므로 주의가 필요하다.

In [28]:
print(df.loc['Bob':'Dave', 'age'])
print(type(df.loc['Bob':'Dave', 'age']))
# name
# Bob        42
# Charlie    18
# Dave       68
# Name: age, dtype: int64
# <class 'pandas.core.series.Series'>

print(df.loc[:'Dave', ['age', 'point']])
print(type(df.loc[:'Dave', 'age':'point']))
#          age  point
# name
# Alice     24     64
# Bob       42     92
# Charlie   18     70
# Dave      68     70
# <class 'pandas.core.frame.DataFrame'>

print(df.iloc[:3, [0, 2]])
print(type(df.iloc[:3, [0, 2]]))
#          age  point
# name
# Alice     24     64
# Bob       42     92
# Charlie   18     70
# <class 'pandas.core.frame.DataFrame'>

name
Bob        42
Charlie    18
Dave       68
Name: age, dtype: int64
<class 'pandas.core.series.Series'>
         age  point
name               
Alice     24     64
Bob       42     92
Charlie   18     70
Dave      68     70
<class 'pandas.core.frame.DataFrame'>
         age  point
name               
Alice     24     64
Bob       42     92
Charlie   18     70
<class 'pandas.core.frame.DataFrame'>


step을 지정하면, 홀수행 혹은 짝수행을 추출하여 획득하는 것도 가능합니다.

In [29]:
print(df.iloc[::2, 0])
print(type(df.iloc[::2, 0]))
# name
# Alice      24
# Charlie    18
# Ellen      24
# Name: age, dtype: int64
# <class 'pandas.core.series.Series'>

print(df.iloc[1::2, 0])
print(type(df.iloc[1::2, 0]))
# name
# Bob      42
# Dave     68
# Frank    30
# Name: age, dtype: int64
# <class 'pandas.core.series.Series'>

name
Alice      24
Charlie    18
Ellen      24
Name: age, dtype: int64
<class 'pandas.core.series.Series'>
name
Bob      42
Dave     68
Frank    30
Name: age, dtype: int64
<class 'pandas.core.series.Series'>


여러 개의 값을 일괄로 변경하는 것도 가능합니다

In [30]:
df.loc['Bob':'Dave', 'age'] = [20, 30, 40]
print(df.loc['Bob':'Dave', 'age'])
# name
# Bob        20
# Charlie    30
# Dave       40
# Name: age, dtype: int64

name
Bob        20
Charlie    30
Dave       40
Name: age, dtype: int64


### **행, 열을 선택**

인덱스 참조 df[]로 행, 열을 선택할 수 있지만, 아래의 지정 방법에 한정됩니다.

- 행의 선택 : 행 이름, 행 번호의 인덱스
- 열의 선택 : 열 이름, 혹은 열 이름의 리스트

In [31]:
print(df['Bob':'Ellen'])
#          age state  point
# name
# Bob       20    CA     92
# Charlie   30    CA     70
# Dave      40    TX     70
# Ellen     24    CA     88

print(df[:3])
#          age state  point
# name
# Alice     24    NY     64
# Bob       20    CA     92
# Charlie   30    CA     70

print(df['age'])
# name
# Alice      24
# Bob        20
# Charlie    30
# Dave       40
# Ellen      24
# Frank      30
# Name: age, dtype: int64

print(df[['age', 'point']])
#          age  point
# name
# Alice     24     64
# Bob       20     92
# Charlie   30     70
# Dave      40     70
# Ellen     24     88
# Frank     30     57​

         age state  point
name                     
Bob       20    CA     92
Charlie   30    CA     70
Dave      40    TX     70
Ellen     24    CA     88
         age state  point
name                     
Alice     24    NY     64
Bob       20    CA     92
Charlie   30    CA     70
name
Alice      24
Bob        20
Charlie    30
Dave       40
Ellen      24
Frank      30
Name: age, dtype: int64
         age  point
name               
Alice     24     64
Bob       20     92
Charlie   30     70
Dave      40     70
Ellen     24     88
Frank     30     57


loc, iloc으로 행, 열을 선택할 경우는 인덱스 참고 df[]보다 유연하게 지정할 수 있습니다.

loc, iloc에서 열의 지정을 생략하면 열 참조가 된다. 인덱스 참조에서는 할 수 없는 행 이름, 열 번호 단독 지정이나 리스트에 의한 지정도 가능합니다.

In [32]:
print(df.loc['Bob'])
print(type(df.loc['Bob']))
# age      20
# state    CA
# point    92
# Name: Bob, dtype: object
# <class 'pandas.core.series.Series'>

print(df.iloc[[1, 4]])
print(type(df.iloc[[1, 4]]))
#        age state  point
# name
# Bob     20    CA     92
# Ellen   24    CA     88
# <class 'pandas.core.frame.DataFrame'>

age      20
state    CA
point    92
Name: Bob, dtype: object
<class 'pandas.core.series.Series'>
       age state  point
name                   
Bob     20    CA     92
Ellen   24    CA     88
<class 'pandas.core.frame.DataFrame'>


loc, iloc으로 행의 지정을 : (전체의 슬라이스)로 하면 열을 참조할 수 있습니다. 

인덱스 참조에서는 할 수 없는 슬라이스에 의한 지정도 가능하다. iloc으로 열 번호를 사용하는 것도 가능합니다..

In [33]:
print(df.loc[:, 'age':'point'])
print(type(df.loc[:, 'age':'point']))
#          age state  point
# name
# Alice     24    NY     64
# Bob       20    CA     92
# Charlie   30    CA     70
# Dave      40    TX     70
# Ellen     24    CA     88
# Frank     30    NY     57
# <class 'pandas.core.frame.DataFrame'>

print(df.iloc[:, [0, 2]])
print(type(df.iloc[:, [0, 2]]))
#          age  point
# name
# Alice     24     64
# Bob       20     92
# Charlie   30     70
# Dave      40     70
# Ellen     24     88
# Frank     30     57
# <class 'pandas.core.frame.DataFrame'>

         age state  point
name                     
Alice     24    NY     64
Bob       20    CA     92
Charlie   30    CA     70
Dave      40    TX     70
Ellen     24    CA     88
Frank     30    NY     57
<class 'pandas.core.frame.DataFrame'>
         age  point
name               
Alice     24     64
Bob       20     92
Charlie   30     70
Dave      40     70
Ellen     24     88
Frank     30     57
<class 'pandas.core.frame.DataFrame'>


행 이름-행 번호, 열 이름-열 번호를 하나로 지정하여 하나의 행-하나의 열을 선택하는 경우는 pandas.Series가 반환되지만,

 동일한 하나의 행 - 하나의 열을 선택하는 경우에도 슬라이스나 리스트로 지정한 경우는 pandas.DataFrame이 된다.

In [34]:
print(df.loc['Bob'])
print(type(df.loc['Bob']))
# age      20
# state    CA
# point    92
# Name: Bob, dtype: object
# <class 'pandas.core.series.Series'>

print(df.loc['Bob':'Bob'])
print(type(df.loc['Bob':'Bob']))
#       age state  point
# name
# Bob    20    CA     92
# <class 'pandas.core.frame.DataFrame'>

print(df.loc[['Bob']])
print(type(df.loc[['Bob']]))
#       age state  point
# name
# Bob    20    CA     92
# <class 'pandas.core.frame.DataFrame'>

age      20
state    CA
point    92
Name: Bob, dtype: object
<class 'pandas.core.series.Series'>
      age state  point
name                  
Bob    20    CA     92
<class 'pandas.core.frame.DataFrame'>
      age state  point
name                  
Bob    20    CA     92
<class 'pandas.core.frame.DataFrame'>


In [35]:
print(df.iloc[:, 1])
print(type(df.iloc[:, 1]))
# name
# Alice      NY
# Bob        CA
# Charlie    CA
# Dave       TX
# Ellen      CA
# Frank      NY
# Name: state, dtype: object
# <class 'pandas.core.series.Series'>

print(df.iloc[:, 1:2])
print(type(df.iloc[:, 1:2]))
#         state
# name
# Alice      NY
# Bob        CA
# Charlie    CA
# Dave       TX
# Ellen      CA
# Frank      NY
# <class 'pandas.core.frame.DataFrame'>

print(df.iloc[:, [1]])
print(type(df.iloc[:, [1]]))
#         state
# name
# Alice      NY
# Bob        CA
# Charlie    CA
# Dave       TX
# Ellen      CA
# Frank      NY
# <class 'pandas.core.frame.DataFrame'>

name
Alice      NY
Bob        CA
Charlie    CA
Dave       TX
Ellen      CA
Frank      NY
Name: state, dtype: object
<class 'pandas.core.series.Series'>
        state
name         
Alice      NY
Bob        CA
Charlie    CA
Dave       TX
Ellen      CA
Frank      NY
<class 'pandas.core.frame.DataFrame'>
        state
name         
Alice      NY
Bob        CA
Charlie    CA
Dave       TX
Ellen      CA
Frank      NY
<class 'pandas.core.frame.DataFrame'>


특히, 행을 pandas.Series로 선택하면 암묵적 형변환이 이뤄질 가능성이 있으므로 주의할 필요가 있습니다.

## **행 명과 열 명이 중복된 값을 가지고 있는 경우**

행 명(행 라벨) index, 열 명(열 라벨) columns에 중복된 값이 포함되어 있어도 에러가 발생하지 않습니다.

중복된 값을 가진 열을 index에 지정한 경우 다음과 같은 예가 됩니다.


In [36]:
df_state = pd.read_csv('./sample_pandas_normal.csv', index_col=2)
print(df_state)
#           name  age  point
# state
# NY       Alice   24     64
# CA         Bob   42     92
# CA     Charlie   18     70
# TX        Dave   68     70
# CA       Ellen   24     88
# NY       Frank   30     57

print(df_state.index.values)
# ['NY' 'CA' 'CA' 'TX' 'CA' 'NY']

FileNotFoundError: [Errno 2] No such file or directory: './sample_pandas_normal.csv'


at으로 중복된 열 이름을 지정하면, numpy.ndarray로 여러 개의 값이 반환되어 옵니다.

In [None]:
print(df_state.at['NY', 'age'])
print(type(df_state.at['NY', 'age']))
# [24 30]
# <class 'numpy.ndarray'>

loc으로 중복된 행 명을 지정하면, pandas.DataFrame 혹은 pandas.Series가 반환됩니다.

In [None]:
print(df_state.loc['NY', 'age'])
print(type(df_state.loc['NY', 'age']))
# state
# NY    24
# NY    30
# Name: age, dtype: int64
# <class 'pandas.core.series.Series'>

print(df_state.loc['NY', ['age', 'point']])
print(type(df_state.loc['NY', ['age', 'point']]))
#        age  point
# state
# NY      24     64
# NY      30     57
# <class 'pandas.core.frame.DataFrame'>

iat이나 iloc에서 행 번호으로 지정하는 경우는 행 번호가 중복되어 있어도 특히 문제가 없습니다.

In [None]:
print(df_state.iat[0, 1])
# 24

혼란의 근원이되므로, 강력한 이유가 없다면 지정할 때, 행 이름-열 이름은 임의의 값으로 하는 편이 좋습니다.

행 이름 - 열 이름이 임의의 값으로 되어 있는지 아닌지(중복되는지 아닌지)는 index.is_unique, columns.is_unique로 확인할 수 있습니다.


In [None]:
print(df_state.index.is_unique)
# False

print(df_state.columns.is_unique)
# True

## **번호와 라벨로 위치를 지정하기**

행 번호와 열 라벨과 같이 번호와 라벨의 조합으로 위치를 지정하고 싶은 경우, at 혹은 loc과 index나 columns를 사용하는 방법이 있습니다.

index나 columns로 행 번호 혹은 열 변호로부터 그 행 라벨, 열 라벨을 획득할 수 있습니다.

In [None]:
print(df)
#          age state  point
# name
# Alice     24    NY     64
# Bob       20    CA     92
# Charlie   30    CA     70
# Dave      40    TX     70
# Ellen     24    CA     88
# Frank     30    NY     57

print(df.index[2])
# Charlie

print(df.columns[1])
# state

이것과 at 혹은 loc를 사용하여, 번호와 라벨의 조합으로 위치를 지정할 수 있습니다.

In [None]:
print(df.at[df.index[2], 'age'])
# 30

print(df.loc[['Alice', 'Dave'], df.columns[1]])
# name
# Alice    NY
# Dave     TX
# Name: state, dtype: object

위에서 서술했듯이, 슬라이스로 지정할 때, loc으로 행 라벨, 열 라벨을 사용하는 경우는 stop까지 포함되지만, iloc에서 행 번호, 열 번호를 사용하는 경우는 stop의 하나 앞까지가 됩니다. stop의 값을 번호로부터 라벨으로 변환하는 경우 index[n-1]로 할 필요가 있으므로 주의하자.

아래와 같이 []나 loc, iloc을 반복해 작성할 수 있지만, 이것은 chained indexing이라는 것으로 SettingWithCopyWarning이라는 경고의 원인이 됩니다.

또한, 다음에 설명하는 것과 같이, 하나의 행을 선택할 경우는 암묵적 형변환이 일어나는 경우가 있습니다. 앞에서 표시된 index나 column을 사용하여 하나의 at이나 loc으로 묶어서 사용하는 편이 좋습니다


In [None]:
print(df['age'][2])
# 30

print(df.age[2])
# 30

print(df.loc[['Alice', 'Dave']].iloc[:, 1])
# name
# Alice    NY
# Dave     TX
# Name: state, dtype: object

## **행을 pandas.Series로 선택할 때의 묵시적 형변환**

loc이나 iloc으로 하나의 행을 pandas.Series로 선택해 획득할 경우, 데이터형 dtype으로 통일되므로, 원래의 pandas.DataFrame 행 데이터 형이 달라지는 묵시적 형 변환이 일어납니다.

정수 int의 열와 부동 소수점 수 float을 가진 pandas.DataFrame을 통해 살펴봅시다.

In [None]:
df_mix = pd.DataFrame({'col_int': [0, 1, 2], 'col_float': [0.1, 0.2, 0.3]}, index=['A', 'B', 'C'])
print(df_mix)
#    col_int  col_float
# A        0        0.1
# B        1        0.2
# C        2        0.3

print(df_mix.dtypes)
# col_int        int64
# col_float    float64
# dtype: object

loc이나 iloc으로 1행을 획득하면, float의 pandas.Series가 됩니다. int의 열에 있던 데이터는 float로 변환된다는 것입니다.

In [None]:
print(df_mix.loc['B'])
# col_int      1.0
# col_float    0.2
# Name: B, dtype: float64

print(type(df_mix.loc['B']))
# <class 'pandas.core.series.Series'>

다음과 같이 []을 연속해서 작성하면, float로 변환된 pandas.Series의 요소가 획득되게 됩니다.. 원래 데이터형과 다른 데이터형으로 변환된 데이터 값을 얻게 되므로 주의해야합니다.

In [None]:
print(df_mix.loc['B']['col_int'])
# 1.0

print(type(df_mix.loc['B']['col_int']))
# <class 'numpy.float64'>

따라서 이러한 현상을 피하려면, at이나 iat을 사용하는 편이 좋습니다. at이나 iat이면 원래 데이터형 그대로 값을 취득할 수 있습니다.

In [None]:
print(df_mix.at['B', 'col_int'])
# 1

print(type(df_mix.at['B', 'col_int']))
# <class 'numpy.int64'>

loc이나 iloc으로 1개의 리스트로 지정하는 경우, pandas.Series가 아닌 하나의 pandas.DataFrame행이 된다. 당연하지만, 이 경우는 원래 데이터형 dtype이 유지됩니다.

In [None]:
print(df_mix.loc[['B']])
#    col_int  col_float
# B        1        0.2

print(type(df_mix.loc[['B']]))
# <class 'pandas.core.frame.DataFrame'>

print(df_mix.loc[['B']].dtypes)
# col_int        int64
# col_float    float64
# dtype: object

In [37]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests
0,2019-12-31,0.0,0.0,
1,2020-01-01,0.0,0.0,
2,2020-01-02,0.0,0.0,
3,2020-01-03,0.0,0.0,
4,2020-01-04,0.0,0.0,
...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0
244,2020-08-31,1365.0,4.0,42583.0
245,2020-09-01,996.0,6.0,54395.0
246,2020-09-02,975.0,8.0,


In [None]:
covid_df.loc[243]

각각의 행들은 `Series` 형태로 구성되어 있다.

In [None]:
type(covid_df.loc[243])

 `.head` 와 `.tail`함수는 처음, 마지막 행의 일부를 반환하는데, 그 개수는 ()안에 지정할 수 있습니다.

In [None]:
covid_df.head(5)

In [None]:
covid_df.tail(4)

`new_tests` 의 head부분을 보면 NaN으로 구성된 값들이 존재한다는 것을 알 수 있습니다. <br>
이는 0의 값을 가지고 있는 `new_cases`와 `new_death`와는 다르게 값이 누락되어 있는 상태를 의미합니다.<br>

In [None]:
covid_df.at[0, 'new_tests']

In [None]:
type(covid_df.at[0, 'new_tests'])

`0`과 `NaN`의 차이는 미묘하지만 매우 중요합니다.<br>
이탈리아는 2020년 4월19일부터 일간 검사자를 보고하기 시작했기 때문에, 이 dataset에서는 일부 일자에 대해서는 검사자가 보고되지 않았습니다.<br>

우리는 `first_vaild_index` 함수를 통해서 처음으로 결측치가 아닌 값이 언제 나오는지 확인할 수 있습니다.

In [None]:
covid_df.new_tests.first_valid_index()

`NaN`에서 측정값으로 바뀌기 전의 몇몇 행들을 살펴보겠습니다. 앞서 배운 것과 같이, `loc` 함수를 사용해서 행 데이터에 접근할 수 있습니다.

In [None]:
covid_df.loc[108:113]

`sample` 함수는 데이터 프레임에서 랜덤으로 일부 행들을 추출하여 반환합니다.

In [None]:
covid_df.sample(10)

랜덤으로 추출한 샘플 데이터 안에서도, 각각의 행들의 원래 인덱스가 보존된다는 것을 확인할 수 있습니다.<br>
이는 데이터 프레임의 유용한 특성 중 하나입니다.

앞에서 사용한 함수와 특성을 정리하면 다음과 같습니다.

- `.copy()` - 데이터 프레임의 깊은 복사
- `.loc[]` - 데이터프레임 행 단위의 데이터 접근
- `head`, `tail`, `sample` - 데이터 프레임에서 앞, 두, 랜덤의 샘플데이터를 다루기
- `first_valid_index` - 처음으로 유효값이 나오는 인덱스 찾기



## 데이터 프레임의 데이터 분석하기

아래 질문에 대한 답을 생각해보십시오.<br>

**Q: 이탈리아에서 총 보고된 신규 확진자와 사망자는 몇명인가?**

Numpy와 비슷하게 Pandas는 `sum` 함수를 사용하여 합을 구할 수 있습니다.

In [38]:

total_cases = covid_df.new_cases.sum()
total_deaths = covid_df.new_deaths.sum()

In [39]:
print('The number of reported cases is {} and the number of reported deaths is {}.'.format(int(total_cases), int(total_deaths)))

The number of reported cases is 271515 and the number of reported deaths is 35497.


**Q: 전체 사망률은 어떻게 되는가?**

In [None]:
death_rate = covid_df.new_deaths.sum() / covid_df.new_cases.sum()

In [None]:
print("The overall reported death rate in Italy is {:.2f} %.".format(death_rate*100))

**Q: 전체 검사자는 몇명 인가? 935310명의 검사자가 보고되기 전에 존재했다.**


In [None]:
initial_tests = 935310
total_tests = initial_tests + covid_df.new_tests.sum()

In [None]:
total_tests

**Q: 검사 중 양성 판정이 나온 비율은 얼마나 되는가?**

In [None]:
positive_rate = total_cases / total_tests

In [None]:
print('{:.2f}% of tests in Italy led to a positive diagnosis.'.format(positive_rate*100))

## 쿼리와 데이터 정렬

1000건이 넘는 보고가 존재한 날짜의 데이터만 보고싶다고 생각해보십시오.<br>
boolean 표현을 이용해 이를 만족하는 행의 데이터를 추출하면 됩니다!

In [None]:
high_new_cases = covid_df.new_cases > 1000

In [None]:
high_new_cases

위의 부울 표현식은 인덱스별로 `True` 와 `False`로 값이 존재하는 결과를 반환합니다.<br>
이를 이용해서 `True`값을 가지는 인덱스에 대한 데이터만 추출하는 것도 가능합니다.

In [None]:
covid_df[high_new_cases]

우리는 인덱스 칸안에 boolean 표현식을 넣어서 한줄로 간결하게 표현할 수도 있습니다.

In [None]:
high_cases_df = covid_df[covid_df.new_cases > 1000]

In [None]:
high_cases_df

이 데이터 프레임은 72개의 행을 가지고 있습니다. <br>
데이터가 많아서 위아래 몇개의 데이터만 표현됩니다. <br>
전체 데이터를 보고 싶을 때는 아래와 같이 데이터 프레임에 접근하면 됩니다.

In [None]:
from IPython.display import display
with pd.option_context('display.max_rows', 100):
    display(covid_df[covid_df.new_cases > 1000])

여러 개의 열에 한번에 접근하고 데이터를 처리하기 위해 보다 복잡한 쿼리문을 만드는 것도 가능합니다. <br>
예를 들어 전체 양성비율보다 일별 양성비율이 높은 날의 데이터만을 추출하는 것도 가능합니다.

In [None]:
positive_rate

In [None]:
high_ratio_df = covid_df[covid_df.new_cases / covid_df.new_tests > positive_rate]

In [None]:
high_ratio_df

두 개의 열을 처리하게 되면 새로운 Series 데이터가 생성됩니다.

In [None]:
covid_df.new_cases / covid_df.new_tests

이 Series 데이터를 데이터프레임에 추가할 수도 있습니다.

In [None]:
covid_df['positive_rate'] = covid_df.new_cases / covid_df.new_tests

In [None]:
covid_df

그러나 코로나 검사는 몇일이 소요되기 때문에, 양성 결과 비율을 날짜에 그대로 대입하는 것은 부적절한 경우가 될 수도 있습니다.<br>
이러한 부정확한 내용은 전체 데이터를 분석함에 있어서 부적절하기 때문에 해당 열을 제거하도록 하겠습니다.<br>


`positive_rate` 열을 판다스의 `drop`함수를 이용해서 제거해보겠습니다.

In [None]:
covid_df.drop(columns=['positive_rate'], inplace=True)

`inplace` 파라미터의 목적이 이해가 되나요?

### 열 데이터를 이용해서 행 정렬

`sort_values`를 이용하면 행 데이터를 특정 열을 기준으로 정렬할 수 있습니다. <br>
신규확진자가 많은 순서대로 데이터를 정렬하기 위해 `new_cases`를 기준으로 내림차순 정렬을 해보겠습니다.


In [None]:
covid_df.sort_values('new_cases', ascending=False).head(10)

일별 발생 건수가 3월 마지막 2주 동안 가장 많았던 것으로 보입니다.  
이를 사망자가 가장 많았던 날과 비교해보겠습니다.
<!--It looks like the last two weeks of March had the highest number of daily cases. Let's compare this to the days where the highest number of deaths were recorded.-->

In [None]:
covid_df.sort_values('new_deaths', ascending=False).head(10)

일별 사망자는 일별 확진자가 최고치를 기록한 몇일후부터 최고치가 기록되는 것을 확인할 수 있습니다.

최소 확진자를 처음으로 보기위해서 오름차순으로 정렬을 해보겠습니다.

In [None]:
covid_df.sort_values('new_cases').head(10)

가장 적은 수의 값이 `-148`로 음수가 기록되어 있다는 것을 확인할 수 있습니다.<br>
이는 실제로 발생할 수 없는 값으로 잘못된 기록일 것이므로, 이상치가 나온 2020년 6월 20일 이전의 자료들을 확인해보도록 하겠습니다.<br>

In [None]:
covid_df.loc[169:175]

데이터 값이 잘못되었다는 것을 확인할 수 있었습니다.<br>
이와 같은 이상 데이터에 대해서는 다음과 같은 몇가지 처리방법들로 해당 값을 대체해야 합니다. <br>
<br>
1. `0`으로 대체
2. 전체에 대한 평균으로 대체
3. 이전날과 다음날에 대한 평균으로 대체
4. 해당 열 전체를 삭제
<br>
어떠한 방법론을 선택할지는 데이터와 문제의 문맥이 중요합니다. <br>

여기서는 날짜 단위의 데이터를 다루고 있기 때문에 3번째 방법론을 사용하기로 합니다.<br>

`at` 함수를 사용해서 특정 값을 바꿀 수 있습니다.

In [None]:
covid_df.at[172, 'new_cases'] = (covid_df.at[171, 'new_cases'] + covid_df.at[173, 'new_cases'])/2

여기까지의 함수를 요약한다면 다음과 같습니다:

- `covid_df.new_cases.sum()` - 특정 열 또는 특정 행 Series 내의 합을 구함
- `covid_df[covid_df.new_cases > 1000]` - 특정 조건을 만족하는 행 데이터만 추출한다.
- `df['pos_rate'] = df.new_cases/df.new_tests` - 존재하는 열의 데이터를 이용해서 새로운 열을 만들어 낸다.
- `covid_df.drop('positive_rate')` -한개 또는 여러개의 열을 제거한다.
- `sort_values` - 열 값을 이용해서 데이터를 정렬한다.
- `covid_df.at[172, 'new_cases'] = ...` - 특정 값으로 데이터를 대체한다.

## 시간의 활용

이전까지는 전반적인 데이터들의 개수를 다루는 작업을 해보았습니다.<br>
이러한 데이터들을 날짜, 시간 기준으로 접근할 수 있다면 더욱 유용할 것입니다.<br>
`date` 열은 데이터의 시간 정보를 담고 있는 특성입니다.

In [None]:
covid_df.date

현재 data 데이터의 형식은 `object`로 되어 있습니다. <br>
따라서 Pandas 데이터 프레임은 해당 열이 어떤 데이터인지 정확하게 이해하고 있지 못한 상태이며,   
data 데이터를 시계열 특성에 맞게 처리하기 위해서 `pd.to_datetime`함수를 이용할 수 있습니다.

In [None]:
covid_df['date'] = pd.to_datetime(covid_df.date)

In [None]:
covid_df['date']

`datetime64`라는  데이터 타입으로 변환된 것을 확인할 수 있습니다.<br>
이제 데이터 프레임에 존재하는 데이터들은 시간 단위로 접근하여 추출하고 수정할 수 있게 되었습니다.<br>
시계열 데이터를 시간단위로 사용하기 위해서는 `DatetimeIndex` 클래스를 사용합니다 ([view docs](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DatetimeIndex.html)).

In [None]:
covid_df['year'] = pd.DatetimeIndex(covid_df.date).year
covid_df['month'] = pd.DatetimeIndex(covid_df.date).month
covid_df['day'] = pd.DatetimeIndex(covid_df.date).day
covid_df['weekday'] = pd.DatetimeIndex(covid_df.date).weekday

In [None]:
covid_df

5월의 전반적인 데이터 프레임을 확인해보도록 하겠습니다.<br>
열을 찾는 인덱스를 5월로 주고 접근하고자 하는 열을 선택하면 됩니다.<br>
그리고 `sum` 함수를 사용해서 각 열들의 합계를 구해보겠습니다.<br>

In [None]:
#5월의 행을 구하는 쿼리
covid_df_may = covid_df[covid_df.month == 5]

# 처리하고자 하는 열에 접근
covid_df_may_metrics = covid_df_may[['new_cases', 'new_deaths', 'new_tests']]

# 열에 대한 합 구하기
covid_may_totals = covid_df_may_metrics.sum()

In [None]:
covid_may_totals

In [None]:
type(covid_may_totals)

위의 연산들을 한줄의 코드로 축약할 수도 있습니다.

In [None]:
covid_df[covid_df.month == 5][['new_cases', 'new_deaths', 'new_tests']].sum()

또다른 예시를 확인해보겠습니다. <br>
일요일에 보고된 내용들이 다른 날에 보고된 평균보다 높은지 확인해보고, 이번에는 `.mean`함수를 사용해서 열들의 평균정보를 구해보겠습니다.

In [None]:
# 전체 평균
covid_df.new_cases.mean()

In [None]:
# 일요일의 평균
covid_df[covid_df.weekday == 6].new_cases.mean()

## 데이터 묶어내기와 분리하기

이번에는, 데이터를 월데이터가 없이 일단위로만 묶어서 데이터를 정렬한 새로운 데이터프레임을 만들어 보도록 하겠습니다.<br>
`groupby`함수를 사용해서 각 달의 데이터를 추출하고 `sum`함수를 사용해서 열 데이터를 합칩니다.

In [40]:
covid_month_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].sum()

KeyError: 'month'

In [None]:
covid_month_df

`groupby`와 인덱스 접근을 활용해서 데이터 프레임을 특정 조건에 맞게 그룹으로 묶어서 사용할 수 있습니다.<br>
이러한 묶어내는 작업은 판다스 데이터 프레임의 강력한 기능이고 큰 장점 중 하나입니다.<br>

합을 기준으로 그룹을 만드는 것 대신에 평균을 기준으로 그룹을 만들수도 있습니다.<br>
데이터들의 월별 평균을 구해서 그룹을 만들어보도록 하겠습니다.

In [None]:
covid_month_mean_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].mean()

In [None]:
covid_month_mean_df

존재하는 데이터들을 가지고 만들어내는 그룹을 만드는 것 대신에, 누적 데이터를 만들어내는 것도 가능합니다.<br>

`cumsum`함수 를 사용해서 Series데이터의 누적합을 구할 수 있습니다.<br>
>`cumsum`: 주어진 축에 따라 누적되는 원소들의 누적 합을 계산하는 함수


다음 세가지 열을 만들어 보도록 하겠습니다.: `total_cases`, `total_deaths`, `total_tests`.

In [None]:
covid_df['total_cases'] = covid_df.new_cases.cumsum()

In [None]:
covid_df['total_deaths'] = covid_df.new_deaths.cumsum()

In [None]:
covid_df['total_tests'] = covid_df.new_tests.cumsum() + initial_tests

In [None]:
covid_df

`total_test`의 `NaN` 값은 영향력이 없다는 것을 기억하십시오.

## 다양한 데이터들을 합치기

현재 데이터만으로는 알 수 없는 정보를 얻고 싶을 때는 다른 데이터를 가져와 합칠 수 있습니다.<br>
이탈리아를 포함한 여러 나라의 데이터를 가지고 있는 `location.csv`를 다운로드 받아서 사용해 보도록 하겠습니다.

In [41]:
from urllib.request import urlretrieve

In [42]:
urlretrieve('https://gist.githubusercontent.com/aakashns/8684589ef4f266116cdce023377fc9c8/raw/99ce3826b2a9d1e6d0bde7e9e559fc8b6e9ac88b/locations.csv', 
            'locations.csv')

('locations.csv', <http.client.HTTPMessage at 0x23a3cfad160>)

In [43]:
locations_df = pd.read_csv('locations.csv')

In [44]:
locations_df

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,Afghanistan,Asia,3.892834e+07,64.83,0.500,1803.987
1,Albania,Europe,2.877800e+06,78.57,2.890,11803.431
2,Algeria,Africa,4.385104e+07,76.88,1.900,13913.839
3,Andorra,Europe,7.726500e+04,83.73,,
4,Angola,Africa,3.286627e+07,61.15,,5819.495
...,...,...,...,...,...,...
207,Yemen,Asia,2.982597e+07,66.12,0.700,1479.147
208,Zambia,Africa,1.838396e+07,63.89,2.000,3689.251
209,Zimbabwe,Africa,1.486293e+07,61.49,1.700,1899.775
210,World,,7.794799e+09,72.58,2.705,15469.207


In [45]:
locations_df[locations_df.location == "Italy"]

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
97,Italy,Europe,60461828.0,83.51,3.18,35220.084


서로 다른 두 데이터프레임을 합칠 수 있습니다.<br>
그러나 합치기 위해서는 하나 이상의 공통된 열을 가지고 있어야 합니다. <br>
따라서, `locataion`이라는 열을 추가하여 `Italy`로 모든 값을 채운 후 데이터를 합쳐보도록 하겠습니다.

In [46]:
covid_df['location'] = "Italy"

In [47]:
covid_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,location
0,2019-12-31,0.0,0.0,,Italy
1,2020-01-01,0.0,0.0,,Italy
2,2020-01-02,0.0,0.0,,Italy
3,2020-01-03,0.0,0.0,,Italy
4,2020-01-04,0.0,0.0,,Italy
...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,Italy
244,2020-08-31,1365.0,4.0,42583.0,Italy
245,2020-09-01,996.0,6.0,54395.0,Italy
246,2020-09-02,975.0,8.0,,Italy


이제 우리는 `merge`함수를 사용해서 `locataion_df`를 `covid_df`로 합칠 수 있습니다.


In [48]:
merged_df = covid_df.merge(locations_df, on="location")

In [49]:
merged_df

Unnamed: 0,date,new_cases,new_deaths,new_tests,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,2019-12-31,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
1,2020-01-01,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
2,2020-01-02,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
3,2020-01-03,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
4,2020-01-04,0.0,0.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084
...,...,...,...,...,...,...,...,...,...,...
243,2020-08-30,1444.0,1.0,53541.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
244,2020-08-31,1365.0,4.0,42583.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
245,2020-09-01,996.0,6.0,54395.0,Italy,Europe,60461828.0,83.51,3.18,35220.084
246,2020-09-02,975.0,8.0,,Italy,Europe,60461828.0,83.51,3.18,35220.084


이제 두데이터가 합쳐져 더 큰 데이터셋을 구성하게 되었고 이를 이용해 이전에는 구하지 못했던 보다 큰 범위의 평균을 구할 수 있습니다.

In [None]:
merged_df['cases_per_million'] = merged_df.total_cases * 1e6 / merged_df.population

In [None]:
merged_df['deaths_per_million'] = merged_df.total_deaths * 1e6 / merged_df.population

In [None]:
merged_df['tests_per_million'] = merged_df.total_tests * 1e6 / merged_df.population

In [None]:
merged_df

## 데이터를 다시 파일로 저장하기

분석과 열 추가가 완료된 데이터는 새롭게 파일에 저장해야 합니다. <br>
그렇지 않으면 Jupyter Notebook을 종료함과 동시에 데이터가 손실될 것입니다. <br>
데이터를 저장하기 전에 저장하기를 원하는 열로만 구성된 데이터프레임을 만들어보겠습니다.

In [None]:
result_df = merged_df[['date',
                       'new_cases', 
                       'total_cases', 
                       'new_deaths', 
                       'total_deaths', 
                       'new_tests', 
                       'total_tests', 
                       'cases_per_million', 
                       'deaths_per_million', 
                       'tests_per_million']]

In [None]:
result_df

데이터프레임의 데이터를 파일로 저장하기 위해 `to_csv`함수를 사용하면 됩니다.

In [None]:
result_df.to_csv('results.csv', index=None)

`to_csv` 함수는 인덱스를 하나의 열로 구성하여 넣는 것을 기본값으로 가지고 있습니다.<br>
`index=None` 를 사용해서 이 동작을 멈출 수 있습니다. <br>

이제 `results.csv` 가 생성되었고 CSV 형태로 저장되어 있는 것을 알 수 있습니다:

```
date,new_cases,total_cases,new_deaths,total_deaths,new_tests,total_tests,cases_per_million,deaths_per_million,tests_per_million
2020-02-27,78.0,400.0,1.0,12.0,,,6.61574439992122,0.1984723319976366,
2020-02-28,250.0,650.0,5.0,17.0,,,10.750584649871982,0.28116913699665186,
2020-02-29,238.0,888.0,4.0,21.0,,,14.686952567825108,0.34732658099586405,
2020-03-01,240.0,1128.0,8.0,29.0,,,18.656399207777838,0.47964146899428844,
2020-03-02,561.0,1689.0,6.0,35.0,,,27.93498072866735,0.5788776349931067,
2020-03-03,347.0,2036.0,17.0,52.0,,,33.67413899559901,0.8600467719897585,
...
```

## Bonus: Pandas Visualization

보통 `matplotlib`이나 `seaborn` 라이브러리를 사용해서 그래프를 만들지만,
Pandas 데이터프레임이나 Series도 `plot` 함수를 제공해서 시각화 할 수 있습니다.<br>
<br>
시계열에 따른 그래프를 그려보겠습니다.

In [None]:
result_df.new_cases.plot();

이 그래프가 전체적인 추세를 보여주고 있지만, x-축 데이터가 없기 때문에, 언제 정점이 발생하는지 알기 어렵습니다.<br>
`date`열의 인덱스를 사용해서 x축 정보를 알 수 있습니다.

인덱스를 통해 해당 날짜를 알아낼 수 있고 `loc`을 이용해 해당 날짜의 데이터를 추출할 수 있습니다.

In [None]:
result_df.set_index('date', inplace=True)

In [None]:
result_df

In [None]:
result_df.loc['2020-09-01']

신규 확진자와 신규 사망자를 그래프로 그려보겠습니다.

In [None]:
result_df.new_cases.plot()
result_df.new_deaths.plot();

전체 감염자와 총 사망자를 비교할 수도 있습니다.


In [None]:
result_df.total_cases.plot()
result_df.total_deaths.plot();

사망률과 양성 결과율이 시간에 따라 어떻게 바뀌는지도 볼 수 있습니다.

In [None]:
death_rate = result_df.total_deaths / result_df.total_cases

In [None]:
death_rate.plot(title='Death Rate');

In [None]:
positive_rates = result_df.total_cases / result_df.total_tests
positive_rates.plot(title='Positive Rate');

마지막으로, 월별로 신규확진자 발생을 막대그래프를 통해서 그려보겠습니다.


In [None]:
covid_month_df.new_cases.plot(kind='bar');

In [None]:
covid_month_df.new_tests.plot(kind='bar')

## Summary and Further Reading

본 튜토리얼에서는 다음 주제를 다뤘습니다.:
- CSV 파일을 Pandas Dataframe으로 읽어오기
- Pandas Dataframe을 통해 데이터 처리하기
- 데이터 쿼리, 정렬, 분석하기
- 데이터를 합치기, 분리하기
- 데이터에서 유용한 정보 추출하기
- 기본적인 막대그래프와 꺾은선 그래프 만들기
- Dataframe 파일을 CSV 파일로 저장하기

추가적인 Pandas에 대한 자료는 다음 웹페이지에서 확인해볼 수 있습니다.

* Pandas: https://pandas.pydata.org/docs/user_guide/index.html
* Data Analysis (book by Wes McKinney - creator of Pandas): https://www.oreilly.com/library/view/python-for-data/9781491957653/