In [85]:
# 라이브러리 설치 
!pip install pandas




[notice] A new release of pip is available: 23.1.2 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [86]:
# 라이브러리 로드 
# import 라이브러리명 as 별칭 
import pandas as pd
# from 라이브러리명 import 라이브러리안에 특정 기능 as 별칭

In [87]:
# 판다스에서 제공하는 1차원 데이터형태인 Series 데이터(class 생성)를 생성 
series_1 = pd.Series(
    [5000, 6000, 6500, 6500]
)

In [88]:
print(series_1)

0    5000
1    6000
2    6500
3    6500
dtype: int64


In [89]:
# Series 라는 Class에는 적어도 2개의 변수가 존재 
# values, index 변수 
print("Series Class에서 values라는 변수는", series_1.values)
print("Series Class에서 index라는 변수는", series_1.index)

Series Class에서 values라는 변수는 [5000 6000 6500 6500]
Series Class에서 index라는 변수는 RangeIndex(start=0, stop=4, step=1)


In [90]:
series_2 = pd.Series(
    [500, 500, 1000, 1200]
)

In [91]:
# series 간의 합
# 같은 인덱스를 가진 value끼리 합
print(series_1 + series_2)

0    5500
1    6500
2    7500
3    7700
dtype: int64


In [92]:
a_list = [1,2,3,4]
b_list = [5,6,7,8]
print(a_list + b_list)

[1, 2, 3, 4, 5, 6, 7, 8]


In [93]:
series_3 = pd.Series([100, 200, 300], index=[1,2,3])
series_3

1    100
2    200
3    300
dtype: int64

In [94]:
print(series_1 + series_3)

0       NaN
1    6100.0
2    6700.0
3    6800.0
dtype: float64


In [95]:
# Series 생성할때 index를 지정 
# 주의할 점  : 데이터(values)의 개수와 인덱스의 개수는 같아야 한다. 
series_4 = pd.Series(
    [5000, 6000, 6500, 6500], 
    index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)

In [96]:
series_4

아메리카노    5000
카페라떼     6000
카페모카     6500
카푸치노     6500
dtype: int64

In [97]:
# 기존의 series 데이터에서 index를 변경 
# class 안에 있는 변수의 데이터를 변경
series_1.index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']

In [98]:
series_1

아메리카노    5000
카페라떼     6000
카페모카     6500
카푸치노     6500
dtype: int64

In [99]:
# series class 안에 있는 rename함수를 이용
series_2.rename(
    {
        0 : 'A', 
        1 : 'B', 
        2 : 'C', 
        3 : 'D'
    }, inplace=True
)

In [100]:
series_2

A     500
B     500
C    1000
D    1200
dtype: int64

In [101]:
series_2.index = ['A', 'b', 'C', 'D']

In [102]:
series_2

A     500
b     500
C    1000
D    1200
dtype: int64

In [103]:
series_2.rename(
    {
        'b' : 'B'
    }, inplace=True
)

In [104]:
# 2차원 데이터 형태인 DataFrame(class) 생성 
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
df = pd.DataFrame(_values)

In [105]:
print(df)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [106]:
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [107]:
print('DataFrame에서 index라는 변수', df.index)
print('DataFrame에서 columns라는 변수', df.columns)
print('DataFrame에서 values라는 변수', df.values)

DataFrame에서 index라는 변수 RangeIndex(start=0, stop=3, step=1)
DataFrame에서 columns라는 변수 RangeIndex(start=0, stop=3, step=1)
DataFrame에서 values라는 변수 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [108]:
# DataFrame에서 컬럼의 이름을 변경 
df.columns = ['A', 'B', 'C']

In [109]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [110]:
# axis 매개변수 : 인덱스, 컬럼중에 선택
# 'rows' // 0 -> 행을 선택(인덱스 기준)
# 'columns' // 1 -> 열을 선택(컬럼 기준)
df.rename(
    {
        'A' : 'a'
    },
    axis='columns'
)

Unnamed: 0,a,B,C
0,1,2,3
1,4,5,6
2,7,8,9


### Dict 데이터를 이용하여 DataFrame을 생성

In [111]:
data = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df2 = pd.DataFrame(data)

In [112]:
df2

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [113]:
data2 = [
    {
        'name' : 'test', 
        'age' : 20
    }, 
    {
        'name' : 'test2', 
        'age' : 30
    }, 
    {
        'name' : 'test3', 
        'age' : 40
    }
]
df3 = pd.DataFrame(data2)

In [114]:
df3

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


### DataFrame에 있는 필터 기능
- 데이터프레임명.loc[인덱스의 조건, 컬럼의 조건]
    - 인덱스의 값을 기준으로 데이터프레임을 필터링
    - 컬럼의 값을 기준으로 데이터프레임을 필터링
- 데이터프레임명.iloc[인덱스의 조건, 컬럼의 조건]
    - 인덱스의 위치를 기준으로 데이터프레임을 필터링
    - 컬럼의 위치를 기준으로 데이터프레임을 필터링 

In [115]:
# df3에서 나이가 30인 데이터를 출력 
# 2차원 데이터에서 단일 데이터 출력 -> 차원 축소가 2번 
# loc 조건 -> index는 1이라는 조건, column은 age라는 조건 
df3.loc[1, 'age']

30

In [116]:
# 특정 컬럼의 데이터만 출력 
# 데이터프레임명[컬럼명]
df3['age']


0    20
1    30
2    40
Name: age, dtype: int64

In [117]:
# 데이터프레임명.loc[]
# 인덱스의 조건 : 전체
# 컬럼의 조건 : age
df3.loc[ : , 'age']

0    20
1    30
2    40
Name: age, dtype: int64

In [118]:
# iloc[]
# 인덱스조건 : 전체
# 컬럼의 조건 : 2번째 컬럼
df3.iloc[ : , 1]

0    20
1    30
2    40
Name: age, dtype: int64

In [119]:
# loc를 사용하여 컬럼을 전체 인덱스의 조건으로만 필터링 
df3.loc[2]

name    test3
age        40
Name: 2, dtype: object

In [120]:
# 나이가 30살 이상인 데이터를 모두 확인 
# 인덱스의 조건식 -> age가 30 이상
# 컬럼의 조건식 -> 전체
# df3에 있는 age 컬럼의 데이터를 추출해서 30 이상인 데이터를 확인 
flag = df3['age'] >= 30
df3.loc[flag]


Unnamed: 0,name,age
1,test2,30
2,test3,40


In [121]:
# flag에 반대인 데이터를 출력 ?
# flag의 부정을 생성 
# 비트연산자(~) -> 2진수 데이터를 역으로 변경 
# True -> 1, False -> 0
df3.loc[~flag]

Unnamed: 0,name,age
0,test,20


### 결측치 
- 데이터프레임에서 value가 존재하지 않는 경우 
- NaN으로 표시 
- 결측치가 발생하는 이유
    - 데이터를 받아오는 과정에서 통신상 에러 
    - 데이터를 입력하는 과정에서 에러 
    - 더이상 수집하지 않는 데이터

In [122]:
import numpy as np

In [123]:
data = {
    'A' : [1,2,3,4,np.nan], 
    'B' : [1,2,np.nan,4,5], 
    'C' : [np.nan,2,3,4,5]
}
df4 = pd.DataFrame(data)

In [124]:
df4

Unnamed: 0,A,B,C
0,1.0,1.0,
1,2.0,2.0,2.0
2,3.0,,3.0
3,4.0,4.0,4.0
4,,5.0,5.0


In [125]:
np.nan == np.nan

False

In [126]:
# 데이터프레임에서 결측치가 존재하는가?
# case1 데이터프레임의 정보(info)를 확인 
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      float64
 1   B       4 non-null      float64
 2   C       4 non-null      float64
dtypes: float64(3)
memory usage: 252.0 bytes


In [127]:
# case2 결측치와 같은가? 비교연산자
# np.nan == np.nan -> False (사용 불가)
# is__함수 : 존재의 여부를 판단하는 함수
# 결측치 키워드(na)
# isna() : 결측치의 존재 여부를 판단하는 함수
df4.isna()

Unnamed: 0,A,B,C
0,False,False,True
1,False,False,False
2,False,True,False
3,False,False,False
4,True,False,False


In [128]:
# 결측치의 개수를 확인 
# sum() : 합계를 구하는 함수 
    # 매개변수 axis : 인덱스를 기준, 컬럼을 기준 
df4.isna().sum(axis = 0)

A    1
B    1
C    1
dtype: int64

In [129]:
# 결측치를 포함한 데이터를 필터링
flag_null = df4.isna().any(axis=1)
df4.loc[flag_null]

Unnamed: 0,A,B,C
0,1.0,1.0,
2,3.0,,3.0
4,,5.0,5.0


In [130]:
# 결측치가 포함되지 않은 데이터를 필터링
df4.loc[~flag_null]

Unnamed: 0,A,B,C
1,2.0,2.0,2.0
3,4.0,4.0,4.0


In [131]:
# 결측치를 제거 
# 제거 키워드(drop) + 결측치(na) -> dropna()
# axis 매개변수 : 결측치가 포함된 행(0 || 'rows')을 지울것인가? 열(1 || 'columns')을 지울것인가?

df4.dropna(axis=0)

Unnamed: 0,A,B,C
1,2.0,2.0,2.0
3,4.0,4.0,4.0


In [132]:
# 결측치를 특정 데이터로 채워주는 함수 
# 채워준다 키워드(fill) + 결측치(na) -> fillna()
# fillna(data) -> 결측치를 data로 치환해준다. 
# 매개변수 method -> 'ffill', 'bfill'
#   ffill : 전 행의 데이터로 치환
#   bfill : 후 행의 데이터로 치환
df4.fillna(10)

Unnamed: 0,A,B,C
0,1.0,1.0,10.0
1,2.0,2.0,2.0
2,3.0,10.0,3.0
3,4.0,4.0,4.0
4,10.0,5.0,5.0


In [133]:
df4.fillna(method='ffill')

Unnamed: 0,A,B,C
0,1.0,1.0,
1,2.0,2.0,2.0
2,3.0,2.0,3.0
3,4.0,4.0,4.0
4,4.0,5.0,5.0


In [134]:
df4.fillna(method='bfill')

Unnamed: 0,A,B,C
0,1.0,1.0,2.0
1,2.0,2.0,2.0
2,3.0,4.0,3.0
3,4.0,4.0,4.0
4,,5.0,5.0


### pandas를 이용하여 외부의 파일을 로드 
- 엑셀파일 
    - read_excel()
        - xls, xlsx 확장자로 이루어진 파일들을 로드할때 사용하는 함수 
        - 추가적으로 'openpyxl' 라이브러리를 설치가 필요한 경우가 존재 
- 그 외의 데이터 파일 
    - read_csv()
        - csv, tsv 확장자로 이루어진 파일들을 로드할때 사용하는 함수 
    - read_json()
        - json 확장자로 이루어진 파일들을 로드할때 사용하는 함수 
    - read_xml()
        - xml 확장자로 이루어진 파일들을 로드할때 사용하는 함수
    - 공통적으로 encoding 매개변수가 존재 
        - read_excel에는 해당 매개변수가 존재하지 않는다. 
        - 기본값(UTF-8)
        - CP949, EUC-KR : 파일 내에 한글로 이루어진 데이터가 존재하는 경우 encoding 에러가 종종 발생할때 encoding 변경

#### 파일의 경로 

- 절대 경로
    - 절대적인 주소값
    - 환경이 변하더라도(컴퓨터가 변경되었을때) 언제나 같은 위치를 지정
    - ex) `c:/users/admin/document/a.csv`, `https://www.google.com`
- 상대 경로
    - 상대적인 주소값
    - 환경이 변할때 주소도 같이 변경
    - ./ : 현재 작업중인 디렉토리 
    - ../ : 상위 디렉토리로 이동
    - 디렉토리명/ : 하위 디렉토리로 이동
    - ex) 상위 디렉토리 이동(../) -> csv 하위 디렉토리로 이동(csv/) -> 2014.csv : ../csv/2014.csv


In [135]:
# csv 폴더에 있는 corona.csv 파일을 로드 
# 절대경로
corona = pd.read_csv(r'D:\python\ezen_2406\python\csv\corona.csv')

In [136]:
# 상대경로 
# 상위 디렉토리 이동, csv 하위 디렉토리 이동, corona.csv
corona2 = pd.read_csv("../csv/corona.csv")

In [137]:
# 상위의 데이터 n개를 확인 
corona.head(10)

Unnamed: 0.1,Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
0,0,2022-06-08 09:09:05.982,24305,18188200,904,20220608,00:00,,,
1,1,2022-06-07 09:09:00.897,24299,18174842,903,20220607,00:00,2022-06-08 09:10:36.846,,
2,2,2022-06-06 09:00:06.734,24279,18168670,902,20220606,00:00,2022-06-08 09:10:50.441,,
3,3,2022-06-05 08:53:19.426,24258,18163648,901,20220605,00:00,2022-06-08 09:11:04.758,,
4,4,2022-06-04 08:56:49.219,24238,18153814,900,20220604,00:00,2022-06-08 09:11:26.303,,
5,5,2022-06-03 09:08:18.729,24229,18141775,899,20220603,00:00,2022-06-08 09:11:38.938,,
6,6,2022-06-02 08:58:19.746,24212,18129236,898,20220602,00:00,2022-06-08 09:11:51.985,,
7,7,2022-06-01 09:07:30.461,24197,18119345,897,20220601,00:00,2022-06-08 09:12:05.316,,
8,8,2022-05-31 08:55:39.977,24176,18103577,896,20220531,00:00,2022-06-04 08:59:23.637,,
9,9,2022-05-30 09:01:30.847,24167,18086392,895,20220530,00:00,2022-06-04 08:59:37.203,,


In [138]:
# 하위의 데이터 n개를 확인 
corona.tail(1)

Unnamed: 0.1,Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
819,819,2020-03-10 00:00:00.000,54,7513,51,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308


In [139]:
# 데이터프레임의 정보를 확인 
corona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820 entries, 0 to 819
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  820 non-null    int64  
 1   createDt    820 non-null    object 
 2   deathCnt    820 non-null    int64  
 3   decideCnt   820 non-null    int64  
 4   seq         820 non-null    int64  
 5   stateDt     820 non-null    int64  
 6   stateTime   820 non-null    object 
 7   updateDt    817 non-null    object 
 8   accExamCnt  692 non-null    float64
 9   accDefRate  623 non-null    float64
dtypes: float64(2), int64(5), object(3)
memory usage: 64.2+ KB


In [140]:
# 통계적인 요약 정보를 출력하는 함수 
corona.describe()

Unnamed: 0.1,Unnamed: 0,deathCnt,decideCnt,seq,stateDt,accExamCnt,accDefRate
count,820.0,820.0,820.0,820.0,820.0,692.0,623.0
mean,409.5,3927.832927,1913097.0,472.393902,20208970.0,7545057.0,1.556435
std,236.857904,6164.310693,4857030.0,249.701095,7118.265,6172020.0,0.543014
min,0.0,54.0,7513.0,51.0,20200310.0,210144.0,0.902205
25%,204.75,415.75,23935.25,256.75,20201000.0,1934309.0,1.078089
50%,409.5,1812.5,118564.0,461.5,20210420.0,6368310.0,1.416159
75%,614.25,3120.5,397991.5,698.25,20211120.0,12168900.0,1.816009
max,819.0,24305.0,18188200.0,904.0,20220610.0,21518070.0,3.919308


In [141]:
corona

Unnamed: 0.1,Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
0,0,2022-06-08 09:09:05.982,24305,18188200,904,20220608,00:00,,,
1,1,2022-06-07 09:09:00.897,24299,18174842,903,20220607,00:00,2022-06-08 09:10:36.846,,
2,2,2022-06-06 09:00:06.734,24279,18168670,902,20220606,00:00,2022-06-08 09:10:50.441,,
3,3,2022-06-05 08:53:19.426,24258,18163648,901,20220605,00:00,2022-06-08 09:11:04.758,,
4,4,2022-06-04 08:56:49.219,24238,18153814,900,20220604,00:00,2022-06-08 09:11:26.303,,
...,...,...,...,...,...,...,...,...,...,...
815,815,2020-03-14 00:00:00.000,72,8086,55,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318000
816,816,2020-03-13 00:00:00.000,67,7979,54,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
817,817,2020-03-12 00:00:00.000,66,7869,53,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
818,818,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175


In [142]:
## 컬럼을 제거 (Unnamed: 0, seq)
# 제거 키워드(drop)
# drop() : 특정한 컬럼이나 인덱스를 제거할때 사용 
# axis 매개변수 
corona.drop(['Unnamed: 0','seq'], axis=1, inplace=True)

In [143]:
# 컬럼의 이름을 변경 
corona.columns = ['등록일시', '총사망자', '총확진자', '기준일', '기준시간', '수정일시', '누적확진자', '누적확진율']

In [144]:
corona.head(1)

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적확진자,누적확진율
0,2022-06-08 09:09:05.982,24305,18188200,20220608,00:00,,,


In [145]:
# 특정 컬럼의 이름을 변경 
corona.rename(
    {
        '누적확진자' : '누적의심자'
    }, axis = 1, inplace=True
)

In [146]:
# 결측치의 개수를 확인 
corona.isna().sum()

등록일시       0
총사망자       0
총확진자       0
기준일        0
기준시간       0
수정일시       3
누적의심자    128
누적확진율    197
dtype: int64

In [147]:
# 누적확진율 데이터에서 결측치인 데이터만 출력
# corona데이터에서 누적확진율 데이터만 출력
flag_null = corona['누적확진율'].isna()
corona.loc[flag_null]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
0,2022-06-08 09:09:05.982,24305,18188200,20220608,00:00,,,
1,2022-06-07 09:09:00.897,24299,18174842,20220607,00:00,2022-06-08 09:10:36.846,,
2,2022-06-06 09:00:06.734,24279,18168670,20220606,00:00,2022-06-08 09:10:50.441,,
3,2022-06-05 08:53:19.426,24258,18163648,20220605,00:00,2022-06-08 09:11:04.758,,
4,2022-06-04 08:56:49.219,24238,18153814,20220604,00:00,2022-06-08 09:11:26.303,,
...,...,...,...,...,...,...,...,...
192,2021-11-28 08:58:53.394,3548,440884,20211128,00:00,2021-12-02 09:06:50.152,17158535.0,
193,2021-11-27 09:32:36.026,3492,436959,20211127,00:00,2021-12-02 09:06:37.327,17115754.0,
194,2021-11-26 09:03:03.973,3440,432892,20211126,00:00,2021-12-02 09:06:24.138,17056003.0,
195,2021-11-25 09:00:47.897,3401,428996,20211125,00:00,2021-12-02 09:06:12.94,16998733.0,


In [148]:
# 특정 컬럼의 데이터를 기준으로 오름차순 정렬 
# 차순정렬 키워드(sort) + 데이터(values) -> sort_values(기준이되는 컬럼)
# ascending 매개변수 : 차순정렬 방법 기본값(True) 오름차순정렬
corona.sort_values(['등록일시'], inplace=True)

In [149]:
corona.head(10)

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
819,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308
818,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
817,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
816,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
815,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318
814,2020-03-15 00:00:00.000,75,8162,20200315,00:00,2021-10-07 10:30:51.51,268212.0,3.23966
813,2020-03-16 00:00:00.000,75,8236,20200316,00:00,2021-10-07 10:30:51.51,274504.0,3.173392
812,2020-03-17 00:00:00.000,81,8320,20200317,00:00,2021-10-07 10:30:51.51,286716.0,3.088058
811,2020-03-18 00:00:00.000,84,8413,20200318,00:00,2021-10-07 10:30:51.51,295647.0,3.012163
810,2020-03-19 00:00:00.000,91,8565,20200319,00:00,2021-10-07 10:30:51.51,307024.0,2.942086


In [150]:
# corona에서 인덱스의 값들을 재지정 (초기화)
# 초기화 키워드(reset) + 인덱스(index) -> reset_index()
# drop 매개변수 : 기본값(False), 기존의 인덱스를 제거할것인가?
# corona.reset_index().drop('index', axis=1)
corona.reset_index(drop=True, inplace=True)

In [151]:
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318


In [152]:
# 총 사망자에서 60이라는 데이터만 출력하려면?
corona.loc[1, '총사망자'] - corona.loc[0, '총사망자']
corona.loc[2, '총사망자'] - corona.loc[1, '총사망자']
corona.loc[3, '총사망자'] - corona.loc[2, '총사망자']
corona.loc[4, '총사망자'] - corona.loc[3, '총사망자']



corona.loc[819, '총사망자'] - corona.loc[818, '총사망자']

6

In [153]:
# 위의 코드를 819번 반복 실행하기 위해서 for문 이용
# for문을 이용하여 나온 결과 값을 1차원 데이터(list)에 저장 
daily_death = [0]

for i in range(1, len(corona), 1):
    death_cnt = corona.loc[i, '총사망자'] - corona.loc[i-1, '총사망자']
    daily_death.append(death_cnt)

print(daily_death)

[0, 6, 6, 1, 5, 3, 0, 6, 3, 7, 3, 8, 2, 7, 9, 6, 5, 8, 5, 8, 6, 4, 3, 4, 5, 3, 6, 3, 6, 8, 4, 4, 3, 3, 3, 5, 3, 4, 1, 2, 2, 2, 1, 1, 2, 0, 0, 2, 1, 1, 2, 1, 1, 2, 0, 2, 2, 1, 1, 0, 0, 0, 0, 2, 1, 1, 2, 0, 1, 0, 0, 1, 0, 2, 0, 1, 2, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 2, 1, 0, 1, 0, 0, 0, 2, 2, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 0, 0, 1, 2, 1, 3, 5, 2, 1, 0, 2, 3, 2, 2, 1, 2, 5, 3, 2, 4, 5, 3, 5, 4, 0, 5, 5, 1, 5, 2, 3, 0, 5, 2, 4, 2, 5, 1, 6, 2, 1, 4, 1, 1, 0, 3, 2, 1, 2, 2, 1, 1, 4, 1, 2, 2, 1, 0, 3, 3, 3, 2, 2, 0, 0, 3, 1, 1, 1, 1, 2, 2, 4, 2, 1, 1, 1, 1, 2, 5, 2, 0, 1, 4, 1, 1, 0, 2, 2, 3, 2, 2, 4, 1, 3, 2, 1, 6, 1, 3, 0, 0, 3, 7, 4, 5, 4, 3, 4, 8, 8, 6, 2, 7, 13, 12, 22, 11, 14, 15, 24, 24, 17, 17, 17, 20, 15, 11, 40, 20, 21, 17, 25, 20, 19, 26, 20, 19, 35, 19, 25, 15, 25, 20, 10, 22, 19, 13, 15, 19, 17, 16, 12, 9, 12,

In [154]:
# 1차원 리스트 데이터를 데이터프레임에 대입 
# 파생변수를 생성 -> 새로운 컬럼을 추가 
corona['일일사망자'] = daily_death

In [155]:
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,6
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,6
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,1
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,5


In [156]:
### shift() 함수를 이용하여 일일사망자 구하기 
# shift(n) : n만큼 인덱스를 이동 시키는 함수
corona['일일사망자2'] = (corona['총사망자'] - corona['총사망자'].shift(1)).fillna(0)

In [157]:
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0,0.0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,6,6.0
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,6,6.0
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,1,1.0
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,5,5.0


In [158]:
corona['일일사망자3'] = corona['총사망자'].diff(1).fillna(0)

In [159]:
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0,0.0,0.0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,6,6.0,6.0
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,6,6.0,6.0
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,1,1.0,1.0
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,5,5.0,5.0


In [160]:
corona.describe()

Unnamed: 0,총사망자,총확진자,기준일,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
count,820.0,820.0,820.0,692.0,623.0,820.0,820.0,820.0
mean,3927.832927,1913097.0,20208970.0,7545057.0,1.556435,29.57439,29.57439,29.57439
std,6164.310693,4857030.0,7118.265,6172020.0,0.543014,68.530863,68.530863,68.530863
min,54.0,7513.0,20200310.0,210144.0,0.902205,-2.0,-2.0,-2.0
25%,415.75,23935.25,20201000.0,1934309.0,1.078089,2.0,2.0,2.0
50%,1812.5,118564.0,20210420.0,6368310.0,1.416159,5.0,5.0,5.0
75%,3120.5,397991.5,20211120.0,12168900.0,1.816009,20.0,20.0,20.0
max,24305.0,18188200.0,20220610.0,21518070.0,3.919308,469.0,469.0,469.0


In [161]:
# 일일사망자에 음수 데이터가 존재한다?
# 일일사망자가 음수인 데이터만 확인 
# 인덱스 조건 :  일일사망자가 음수인 
flag = corona['일일사망자'] < 0
corona.loc[flag]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-2,-2.0,-2.0


In [162]:
# 음수인 데이터는 인덱스가 446번이다 
# 인덱스가 444부터 448까지의 데이터를 출력 
corona.loc[444:448]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
444,2021-05-29 00:00:00.000,1951,139427,20210529,00:00,2021-10-07 10:30:51.51,9733588.0,1.450884,5,5.0,5.0
445,2021-05-30 00:00:00.0,1959,140337,20210531,00:00,2021-10-14 13:48:56.821,9761156.0,1.456805,8,8.0,8.0
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-2,-2.0,-2.0
447,2021-06-01 00:00:00.000,1963,140796,20210601,00:00,2021-10-07 10:30:51.51,9798400.0,1.45589,6,6.0,6.0
448,2021-06-02 00:00:00.000,1965,141473,20210602,00:00,2021-10-07 10:30:51.51,9834348.0,1.457668,2,2.0,2.0


In [163]:
# 인덱스 445의 등록일시가 잘못되어있다. 
# 2021-05-30 00:00:00.0 데이터를 2021-05-31 00:00:00.000으로 변경
corona.loc[445, '등록일시'] = '2021-05-31 00:00:00.000'

In [164]:
corona.loc[444:448]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
444,2021-05-29 00:00:00.000,1951,139427,20210529,00:00,2021-10-07 10:30:51.51,9733588.0,1.450884,5,5.0,5.0
445,2021-05-31 00:00:00.000,1959,140337,20210531,00:00,2021-10-14 13:48:56.821,9761156.0,1.456805,8,8.0,8.0
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-2,-2.0,-2.0
447,2021-06-01 00:00:00.000,1963,140796,20210601,00:00,2021-10-07 10:30:51.51,9798400.0,1.45589,6,6.0,6.0
448,2021-06-02 00:00:00.000,1965,141473,20210602,00:00,2021-10-07 10:30:51.51,9834348.0,1.457668,2,2.0,2.0


### 복습 
1. 등록일시를 기준으로 오름차순 정렬
2. 인덱스를 초기화하고 기존의 인덱스는 제거 
3. '일일사망자', '총사망자2', '일일사망자3' 컬럼을 제거 
4. '일일사망자' 컬럼을 생성하고 shift()함수를 이용하여 '총사망자'의 데이터에서 전 행의 데이터와의 차이값을 대입 (결측치는 0으로 대체)
5. '일일확진자' 컬럼을 생성하고 diff()함수를 이용하여 '총확진자'의 데이터에서 전 행의 데이터와의 차이값을 대입 (결측치는 0으로 대체)
6. 일일사망자와 일일확진자에 음수의 데이터가 존재하는가 확인

In [165]:
# 등록일시를 기준으로 오름차순 정렬 
corona.sort_values(['등록일시'], inplace=True)

In [166]:
# 인덱스를 초기화하고 기존의 인덱스는 제거 
corona.reset_index(drop=True, inplace=True)

In [167]:
# 특정컬럼을 제거 (해당 컬럼을 제외한 나머지 컬럼을 확인)
corona.drop(['일일사망자', '총사망자2', '일일사망자3'], axis=1, inplace=True)

KeyError: "['총사망자2'] not found in axis"

In [168]:
corona.loc[:, '등록일시' : '누적확진율']

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318000
...,...,...,...,...,...,...,...,...
815,2022-06-04 08:56:49.219,24238,18153814,20220604,00:00,2022-06-08 09:11:26.303,,
816,2022-06-05 08:53:19.426,24258,18163648,20220605,00:00,2022-06-08 09:11:04.758,,
817,2022-06-06 09:00:06.734,24279,18168670,20220606,00:00,2022-06-08 09:10:50.441,,
818,2022-06-07 09:09:00.897,24299,18174842,20220607,00:00,2022-06-08 09:10:36.846,,


In [169]:
corona.iloc[:, :8]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318000
...,...,...,...,...,...,...,...,...
815,2022-06-04 08:56:49.219,24238,18153814,20220604,00:00,2022-06-08 09:11:26.303,,
816,2022-06-05 08:53:19.426,24258,18163648,20220605,00:00,2022-06-08 09:11:04.758,,
817,2022-06-06 09:00:06.734,24279,18168670,20220606,00:00,2022-06-08 09:10:50.441,,
818,2022-06-07 09:09:00.897,24299,18174842,20220607,00:00,2022-06-08 09:10:36.846,,


In [170]:
# 일일사망자 컬럼을 생성하고 총사망자 컬럼의 데이터의 차이를 대입
corona['일일사망자'] = (corona['총사망자'] - corona['총사망자'].shift(1)).fillna(0)
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0.0,0.0,0.0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,6.0,6.0,6.0
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,6.0,6.0,6.0
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,1.0,1.0,1.0
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,5.0,5.0,5.0


In [171]:
# 일일확진자 컬럼을 생성하고 총확진자 컬럼의 데이터의 차이를 대입 
corona['일일확진자'] = corona['총확진자'].diff(1).fillna(0)
corona.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3,일일확진자
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0.0,0.0,0.0,0.0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,6.0,6.0,6.0,242.0
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,6.0,6.0,6.0,114.0
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,1.0,1.0,1.0,110.0
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,5.0,5.0,5.0,107.0


In [172]:
# 일일사망자, 일일확진자 컬럼에 음수가 존재하는가?
corona.describe()

Unnamed: 0,총사망자,총확진자,기준일,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3,일일확진자
count,820.0,820.0,820.0,692.0,623.0,820.0,820.0,820.0,820.0
mean,3927.832927,1913097.0,20208970.0,7545057.0,1.556435,29.57439,29.57439,29.57439,22171.569512
std,6164.310693,4857030.0,7118.265,6172020.0,0.543014,68.530435,68.530863,68.530863,71013.844067
min,54.0,7513.0,20200310.0,210144.0,0.902205,0.0,-2.0,-2.0,0.0
25%,415.75,23935.25,20201000.0,1934309.0,1.078089,2.0,2.0,2.0,125.0
50%,1812.5,118564.0,20210420.0,6368310.0,1.416159,5.0,5.0,5.0,634.0
75%,3120.5,397991.5,20211120.0,12168900.0,1.816009,20.0,20.0,20.0,2782.75
max,24305.0,18188200.0,20220610.0,21518070.0,3.919308,469.0,469.0,469.0,621204.0


### 특수 함수 
- map()
    - 1차원 데이터를 각 원소들을 변환 사용 
    - python 기본함수 
        - list( map( 함수명, 1차원리스트 ) )
    - Series 내장함수 
        - Series명.map(함수명)
- lambda 함수
    - 일반적인 함수는 함수를 선언, 함수를 호출로 작업이 나눠져있다. 
    - 함수를 선언함과 동시에 호출

In [173]:
# python에 기본함수 map 

# 일반함수를 선언
def change(x):
    result = x ** 2
    return result
# 1차원 리스트를 생성
_list = [1,2,3,4,5]

# map 함수 
list(
    map(
        change, 
        _list
    )
)

[1, 4, 9, 16, 25]

In [174]:
_list = [1,2,3,4,5]

list(
    map(
        lambda x : x ** 2, 
        _list
    )
)

[1, 4, 9, 16, 25]

In [175]:
# series에 내장된 map()함수 
corona_30 = corona.tail(30)

In [176]:
# 일일사망자가 25명 미만이면 low, 25명 이상이면 high
# map + 일반함수 
def change(x):
    # x가 25 이상인가?
    if x >= 25:
        result = 'high'
    else:
        result = 'low'
    return result

corona_30['일일사망자'].map(
    change
)

790    high
791    high
792    high
793    high
794    high
795    high
796    high
797    high
798    high
799    high
800    high
801    high
802    high
803     low
804     low
805     low
806    high
807    high
808    high
809     low
810     low
811     low
812     low
813     low
814     low
815     low
816     low
817     low
818     low
819     low
Name: 일일사망자, dtype: object

In [177]:
# map + lambda
# if문을 한줄로 작성하는 방법 : '참인경우 데이터' if 조건식 else '거짓인 경우 데이터'
corona_30['일일사망자'].map(
    lambda x : 'high' if x >= 25 else 'low'
)

790    high
791    high
792    high
793    high
794    high
795    high
796    high
797    high
798    high
799    high
800    high
801    high
802    high
803     low
804     low
805     low
806    high
807    high
808    high
809     low
810     low
811     low
812     low
813     low
814     low
815     low
816     low
817     low
818     low
819     low
Name: 일일사망자, dtype: object