### pandas
1. 데이터 분석에서 필수 라이브러리 
2. 데이터의 구조는 Series, DataFrame 
3. Series - 1차원 데이터 
4. DataFrame - 2차원 데이터

In [None]:
## 외부의 라이브러리 다운 
!pip install pandas

In [None]:
# 라이브러리 로드 
import pandas as pd

In [None]:
# 스리즈 형태의 데이터를 생성 
pd_series = pd.Series(
    [5000, 6000, 6500, 6500], 
    index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)

In [None]:
pd_series

In [None]:
# Series class에는 values, index 변수가 존재
print(pd_series.index)
print(pd_series.values)

In [None]:
# DataFrame 2차원 데이터 생성 
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
_index = ['a', 'b', 'c']
_columns = ['A', 'B', 'C']

df = pd.DataFrame(_values, index = _index, columns=_columns)


In [None]:
print(df)

In [None]:
df

In [None]:
# DataFrame class 안에는 적어도 3개의 독립적인 변수(values, index, columns)
print(df.values)
print(df.index)
print(df.columns)

In [None]:
df.columns = [1,2,3]

In [None]:
df

In [None]:
df.columns = ['A', 'B', 'C']

In [None]:
df

In [None]:
df = df.rename(columns={'C' : 'F'})

In [None]:
df

In [None]:
# dict 형태 데이터를 이용하여 DataFrame 대입 
dict1 = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}

In [None]:
df2 = pd.DataFrame(dict1)
df2

In [None]:
dict2 = [
    {
        'name' : 'test', 
        'age' : 20
    },
    {
        'name' : 'test2', 
        'age' : 30
    }, 
    {
        'name' : 'test3', 
        'age' : 40
    }
]

In [None]:
# test2 데이터만 출력하려면
print(dict2)
print(dict2[1])
print(dict2[1]['name'])

In [None]:
df3 = pd.DataFrame(dict2)
df3

### pandas를 이용하여 외부의 파일을 로드 
- read_xxxx({path}) : 해당하는 path에 있는 파일을 로드 

### 경로
- 절대 경로
    - 절대적인 주소를 의미
    - 환경이 변하더라도 같은 위치를 지정 
    - ex) (c:/users/admin/document/a.txt)
    - ex) WEB (https://www.google.com)
- 상대 경로
    - 상대적인 주소를 의미
    - 환경이 변하면 환경에 따라 위치도 변경
    - 현재 작업중인 디렉토리에서 상위로 이동하거나 하위로 이동
    - ./ : 현재 작업중인 디렉토리 
    - ../ : 상위 폴더로 이동
    - 폴더명/ : 하위 폴더로 이동

In [None]:
# 절대경로로 파일을 로드 
corona = pd.read_csv('D:\\python_\\ezen_python\\csv\\corona.csv')

In [None]:
# 상대경로로 파일을 로드 
# 상위 폴더로 이동(../) -> csv 하위폴더 이동(csv/) -> corona.csv
corona2 = pd.read_csv("../csv/corona.csv")

In [None]:
corona2

In [None]:
# 데이프레임의 정보 
corona2.info()

In [None]:
# 데이터프레임의 통계 분석용 요약 정보 출력 
corona2.describe()

In [None]:
# 결측치인가 아닌가를 판단하는 함수
# isXXX() : 특정한 데이터가 존재하는가? -> 결과값은 bool
# na : 결측치를 의미
corona2.isna().sum()

In [None]:
# 특정 컬럼을 제거 
# drop({조건식}, axis={0,1 | 'rows','columns'}, inplace={bool})
# axis : 행을 지울것인가 열을 지울것인가 선택
# inpalce : 기준이 되는 데이터프레임을 변경할것인가?

corona2.drop('Unnamed: 0', axis=1, inplace=True)
# corona2 = corona2.drop('Unnamed: 0', axis=1)

In [None]:
corona2.head()

In [None]:
df = corona2.copy()

In [None]:
# df라는 데이터에서 seq라는 컬럼을 삭제
df = df.drop('seq', axis='columns')

In [None]:
df.head(1)

In [None]:
# 컬럼의 이름을 변경
df.rename(columns={
    'createDt' : '등록일시', 
    'deathCnt' : '총사망자', 
    'decideCnt' : '총확진자', 
    'stateDt' : '기준일', 
    'stateTime' : '기준시간', 
    'updateDt' : '수정일시', 
    'accExamCnt' : '누적의심자', 
    'accDefRate' : '누적확진율'
})

In [None]:
df.columns = ['등록일시', '총사망자', '총확진자', '기준일', '기준시간', '수정일시',
              '누적의심자', '누적확진율']

In [None]:
df.head(5)

In [None]:
# 특정한 컬럼의 데이터를 기준으로 정렬을 변경
# sort_values( {기준이 컬럼} , ascending = {bool} , inplace = {bool} )
df.sort_values(['등록일시'], ascending=True, inplace=True)

In [None]:
df.head()

In [None]:
# 인덱스를 재지정
# reset_index(drop = {bool}, inplace= {bool})
# drop : 기존의 인덱스를 제거할것인가?
df.reset_index(drop=True, inplace=True)
# df.reset_index().drop('index', axis=1)

In [None]:
df.tail(10)

In [None]:
# 결측치을 특정값으로 대체
# fillna()
# fillna(n) : 결측치를 n으로 대체
# fillna(method = {'ffill' | 'bfill'})

# 특정컬럼의 데이터만 확인 
df['수정일시'] = df['수정일시'].fillna('-')

In [None]:
df.isna().sum()

In [None]:
# fillna(method='ffill') : 결측치 전의 데이터로 결측치를 채워준다. 
df['누적의심자'] = df['누적의심자'].fillna(method='ffill')

In [None]:
# fillna(method='bfill') : 결측치 후의 데이터로 결측치를 채워준다. 
df['누적확진율'] = df['누적확진율'].fillna(method='bfill')

In [None]:
df.isna().sum()

In [None]:
df.head(5)

### 데이터프레임의 필터
- loc[{행의 조건}, {열의 조건}]
    - 특정한 행의 조건과 열의 조건이 맞는 데이터를 출력
- iloc[{행의 위치}, {열의 위치}]
    - 특정한 행의 위치와 열의 위치가 맞는 데이터를 출력

In [None]:
df2 = df.copy()

In [None]:
df2.drop(0, axis=0, inplace=True)

In [None]:
# 행과 열의 조건식이 모두 존재하는 경우
df2.loc[1:3, '총사망자':'기준일']

In [54]:
# 인덱스의 조건식만 존재하는 경우
df2.loc[1:3]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499


In [None]:
# 컬럼의 조건만 존재하는 경우
df2.loc[:, ['총사망자', '기준시간']]

In [None]:
df2[ ['총사망자', '기준시간'] ]

In [53]:
df2[ 1:3 ][ ['총사망자', '총확진자'] ]

Unnamed: 0,총사망자,총확진자
2,66,7869
3,67,7979


In [56]:
df2.iloc[ 1:3 , 1:3]

Unnamed: 0,총사망자,총확진자
2,66,7869
3,67,7979


In [60]:
len(df)

820

In [62]:
# 일일확진자 = 오늘의 총확진자 - 전날의 총확진자
# 데이터프레임의 길이 - 1 만큼 반복 

# 새로운 리스트 생성
data_list = [0]
for i in range(0, len(df)-1, 1):
    data = df.loc[i+1, '총확진자'] - df.loc[i, '총확진자']
    data_list.append(data)
print(data_list)

[0, 242, 114, 110, 107, 76, 74, 84, 93, 152, 87, 147, 98, 64, 76, 100, 104, 91, 146, 105, 78, 125, 101, 89, 86, 94, 81, 47, 47, 53, 39, 27, 30, 32, 25, 27, 27, 22, 22, 18, 8, 13, 9, 11, 8, 6, 10, 10, 10, 14, 9, 4, 9, 6, 13, 8, 3, 2, 4, 12, 18, 34, 35, 27, 26, 56, 19, 13, 15, 13, 32, 12, 20, 23, 25, 16, 19, 40, 79, 58, 39, 27, 35, 38, 49, 39, 39, 51, 57, 37, 38, 50, 45, 56, 48, 34, 37, 34, 43, 59, 49, 67, 48, 17, 46, 51, 28, 39, 51, 62, 42, 42, 51, 54, 61, 63, 61, 48, 44, 62, 50, 45, 35, 44, 62, 33, 39, 61, 60, 39, 34, 26, 45, 63, 59, 41, 113, 58, 25, 28, 48, 18, 36, 31, 30, 23, 34, 33, 43, 20, 43, 36, 28, 34, 54, 56, 103, 166, 279, 197, 246, 297, 288, 324, 332, 396, 266, 280, 320, 441, 371, 323, 299, 248, 235, 267, 195, 198, 168, 167, 119, 136, 156, 155, 176, 136, 121, 109, 106, 113, 153, 126, 110, 82, 70, 61, 110, 125, 114, 61, 95, 50, 38, 113, 77, 63, 75, 64, 73, 75, 114, 69, 54, 72, 58, 98, 91, 84, 110, 47, 73, 91, 76, 58, 89, 121, 155, 77, 61, 119, 88, 103, 125, 113, 127, 124, 97, 

In [63]:
df['일일확진자'] = data_list

In [64]:
df.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일확진자
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,242
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,114
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,110
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,107


In [70]:
# shift(n) : n만큼 인덱스가 이동한 데이터를 생성
df['일일확진자2'] = (df['총확진자'] - df['총확진자'].shift(1)).fillna(0)

In [None]:
df.head(5)

In [74]:
# diff(n) : 현재 위치에서 n만큼 인덱스를 이동한 데이터와의 차이를 출력
df['일일확진자3'] = df['총확진자'].diff().fillna(0)

In [75]:
df.head()

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일확진자,일일확진자2,일일확진자3
0,2020-03-10 00:00:00.000,54,7513,20200310,00:00,2021-10-07 10:30:51.51,210144.0,3.919308,0,0.0,0.0
1,2020-03-11 00:00:00.000,60,7755,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175,242,242.0,242.0
2,2020-03-12 00:00:00.000,66,7869,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744,114,114.0,114.0
3,2020-03-13 00:00:00.000,67,7979,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499,110,110.0,110.0
4,2020-03-14 00:00:00.000,72,8086,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318,107,107.0,107.0


In [76]:
# 일일확진자가 음수인 데이터가 존재하는가?
# 반복문 + 조건문 
# 필터링 인덱스값에 일일확진자 조건 -> 반복실행 음수인 데이터만 출력
for i in range(0, len(df), 1):
    if( df.loc[i, '일일확진자'] < 0 ):
        print(i)

print('반복문 종료')

446
반복문 종료


In [78]:
df.loc[ df['일일확진자'] < 0 ]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일확진자,일일확진자2,일일확진자3
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-430,-430.0,-430.0


In [79]:
df.loc[444:448]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일확진자,일일확진자2,일일확진자3
444,2021-05-29 00:00:00.000,1951,139427,20210529,00:00,2021-10-07 10:30:51.51,9733588.0,1.450884,533,533.0,533.0
445,2021-05-30 00:00:00.0,1959,140337,20210531,00:00,2021-10-14 13:48:56.821,9761156.0,1.456805,910,910.0,910.0
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-430,-430.0,-430.0
447,2021-06-01 00:00:00.000,1963,140796,20210601,00:00,2021-10-07 10:30:51.51,9798400.0,1.45589,889,889.0,889.0
448,2021-06-02 00:00:00.000,1965,141473,20210602,00:00,2021-10-07 10:30:51.51,9834348.0,1.457668,677,677.0,677.0


In [81]:
df.loc[445, '등록일시'] = '2021-05-31 00:00:00.000'

In [82]:
df.loc[444:448]

Unnamed: 0,등록일시,총사망자,총확진자,기준일,기준시간,수정일시,누적의심자,누적확진율,일일확진자,일일확진자2,일일확진자3
444,2021-05-29 00:00:00.000,1951,139427,20210529,00:00,2021-10-07 10:30:51.51,9733588.0,1.450884,533,533.0,533.0
445,2021-05-31 00:00:00.000,1959,140337,20210531,00:00,2021-10-14 13:48:56.821,9761156.0,1.456805,910,910.0,910.0
446,2021-05-30 00:00:00.000,1957,139907,20210530,00:00,2021-10-07 10:30:51.51,9747612.0,1.454166,-430,-430.0,-430.0
447,2021-06-01 00:00:00.000,1963,140796,20210601,00:00,2021-10-07 10:30:51.51,9798400.0,1.45589,889,889.0,889.0
448,2021-06-02 00:00:00.000,1965,141473,20210602,00:00,2021-10-07 10:30:51.51,9834348.0,1.457668,677,677.0,677.0


In [None]:
## 일일확진자 잘못되었다. 
# 등록일시를 기준으로 오름차순 정렬

# 인덱스를 초기화(기존의 인덱스를 제거)

# ['일일확진자', '일일확진자2', '일일확진자3'] 모두 제거 

# 일일확진자, 일일사망자 파생변수를 생성하여 전날의 데이터와 오늘의 데이터의 차이로 데이터를 채워준다. 

# 일일확진자, 일일사망자의 결측치는 0으로 대체