In [None]:
## 라이브러리 로드 
import pandas as pd

### 파일의 경로 
- 절대 경로
    - 절대적인 주소 값
    - 환경이 변경이 되더라도 같은 위치를 지정
    - ex) c:/users/admin/a.txt, https://www.google.com
- 상대 경로
    - 상대적인 주소 값
    - 환경이 변경되었을 때 위치도 변경 
    - ex)
        - ./ : 현재 작업중인 디렉토리
        - ../ : 현재 디렉토리에서 상위 폴더로 이동
        - 폴더명/ : 해당 디렉토리로 이동

### 외부의 데이터 파일을 로드 
- csv 
    - ','로 이루어진 데이터
    - read_csv()
- json
    - json 데이터는 dict와 흡사
    - read_json()
- excel
    - read_excel()
    - xls, xlsx 파일 확장자에 따라서 추가적인 라이브러리 설치 
- xml
    - read_xml()

In [None]:
## 외부의 csv 파일을 로드 
## 상대 경로 
## 상위 폴더로 이동(../) -> csv라는 하위폴더로 이동(csv/) -> corona.csv
df = pd.read_csv("../corona.csv")
df

In [None]:
## 절대 경로 사용
df2 = pd.read_csv("D:\\python\\ezen_python_2401\\csv\\corona.csv")
df2

In [None]:
# 데이터프레임의 상위 데이터들 추출
df.head(2)

In [None]:
# 데이터프레임의 하위 데이터들 추출
df.tail()

In [None]:
# 데이터프레임의 정보를 출력
df.info()

In [None]:
## 데이터프레임에서 결측치의 개수를 확인
df.isna().sum()

In [None]:
a = df.isna()

In [None]:
a.sum(axis=1)

In [None]:
## 결측치를 제거 
# dropna(axis = {0('rows') | 1('columns')})

# 행을 기준으로 결측치를 제거 
df.dropna(axis=0)

In [None]:
# 열을 기준으로 결측치를 제거 
df.dropna(axis='columns')

In [None]:
## 결측치를 특정한 데이터로 치환
# fillna({data}) : 특정한 데이터로 결측치를 치환
# fillna(method = {'ffill' | 'bfill'})

df.fillna(10).head()

In [None]:
df.fillna(method='ffill').head()

In [None]:
df.fillna(method='bfill').head()

In [None]:
## 데이터프레임의 통계요약정보 
df.describe()

### 데이터프레임 필터
1. loc[{인덱스의 조건}, {컬럼의 조건}]
    - 인덱스의 값을 기준으로 데이터프레임 필터 
    - 컬럼의 값을 기준으로 데이터프레임 필터 
    - 인덱스와 컬럼의 조건식은 이용하여 데이터프레임 필터 
2. iloc[{인덱스의 위치}, {컬럼의 위치}]
    - 인덱스나 컬럼의 위치를 기준으로 데이터프레임 필터

In [None]:
# 데이터프레임에서 특정한 데이터를 제거 
# drop( {조건} , axis = {0(rows) | 1(columns)}, inplace = {bool} )
# 데이터프레임명.drop()
# axis : 기준 -> 행을 지울것이냐? 열을 지울것이냐?
# inplace : 참 / 거짓 형태의 데이터를 입력 
#   참 : 기준이 되는 데이터프레임을 변경
#   거짓 : 기준이 되는 데이터프레임을 변경하지 않고 결과를 출력 (기본값)

# df에서 Unnamed: 0 컬럼을 제거 
# df = df.drop('Unnamed: 0', axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)

In [None]:
df2 = df.copy()

In [None]:
df2 = df2.drop(0, axis=0)

In [None]:
df2

In [None]:
## 인덱스의 값이 1인 데이터를 출력 
df2.loc[[1],]

In [None]:
df2.iloc[[1], ]

In [None]:
## 특정 컬럼의 데이터만 출력 
df2.loc[ : , ["createDt"] ]

In [None]:
df2[ ['createDt'] ]

In [None]:
df2.iloc[ : , [0] ]

In [None]:
df2.iloc[ : , 1:3 ]

In [None]:
df2.loc[ : ,  'deathCnt' : 'stateDt' ]

In [None]:
corona = df.copy()

In [None]:
### df의 컬럼의 이름을 변경 
### ['등록일시', '총사망자', '총확진자', '게시글번호', '기준일', '기준시간', '수정일시', '누적의심자', '누적확진자']
df.columns = ['등록일시', '총사망자', '총확진자', '게시글번호', '기준일', '기준시간', '수정일시', '누적의심자', '누적확진자']

In [None]:
df.head(1)

In [None]:
df.columns = corona.columns

In [None]:
df.head(1)

In [None]:
## rename() : 컬럼의 값이나 인덱스의 값을 변경 할때 사용하는 함수 
## rename(columns= {dict}, index = {dict})

corona.rename(
    columns= {
        'createDt' : '등록일시', 
        'deathCnt' : '총사망자', 
        'decideCnt' : '총확진자', 
        'seq' : '게시글번호', 
        'stateDt' : '기준일', 
        'stateTime' : '기준시간', 
        'updateDt' : '수정일시', 
        'accExamCnt' : '누적의심자', 
        'accDefRate' : '누적확진자'
    }
    , inplace= True
)

In [None]:
df.head(1)

In [None]:
# df에 있는 특정 컬럼의 이름을 변경 
# 누적확진자 -> 누적확진율
df.rename(
    columns = {
        '누적확진자' : '누적확진율'
    }, inplace=True
)

In [None]:
class Test:
    def __init__(self, data, index = None, columns = None):
        self.data = data
        if index:
            self.index = index
        else:
            self.index = list(range(len(data)))
        if columns:
            self.columns = columns
        else:
            self.columns = list(range(len(data[0])))
    def __repr__(self):
        return str(self.data)

    def add(self, value, inplace = False):
        if inplace:
            self.data = self.data + [value]
        else:
            return self.data + [value]



In [None]:
value = [
    [1,2,3], 
    [7,8,9], 
    [4,5,6]
]


test_class = Test(value)

In [None]:
test_class.add(1, inplace=True)

In [None]:
test_class

In [None]:
df.head(3)

In [None]:
# ascending : 오름차순, 내림차순(False)을 지정  오름차순이 기본값
df.sort_values('등록일시', ascending=True, inplace=True)

In [None]:
df.head(3)

In [None]:
## 데이터프레임의 인덱스를 재지정(초기화)
df.reset_index(drop = True, inplace=True)

In [None]:
df.head(3)

In [None]:
df.values

In [None]:
# 인덱스의 조건이 1이고 컬럼의 조건이 총사망자인 데이터와
# 인덱스의 조건이 0이고 컬럼의 조건이 총사망자인 데이터의 차이 -> 인덱스1의 일일사망자
df.loc[1, '총사망자'] - df.loc[0, '총사망자']

# 위의 작업은 인덱스의 개수 - 1 만큼 반복 

# 일일사망자가 추가될 리스트를 생성 
# 첫날의 데이터는 0으로 지정 
_list = [0]

for i in range(len(df) -1):
    data = df.loc[ i+1, '총사망자' ] - df.loc[ i, '총사망자' ]
    _list.append(data)

_list

In [None]:
len(_list)

In [None]:
df['일일사망자'] = _list

In [None]:
df.head(3)

In [None]:
df['총사망자']

In [None]:
# 스리즈형태에 value를 인덱스 이동 
# shift(n) : n의 기본값은 1
df['총사망자'].shift()

In [None]:
df['일일사망자2'] = (df['총사망자'] - df['총사망자'].shift(1)).fillna(0)

In [None]:
df.head(3)

In [None]:
## 스리즈 데이터에서 데이터간의 차이를 출력하는 함수
## diff(n) : n만큼 인덱스가 이동한 데이터와의 차이를 출력 (n = 1 기본값)
df['일일사망자3'] = df['총사망자'].diff().fillna(0)

In [None]:
df.head(5)

In [None]:
### 일일 확진자 파생변수 생성 
### 일일확진자 -> shift()을 이용하여 생성
### 일일확진자2 -> diff()을 이용하여 생성
df['일일확진자'] = (df['총확진자'] - df['총확진자'].shift()).fillna(0)
df['일일확진자2'] = df['총확진자'].diff().fillna(0)
df.head(4)

In [None]:
### describe() 함수를 이용하여 데이터의 이상이 있는가 확인
df.describe()

In [None]:
# 일일사망자 데이터에 음수인 데이터만 출력
flag = df['일일사망자'] < 0
df.loc[flag, ]

In [None]:
flag2 = df['일일확진자'] < 0
df.loc[flag2, ]

In [None]:
df.loc[444:448, ]

In [148]:
df.loc[445, '등록일시'] = "2021-05-31 00:00:00.000"

In [149]:
df.loc[ [445],  ]

Unnamed: 0,등록일시,총사망자,총확진자,게시글번호,기준일,기준시간,수정일시,누적의심자,누적확진율,일일사망자,일일사망자2,일일사망자3,일일확진자,일일확진자2
445,2021-05-31 00:00:00.000,1959,140337,498,20210531,00:00,2021-10-14 13:48:56.821,9761156.0,1.456805,8,8.0,8.0,910.0,910.0
