### pandas
1. 데이터 분석에서 필수 라이브러리 
2. 데이터의 구조는 Series, DataFrame 
3. Series - 1차원 데이터 
4. DataFrame - 2차원 데이터

In [None]:
## 외부의 라이브러리 다운 
!pip install pandas

In [None]:
# 라이브러리 로드 
import pandas as pd

In [None]:
# 스리즈 형태의 데이터를 생성 
pd_series = pd.Series(
    [5000, 6000, 6500, 6500], 
    index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)

In [None]:
pd_series

In [None]:
# Series class에는 values, index 변수가 존재
print(pd_series.index)
print(pd_series.values)

In [None]:
# DataFrame 2차원 데이터 생성 
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
_index = ['a', 'b', 'c']
_columns = ['A', 'B', 'C']

df = pd.DataFrame(_values, index = _index, columns=_columns)


In [None]:
print(df)

In [None]:
df

In [None]:
# DataFrame class 안에는 적어도 3개의 독립적인 변수(values, index, columns)
print(df.values)
print(df.index)
print(df.columns)

In [None]:
df.columns = [1,2,3]

In [None]:
df

In [None]:
df.columns = ['A', 'B', 'C']

In [None]:
df

In [None]:
df = df.rename(columns={'C' : 'F'})

In [None]:
df

In [None]:
# dict 형태 데이터를 이용하여 DataFrame 대입 
dict1 = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}

In [None]:
df2 = pd.DataFrame(dict1)
df2

In [None]:
dict2 = [
    {
        'name' : 'test', 
        'age' : 20
    },
    {
        'name' : 'test2', 
        'age' : 30
    }, 
    {
        'name' : 'test3', 
        'age' : 40
    }
]

In [None]:
# test2 데이터만 출력하려면
print(dict2)
print(dict2[1])
print(dict2[1]['name'])

In [None]:
df3 = pd.DataFrame(dict2)
df3

### pandas를 이용하여 외부의 파일을 로드 
- read_xxxx({path}) : 해당하는 path에 있는 파일을 로드 

### 경로
- 절대 경로
    - 절대적인 주소를 의미
    - 환경이 변하더라도 같은 위치를 지정 
    - ex) (c:/users/admin/document/a.txt)
    - ex) WEB (https://www.google.com)
- 상대 경로
    - 상대적인 주소를 의미
    - 환경이 변하면 환경에 따라 위치도 변경
    - 현재 작업중인 디렉토리에서 상위로 이동하거나 하위로 이동
    - ./ : 현재 작업중인 디렉토리 
    - ../ : 상위 폴더로 이동
    - 폴더명/ : 하위 폴더로 이동

In [None]:
# 절대경로로 파일을 로드 
corona = pd.read_csv('D:\\python_\\ezen_python\\csv\\corona.csv')

In [None]:
# 상대경로로 파일을 로드 
# 상위 폴더로 이동(../) -> csv 하위폴더 이동(csv/) -> corona.csv
corona2 = pd.read_csv("../csv/corona.csv")

In [None]:
corona2

In [None]:
# 데이프레임의 정보 
corona2.info()

In [None]:
# 데이터프레임의 통계 분석용 요약 정보 출력 
corona2.describe()

In [None]:
# 결측치인가 아닌가를 판단하는 함수
# isXXX() : 특정한 데이터가 존재하는가? -> 결과값은 bool
# na : 결측치를 의미
corona2.isna().sum()

In [None]:
# 특정 컬럼을 제거 
# drop({조건식}, axis={0,1 | 'rows','columns'}, inplace={bool})
# axis : 행을 지울것인가 열을 지울것인가 선택
# inpalce : 기준이 되는 데이터프레임을 변경할것인가?

corona2.drop('Unnamed: 0', axis=1, inplace=True)
# corona2 = corona2.drop('Unnamed: 0', axis=1)

In [None]:
corona2.head()

In [None]:
df = corona2.copy()

In [None]:
# df라는 데이터에서 seq라는 컬럼을 삭제
df = df.drop('seq', axis='columns')

In [None]:
df.head(1)

In [None]:
# 컬럼의 이름을 변경
df.rename(columns={
    'createDt' : '등록일시', 
    'deathCnt' : '총사망자', 
    'decideCnt' : '총확진자', 
    'stateDt' : '기준일', 
    'stateTime' : '기준시간', 
    'updateDt' : '수정일시', 
    'accExamCnt' : '누적의심자', 
    'accDefRate' : '누적확진율'
})

In [None]:
df.columns = ['등록일시', '총사망자', '총확진자', '기준일', '기준시간', '수정일시',
              '누적의심자', '누적확진율']

In [None]:
df.head(5)

In [None]:
# 특정한 컬럼의 데이터를 기준으로 정렬을 변경
# sort_values( {기준이 컬럼} , ascending = {bool} , inplace = {bool} )
df.sort_values(['등록일시'], ascending=True, inplace=True)

In [None]:
df.head()

In [None]:
# 인덱스를 재지정
# reset_index(drop = {bool}, inplace= {bool})
# drop : 기존의 인덱스를 제거할것인가?
df.reset_index(drop=True, inplace=True)
# df.reset_index().drop('index', axis=1)

In [None]:
df.tail(10)

In [None]:
# 결측치을 특정값으로 대체
# fillna()
# fillna(n) : 결측치를 n으로 대체
# fillna(method = {'ffill' | 'bfill'})

# 특정컬럼의 데이터만 확인 
df['수정일시'] = df['수정일시'].fillna('-')

In [None]:
df.isna().sum()

In [None]:
# fillna(method='ffill') : 결측치 전의 데이터로 결측치를 채워준다. 
df['누적의심자'] = df['누적의심자'].fillna(method='ffill')

In [None]:
# fillna(method='bfill') : 결측치 후의 데이터로 결측치를 채워준다. 
df['누적확진율'] = df['누적확진율'].fillna(method='bfill')

In [None]:
df.isna().sum()

In [None]:
df.head(5)

### 데이터프레임의 필터
- loc[{행의 조건}, {열의 조건}]
    - 특정한 행의 조건과 열의 조건이 맞는 데이터를 출력
- iloc[{행의 위치}, {열의 위치}]
    - 특정한 행의 위치와 열의 위치가 맞는 데이터를 출력

In [None]:
df2 = df.copy()

In [None]:
df2.drop(0, axis=0, inplace=True)

In [None]:
# 행과 열의 조건식이 모두 존재하는 경우
df2.loc[1:3, '총사망자':'기준일']

In [None]:
# 인덱스의 조건식만 존재하는 경우
df2.loc[1:3]

In [None]:
# 컬럼의 조건만 존재하는 경우
df2.loc[:, ['총사망자', '기준시간']]

In [None]:
df2[ ['총사망자', '기준시간'] ]

In [None]:
df2[ 1:3 ][ ['총사망자', '총확진자'] ]

In [None]:
df2.iloc[ 1:3 , 1:3]

In [None]:
len(df)

In [None]:
# 일일확진자 = 오늘의 총확진자 - 전날의 총확진자
# 데이터프레임의 길이 - 1 만큼 반복 

# 새로운 리스트 생성
data_list = [0]
for i in range(0, len(df)-1, 1):
    data = df.loc[i+1, '총확진자'] - df.loc[i, '총확진자']
    data_list.append(data)
print(data_list)

In [None]:
df['일일확진자'] = data_list

In [None]:
df.head()

In [None]:
# shift(n) : n만큼 인덱스가 이동한 데이터를 생성
df['일일확진자2'] = (df['총확진자'] - df['총확진자'].shift(1)).fillna(0)

In [None]:
df.head(5)

In [None]:
# diff(n) : 현재 위치에서 n만큼 인덱스를 이동한 데이터와의 차이를 출력
df['일일확진자3'] = df['총확진자'].diff().fillna(0)

In [None]:
df.head()

In [None]:
# 일일확진자가 음수인 데이터가 존재하는가?
# 반복문 + 조건문 
# 필터링 인덱스값에 일일확진자 조건 -> 반복실행 음수인 데이터만 출력
for i in range(0, len(df), 1):
    if( df.loc[i, '일일확진자'] < 0 ):
        print(i)

print('반복문 종료')

In [None]:
df.loc[ df['일일확진자'] < 0 ]

In [None]:
df.loc[444:448]

In [None]:
df.loc[445, '등록일시'] = '2021-05-31 00:00:00.000'

In [None]:
df.loc[444:448]

In [None]:
## 일일확진자 잘못되었다. 
# 등록일시를 기준으로 오름차순 정렬
df.sort_values('등록일시', ascending=True, inplace=True)
# 인덱스를 초기화(기존의 인덱스를 제거)
df.reset_index(drop=True, inplace=True)
# ['일일확진자', '일일확진자2', '일일확진자3'] 모두 제거 
df.drop(['일일확진자', '일일확진자2', '일일확진자3'], axis=1, inplace=True)
# 일일확진자, 일일사망자 파생변수를 생성하여 전날의 데이터와 오늘의 데이터의 차이로 데이터를 채워준다. 
df['일일확진자'] = df['총확진자'].diff().fillna(0)
df['일일사망자'] = (df['총사망자'] - df['총사망자'].shift()).fillna(0)
# 일일확진자, 일일사망자의 결측치는 0으로 대체
df.head()

In [None]:
df.loc[ df['일일확진자'] < 0  ]

In [None]:
# 일일사망자를 while문을 이용하여 새로운 파생변수를 생성
# data_list = []

i = 0

while i < len(df):
    if (i == 0):
        df.loc[i, '일일사망자2'] = 0
    else:
        data = df.loc[i, '총사망자'] - df.loc[i-1, '총사망자']
        df.loc[i, '일일사망자2'] = data
    i += 1

In [None]:
df.head()

In [None]:
!pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
# plot() : 라인그래프 
x = df.tail(100).index
y = df.tail(100)['일일확진자']

plt.plot(x, y)
plt.show()

In [None]:
# 일일사망자는 바형 그래프 표시 
x = df.tail(50).index
y = df.tail(50)['일일사망자']

plt.bar(x, y)
plt.show()