참고자료 : https://wikidocs.net/book/3488

## 판다스 데이터프레임
판다스 데이터프레임은 다음 그림과같이 행과 열로 구성된 2차원 데이터(엑셀 데이터)를 다루는데 효과적인 자료구조입니다. 

<img src="https://i.ibb.co/7VjmyLd/pandas-0-0.png" width="300" style="float:left" />

데이터 프레임은 다음과 같이 import를 합니다.

In [None]:
from pandas import DataFrame
import pandas as pd

In [None]:
import numpy as np

데이터 프레임은 크게 세 가지 방법으로 생성할 수 있습니다. 
-	딕셔너리로 데이터프레임을 생성
-	리스트로 데이터프레임을 생성
-	리스트와 딕셔너리로 데이터프레임을 생성

#### 딕셔너리로 데이터프레임 생성

우선 위 테이블을 딕셔너리로 표현해 보겠습니다. 하나의 컬럼을 딕셔너리의 키, 값 쌍으로 구성합니다. 이 때 값은 리스트 형태로 정의합니다. 

In [None]:
딕셔너리 = {'시가': [100,90,80,70], '고가': [110, 112, 115, 80],
        '저가' : [90,80,70,60], '종가': [105,95,85,75]        
}
df = DataFrame(딕셔너리)
df

Unnamed: 0,시가,고가,저가,종가
0,100,110,90,105
1,90,112,80,95
2,80,115,70,85
3,70,80,60,75


데이터프레임은 생성자에서 딕셔너리를 입력받아 객체를 반환합니다. 코드를 실행하면 자동으로 맵핑된 인덱스가 함께 출력됩니다. 



#### 리스트로 데이터프레임 생성
테이블의 헤더 (시가/고가/저가/종가의 1행)를 제외하고 나머지 데이터를 2차원 형태로 정의합니다. 

In [None]:
리스트 = [[100,90,80,70],[110, 112, 115, 80],[90,80,70,60],[105,95,85,75]    
]

df = DataFrame(리스트)
df

Unnamed: 0,0,1,2,3
0,100,90,80,70
1,110,112,115,80
2,90,80,70,60
3,105,95,85,75


그리고 생성자에 columns 파라미터로 헤더 정보를 전달합니다. 

In [None]:
df = DataFrame(리스트, columns=['시가','고가','저가','종가'])
df

Unnamed: 0,시가,고가,저가,종가
0,100,90,80,70
1,110,112,115,80
2,90,80,70,60
3,105,95,85,75


In [None]:
data = np.arange(4).reshape(2,2)
df = DataFrame(data)
df

Unnamed: 0,0,1
0,0,1
1,2,3


데이터 프레임에도 다양한 속성 (인스턴스 변수)이 있는데 columns 파라미터에는 테이블 열의 제목이 들어있습니다. 

In [None]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [None]:
df.columns = ['x','y']
df.index=['a','b']
df

Unnamed: 0,x,y
a,0,1
b,2,3


In [None]:
# 한번에 가능
df = DataFrame(data = data, index = ['a','b'], columns = ['x','y'])
df

Unnamed: 0,x,y
a,0,1
b,2,3



#### 리스트와 딕셔너리를 조합
세 번째 방식은 두 번째와 유사하게 행 단위로 데이터를 표현하는데 이 때 데이터에 레이블을 붙여서 각 행을 하나의 딕셔너리로 표현합니다. 말로 풀어쓰면 어려운데 코드를 보면 쉽게 이해할 수 있습니다. 

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data)
df

Unnamed: 0,시가,고가,저가,종가
0,100,110,90,105
1,90,112,80,95
2,80,115,70,85
3,70,80,60,75


In [None]:
df.to_dict()

{'고가': {0: 110, 1: 112, 2: 115, 3: 80},
 '시가': {0: 100, 1: 90, 2: 80, 3: 70},
 '저가': {0: 90, 1: 80, 2: 70, 3: 60},
 '종가': {0: 105, 1: 95, 2: 85, 3: 75}}

In [None]:
print(df.to_json())

{"\uc2dc\uac00":{"0":100,"1":90,"2":80,"3":70},"\uace0\uac00":{"0":110,"1":112,"2":115,"3":80},"\uc800\uac00":{"0":90,"1":80,"2":70,"3":60},"\uc885\uac00":{"0":105,"1":95,"2":85,"3":75}}


데이터 프레임도 시리즈와 유사하게 인덱스를 지정할 수 있습니다.  
- 생성할 때 인덱스 추가  
- 생성 후에 인덱스 추가  

세 가지 방식 모두 동일한 데이터프레임 객체를 생성합니다. 원본 데이터가 저장된 형태에 따라 적합한 데이터프레임 생성 방식을 사용하면 됩니다. 

----

보통 데이터는 웹에서 가져오거나 엑셀에서 저장돼 있습니다. 데이터 프레임은 엑셀이나 웹에서 값을 얻어오는 메서드를 제공하기 때문에 처음부터 데이터 프레임을 만들일은 생각보다 많지 않습니다. 

In [None]:
url = "https://finance.naver.com/item/main.naver?code=105560"
dfs = pd.read_html(url, encoding='euc-kr')
type(dfs[0])

pandas.core.frame.DataFrame

In [None]:
dfs[0]

Unnamed: 0,0,1,2
0,"전일 59,800 59,800","고가 60,70060,700 (상한가 77,70077,700 )","거래량 318,753 318,753"
1,"시가 60,00060,000","저가 59,90059,900 (하한가 41,900 )","거래대금 19,200 19,200 백만"


## 데이터 프레임의 구조

데이터프레임의 각 컬럼은 시리즈이며 같은 인덱스를 갖는 시리즈가 모여 하나의 데이터 프레임을 구성합니다. 

<img src="https://i.ibb.co/Xx2rtYB/pandas-0-1.png" width="600" style="float:left" />

데이터 프레임은 다음과 같이 시가/고가/저가/종가 네 개의 시리즈로 구분할 수 있습니다. 

<img src="https://i.ibb.co/x6RMmHV/pandas-0-2.png" width="600" style="float:left" />

혹은 데이터프레임의 각 로우(row)는 시리즈이며 네 개의 시리즈로 구성됐다고 해석할 수 있습니다.

<img src="https://i.ibb.co/GpLVrCS/pandas-0-3.png" width="600" style="float:left" />

이번에는 시가/고가/저가/종가의 인덱스를 갖는 네 개의 시리즈를 확인할 수 있습니다. 

<img src="https://i.ibb.co/PGMNKH9/pandas-0-4.png" width="600" style="float:left" />

Q. 다음 선택된 시리즈의 인덱스는 무엇인가?

<img src="https://i.ibb.co/3RP6LMC/pandas-0-5.png" width="400" style="float:left" />

In [None]:
# A 
a = df.iloc[1,:]
a, type(a)

(시가     90
 고가    112
 저가     80
 종가     95
 Name: 1, dtype: int64, pandas.core.series.Series)

## 데이터프레임과 인덱싱

데이터프레임은 2차원 자료를 저장하기 때문에 로우 혹은 컬럼 단위로 데이터를 가져올 수 있습니다. 다음의 데이터프레임을 사용해서 인덱싱을 연습해 봅시다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


우선 컬럼의 데이터를 가져와 봅시다. 컬럼은 컬럼의 이름(columns)을 사용해서 선택할 수 있습니다. 

In [None]:
# df.T['20200616']
df['고가']

20200615    110
20200616    112
20200617    115
20200618     80
Name: 고가, dtype: int64

`ndarray`에서 사용해 본 것과 같이 연속하지 않은 컬럼을 선택할 수도 있습니다.

In [None]:
df[['시가','종가']]

Unnamed: 0,시가,종가
20200615,100,105
20200616,90,95
20200617,80,85
20200618,70,75


로우 데이터는 `iloc`와 `loc`를 사용해서 값을 얻어올 수 있습니다. 

In [None]:
df.iloc[1,:]

시가     90
고가    112
저가     80
종가     95
Name: 20200616, dtype: int64

In [None]:
df.loc['20200616']

시가     90
고가    112
저가     80
종가     95
Name: 20200616, dtype: int64

당연히 연속하지 않은 여러개의 로우도 선택할 수 있습니다.

In [None]:
df.iloc[[1,3],:]

Unnamed: 0,시가,고가,저가,종가
20200616,90,112,80,95
20200618,70,80,60,75


In [None]:
df.loc[['20200616','20200618']]

Unnamed: 0,시가,고가,저가,종가
20200616,90,112,80,95
20200618,70,80,60,75


이번에는 데이터프레임에 저장된 하나의 값 (115)를 출력해 보겠습니다.  

In [None]:
print(df)

           시가   고가  저가   종가
20200615  100  110  90  105
20200616   90  112  80   95
20200617   80  115  70   85
20200618   70   80  60   75


In [None]:
df2 = np.where(df == 115)
print(df2)
df.iloc[2,1], df.loc['20200617'][2]

(array([2]), array([1]))


(115, 70)

In [None]:
df[df == 115]

Unnamed: 0,시가,고가,저가,종가
20200615,,,,
20200616,,,,
20200617,,115.0,,
20200618,,,,
20200619,,,,


In [None]:
print(df['고가'].loc["20200617"])
print(df['고가'].iloc[2])
print(df['고가']["20200617"])
print(df['고가'][2])

print(df.loc["20200617"].loc['고가'])
print(df.loc["20200617"].iloc[1])
print(df.loc["20200617"]['고가'])
print(df.loc["20200617"][1])

print(df.iloc[2].loc['고가'])
print(df.iloc[2].iloc[1])
print(df.iloc[2]['고가'])
print(df.iloc[2][1])

115
115
115
115
115
115
115
115
115
115
115
115


데이터 프레임에서는 `[ ]` 인덱싱 기호 한 번에 행과 열을 지정할 수도 있습니다. 

In [None]:
%timeit df.loc['20200617','고가']
## 이 코드가 위에 코드보다 더 빠름. 위에 코드들은 두번 인덱싱을 하는거니까.

The slowest run took 12.87 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 9.22 µs per loop


In [None]:
df.iloc[-2:,-2:]

Unnamed: 0,저가,종가
20200617,70,85
20200618,60,75


In [None]:
df.iloc[[-2,-1],[-2,-1]]

Unnamed: 0,저가,종가
20200617,70,85
20200618,60,75


## 데이터프레임 수정
데이터프레임에 값을 수정하거나 추가해봅시다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


데이터 프레임에 컬럼 단위로 값을 추가할 때는 컬럼의 이름과 값을 전달하면 됩니다. 만약 하나의 값을 입력한다면 컬럼 전체가 해당 값으로 채워집니다.

In [None]:
df['종목코드'] = 10010
df

Unnamed: 0,시가,고가,저가,종가,종목코드
20200615,100,110,90,105,10010
20200616,90,112,80,95,10010
20200617,80,115,70,85,10010
20200618,70,80,60,75,10010


리스트 형태로 값을 전달할 수도 있습니다.

In [None]:
df['temp'] = [100,100,100,100]
df

Unnamed: 0,시가,고가,저가,종가,종목코드,temp
20200615,100,110,90,105,10010,100
20200616,90,112,80,95,10010,100
20200617,80,115,70,85,10010,100
20200618,70,80,60,75,10010,100


하나의 값을 변경할 때는 `변경할위치 = 값` 형태로 코드를 작성합니다.

In [None]:
df.iloc[:,5] = 10010
df

Unnamed: 0,시가,고가,저가,종가,종목코드,temp
20200615,100,110,90,105,10010,10010
20200616,90,112,80,95,10010,10010
20200617,80,115,70,85,10010,10010
20200618,70,80,60,75,10010,10010


Q. 고가와 저가의 차이를 "변동폭" 이름의 칼럼에 저장하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


In [None]:
df['변동폭'] = df['고가'] - df['저가']
df

Unnamed: 0,시가,고가,저가,종가,변동폭
20200615,100,110,90,105,20
20200616,90,112,80,95,32
20200617,80,115,70,85,45
20200618,70,80,60,75,20


로우 단위의 데이터를 추가할 때는 `iloc` 혹은 `loc`를 사용하는 것외에 동일합니다.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


`20200619` 로우에 값을 추가

In [None]:
df.loc['20200619'] = [90, 100, 85, 95]
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75
20200619,90,100,85,95


값을 삭제할 때는 시리즈와 동일하게 drop메서드를 사용합니다. 차이점은 데이터프레임은 2차원 형태이기 때문에 가로축 삭제인지 세로축 삭제인지를 알려줘야 합니다. `axis`는 컬럼 단위로 삭제할지 로우 단위로 삭제할지를 지정합니다. `axis=1`은 컬럼 단위로 삭제한다는 의미입니다.

In [None]:
df.drop('시가', axis=1)

Unnamed: 0,고가,저가,종가
20200615,110,90,105
20200616,112,80,95
20200617,115,70,85
20200618,80,60,75
20200619,100,85,95


In [None]:
df.drop(['시가', '종가'], axis = 1)

Unnamed: 0,고가,저가
20200615,110,90
20200616,112,80
20200617,115,70
20200618,80,60


로우 단위로도 삭제할 수 있습니다. `axis`를 입력하지 않으면 0으로 간주됩니다.

In [None]:
df.drop('20200619')

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


In [None]:
# df 업데이트 되는건 아님
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75
20200619,90,100,85,95


## 인덱스 및 칼럼 설정하기

`reset_index`는 인덱스를 칼럼으로 변경합니다.

In [None]:
df_new = df.reset_index()
df_new

Unnamed: 0,index,시가,고가,저가,종가
0,20200615,100,110,90,105
1,20200616,90,112,80,95
2,20200617,80,115,70,85
3,20200618,70,80,60,75
4,20200619,90,100,85,95


`set_index`는 칼럼 이름으로 인덱스를 설정합니다. 

In [None]:
df_new2 = df_new.set_index('index')
df_new2

Unnamed: 0_level_0,시가,고가,저가,종가
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75
20200619,90,100,85,95


In [None]:
df_new2.index.name

'index'

In [None]:
df_new2.index.name = None
df_new2

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75
20200619,90,100,85,95
