## 출처 : 도서 <금융 데이터 분석을 위한 파이썬 판다스>   유대표, 조대표 저

### 판다스 데이터 프레임 PART 1.

시리즈가 1차원 데이터 프레임을 표현하는 자료구조라면, 데이터 프레임은 2차원 데이터를 위한 자료구조이다.
딕셔너리로 데이터 프레임을 생성하거나 리스트로 데이터프레임을 생성하거나 리스트와 딕셔너리로 데이터 프레임을 생성하는 이 3가지 방법을 주로 사용해서 객체를 생성한다.

In [1]:
# 딕셔너리로 데이터 프레임 생성

from pandas import DataFrame

data = {
    '종목코드' : ['037730', '036360', '005760'],
    '종목명' : ['3R', '3SOFT', 'ACTS'],
    '현재가' : [1510, 1790, 1185]
}

df = DataFrame(data)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


In [3]:
# 리스트로 데이터 프레임 생성

from pandas import DataFrame

data = [["037730", "3R", 1510],
        ["036360", "3SOFT", 1790],
        ["005760", "ACTS", 1185]
       ]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data=data, columns=columns)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


In [4]:
# 딕셔너리와 리스트로 데이터 프레임 생성

from pandas import DataFrame

data = [
    {"종목코드" : "037730", "종목명" : "3R", "현재가" : 1510},
    {"종목코드" : "036360", "종목명" : "3SOFT", "현재가" : 1790},
    {"종목코드" : "005760", "종목명" : "ACTS", "현재가" : 1185}
]

df = DataFrame(data=data)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


2차원 데이터에서 각 컬럼의 데이터는 컬럼명으로 구분된다. 이와 유사하게 데이터 프레임에서 각 로우의 데이터를 구분하는 용도로 사용되는 값을 인덱스라 부른다. 위의 데이터프레임에서 자동으로 생성된 0,1,2라는 인덱스 대신 종목코드 컬럼을 인덱스로 변경해 보자. 이 경우 데이터프레임의 set_index 메서드를 사용한다. set_index 메서드는 원본 데이터를 변경하는 것이 아니라 새로운 인덱스가 설정된 새로운 데이터프레임을 반환한다. 따라서 set_index 메서드의 리턴값을 변수에 바인딩 해야한다.

In [5]:
from pandas import DataFrame

data = [["037730", "3R", 1510],
        ["036360", "3SOFT", 1790],
        ["005760", "ACTS", 1185]
       ]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data=data, columns=columns)
df = df.set_index("종목코드")
print(df)

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790
005760   ACTS  1185


set_index 메서드를 호출할 때 inplace 값을 True로 전달하면 원본 데이터프레임에 수정 사항을 직접 반영할 수도 있다.

In [1]:
# df.set_index("종목코드", inplace=True)

데이터프레임을 생성할 때 인덱스를 데이터와 별도로 지정할 수도 있다. 데이터,컬럼을 별도의 리스트로 구성한 후 DataFrame 클래스의 생성자 호출 시 index 파라미터로 사용할 인덱스를 전달한다.

In [4]:
from pandas import DataFrame

data = [["3R", 1510],
        ["3SOFT", 1790],
        ["ACTS", 1185]
       ]

index = ["037730", "036360", "005760"]  
columns = ['종목명', '현재가']

df = DataFrame(data=data, index=index, columns=columns)
df.index.name = '종목코드'
print(df)

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790
005760   ACTS  1185


데이터프레임에서 한 개의 열만 인덱싱하면 시리즈 객체를 얻는다. 하지만 리스트로 슬라이싱하면 데이터프레임을 얻는다. 데이터프레임에서만 지원하는 메서드를 사용하고자 할 때 유용하다.

In [5]:
df[['현재가']]

Unnamed: 0_level_0,현재가
종목코드,Unnamed: 1_level_1
37730,1510
36360,1790
5760,1185


In [6]:
df['현재가']

종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64

데이터프레임의 인덱싱 중 컬럼단위가 아닌 로우 단위의 인덱싱에서는 iloc와 loc 속성을 사용한다. loc는 인덱스를 기준으로 로우 데이터를 추출하고, iloc는 행 번호를 기준으로 로우 데이터를 추출한다.

In [9]:
from pandas import DataFrame

data = [["3R", 1510],
        ["3SOFT", 1790],
        ["ACTS", 1185]
       ]

index = ["037730", "036360", "005760"]  
columns = ['종목명', '현재가']

df = DataFrame(data=data, index=index, columns=columns)

print(df.loc["037730"])
print(df.iloc[0])

종목명      3R
현재가    1510
Name: 037730, dtype: object
종목명      3R
현재가    1510
Name: 037730, dtype: object


데이터프레임 형태로 출력하고 싶으면 두개 이상의 리스트값으로 지정해주면 된다.

In [10]:
print(df.loc[["037730", "036360"]])
print(df.iloc[[0,1]])

          종목명   현재가
037730     3R  1510
036360  3SOFT  1790
          종목명   현재가
037730     3R  1510
036360  3SOFT  1790


특정 값을 가져오려면 다음과 같은 방식으로 시리즈 인덱싱이 가능하다.

In [11]:
print(df.iloc[0].iloc[1])
print(df.iloc[0].loc['현재가'])
print(df.loc['037730']['현재가'])

1510
1510
1510


loc['037730',현재가]라는 표현은 loc['037730'].loc['현재가']와 같은 결과를 출력한다.
여러 출력 방식이 있겠지만, 가독성이나 실행속도면에서 df.loc[행,열] 또는 df.iloc[행 번호, 열 번호] 방식을 추천한다.

특정 범위를 지정해 주려면 다음과 같은 형식을 응용하면 된다.

In [12]:
print(df.loc[['037730','036360'],['종목명','현재가']])
print(df.iloc[[0,1],[0,1]])

          종목명   현재가
037730     3R  1510
036360  3SOFT  1790
          종목명   현재가
037730     3R  1510
036360  3SOFT  1790


특정 조건에 따라 필터링을 해주고 싶다면, cond에 컬럼 조건식을 담아 loc[cond]로 출력하는 방법을 활용할 수 있다.

In [13]:
cond = df['현재가'] >= 1400
print(df.loc[cond])

          종목명   현재가
037730     3R  1510
036360  3SOFT  1790


이제 새로운 컬럼을 추가하는 방법을 알아보자.
'목표가'라는 이름의 컬럼을 추가하기 위해서는 데이터프레임과 같은 인덱스를 같는 시리즈가 필요하다. 따라서 시리즈를 생성할 때 데이터프레임의 인덱스를 전달해야 한다. 

In [16]:
from pandas import DataFrame, Series
s = Series(data=[1600, 1600, 1600], index=df.index)
df['목표가'] = s
print(df)

          종목명   현재가   목표가
037730     3R  1510  1600
036360  3SOFT  1790  1600
005760   ACTS  1185  1600


시리즈로 값을 구성하는 과정 없이 추가될 컬럼의 이름과 추가할 데이터만을 대입해도 같은 결과를 얻을 수 있어 편리하다.

In [17]:
df['목표가'] = 1600
print(df)

          종목명   현재가   목표가
037730     3R  1510  1600
036360  3SOFT  1790  1600
005760   ACTS  1185  1600


이번에는 예제로 사용하고 있는 데이터프레임에 새로운 로우를 추가해보자.

In [19]:
from pandas import DataFrame, Series


data = [["3R", 1510],
        ["3SOFT", 1790],
        ["ACTS", 1185]
       ]

index = ["037730", "036360", "005760"]  
columns = ['종목명', '현재가']

df = DataFrame(data=data, index=index, columns=columns)
df.index.name = '종목코드'


s = Series(data=['LG전자', 60000], index=df.columns)
df.loc['066570']= s
print(df)

          종목명    현재가
종목코드                
037730     3R   1510
036360  3SOFT   1790
005760   ACTS   1185
066570   LG전자  60000


다음과 같이 간단히 표현도 가능하다.

In [20]:
df.loc['066570'] = ['LG전자','60000']
print(df)

          종목명    현재가
종목코드                
037730     3R   1510
036360  3SOFT   1790
005760   ACTS   1185
066570   LG전자  60000


주로 많이 사용하는 방법은 append 메서드를 통한 추가 방법이다. 이때 데이터프레임의 인덱스로 사용될 종목코드 066570은 시리즈 객체의 name 속성으로 전달해야 한다.

In [21]:
s = Series(data=['LG전자', 60000], index=df.columns, name='066570')
new_df=df.append(s)
print(new_df)

          종목명    현재가
종목코드                
037730     3R   1510
036360  3SOFT   1790
005760   ACTS   1185
066570   LG전자  60000
066570   LG전자  60000


  new_df=df.append(s)


이번에는 컬럼이나 로우를 삭제해보자. 데이터프레임은 인덱스 또는 컬럼명을 사용해서 데이터를 삭제하는 drop메서드를 제공한다. 파라미터 axis=1은 컬럼 삭제를, axis=0은 로우 삭제를 의미한다.

In [22]:
df_new = new_df.drop('현재가', axis=1)
print(df_new)

          종목명
종목코드         
037730     3R
036360  3SOFT
005760   ACTS
066570   LG전자
066570   LG전자


In [23]:
df_new = df_new.drop('066570', axis=0)
print(df_new)

          종목명
종목코드         
037730     3R
036360  3SOFT
005760   ACTS


참고로 만약 원본 데이터프레임에서 로우나 컬럼을 바로 삭제하고자 한다면 파라미터 inplace 항목에 True 값을 추가하면 된다.

컬럼 레이블 명을 변경하고 싶을 경우에는 컬럼 레이블 개수와 기존에 정의된 레이블 개수를 동일하게 맞춰 새로 바인딩 시키면 된다.

In [24]:
df.columns = ['name','close']
df.index.name= 'code'
print(df)

         name  close
code                
037730     3R   1510
036360  3SOFT   1790
005760   ACTS   1185
066570   LG전자  60000


데이터프레임 객체의 rename 메서드를 사용하여 컬럼 레이블을 변경할 수도 있다. rename 메서드는 변경하고자 하는 컬럼에 {'변경 전 이름' : '변경 후 이름'}과 같은 딕셔너리를 메서드의 인자로 전달한다. 컬럼명 중 일부만을 변경하고자 할 때 유용하게 사용할 수 있다. 마찬가지로 inplace = True는 본 데이터프레임을 바로 수정하는 옵션이다.

In [27]:
df.rename(columns={'name':'종목명'},inplace=True)
print(df)

          종목명  close
code                
037730     3R   1510
036360  3SOFT   1790
005760   ACTS   1185
066570   LG전자  60000


데이터프레임에서 가끔 데이터 타입을 변경해야 할 경우가 있다. 예를 들어 수치 연산을 적용해야 하는데 타입이 문자열일 경우에는 변환을 해줘야 한다. 특히 ,(콤마)가 숫자에 포함되어 있을 경우 주로 발생한다. 이럴 경우 astype 메서드를 활용한다. astype 메서드는 변경하려는 컬럼의 이름과 데이터 타입을 딕셔너리로 입력받는다.

In [29]:
from pandas import DataFrame
import numpy as np

data = [["1000", "1100", '1510'],
        ["1410", "1420", '1790']
       ]
columns = ['03/02', "03/03", "03/04"]

df= DataFrame(data=data, columns=columns)
df= df.astype({'03/02':np.int64, '03/03':np.int64, '03/04':np.int64})
print(df.dtypes)

03/02    int64
03/03    int64
03/04    int64
dtype: object


참고로 숫자에 ,(콤마)가 포함될 경우 applymap 메서드를 활용하여 전체 데이터의 ,를 제거할 수 있다. def로 새로운 함수를 생성 후 applymap으로 일괄적용하는 방식이다.

In [30]:
from pandas import DataFrame
import numpy as np

data = [["1,000", "1,100", '1,510'],
        ["1,410", "1,420", '1,790']
       ]
columns = ['03/02', "03/03", "03/04"]

df= DataFrame(data=data, columns=columns)

def remove_comma(x):
    return int(x.replace(',',''))
df = df.applymap(remove_comma)
print(df)

   03/02  03/03  03/04
0   1000   1100   1510
1   1410   1420   1790


마지막으로 컬럼의 문자열을 다뤄보자. 예를 들어 위에서 사용했던 데이터프레임의 날짜 '03/02'컬럼에서 'A'라는 문자열이 하나씩 붙어있다면 어떻게 할까? 컬럼을 선택한 후 str변수에 하나의 문자열 처리를 하듯 슬라이싱 코드를 추가해주면 된다.

In [32]:
from pandas import DataFrame
import numpy as np

data = [["A1,000", "1,100", '1,510'],
        ["A1,410", "1,420", '1,790']
       ]
columns = ['03/02', "03/03", "03/04"]

df= DataFrame(data=data, columns=columns)

df['03/02'] = df['03/02'].str[1:]

print(df)

   03/02  03/03  03/04
0  1,000  1,100  1,510
1  1,410  1,420  1,790
