데이터프레임은 2차원 데이터를 위한 자료구조다.   
주로 딕셔너리, 리스트, 혹은 둘 다 이용하여 데이터프레임을 생성한다.

In [1]:
from pandas import DataFrame
# 딕서너리로 표현하는 방법
data = {
    '종목코드' : ['037730', '036360', '005760'],
    '종목명' : ['3R', '3S0FT', 'ACTS'],
    '현재가' : [1510, 1790, 1185]
}

df = DataFrame(data)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3S0FT  1790
2  005760   ACTS  1185


In [2]:
# 2차원 리스트를 사용하여 표현하는 방법

data = [
    ['037730', "3R", 1510],
    ['036360', "3SOFT", 1790],
    ['005760', "ACTS", 1185]
]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data= data, columns=columns)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


In [3]:
# 딕셔너리 리스트
data = [
    {"종목코드" : "037730", '종목명' : '3R', '현재가' : 1510 },
    {"종목코드" : "036360", '종목명' : '3SOFT', '현재가' : 1790 },
    {"종목코드" : "005760", '종목명' : 'ACTS', '현재가' : 1185 }
]

df = DataFrame(data=data)
print(df)

     종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


데이터프레임에서 데이터를 구분하는 것 역시 인덱스   
지정하지 않는다면 시리즈와 마찬가지로 자동으로 부여된다.   
set_index를 사용한다면 새로운 인덱스가 설정된 새 데이터프레임을 리턴한다.   
인자로 inplace=True를 넣어주면 원본 데이터프레임에 반영된다.

In [4]:
data = [
    ['037730', "3R", 1510],
    ['036360', "3SOFT", 1790],
    ['005760', "ACTS", 1185]
]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data= data, columns=columns)

df = df.set_index('종목코드')
print(df)

          종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790
005760   ACTS  1185


인덱스를 데이터와 별도로 지정할 수도 있다.   
index.name을 지정해주면 된다.

In [5]:
data = [
    ['037730', "3R", 1510],
    ['036360', "3SOFT", 1790],
    ['005760', "ACTS", 1185]
]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data= data, columns=columns)
df.index.name ="종목코드"
print(df)

        종목코드    종목명   현재가
종목코드                     
0     037730     3R  1510
1     036360  3SOFT  1790
2     005760   ACTS  1185


데이터프레임은 low, column 단위로 모두 인덱싱이 가능하다.   
파이썬의 기본적인 [ ]은 column 단위로 인덱싱한다.   
리스트 안에 컬럼의 이름을 넣고 한번에 인덱싱 할 수도 있다.

In [6]:
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data=data, index=index, columns=columns)
print(df['현재가'])
print(df[['현재가', '현재가']])

037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64
         현재가   현재가
037730  1510  1510
036360  1790  1790
005760  1185  1185


low단위의 인덱싱은 iloc과 loc을 사용한다.   
loc : 인덱스 기준으로 추출   
iloc : 행 번호를 기준으로 추출

In [7]:
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data= data, index=index, columns=columns)
print(df.loc["037730"])
print(df.iloc[-1])

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명    ACTS
현재가    1185
등락률    1.28
Name: 005760, dtype: object


특정 하나의 값을 가져오려면 column, low를 지정해주면 된다.   
혹은 loc 속성에 low, column을 순서대로 입력해도 된다.

In [8]:
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data= data, index=index, columns=columns)

print(df.iloc[0].iloc[-1])
print(df.iloc[0].loc['현재가'])
print(df.iloc[0]["등락률"])

print()

print(df.loc["037730", "현재가"])
print(df.iloc[0, 1])

7.36
1510
7.36

1510
1510


특정 범위를 가져오려면 첫 앞서 나온 리스트를 활용하면 된다.

In [9]:
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data= data, index=index, columns=columns)

df = df.loc[["037730","036360"]]
df = df[["종목명", "현재가"]]
print(df)

          종목명   현재가
037730     3R  1510
036360  3SOFT  1790


Boolean Indexing 역시 Series와 비슷하다.

In [10]:
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df = DataFrame(data= data, index=index, columns=columns)
cond = df['현재가'] >= 1400
print(df.loc[cond])
print(df.loc[cond]["현재가"])
print(df.loc[cond, "현재가"])

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
037730    1510
036360    1790
Name: 현재가, dtype: int64
037730    1510
036360    1790
Name: 현재가, dtype: int64


&, |, ~ 등의 논리연산자를 활용해도 된다.

In [11]:
cond = (df['현재가'] >= 1400) & (df['현재가'] < 1700)
print(df.loc[cond])
print(df.loc[~cond])

       종목명   현재가   등락률
037730  3R  1510  7.36
          종목명   현재가   등락률
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
