In [3]:
from pandas import Series, DataFrame
import pandas as pd 

#필터링에 대한 내용 정리 
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, 
    index=index, columns=columns)
cond = df['현재가'] >= 1400

df.loc[cond]

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


In [4]:
#반환된 데이터프레임에서 하나의 컬럼만 가져오고 싶다면
#컬럼의 이름으로 인덱싱을 할 수 있다.
cond = df["현재가"] >= 1400
print(df.loc[cond]["현재가"])
df.loc[cond, "현재가"]

037730    1510
036360    1790
Name: 현재가, dtype: int64


037730    1510
036360    1790
Name: 현재가, dtype: int64

In [5]:
#&(and)연산자를 사용해서 현재가가 1400원이상이면서 1700원이하인 경우 
cond = (df['현재가'] >= 1400) & (df['현재가'] < 1700)
df.loc[cond]

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36


In [6]:
#컬럼을 추가하는 경우
from pandas import Series, DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

#목표가 컬럼 추가
s = Series(data=[1600,1600,1600],
    index=df.index)
df['목표가'] = s
df

Unnamed: 0,종목명,현재가,등락률,목표가
37730,3R,1510,7.36,1600
36360,3SOFT,1790,1.65,1600
5760,ACTS,1185,1.28,1600


In [7]:
#시리즈로 값을 구성하는 과정없이 추가될 컬럼의 이름과 
#추가할 데이터만 대입해도 같은 결과를 얻을 수 있다. 
#데이터프레임이 제공하는 편의 기능이다.
df['목표가2'] = 1600

#괴리율을 추가한다. 
df['괴리율'] = (df['목표가'] - df['현재가']) / df['현재가']

df 

Unnamed: 0,종목명,현재가,등락률,목표가,목표가2,괴리율
37730,3R,1510,7.36,1600,1600,0.059603
36360,3SOFT,1790,1.65,1600,1600,-0.106145
5760,ACTS,1185,1.28,1600,1600,0.350211


In [8]:
#로우를 추가하기
from pandas import DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

#추가할 로우를 하나의 시리즈로 표현한다.
s = Series(data=['LG전자', 60000, 3.84], index=df.columns)
df.loc["066570"] = s 
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84


In [9]:
#다음과 같이 loc속성으로 066570이름의 인덱스에 데이터를 입력한다. 
#이 경우 데이터프레임이 우변에 있는 리스트를 시리즈로 변경하고 
#데이터프레임과 같은 컬럼 레이블을 갖도록 자동 변환한다. 
df.loc["066570"] = ["LG전자",60000,3.84]
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84


In [10]:
#query메서드 사용하기
from pandas import DataFrame

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = DataFrame(data=data)
df = df.set_index('cd')
df


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [11]:
cond = df['open'] >= 2000
df[cond]


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [12]:
print(df.query("nm=='3S'"))
print(df.query('nm=="3S"'))


         nm  open  close
cd                      
A060310  3S  2920   2800
         nm  open  close
cd                      
A060310  3S  2920   2800


In [13]:
#시작가격이 종가보다 높은 경우 
df.query("open > close")


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010


In [14]:
#이름이 포함되어 있는 경우 
df.query("nm in ['3S', 'AK홀딩스']")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010


In [15]:
#query메서드는 값에 대해서 필터링을 할 수 있고, filter메서드는 인덱스나 컬럼이름에 
#대해서 특정 조건으로 필터링할 수 있다. 
from pandas import DataFrame

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = DataFrame(data=data, index=index, columns=columns)
df

#E가 붙어 있는 것은 추정치가 붙어 있는 것 

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [16]:
#filter메서드는 items파라메터에 선택할 컬럼의 이름을 지정할 수 있다.
df.filter(items=['2018/12'])

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [17]:
#인덱스(행)에 대해서 필터링 할 수 있다. 
#axis를 지정하지 않으면 1이 되서 컬럼에서 검색한다. 
df.filter(items=["PER"], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [18]:
#정규표현식을 사용할 수 있다. 
df.filter(regex="2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [19]:
#시작패턴을 지정 
df.filter(regex="^2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [20]:
#R$는 끝나는 패턴 
df.filter(regex="R$", axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [21]:
#끝에 E가 붙은 추정치를 제외하고 가져온다. 
df.filter(regex="\d{4}/\d{2}$")

Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06
