In [11]:
# 데이터프레임 query(쿼리)

from pandas import DataFrame

data = [
    {'cd' : 'A060310', 'nm' : '3S', 'open' : 2920, 'close' : 2800},
    {'cd' : 'A095570', 'nm' : 'AJ네트웍스', 'open' : 1920, 'close' : 1900},
    {'cd' : 'A006840', 'nm' : 'AK홀딩스', 'open' : 2020, 'close' : 2010},
    {'cd' : 'A054620', 'nm' : 'APS홀딩스', 'open' : 3120, 'close' : 3200}
]

df = DataFrame(data)
df = df.set_index('cd')
df

cond = df.open >= 2000
df[cond]

print(df.query("nm == '3S'"))
print(df.query("open > close"))
print(df.query("nm in ['3S', 'AK홀딩스']"))
df.query("cd == 'A060310'")
name = 'AJ네트웍스'
df.query("nm == @name")


         nm  open  close
cd                      
A060310  3S  2920   2800
             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010
            nm  open  close
cd                         
A060310     3S  2920   2800
A006840  AK홀딩스  2020   2010


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


In [27]:
# 데이터프레임 Filter

from pandas import DataFrame

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ['2018/12', '2019/12', '2020/12', '2021/12(E)']
index = ['DPS', 'PER', 'PBR']

df = DataFrame(data = data, index = index, columns = columns)
df

#items
df.filter(items=['2018/12'])
df.filter(items=['PER'], axis = 0)

#regex
df.filter(regex = '2020')
df.filter(regex='^2020') # 2020으로 시작하는 문자열 패턴만을 선택
df.filter(regex='R$', axis = 0) # $(끝) R로 끝나는 모든 패턴 
df.filter(regex="\d{4}")  # \d : 숫자 - 숫자4개가 연속해서 발생하는 문자열 탐색
df.filter(regex='\d{4}/\d{2}$')


Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


In [44]:
# 데이터프레임 정렬 및 순위

from pandas import DataFrame

data = [
    ['037730', '3R', 1510],
    ['036360', '3SOFT', 1790],
    ['005670', 'ACTS', 1185]
]

columns = ['종목코드', '종목명', '현재가']
df = DataFrame(data = data, columns = columns)
df.set_index('종목코드', inplace = True)
df

# sort_values 메소드 정렬된 데이터 프레임 반환
df2 = df.sort_values('현재가')
print(df2)
df2 = df.sort_values(by = '현재가') # 파라미터 이름 지정, 오름차순 정렬
print(df2)
df3 = df.sort_values(by = '현재가', ascending = False) # 내림차순 정렬
print(df3)

# rank 메소드 = 정렬된 시리즈 반환
df['순위'] = df['현재가'].rank() #d 데이터프레임에 현재가 기준으로 정렬된 rank시리즈 추가
df
df.sort_values(by = '순위', inplace = True)
df


          종목명   현재가
종목코드               
005670   ACTS  1185
037730     3R  1510
036360  3SOFT  1790
          종목명   현재가
종목코드               
005670   ACTS  1185
037730     3R  1510
036360  3SOFT  1790
          종목명   현재가
종목코드               
036360  3SOFT  1790
037730     3R  1510
005670   ACTS  1185


Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5670,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


## 

In [55]:
# 인덱스 연산

import pandas as pd

idx1 = pd.Index([1,2,3])
idx2 = pd.Index([2,3,4])
print(type(idx1))

#union - 인덱스 합, 중복 제거
print(idx1.union(idx2))

#intersection - 중복된 데이터만 선택
print(idx1.intersection(idx2))

#difference - 차집합, 중복되는 인덱스 값 제거
print(idx1.difference(idx2))

<class 'pandas.core.indexes.base.Index'>
Index([1, 2, 3, 4], dtype='int64')
Index([2, 3], dtype='int64')
Index([1], dtype='int64')


In [87]:
# GroupBy

from pandas import DataFrame

data = [
    ['2차전지(생산)', 'SK이노베이션', 10.19, 1.29], 
    ['해운', '팬오션', 21.23, 0.95],
    ['시스템반도체', '티엘아이', 35.97, 1.12],
    ['해운', 'HMM', 21.52, 3.20],
    ['시스템반도체', '아이에이', 37.32, 3.55],
    ['2차전지(생산)', 'LG화학', 83.06, 3.75]
]

columns = ['테마', '종목명', 'PER', 'PBR']

# groupby 메소드로 간소화
df_mean = df.groupby('테마')['PER'].mean()
print(df_mean)

#get_group - 특정한 값을 갖는 데이터프레임 반환
gb = df.groupby('테마')
temp = gb.get_group('2차전지(생산)')
print(temp)

temp = df[['테마','PER', 'PBR']].groupby('테마').get_group('2차전지(생산)')
print(temp)

temp = df.groupby('테마')[['PER', 'PBR']].get_group('2차전지(생산)')
print(temp)

df.groupby('테마')[['PER', 'PBR']].mean() #테마별 평균
df.groupby('테마').mean(numeric_only=True)

#agg 메소드 - 특정 컬럼마다 다른함수 적용
df_m = df.groupby('테마').agg({'PER' : 'max', 'PBR' : 'min'})
print(df_m)

df_m1 = df.groupby('테마').agg({'PER' : ['min','max'], 'PBR' : ['std', 'var']})
print(df_m1)

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64
         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75
         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75
     PER   PBR
0  10.19  1.29
5  83.06  3.75
            PER   PBR
테마                   
2차전지(생산)  83.06  1.29
시스템반도체    37.32  1.12
해운        21.52  0.95
            PER              PBR         
            min    max       std      var
테마                                       
2차전지(생산)  10.19  83.06  1.739483  3.02580
시스템반도체    35.97  37.32  1.718269  2.95245
해운        21.23  21.52  1.590990  2.53125


In [97]:
# 좌/우로 붙이기

from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가' : [113000, 111500],
    '거래량' : [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

# 두번째 데이터프레임
data = {
    '시가' : [112500, 110000],
    '고가' : [115000, 112000],
    '저가' : [111500, 109000]
}
df2 = DataFrame(data=data, index=index)

#concat 메소드로 붙이기
df = pd.concat([df1,df2], axis = 1)
print(df)

정렬순서 = ['시가', '고가', '저가', '종가', '거래량'] # 정렬하기
df = df[정렬순서]
print(df)



# index가 다른 데이터프레임 

# 첫번째 데이터프레임
data = {
    '종가' : [113000, 111500],
    '거래량' : [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

# 두번째 데이터프레임
data = {
    '시가' : [112500, 110000],
    '고가' : [115000, 112000],
    '저가' : [111500, 109000]
}
index = ['2019-06-20', '2019-06-29']
df2 = DataFrame(data=data, index=index)
df = pd.concat([df1,df2], axis = 1)
print(df) # 결측값 NaN으로 표기
df = pd.concat([df1,df2], axis = 1, join = 'inner') # join파라미터 - outer : 존재하지 않는 값 결측값 표기, inner : 인덱스가 공통인 부문만 연결
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000
                시가      고가      저가      종가     거래량
2019-06-21  112500  115000  111500  113000  555850
2019-06-20  110000  112000  109000  111500  282163
                  종가       거래량        시가        고가        저가
2019-06-21  113000.0  555850.0       NaN       NaN       NaN
2019-06-20  111500.0  282163.0  112500.0  115000.0  111500.0
2019-06-29       NaN       NaN  110000.0  112000.0  109000.0
                종가     거래량      시가      고가      저가
2019-06-20  111500  282163  112500  115000  111500


In [100]:
# 위/아래로 붙이기

from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가' : [113000, 111500],
    '거래량' : [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

# 두번째 데이터프레임
data = {
    '종가' : [110000, 483689],
    '거래량' : [109000, 791946]
}
index = ['2019-06-19', '2019-06-18']
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1,df2])
print(df)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946


In [116]:
# Merge (병합)

from pandas import DataFrame
import pandas as pd

#첫번째 데이터프레임
data = [
    ['전기전자', '005930', '삼성전자', 74400],
    ['화학', '051910', 'LG화학', 896000],
    ['전기전자', '000660', 'SK하이닉스', 101500]
]

columns = ['업종', '종목코드', '종목명', '현재가']
df1 = DataFrame(data=data, columns = columns)

# 두번째 데이터프레임
data = [
    ['은행', 2.92],
    ['보험', 0.37],
    ['화학', 0.06],
    ['전기전자', -2.43]
]

columns = ['업종', '등락률']
df2 = DataFrame(data=data, columns = columns)

df = pd.merge(left=df1, right =df2, on='업종')
print(df)
df = pd.merge(left=df1, right=df2, how='outer', on='업종') # how 파라미터로 합치는 방법 지정(inner,outer), (left,right)
print(df)


# 컬럼이 다르다면
data = [
    ['전기전자', '005930', '삼성전자', 74400],
    ['화학', '051910', 'LG화학', 896000],
    ['서비스업', '035720', '카카오', 121500]
]

columns = ['업종', '종목코드', '종목명', '현재가']
df1 = DataFrame(data=data, columns = columns)

# 두번째 데이터프레임
data = [
    ['은행', 2.92],
    ['보험', 0.37],
    ['화학', 0.06],
    ['전기전자', -2.43]
]

columns = ['항목', '등락률']
df2 = DataFrame(data=data, columns = columns)

df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목') # 합칠 기준이 되는 컬럼 left_on, right_on 입력
print(df)

     업종    종목코드     종목명     현재가   등락률
0  전기전자  005930    삼성전자   74400 -2.43
1    화학  051910    LG화학  896000  0.06
2  전기전자  000660  SK하이닉스  101500 -2.43
     업종    종목코드     종목명       현재가   등락률
0    보험     NaN     NaN       NaN  0.37
1    은행     NaN     NaN       NaN  2.92
2  전기전자  005930    삼성전자   74400.0 -2.43
3  전기전자  000660  SK하이닉스  101500.0 -2.43
4    화학  051910    LG화학  896000.0  0.06
     업종    종목코드   종목명     현재가    항목   등락률
0  전기전자  005930  삼성전자   74400  전기전자 -2.43
1    화학  051910  LG화학  896000    화학  0.06


In [128]:
#join

#첫번째 데이터프레임
data = [
    ['전기전자', '005930', '삼성전자', 74400],
    ['화학', '051910', 'LG화학', 896000],
    ['서비스업', '035720', '카카오', 121500]
]

columns = ['업종', '종목코드', '종목명', '현재가']
df1 = DataFrame(data=data, columns = columns)
df1 = df1.set_index('업종')

# 두번째 데이터프레임
data = [
    ['은행', 2.92],
    ['보험', 0.37],
    ['화학', 0.06],
    ['전기전자', -2.43]
]

columns = ['항목', '등락률']
df2 = DataFrame(data=data, columns = columns)
df2 = df2.set_index('항목')

df = df1.join(other=df2) #other 파라미터, how파라머티로 옵션지정 가능, 사용하지 않으면 left옵션
print(df)

# 시가총액을 사용해서 대형주, 중/소형주로 구분
data = [
    ['2017', '삼성', 500],
    ['2017', 'LG', 300],
    ['2017', 'SK하이닉스', 200],
    ['2018', '삼성', 600],
    ['2018', 'LG', 400],
    ['2018', 'SK하이닉스', 300],
]

columns = ['연도', '회사', '시가총액']
df = DataFrame(data=data, columns=columns)
print(df)
df_mean = df.groupby('연도')['시가총액'].mean().to_frame()
df_mean.columns = ['시가총액평균']
print(df_mean)

df = df.join(df_mean, on='연도') # index 설정없이 on 파라미터로 병합
df

import numpy as np

df['규모'] = np.where(df['시가총액'] >= df['시가총액평균'], '대형주', '중/소형주') # numpy의 where 조건 사용
df

        종목코드   종목명     현재가   등락률
업종                              
전기전자  005930  삼성전자   74400 -2.43
화학    051910  LG화학  896000  0.06
서비스업  035720   카카오  121500   NaN
     연도      회사  시가총액
0  2017      삼성   500
1  2017      LG   300
2  2017  SK하이닉스   200
3  2018      삼성   600
4  2018      LG   400
5  2018  SK하이닉스   300
          시가총액평균
연도              
2017  333.333333
2018  433.333333


Unnamed: 0,연도,회사,시가총액,시가총액평균,규모
0,2017,삼성,500,333.333333,대형주
1,2017,LG,300,333.333333,중/소형주
2,2017,SK하이닉스,200,333.333333,중/소형주
3,2018,삼성,600,433.333333,대형주
4,2018,LG,400,433.333333,중/소형주
5,2018,SK하이닉스,300,433.333333,중/소형주
