# 05 판다스 데이터프레임 Part2

**데이터프레임의 주요 매서드와 데이터프레임과 관련된 판다스 함수에 대해 설명**

### 5.1 Query

쿼리 매서드를 사용하면 특정 조건에 부합하는 데이터를 쉽게 필터링 할 수 있음.

데이터 프레임 생성

In [156]:
from pandas import DataFrame

data=[
    {"cd":"A060310","nm":"3S","open":2920,"close":2800},
    {"cd":"A095570","nm":"AJ네트워크","open":1920,"close":1900},
    {"cd":"A054620","nm":"AK홀딩스","open":2020,"close":3200},
    {"cd":"A054620","nm":"APS홀딩스","open":3120,"close":3200}
]

df=DataFrame(data=data)
df=df.set_index('cd')
print(df)

             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트워크  1920   1900
A054620   AK홀딩스  2020   3200
A054620  APS홀딩스  3120   3200


In [157]:
#슬라이싱
cond=df['open']>=2000
print(cond) #True, False
print(df[cond])

cd
A060310     True
A095570    False
A054620     True
A054620     True
Name: open, dtype: bool
             nm  open  close
cd                          
A060310      3S  2920   2800
A054620   AK홀딩스  2020   3200
A054620  APS홀딩스  3120   3200


쿼리 매서드로 필터링하기

큰따옴표로 전체 쿼리 정의. 쿼리 안에서 사용하는 문자열은 작은따옴표로 구분.(반대도 가능)

In [158]:
print(df.query("nm=='3S'")) #nm이라는 컬럼에서 3S라는 값을 갖는 데이터
#컬럼과 인덱스는 따옴표 없이 사용 가능

         nm  open  close
cd                      
A060310  3S  2920   2800


In [159]:
print(df.query("open<close")) #쿼리함수에서는 파이썬의 기본 비교 연산자 모두 사용 가능

             nm  open  close
cd                          
A054620   AK홀딩스  2020   3200
A054620  APS홀딩스  3120   3200


In [160]:
print(df.query("nm in ['3S','AK홀딩스']"))

            nm  open  close
cd                         
A060310     3S  2920   2800
A054620  AK홀딩스  2020   3200


In [161]:
df.query("cd=='A060310'") #인덱스 기준 조회

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [162]:
#@:파이썬 변수 참조
name="AJ네트워크"
df.query('nm==@name')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트워크,1920,1900


### 5.2 Filter

인덱스나 컬럼 이름에 대해서 특정 조건으로 필터링 가능

In [163]:
from pandas import DataFrame

data=[
    [1416,1416,2994,1755],
    [6.42,17.63,21.09,13.93],
    [1.10,1.49,2.06,1.88]
]

columns=["2018/12","2019/12","2020/12","2021/12(E)"] #(E): 추정치
index=["DPS","PER","PBR"]

df=DataFrame(data=data,index=index,columns=columns)
print(df)

     2018/12  2019/12  2020/12  2021/12(E)
DPS  1416.00  1416.00  2994.00     1755.00
PER     6.42    17.63    21.09       13.93
PBR     1.10     1.49     2.06        1.88


In [164]:
df.filter(items=['2018/12']) #items파라미터: 선택할 컬럼의 이름을 지정할 수 있음. 여러개의 이름을 입력하면 나열한 모든 컬럼 선택됨.

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [165]:
df.filter(items=["PER"],axis=0) #axis=0 인덱스에 대해 검색해라. 디폴트가 1임.

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [166]:
#회사별 결산월이 다를 경우. 년도의 결산을 보고싶을 때
df.filter(regex="2020") #regex!!

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [167]:
#'^':문자열의 시작을 의미
df.filter(regex="^2020") # 2020이 들어간 다른 결과도 있을 수 있음. 2020으로 시작하는 문자열 패턴만을 선택.

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [168]:
#'$':끝을 의미
df.filter(regex="R$",axis=0) #R로 끝나는 모든 패턴

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


**역슬래쉬 안되는게 무슨 문제야 ㅠㅠ ㅠ ㅠ ㅠ**

In [169]:
#'\d':숫자를 의미. 중괄호로 출현 횟수 지정 가능.
df.filter(regex="\d{4}") #숫자 네 개가 연속해서 발생하는 문자열만을 탐색할 수 있음.
df.filter(regex="\d{4}/\d{2}$") #숫자 네 개와 '/' 그리고 숫자 두 개로 구성된 컬럼을 선택하는 정규식

  df.filter(regex="\d{4}") #숫자 네 개가 연속해서 발생하는 문자열만을 탐색할 수 있음.
  df.filter(regex="\d{4}/\d{2}$") #숫자 네 개와 '/' 그리고 숫자 두 개로 구성된 컬럼을 선택하는 정규식


Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


### **5.3 정렬 및 순위**

In [170]:
data=[
    ["037730","3R",1510],
    ["036360","3SOFT",1790],
    ["005670","ACTS",1185]
]

columns=["종목코드","종목명","현재가"]
df=DataFrame(data=data,columns=columns)
df.set_index("종목코드",inplace=True)

In [171]:
df2=df.sort_values("현재가")
print(df2)

          종목명   현재가
종목코드               
005670   ACTS  1185
037730     3R  1510
036360  3SOFT  1790


In [172]:
df2=df.sort_values(by="현재가") #설명이 더 자세한 이 코드를 더 추천.
print(df2)

          종목명   현재가
종목코드               
005670   ACTS  1185
037730     3R  1510
036360  3SOFT  1790


In [173]:
df2=df.sort_values("현재가",ascending=False) #기본값이 True
print(df2)

          종목명   현재가
종목코드               
036360  3SOFT  1790
037730     3R  1510
005670   ACTS  1185


In [174]:
df['순위']=df['현재가'].rank() #순위라는 컬럼을 만들어 순위 집어넣음
print(df)

          종목명   현재가   순위
종목코드                    
037730     3R  1510  2.0
036360  3SOFT  1790  3.0
005670   ACTS  1185  1.0


In [175]:
df.sort_values(by="순위",inplace=True) #순위 오름차순으로 정렬
print(df)

          종목명   현재가   순위
종목코드                    
005670   ACTS  1185  1.0
037730     3R  1510  2.0
036360  3SOFT  1790  3.0


### **5.4 인덱스 연산**

In [176]:
import pandas as pd

idx1=pd.Index([1,2,3])
idx2=pd.Index([2,3,4])
print(type(idx1))

<class 'pandas.core.indexes.base.Index'>


In [177]:
idx1.union(idx2) #union매서드는 모두 합쳐 중복된 것을 제거한 결과 반환

Index([1, 2, 3, 4], dtype='int64')

2와 3이 중복되지만, union 매서드로 중복 제거됨

In [178]:
#중복된 데이터만 선택하고 싶다면 intersection매서드 사용 - 교차되는 값들만 선택(교집합)
idx1.intersection(idx2)

Index([2, 3], dtype='int64')

In [179]:
#중복되는 인덱스 값만을 제거하고 싶다면 difference매서드 사용 - 차집합
idx1.difference(idx2)

Index([1], dtype='int64')

### **5.5 GroupBy**

In [180]:
data=[
    ["2차전지(생산)","SK이노베이션",10.19,1.29],
    ["해운","팬오션",21.23,0.95],
    ["시스템반도체","티엘아이",35.97,1.12],
    ["해운","HMM",21.52,3.20],
    ["시스템반도체","아이에이",37.32,3.55],
    ["2차전지(생산)","LG화학",83.06,3.75]
]

columns=["테마","종목명","PER","PBR"]
df=DataFrame(data=data,columns=columns)
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [181]:
df.groupby("테마")["PER"].mean()

Unnamed: 0_level_0,PER
테마,Unnamed: 1_level_1
2차전지(생산),46.625
시스템반도체,36.645
해운,21.375


groupby매서드는 분할을 담당하며 DataFrameGroupBy라는 타입의 객체를 리턴

DataFrameGroupBy객체의 get_group매서드로 특정한 값을 갖는 데이터프레임 얻을 수 있음.

In [182]:
#2차전지(생산) 테마의 데이터만 선택
gb=df.groupby("테마") #gb는 뭐지?
temp=gb.get_group("2차전지(생산)")
print(gb)
print(temp)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f5ce51357c0>
         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75


In [183]:
temp=df[["테마","PER","PBR"]].groupby("테마").get_group("2차전지(생산)") #get_group 사용될 때의 groupby해석방법?
print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


In [184]:
df.groupby("테마")[["PER","PBR"]].mean() #PER과 PBR을 슬라이싱하지 않더라도 평균 연산을 적용할 수 없는 '종목명'은 자동으로 제거->XXXX

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [185]:
#df.groupby("테마").mean() # 오류뜸. 버전차이로 인해 슬라이싱하거나 numeric_only=True잇어야 함. 자동제거x

In [186]:
#해당 그룹의 대푯값으로 설정하과 하는 경우 agg매서드 사용. 컬럼 이름을 key, 적용할 함수의 이름을 value.

df.groupby("테마").agg({"PER":max, "PBR":min}) #중괄호 사용!


  df.groupby("테마").agg({"PER":max, "PBR":min}) #중괄호 사용!
  df.groupby("테마").agg({"PER":max, "PBR":min}) #중괄호 사용!


Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [187]:
#하나의 컬럼에 여러 연산 지정 가능. -> 딕셔너리의 value에 리스트(대괄호!)로 적용할 연산 나열.

import numpy as np
df.groupby("테마").agg({"PER":[min,max],"PBR":[np.std,np.var]})

  df.groupby("테마").agg({"PER":[min,max],"PBR":[np.std,np.var]})
  df.groupby("테마").agg({"PER":[min,max],"PBR":[np.std,np.var]})
  df.groupby("테마").agg({"PER":[min,max],"PBR":[np.std,np.var]})
  df.groupby("테마").agg({"PER":[min,max],"PBR":[np.std,np.var]})


Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


### **5.6 좌/우로 붙이기**

concat함수를 사용하여 데이터프레임을 좌/우로 붙여보기.

인덱스는 동일한데 컬럼의 데이터가 분리되어 있을 때 하나의 데이터프레임으로!

concat함수는 기본적으로 같은 컬럼 레이블을 갖는 데이터프레임 객체를 위/아래로 연결. **axis=1**파라미터를 전달하면 좌/우로 연결.!

**-> axis=1이 디폴트 아님? 그리고 행 기준 출력은 axis=0아님?**

In [188]:
from pandas import DataFrame
import pandas as pd

#첫 번째 데이터프레임

data={
    '종가':[113000,111500],
    '거래량':[555850,282163]
}

index=['2019-06-21','2019-06-20']
df1=DataFrame(data=data,index=index)

data={
    '시가': [112500,110000],
    '고가': [115000,112000],
    '저가': [111500,109000]
}
index=['2019-06-21','2019-06-20']
df2=DataFrame(data=data,index=index)

df=pd.concat([df1,df2],axis=1)
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000


In [189]:
정렬순서=['시가','고가','저가','종가','거래량']
df=df[정렬순서]
print(df)

                시가      고가      저가      종가     거래량
2019-06-21  112500  115000  111500  113000  555850
2019-06-20  110000  112000  109000  111500  282163


인덱스가 다른 두 데이터프레임에 concat을 하면 결측값 NaN으로 표기됨.

concat함수 안에 join='inner',join='outer'옵션으로  인덱스가 다를 때의 동작 지정 가능. join파라미터를 지정하지 않으면 outer모드로 동작.

### **5.7 위/아래로 붙이기**

In [190]:
data={
    '종가':[113000,111500],
    '거래량':[555850,282163]
}

index=["2019-06-21","2019-06-20"]

df1=pd.DataFrame(data=data,index=index)

data={
    '종가':[110000,483689],
    '거래량':[109000,791946]
}

index=["2019-06-19","2019-06-18"]

df2=pd.DataFrame(data=data,index=index)

#df=df.append(df2) #append매서드 사라짐!
df=pd.concat([df1,df2])#axis=0: 위/아래로 연결. 이것이 디폴드이기 때문에 작성x
print(df)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946


In [191]:
df_sort = df.sort_index()  #인덱스 날짜순으로 정렬..!
print(df_sort)


                종가     거래량
2019-06-18  483689  791946
2019-06-19  110000  109000
2019-06-20  111500  282163
2019-06-21  113000  555850


### **5.8 Merge**

병합. 특정 컬럼의 값을 기준으로 데이터 병합.

In [192]:
#데이터프레임에
#df=pd.merge(left=df1,right=df2, on='업종)
#print(df)

In [193]:
#merge에 사용 가능한 left 옵션 ->left outer
#df=pd.merge(left=df1,right=df2,how='left',on='업종')
#print(df)

In [194]:
#컬럼 이름이 서로 다른 컬럼 기준으로 병합하고싶은 경우.
#df=pd.merge(left=df1,right=df2,left_on='업종',right_on='항목')
#print(df)

### **5.9 Join**

데이터프레임의 인덱스를 기준으로 병합하는 경우

rest_index매서드를 사용해서 인덱스를 컬럼으로 변경한 뒤에 merge함수를 사용해도 되나 join 사용 시 짧은 코드로 동일한 결과를 얻을 수 있음.

In [195]:
#df1.join(other=df2) #how 파라미터로 left/right/outer/inner옵션 지정 가능. 기본은 left.

In [196]:
#df_mean=df.groupby("연도")["시가총액"].mean().to_frame() #연도가 인덱스로 변환되고, 시가총액만이 남은 상황이므로 시리즈임. 그러므로 to_frame매서드 사용
#df_mean.columns=['시가총액평균'] #변수명 지정

행 단위로 조건을 나타내기 위해 numpy의 where 사용.

### **5.10 멀티인덱스 (Multi-Index)**

셀을 병합하는 형태로 여러 컬럼으로 구분된 구조적인 데이터 표현

가장 상위 인덱스를 level0인덱스, 그 밑을 순차적으로 level1,2..,

In [197]:
#데이터프레임으로 멀티인덱스를 갖는 데이터 표현하기
data=[
    ['영업이익','컨센서스',1000,1200],
    ['영업이익','잠정치',900,1400],
    ['당기순이익','컨센서스',800,900],
    ['당기순이익','잠정치',700,800]
]

df=DataFrame(data=data)
df=df.set_index([0,1])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


인덱스와 컬럼의 이름을 지정하지 않았기 때문에 자동으로 맵칭되는 숫자 사용

In [198]:
#가독성을 위한 명칭 지정
df.index.names=["재무연월",""]
df.columns=["2020/06","2020/09"]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [199]:
df.loc['영업이익']

Unnamed: 0,2020/06,2020/09
,,
컨센서스,1000.0,1200.0
잠정치,900.0,1400.0


In [200]:
print(df.loc[('영업이익','컨센서스')]) #멀티인덱스에서 하나의 행을 선택할 때 level0부터 level N까지 인덱스를 튜플로 정의하는 것이 좋음.

2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64


In [201]:
print(df.iloc[0])

2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64


In [202]:
#행과 열의 인덱스를 차례로 지정
print(df.iloc[0,0])
print(df.iloc[2,0])

1000
800


In [203]:
#slice클래스-> 시작:끝:오프셋 형태로 증감폭 지정 가능

In [204]:
a=[1,2,3,4,5]
print(a[0:5:2])
print(a[slice(0,5,2)])

[1, 3, 5]
[1, 3, 5]


In [205]:
#하나의 slice객체를 재사용하여 같은 형태의 슬라이싱 수행 가능
b=[3,4,5,6,7]
s=slice(0,5,2)
print(a[s])
print(b[s])

[1, 3, 5]
[3, 5, 7]


In [206]:
#전체 데이터를 선택하고자 할때!
a=[1,2,3,4,5]
print(a[:])
print(a[slice(None)])
print(a[::])
print(a[slice(None,None)])

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


In [207]:
#level0 인덱스 전체에 level1의 컨센서스만을 선택하고 싶다면

#print( df.loc[ (:,'컨센서스'),:]) #에럽발생. 튜플 안의 콜론을 인식하지 못함.

In [208]:
print(df.loc[(slice(None),'컨센서스'),:]) #slice(None)은 level0의 모든 값을 선택하라는 의미

            2020/06  2020/09
재무연월                        
영업이익  컨센서스     1000     1200
당기순이익 컨센서스      800      900


In [209]:
idx=pd.IndexSlice #위와 같은 결과 출력
print(df.loc[idx[:,'컨센서스'],:])

            2020/06  2020/09
재무연월                        
영업이익  컨센서스     1000     1200
당기순이익 컨센서스      800      900


### **5.11 멀티컬럼 (Multi-Column)**

판다스 MultiIndex의 from_product함수: 입력된 리스트로 데이터의 조합 만들기

In [210]:
level_0=['영업이익','당기순이익']
level_1=['컨센서스','잠정치']

idx=pd.MultiIndex.from_product([level_0,level_1])

print(idx)
print(idx.get_level_values(0))

MultiIndex([( '영업이익', '컨센서스'),
            ( '영업이익',  '잠정치'),
            ('당기순이익', '컨센서스'),
            ('당기순이익',  '잠정치')],
           )
Index(['영업이익', '영업이익', '당기순이익', '당기순이익'], dtype='object')


In [211]:
#columns=pd.MultiIndex.from_product([level_0,level_1])
#df=DataFrame(data=data,index=["2020/06","2020/09"],columns=columns)
#print(df)

In [212]:
#print(df[('영업이익','컨센서스')])

In [213]:
#멀티 컬럼으로 표현된 데이터를 멀티 인덱스를 갖는 데이터로 변환.
#x축과 y축 변경

#print(df.transpose())
#print(df.T)

가로 긴 형태는 마우스를 사용해 옆으로 옮겨가며 테이블을 읽어야 하여 스크롤을 통해서 비교적 편하게 테이블을 읽을 수 있는 세세로 긴 데이터 선호

### **5.12 Stack/Unstack**

stack: 컬럼의 항목을 인덱스로 옮겨 데이터를 길게 쌓아 올린 형태로 변경

unstack: 인덱스를 컬럼으로 변경

In [214]:
data=[
    [1000,900,800,700],
    [1200,1400,900,800], #이 쉼표는 멀까
]

level_0=['영업이익','당기순이익']
level_1=['컨센서스','잠정치']
columns=pd.MultiIndex.from_product([level_0,level_1])

df=DataFrame(data=data,index=["2020/06","2020/09"],columns=columns)
print(df)
print(df.stack()) #하위레벨 인덱스로 변경

         영업이익       당기순이익     
         컨센서스   잠정치  컨센서스  잠정치
2020/06  1000   900   800  700
2020/09  1200  1400   900  800
              영업이익  당기순이익
2020/06 잠정치    900    700
        컨센서스  1000    800
2020/09 잠정치   1400    800
        컨센서스  1200    900


  print(df.stack()) #하위레벨 인덱스로 변경


In [215]:
print(df.stack(level=0)) #상위레벨 인덱스로 변경

               컨센서스   잠정치
2020/06 당기순이익   800   700
        영업이익   1000   900
2020/09 당기순이익   900   800
        영업이익   1200  1400


  print(df.stack(level=0)) #상위레벨 인덱스로 변경


In [216]:
print(df.stack().stack()) #2차원 컬럼을 가진 데이터프레임에서 모든 칼럼이 인덱스로 이동하고 데이터가 길게 쌓임.!! 2차원에서!!

2020/06  잠정치   영업이익      900
               당기순이익     700
         컨센서스  영업이익     1000
               당기순이익     800
2020/09  잠정치   영업이익     1400
               당기순이익     800
         컨센서스  영업이익     1200
               당기순이익     900
dtype: int64


  print(df.stack().stack()) #2차원 컬럼을 가진 데이터프레임에서 모든 칼럼이 인덱스로 이동하고 데이터가 길게 쌓임.!! 2차원에서!!


In [217]:
print(df.stack().unstack()) #스택한 것을 다시 컬럼으로 변경해서 원본과 동일한 결과를 반환.

         영업이익       당기순이익     
          잠정치  컨센서스   잠정치 컨센서스
2020/06   900  1000   700  800
2020/09  1400  1200   800  900


  print(df.stack().unstack()) #스택한 것을 다시 컬럼으로 변경해서 원본과 동일한 결과를 반환.


**level0만 언스택 불가능?**

### **5.13 Pivot**

엑셀-필요한 데이터를 추출해서 데이터를 재구성하는 기능

파이썬-인덱스와 컬럼 및 데이터를 지정해서 새로운 데이터프레임 생성

In [218]:
data=[
    ["2021-08-12","삼성전자",77000],
    ["2021-08-13","삼성전자",74400],
    ["2021-08-12","LG전자",153000],
    ["2021-08-13","LG전자",150500],
    ["2021-08-12","SK하이닉스",100500],
    ["2021-08-13","SK하이닉스",101500],
]

columns=["날짜","종목명","종가"]
df=DataFrame(data=data,columns=columns)
print(df)

           날짜     종목명      종가
0  2021-08-12    삼성전자   77000
1  2021-08-13    삼성전자   74400
2  2021-08-12    LG전자  153000
3  2021-08-13    LG전자  150500
4  2021-08-12  SK하이닉스  100500
5  2021-08-13  SK하이닉스  101500


피벗함수는 data,index,columns,values파라미터를 입력받음.

In [219]:
pd.pivot(data=df,index="날짜",columns="종목명",values="종가")

종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


groupby와 unstack를 사용해서 같은 결과를 만들 수 있음.

In [220]:
df.groupby(["날짜","종목명"]).mean().unstack() #위와 동일한 결과

Unnamed: 0_level_0,종가,종가,종가
종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2021-08-12,153000.0,100500.0,77000.0
2021-08-13,150500.0,101500.0,74400.0


### **5.14 Melt**

컬럼의 수가 많아서 넓은 와이드 포맷의 데이터프레임을 세로로 긴 롱 포맷의 데이터프레임으로 재구조화

'컬럼을 녹여 값으로 변경한다'

stack메서드를 호출하고 인덱스를 reset한 것과 비슷

In [221]:
df

Unnamed: 0,날짜,종목명,종가
0,2021-08-12,삼성전자,77000
1,2021-08-13,삼성전자,74400
2,2021-08-12,LG전자,153000
3,2021-08-13,LG전자,150500
4,2021-08-12,SK하이닉스,100500
5,2021-08-13,SK하이닉스,101500


In [222]:
df.melt(id_vars=['날짜','종목명']) #적절한 데이터셋이 아니기는 하지만 코드 연습을 위해 해봄

Unnamed: 0,날짜,종목명,variable,value
0,2021-08-12,삼성전자,종가,77000
1,2021-08-13,삼성전자,종가,74400
2,2021-08-12,LG전자,종가,153000
3,2021-08-13,LG전자,종가,150500
4,2021-08-12,SK하이닉스,종가,100500
5,2021-08-13,SK하이닉스,종가,101500


In [223]:
df.melt(value_vars=['날짜','종목명']) #선택한 컬럼에 대해서만 melt메서드 적용

Unnamed: 0,variable,value
0,날짜,2021-08-12
1,날짜,2021-08-13
2,날짜,2021-08-12
3,날짜,2021-08-13
4,날짜,2021-08-12
5,날짜,2021-08-13
6,종목명,삼성전자
7,종목명,삼성전자
8,종목명,LG전자
9,종목명,LG전자


### **5.15 파일 저장하기**

판다스의 데이터프레임 객체는 여러 포맷으로 저장할 수 있다.

to_csv메서드를 사용하면 CSV파일로 저장할 수 있고, to_excel메서드를 사용하면 엑셀 파일로 저장할 수 있음.

**데이터프레임을 CSV파일과 엑셀 파일로 저장하는 방법 알아보기**

In [224]:
df

Unnamed: 0,날짜,종목명,종가
0,2021-08-12,삼성전자,77000
1,2021-08-13,삼성전자,74400
2,2021-08-12,LG전자,153000
3,2021-08-13,LG전자,150500
4,2021-08-12,SK하이닉스,100500
5,2021-08-13,SK하이닉스,101500


In [225]:
df.to_csv("data.csv") #현재 노트북이 실행되는 디렉터리에 CSV파일 생성됨.

CSV파일-comma-seperated value의 약자로 단순히 콤마로 구분된 텍스트 파일.

to_csv로 경로 정보를 입력할 수 있음.

In [226]:
#abc라는 폴더 안에 data.csv이름으로 데이터프레임을 저장하라
df.to_csv("abc/data.csv")

In [227]:
#os모듈을 사용하면 폴더 존재 유무를 확인하고 폴더를 생성하는 일까지 코드로 표현 가능

In [228]:
import os
if not os.path.isdir("abc"):
  os.mkdir("abc")
df.to_csv("abc/data.csv")

In [229]:
#최상위 경로에서 파일의 위치까지 모든 경로를 나열하는 절대 경로 방식
#"C:/A/B/C/data.csv"
#폴더를 구분할때는 / 또는 \\사용

**엑셀파일로 저장하기**

In [230]:
df.to_excel("data2.xlsx",sheet_name="종목정보") #기본적으로 Sheet1이라는 이름으로 저장됨.

In [231]:
#인덱스를 제외하고 파일로 저장하기
df.to_excel("data3.xlsx",index=False)
#컬럼명 생략
df.to_excel("data4.xlsx",header=False)

### **5.16 파일 불러오기**

In [232]:
#df=pd.read_excel("code.xlsx")
#df=pd.read_excel("code.xlsx",index_col='cd') #특정 컬럼(cd) 인덱스로 지정
#df=pd.read_excel("code.xlsx",index_col=2) #2번 위치에 있는 컬럼을 인덱스로 지정

In [233]:
#특정컬럼 제거하고 데이터프레임 객체로 읽어보기. - usecols파라미터 사용. usecols=[1,2,3]: 2,3,4번째 컬럼만 사용
#df=pd.read_excel("code.xlsx",index_col='cd',usecols=[1,2,3])

In [234]:
#표 윗부분에 원하지 않는 데이터가 존재하는 경우
#두개의 행을 제거해야 표 안의 값만 데이터프레임으로 읽을 수 있는 경우
#df=pd.read_excel("code.xlsx",header=2,index_col='cd',usecols=[1,2,3]) #2번 행부터 데이터 읽기. 인덱스는 0부터 시작하기 때문에 세번째 행부터 읽기

In [235]:
#CSV파일
#df=pd.read_csv("magic.csv") #엑셀파일에서와 마찬가지로 header,index_col,usecols옵션 모두 사용 가능

In [236]:
#문자형이 숫자형으로 읽혀 앞쪽에 위치하는 0이 사라지는 문제 발생되기도 함
#df=pd.read_csv("magic.csv",dtype={'code':str})