# Pandas

---



## Pandas에서 제공하는 대표적인 자료구조

        1) Series 
            값 + index
            
        2) DataFrame
        
        3) https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 데이터 프레임은 시리즈로 이루어졌다 
# 시리즈 먼저 파악해 보자 
# enumerate()와 비슷하나 Series는 데이터 형식이다 
# 자동으로 index를 붙여준다


### Series

In [3]:
s = pd.Series([9904312,3448737,2890451,2466052])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


In [4]:
for i in enumerate([9904312,3448737,2890451,2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [5]:
# 인덱스를 자유롭게 지정
s = pd.Series([9904312,3448737,2890451,2466052],index=['서울','부산','인천','대구'])
print(s)
print("----------------------")
print(s.index)
print(s.values)
print(type(s.values))

# 인덱스 명 붙이기
s.index.name= "city"
print(s)
s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
----------------------
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]
<class 'numpy.ndarray'>
city
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
city
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [6]:
#백터화 연산
s1 = s/1000000
print(s1)                                       --------------10:20

SyntaxError: illegal target for annotation (<ipython-input-6-f388e9a90b7f>, line 3)

In [None]:
# 인덱싱 

print(s[1],s['부산'])
print(s[[0,3,1]],s[['부산','대구','서울']])
print(s[(s > 250e4) & (s < 500e4)])
print('----------------------------------------')                                                           
print(s[1:3])
print(s['부산':'대구'])
print(s.부산,",",s.서울)

In [None]:
# Series와 Dict
print('서울'in s)
print('대전'in s)

print(s.items())
for k, v in s.items():
    print("%s = %d" %(k, v))
print("------------------------------")
s2 = pd.Series({'서울':9631482,"부산":3448737,"인천":2632035,"대전":2466052})
print(s2)

In [None]:
# 인덱스 기반 연산
print(s)
print("--------------")
print(s2)
print("--------------")
ds=s-s2
print(ds)                            
print(s.values-s2.values)

In [None]:
# 결촉치 제거

print(ds)
print(ds.notnull())
print(ds[ds.notnull()])

print("--------------------------------")

#인구 증가율 : (끝연도 -시작연도/시작연도)*100                            12:20
ds2 = (s2 -s)/s*100
print(ds2)

In [None]:
# 데이터를 수정, 삭제, 갱신
ds2['부산']=1.63
print(ds2)
ds2['大邱']=1.41
print(ds2)
ds2['首尔']=1.41
print(ds2)

---

### DataFrame 

---

In [None]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [None]:
print(type(data))
print(data)

In [None]:
df = pd.DataFrame(data)
print(df)
df

In [None]:
# 컬럼의 위치 변경
cols = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
df = pd.DataFrame(data,columns=cols)
df


In [None]:
# 인덱스 변경
idx = ["서울","부산","인천","대구"]
df = pd.DataFrame(data,columns=cols,index=idx)
df

In [None]:
print(df.values())
print(df.columns())
print(df.index())

In [None]:
#컬럼과 인덱스에 이름 부여 

df.index.name = '도시'
df.columns.name = '특성'
df

In [None]:
# 전치 가능
df.T

In [None]:
# 열 인덱싱 
print(df["지역"])
print(type(df["지역"]))
print(df["2015"])
print('--------------------')
print(df[["지역"]])                      # 2차원인덱스로 접근 가능 / 2차원으로 접근했을 때 데이터는 데이터프레임형태 
print(type(df[["지역"]]))
print(df[["2005","2010"]])
# df[0] 안됨

In [None]:
# 행 인덱스 : 반드시 슬라이스 이용 (행은 계속 늘어나기 때문에 )
df[:]
df[:1]
df[1:2]
df["서울":"서울"]

In [None]:
# 동시에 행과 열에 접근하는 방법 
df["2005"]["서울"]  # [열의 위치][]
df[["2005","2010"]][:"서울"]   # 데이터 프레임은 슬라이싱                 ---------1:20

In [None]:
# 열 갱신, 추가, 삭제
df["2010-2015 증가율"]= df["2010-2015 증가율"]*100 
df                   

df["2005-2010 증가율"] = ((df["2010"]-df["2005"])/df["2005"]*100).round(2)
df              # 없는것은  새로 추가됨

del df["2010-2015 증가율"]
df

### 실습문제

In [None]:
data = {
    "국어":[80,90,70,30],
    "영어":[90,70,60,40],
    "수학":[90,60,80,70]    
}

In [None]:
chun = pd.DataFrame(data,index=["춘향","몽룡","향단","방자"])
chun

In [None]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터프레임 df를 작성하시오.                             -----3:20


# 2. 모든 학생의 수학점수를 나타내시오


# 3. 모든 학생의 국어와 영어 점수를 나타내시오


# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.


# 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오


# 6. 춘향의 점수를 데이터 프레임으로 나타내시오


# 7. 향단의 점수를 Series로 나타내시오.

In [None]:
# 2. 모든 학생의 수학점수를 나타내시오

print(chun["수학"])

In [None]:
# 3. 모든 학생의 국어와 영어 점수를 나타내시오

print(chun[["국어","영어"]])

In [None]:
# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.
chun["평균점수"] = ((chun["국어"]+chun["영어"]+chun["수학"])/3)
chun

In [None]:
# 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오

chun["영어"]["방자"] = 80
chun["평균점수"] = ((chun["국어"]+chun["영어"]+chun["수학"])/len(chun))
chun

In [None]:
# 6. 춘향의 점수를 데이터 프레임으로 나타내시오

print(chun[0:1])
print(chun["춘향":"춘향"])
print(type(chun[0:1]))



In [None]:
# 7. 향단의 점수를 Series로 나타내시오.

chun.loc["향단"]
print(type(chun.loc["향단"]))

### 데이터입출력 
---

        read.csv()   : 파일을 읽을때 데이터프레임으로 읽어온다
        to_csv()     : 데이터프레임의 내용을 파일로 업로드
        read_table() : csv가 아닌 일반 파일을 불러올때 

In [None]:
%%writefile data/sample1.csv                                 
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

In [None]:
# 매직명령어는 무조건 첫줄에 달아야한다.

In [None]:
sample1 = pd.read_csv('data/sample1.csv')
sample1

In [None]:
%%writefile data/sample2.csv                                 
1,1.11,one
2,2.22,two
3,3.33,three

In [None]:
# 컬럼명을 부여
sample2 = pd.read_csv('data/sample2.csv',names=["c1","c2","c3"])
sample2


In [None]:
# 특정열을 인덱스로 지정하고 싶을 때 
sample1 = pd.read_csv('data/sample1.csv',index_col="c3")
sample1

In [None]:
%%writefile data/sample3.csv          
파일제목 : sample3.csv
데이터포맷의 설명 :
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

In [None]:
sample3 = pd.read_csv('data/sample3.csv',skiprows=[0,1])   # 지정하는 행을 건너뛰고 실제데이터만 불러올수있다
sample3

In [None]:
%%writefile data/sample4.csv
c1,c2,c3
1,1.11,one
2,,two
누락,3.33,three

In [None]:
sample4 = pd.read_csv('data/sample4.csv',na_values=[" ","누락"])       # Nan  : Not A Number
sample4

In [None]:
%%writefile data/sample5.txt
c1     c2     c3     c4
0.23   0.33   0.354  0.2389
0.123  0.345  0.567  0.986

In [None]:
sample5 = pd.read_table('data/sample5.txt',sep='\s+')    # 정규 표현식 사용
sample5

In [None]:
# to_csv()

df.to_csv('data/sample6.csv')
df.to_csv('data/sample7.csv',sep='|')
df.to_csv('data/sample8.csv', index=False, header= False)
sample4.to_csv("data/samplep.txt",sep="|",na_rep="누락")                  # 결측치가 "누락"으로 표시되게 저장   -----4:20

###  고급인덱싱 : indexer     
--- 
        
        ☆  loc     : 라벨값 기반의 2차원 인덱싱을 지원하는 익덱서
        ☆  iloc    : 순서를 나타내는 정수기반의 2차원 인덱서
            ix
            at
            iat

#####  loc

In [None]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=['a','b','c'], columns=['A','B','C','D'])
df

In [None]:
df[:'a']
df.loc['a']   # 행우선  인덱서를 사용하면 Series로 타입변경

df.loc['a':'b']   # 2개 이상이면 DataFrame 형태로 변경

In [None]:
#df[['a','c']]
df.loc[['a','c']]

In [None]:
df.A>15

df.loc[df.A>15]

In [None]:
def select_rows(df,num):
    return df.A > num

###################################

select_rows(df,15)
df.loc[select_rows(df,15)]

In [None]:
# 인덱싱을 행과 열로 모두 받을 경우 
df['A']['b']     # 기본인덱스를 사용했을 때  열이우선  
df.loc['b']['A'] #인덱서를 사용했을때        행이우선

# df["A",'b'] 
df.loc['b','A']
df.loc['b':,"A"]
df.loc['a',:]             # a 행을 다 가져온다 
df.loc[['a','b'],['B','C']]


# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출
df
df.loc[:,df.loc["a",:]<=11]                      # 행과열을 ,로 구분해서 가져올수있다

##### iloc

In [None]:
df.iloc[0,1]
#df.iloc['a','b']   XXXX
#df.loc[0,1]   XXXX

In [None]:
df.iloc[:2,2]
df.iloc[0,-2:]    # 마지막 위치를 바로 접근할 수 있다 

##### at,iat

In [None]:
%timeit df.loc['a',"A"]
%timeit df.at['a',"A"]


In [None]:
#시간을 측정해주는 매직명령

## 데이터 조작 



### 데이터 개수 카운팅

In [None]:
import pandas as pd
import numpy as np

In [None]:
# count()

s = pd.Series(range(10))
s.count()

s[3] = np.nan          # 결측치 nan 입력
s.count()              # 카운팅시 결측치는 빼고 카운팅한다 

np.random.seed(2)      # 고정된 난수 seed 
df = pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
print(df)
print("--------------------------------")
df.count()

df.iloc[2,3] = np.nan
df.count()             # 데이터 프레임 카운팅은 열을 기준으로 카운팅한다

df.count(axis=0)       
df.count(axis=1)


In [None]:
# value_counts()   : 카테고리 별로 개수 세기

np.random.seed(1)

s = pd.Series(np.random.randint(6,size=100))

s.head(10)          # 앞에서 부터 _개 뽑아서 보기 
s.tail(10)          # 끝에서 부터 _개 뽑아서 보기

s.value_counts()    

#df.value_counts()   # value_count는 Series에서만 가능 
df[0].value_counts()  # >> 각 열마다 별도(슬라이싱)로 적용해야 한다.

---


### 정렬 

    sort_index()
    sort_values()
    - 결측치는 정렬의 대상이 되지 않는다.

In [None]:
s.value_counts().sort_index
s.value_counts().sort_values(ascending=False)
print(df)
print("---------------------")

#by="열 번호"
df.sort_values(by=2)                       # by를 사용하여 열의 위치를 지정 /반드시 기준을 정해야 한다 
#df.sort_values(by=[1,2])                   # by 에 리스트 값을 넣으면 입력 순서대로  정렬
#df.sort_index     

# 원본을 바꾸는 방법
df =  df.sort_values(by=2)
df.sort_values(by=2, inplace=True)        # inplace=True , 원본을 수정
df.sort_values(by=3, na_position="first") # 결측치는 정령대상에서 제외되나 na_position을 사용하면 제일앞,뒤에 위치 시킬수 있다

In [None]:

df.sort_values(by=3, na_position="first")

---


### 행/열 합계



In [None]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10,size=(4,8)))
df

In [None]:
df.sum()            # 열의 합계
df.sum(axis=0)      # 열의 합계
df.sum(axis=1)      # 행의 합계

df.loc["colsum",:]=df.sum()  # 데이터 프레임에 합계행 추가하기
df

In [None]:
df.sum(axis=1)      #행의 합계

df["rowsum"]=df.sum(axis=1)                 #데이터 프레임에 합계열 추가 
df

---

### apply()

        행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
        인수로 행 또는 열을 받는  함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [None]:
df = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df

In [None]:
def diff(x):
    return x.max()-x.min()
###################################

diff(df["A"])
diff(df["B"])
diff(df["C"])

df.apply(diff)             # 각 열별로 함수를 실행시켜 출력시켜준다 
df.apply(diff,axis=1)      # 행별로 함수 출력 

df.apply(lambda x: x.max()-x.min())


In [None]:
#print(df["A"].value_counts())
#print(df["B"].value_counts())
#print(df["C"].value_counts())
df.apply(pd.value_counts)

In [None]:
#NAN값을 원하는 값으로 변경 : fillna()
df.apply(pd.value_counts).fillna(0).astype(int)

### 실수값을 카테고리 값으로 변환

                cut ()
                qcut ()

In [None]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x = ages, bins = [1, 15, 25, 35, 60, 99],
            labels = ["미성년자", "청년", "중년", "장년", "노년"])      # 범위를 넘어가면 nan값
print(cat)

print(type(cat))
print(cat.categories)
print(cat.codes)

df = pd.DataFrame(ages, columns=["ages"])
df["age_cat"] =cat
df

In [None]:
#qcut()

data = np.random.randn(1000)
cat2 = pd.qcut(data,4,labels=["Q1","Q2","Q3","Q4"])        # 4 등분을 할것이다             일정하게 잘라내는것
cat2
cat2.value_counts()  

## 인덱스 조작

#### 인덱스 설정 및 제거
        
        - set_index()
        - reset_index()

In [None]:
np.random.seed(0)
                                                   # 열이 같으므로 vstack으로 합
df1= pd.DataFrame(np.vstack([list("ABCDE"),np.round(np.random.rand(3,5),2)]).T,
                 columns=["C1","C2","C3","C4"])
df1

In [None]:
df2 =df1.set_index("C1")
df2
# df1.set_index("C2")
#df2.reset_index()          # set_index로 변환시킨 인덱스 원상복귀
df2.reset_index(drop=True)  # 현재 인덱스를 버리고 기존의 인덱스를 불러와라 

### 다중인덱스


In [None]:
np.random.seed(0)

df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3


df3.columns.names =["Cidx1","Cidx2"]
df3
df3.T        # 다중 인덱스

In [None]:
np.random.seed(0)

df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                  index=[["M","M","M","F","F","F"],
                         ["id_" + str(i+1) for i in range(3)]*2])
df4

df4.columns.names =["Cidx1","Cidx2"]
df4.index.names =["Ridx1","Ridx2"]
df4

#### 행인덱스와 열인덱스의 교환
        
        
        - stack()   : 열을 행으로
        - unstack() : 행을 열로 

In [None]:
df4.stack("Cidx1")
df4.stack(1) #=df4.stack("Cidx2")


df4.unstack("Ridx2")
df4.unstack(0) #=df4.unstack("Ridx1")

### 인덱싱 

In [None]:
print(df3)
print("--------------------------------")

df3[("B","C1")]      # 튜플로 묶어서 인덱싱
df3[("B","C1")][0]
df3[("B","C1")][0:2]


df3.loc[:,("B","C1")]
df3.loc[0,("B","C1")]
df3.loc[0:2,("B","C1")]

df3.iloc[0,2]   # iloc는 그냥 01234 순서대로 인덱싱



In [None]:
### df4를 이용해서 인덱싱

# 첫번째 행, 첫번째 열에 있는 1.76 출력


# 첫번째 열 1.76 ~ -2.55까지 출력


# 첫번째 행의 모든 컬럼값을 출력


# 맨 마지막 행에 "ALL"이란 인덱스를 추가해서 각 열의 합을 출력
df4

In [None]:
# 첫번째 행, 첫번째 열에 있는 1.76 출력
df4.iloc[0,0]
# 첫번째 열 1.76 ~ -2.55까지 출력
df4["A","C"]
# 첫번째 행의 모든 컬럼값을 출력
df4.iloc[:1,:]
# 맨 마지막 행에 "ALL"이란 인덱스를 추가해서 각 열의 합을 출력
df4.loc["ALL",:] = df4.sum()
df4

### 인덱스 순서교환 : swaplevel(i,j,axis)

In [None]:
df5 = df4.swaplevel("Ridx1","Ridx2",axis=0)
df5

df6 =df4.swaplevel("Cidx1","Cidx2",axis=1)
df6

###  정렬

In [None]:
df4.sort_index(level=0)  # 맨앞의 인덱스 정렬
df4.sort_index(level=0,axis=0)

df4.sort_index(level=0,axis=1,ascending=False)


In [None]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

In [None]:
#1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임을 만든다

#2. 데이터 프레임에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

#3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임을 만든다.

#4. 데이터 프레임에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

### 데이터 프레임 병합(합성)



####  merge()
            : 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.
              이 때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [None]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

In [None]:
pd.merge(df1,df2)     #inner join 이게 머지이~ 
pd.merge(df1,df2,how="left")
pd.merge(df1,df2,how="right")
pd.merge(df1,df2,how="outer")   # fullout jion 

In [None]:
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})                                                                   

In [None]:
pd.merge(df1,df2,on="고객명")    # 공통열이 여러개일 경우 지정  on = ""

In [None]:
# 공통된 키가 없는 경우 

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

In [None]:
pd.merge(df1,df2,left_on="이름",right_on="성명")

In [None]:
# 인덱스를 기준열로  사용하는 경우 (한쪽은 컬럼 한쪽은 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2



pd.merge(df1,df2,left_on=["도시","연도"],right_index=True)    # 왼쪽은 컬럼으로 묶어주고 오른쪽은 인덱스로 인식해서 ~!~#!ㅉㅇㄴ

In [None]:
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

In [None]:
pd.merge(df1,df2,left_index=True,right_index=True)
pd.merge(df1,df2,left_index=True,right_index=True,how ="outer")

df1.join(df2)
df1.join(df2, how='outer')

###  concat()
                
        : 기준 열을 사용하지 않고 단순히 데이터를 연결 

In [None]:
s1 = pd.Series([0,1], index=["A","B"])
s2 = pd.Series([2,3,4], index=["A","B","C"])
pd.concat([s1, s2])

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")

In [None]:
pd.concat([df1,df2])
pd.concat([df1,df2],axis=0)
pd.concat([df1,df2],axis=1)


In [None]:
"""
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

매출	비용
1월	1000	1500
2월	1500	2000
3월	3000	2500
4월	4000	2700
5월	5000	3000
6월	6000	3200

매출	비용
7월	4500	2800
8월	4000	2700
9월	5000	3000
10월	6000	3200
11월	3000	2500
12월	2000	2000
"""

## 피봇 테이블과 그룹분석 : pivot(), groupby() , pivot_table()

### pivot() 

        DataFrame.pivot(self,index=None,columns=None ,values=None)

In [27]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [28]:
# 각 도시에서 연도별 인구 수를 알고 싶다. 

df.pivot(index="도시",columns="연도",values="인구")
# 객체가 있을 경우 객체를 이용하는 것이 더 편함
#pd.pivot(df.) : 객체가 없는 경우 

#앞에서 배운 함수들로 피봇모양 만들기
# ["인구"] 하나면 Series 
# [["인구"]] : 데이터프레임
df.set_index(["도시","연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### groupby()
    
        DataFrame.groupby(self, by=None, axis=0, level=None, as_index: bool = True, 
        sort: bool = True, group_keys: bool = True, squeeze: bool = False, observed: bool = False)
        
        - 특정조건에 맞는 데이터가 하나 이상, 즉 그룹을 이루는 경우에 사용 
          pivot()와는 달리 키에 의해서 결정되는 데이터가 여러 개있어도 괜찮다.
          
        - 그룹 연산 메서드 
            size(),count() :개수
            mean(), median(), min(), max()
            sum(),prod(),std(),var(),quantile()
            first(),last()
            agg(),aggregate()
            describe()
            apply()
            transform()
            ...

In [8]:
import pandas as pd
import numpy as np

df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [10]:
g = df2.groupby(by="key1")
g.sum()                      # 단순히 group by만 쓰면 주소 값만 출력된다 
                             # sum()함수와 함께 쓴다


Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [23]:
print(df2.groupby("key1").sum())         # by 생략가능 
print(df2.groupby(df2.key1).sum())
print("----------------------------------")
print(df2)
print(df2.data1.groupby(df2.key1).sum())
print("----------------------------------")
print(df2.groupby(df2.key1)["data1"].sum())        # 순서만 다를 뿐 결과값은 같다 
print("----------------------------------")
print([df2.groupby(df2.key1).sum()["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
      data1  data2
key1              
A         8     80
B         7     70
----------------------------------
  key1 key2  data1  data2
0    A  one      1     10
1    A  two      2     20
2    B  one      3     30
3    B  two      4     40
4    A  one      5     50
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------------
[key1
A    8
B    7
Name: data1, dtype: int64]


In [26]:
df2.data1.groupby([df2.key1,df2.key2]).sum()             # pivot은 불가능(key를 두개이상 가질수 없음) /groupby는 가능
df2.data1.groupby([df2.key1,df2.key2]).sum().unstack()   # unstack을 이용해서 dataframe으로 return

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [32]:
df["인구"].groupby([df.지역,df.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [33]:
## agg()
                                             
import seaborn as sns
iris = sns.load_dataset("iris")
iris


#다음 데이터는 150 송이의 붓꽃(iris)에 대해 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width)을 측정한 데이터이다. (Seaborn 패키지가 설치되어 있어야 한다.

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [36]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율로 구해보자 

def peak_to_peak_ratio(x):
    return x.max() - x.min()
###########################################

iris.groupby(iris.species).agg(peak_to_peak_ratio)
iris.groupby(iris.species).apply(peak_to_peak_ratio)



Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.5,2.1,0.9,0.5
versicolor,2.1,1.4,2.1,0.8
virginica,3.0,1.6,2.4,1.1


In [48]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은것 3개 데이터 추출
def min3(df):
    return df.sort_values(by='petal_length')[:3]

######################################################

iris.groupby(iris.species).apply(min3)

#iris.groupby(iris.species).agg(min3)              # agg는 데이터 개수만큼 호출1



Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,22,4.6,3.6,1.0,0.2,setosa
setosa,13,4.3,3.0,1.1,0.1,setosa
setosa,14,5.8,4.0,1.2,0.2,setosa
versicolor,98,5.1,2.5,3.0,1.1,versicolor
versicolor,93,5.0,2.3,3.3,1.0,versicolor
versicolor,57,4.9,2.4,3.3,1.0,versicolor
virginica,106,4.9,2.5,4.5,1.7,virginica
virginica,126,6.2,2.8,4.8,1.8,virginica
virginica,138,6.0,3.0,4.8,1.8,virginica


In [46]:
def test(df):
    return 0
print(iris.groupby(iris.species).apply(test))           # apply는 데이터 개수만큼 호출 ( 일부만 불러 올때 사용)
print(iris.groupby(iris.species).agg(test))             # agg는 모든 데이터 개수를 호출

species
setosa        0
versicolor    0
virginica     0
dtype: int64
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               0.0          0.0           0.0          0.0
versicolor           0.0          0.0           0.0          0.0
virginica            0.0          0.0           0.0          0.0


In [47]:
# 품종별로 함계,평균, 표준편차
iris.groupby("species").agg([np.sum,np.mean,np.std])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [50]:
iris.groupby("species").describe().T      # 종류별로 묶을 후 하나하나 다 꺼내서 처리

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [57]:
# transtorm    agg,apply와 유사하나 자체적으로 변환까지 해준다 
# 꽃잎의 길이로 대,중,소를 나누자
def func_qcut(s):
    return pd.qcut(s,3,labels=["대","중","소"])

#################################################

iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(func_qcut)
    
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


In [60]:

df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [85]:

# 도시별로 과일의 가격 평균과 수량 평균을 구해보시오

df.groupby("city").mean()

# 도시별, 과일별 가격평균과 수량평균을 구해보시오

df.groupby(["city","fruits"]).mean()

# 위의 문제에서 도시별, 과일별 라벨을 인덱스로 하고싶지 않을 경우

df.groupby(["city","fruits"],as_index=False).mean()

# 도시별로 가격의 평균과 수량의 합계를 동시에 구하고자 했을 때  agg()

df.groupby(["city"]).agg({"price":np.mean,"quantity":np.sum})

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,10
서울,250.0,18


###  pivot_table()
        
        (self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, 
         margins=False, dropna=True, margins_name='All', observed=False)
         
         - values : 분석할 데이터프레임에서 분석할 열
         - aggfunc : 분석 메서드
         - fill_values : NAN 대체값
         - dropna :NAN에 해당하는 값을 버릴지 여부
         - margins : 행과 열 끝에 소계 추가 

In [88]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [89]:
df.pivot("도시","연도","인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [None]:
### df.pivot_table("인구","도시","연도")   #변수의 배열이 다를 뿐

In [95]:
df.pivot_table("인구","도시","연도",aggfunc=sum, margins = True,
              margins_name="합계",fill_value=0)  

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


In [98]:
# 다중인덱스     pivot + groupby + a 
df.pivot_table(values='인구',index=['연도','도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


### 활용 예제

In [101]:
# tips : 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지는지를 찾는 데이터
import seaborn as sns
tips = sns.load_dataset("tips")
tips.describe()
tips.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


In [131]:
# 식사대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct를 추가 
tips["tip_pct"]=tips.tip / tips.total_bill
#성별로 인원 수 파악 groupby
tips.groupby("sex").count()
tips.groupby("sex").size()
#성별,흡연유무별로 인원수 파악 
tips.groupby(["sex","smoker"]).size()
# 위에 두 정보를 하나의 테이블로 출력(pivot_table 활용)
tips.pivot_table(values='tip_pct',index='sex',columns='smoker',aggfunc='count',margins=True)
# 성별에 따른 팁 비율 
tips.groupby("sex")[["tip_pct"]].mean()
#흡연여부에 따른 팁 비율
tips.groupby("smoker")[["tip_pct"]].mean()
#위의 정보를 하나의 테이블로 출력
tips.pivot_table("tip_pct","sex","smoker")
tips.pivot_table("tip_pct",["sex","smoker"])
#팁의 비율이 요일과 점심/저녁 여부,인원수에 어떤 영향을 받는지 분석
tips.pivot_table("tip_pct","day")
tips.pivot_table("tip_pct","time")
tips.pivot_table("tip_pct","size")
tips.pivot_table("tip_pct",["day","time","size"])
tips.groupby(["day","time","size"])[["tip_pct"]].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [135]:
#성별 , 흡연, 유무별로 가장 많은 팁과 가장 적은 팁의 차이 

def peak_to_peak(x):
    return x.max() - x.min()

tips.groupby(["sex","smoker"])[["tip"]].apply(peak_to_peak)
tips.groupby(["sex","smoker"]).agg({"tip_pct":"mean","total_bill":peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [136]:
tips.pivot_table(['tip_pct','size'],['sex','day'],'smoker')

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [141]:
titanic=sns.load_dataset('titanic')
titanic.count()
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [144]:
# 나이를 미성년(1~20), 성년(21~60), 노년(61~100)
# titanic테이블에 age_class라는 파생변수 추가 

bins=[1,20,60,100]
labels = ["미성년","성년","노년"]

titanic['age_class'] = pd.cut(titanic['age'],bins=bins,labels=labels)
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,성년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,성년
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,성년
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,성년
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,성년
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,성년
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,미성년
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,성년
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,미성년


In [153]:
# 성별, 나이대별로 객실별 생존여부의 평균값 조회

titanic.pivot_table("survived",["sex","age_class"],"class")
titanic.groupby(["sex","age_class","class"])[["survived"]].mean().unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,class,First,Second,Third
sex,age_class,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,미성년,0.928571,1.0,0.465116
female,성년,0.971014,0.896552,0.407407
female,노년,1.0,,1.0
male,미성년,0.5,0.357143,0.180556
male,성년,0.426829,0.051948,0.132948
male,노년,0.083333,0.333333,0.0


##  시계열 데이터

            DataTimeindex 자료형
                pd.to_datetime() :문자열을 날짜타입으로 변환
                pd.date_range() : 날짜의 범위 지정

In [155]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)  
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [163]:
# 날짜를 인덱스로 활용
np.random.seed(0)
s = pd.Series(np.random.randn(4),index =idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

In [166]:
# 날짜 데이터 생성

pd.date_range("2020-1-1","2020-4-30")
pd.date_range("2020-4-1",periods = 30)    
"""
freq
    s : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫 날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일 중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

DatetimeIndex(['2020-04-01', '2020-04-02', '2020-04-03', '2020-04-04',
               '2020-04-05', '2020-04-06', '2020-04-07', '2020-04-08',
               '2020-04-09', '2020-04-10', '2020-04-11', '2020-04-12',
               '2020-04-13', '2020-04-14', '2020-04-15', '2020-04-16',
               '2020-04-17', '2020-04-18', '2020-04-19', '2020-04-20',
               '2020-04-21', '2020-04-22', '2020-04-23', '2020-04-24',
               '2020-04-25', '2020-04-26', '2020-04-27', '2020-04-28',
               '2020-04-29', '2020-04-30'],
              dtype='datetime64[ns]', freq='D')

In [173]:
pd.date_range("2020-1-1","2020-1-30",freq="B")

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-20', '2020-01-21', '2020-01-22',
               '2020-01-23', '2020-01-24', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30'],
              dtype='datetime64[ns]', freq='B')

In [180]:
# Shift 연산자 

np.random.seed(0)

ts = pd.Series(np.random.randn(4),
               index = pd.date_range("2020-1-1",periods=4,freq="M"))
print(ts)
print("---------------------------------")
print(ts.shift(1))  #데이터가 한칸씩 이동 
print("---------------------------------")
print(ts.shift(-1))
print("---------------------------------")
print(ts.shift(1,freq="M"))  # 인덱스가 이동
print("---------------------------------")
print(ts.shift(1,freq="W"))  


2020-01-31    1.764052
2020-02-29    0.400157
2020-03-31    0.978738
2020-04-30    2.240893
Freq: M, dtype: float64
---------------------------------
2020-01-31         NaN
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
Freq: M, dtype: float64
---------------------------------
2020-01-31    0.400157
2020-02-29    0.978738
2020-03-31    2.240893
2020-04-30         NaN
Freq: M, dtype: float64
---------------------------------
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
2020-05-31    2.240893
Freq: M, dtype: float64
---------------------------------
2020-02-02    1.764052
2020-03-01    0.400157
2020-04-05    0.978738
2020-05-03    2.240893
Freq: WOM-1SUN, dtype: float64


In [181]:
# resampling : 시간 간격을 다시 재조정
"""
  - up-sampling : 시간 구간이 작아지면 데이터 양이 증가
  - down-sampling : 시간 구간이 커지면 데이터 양이 감소
"""

'\n  - up-sampling : 시간 구간이 작아지면 데이터 양이 증가\n  - down-sampling : 시간 구간이 커지면 데이터 양이 감소\n'

In [183]:
#down ssampling : 그룹연산을 통해 대표값 구하기 
ts = pd.Series(np.random.randn(100), index=pd.date_range(
    "2018-1-1", periods=100))
ts.head(10)



2018-01-01   -1.173123
2018-01-02    1.943621
2018-01-03   -0.413619
2018-01-04   -0.747455
2018-01-05    1.922942
2018-01-06    1.480515
2018-01-07    1.867559
2018-01-08    0.906045
2018-01-09   -0.861226
2018-01-10    1.910065
Freq: D, dtype: float64

In [184]:
ts.resample("W").mean()

2018-01-07    0.697206
2018-01-14    0.468797
2018-01-21    0.249052
2018-01-28    0.301938
2018-02-04    0.023198
2018-02-11    0.283486
2018-02-18   -0.096136
2018-02-25   -0.446708
2018-03-04    0.155312
2018-03-11    0.200799
2018-03-18   -0.376808
2018-03-25   -0.895860
2018-04-01   -0.129493
2018-04-08    0.616422
2018-04-15    0.877462
Freq: W-SUN, dtype: float64

In [185]:
ts.resample("M").first()

2018-01-31   -1.173123
2018-02-28    0.676433
2018-03-31    0.087551
2018-04-30    0.523277
Freq: M, dtype: float64

In [None]:
#up sampling
"""
    - ffill()forward :앞에서 나올 데이터를 미리 사용 
    - bffill() : backwardfilling: 뒤에서 나올 데이터를 옆에서 미리사용
"""

In [186]:
ts.resample('30s').ffill().head(20)
ts.resample('30s').bfill().head(20)

2018-01-01 00:00:00   -1.173123
2018-01-01 00:00:30    1.943621
2018-01-01 00:01:00    1.943621
2018-01-01 00:01:30    1.943621
2018-01-01 00:02:00    1.943621
2018-01-01 00:02:30    1.943621
2018-01-01 00:03:00    1.943621
2018-01-01 00:03:30    1.943621
2018-01-01 00:04:00    1.943621
2018-01-01 00:04:30    1.943621
2018-01-01 00:05:00    1.943621
2018-01-01 00:05:30    1.943621
2018-01-01 00:06:00    1.943621
2018-01-01 00:06:30    1.943621
2018-01-01 00:07:00    1.943621
2018-01-01 00:07:30    1.943621
2018-01-01 00:08:00    1.943621
2018-01-01 00:08:30    1.943621
2018-01-01 00:09:00    1.943621
2018-01-01 00:09:30    1.943621
Freq: 30S, dtype: float64