In [None]:
import pandas as pd
import numpy as np

In [None]:
s = pd.Series([1,3,5,np.nan,6,8]) # Series는 데이터 프레임을 만들어줌
s

## 날짜를 사용한 데이터 프레임 만들기

In [None]:
dates = pd.date_range('20130101',periods = 6) # periods 파라미터는 Dataframe을 만들기 위한 범위를 정해줌
dates

## 데이터 크기 정하기

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index = dates, # 날짜를 인덱스로 변경함
                 columns = ['A','B','C','D']) # 열의 이름을 정함
# random.randn 는 데이터 프레임의 크기를 정함
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

In [None]:
df.info() # R에서 str와 같은 기능을 하는 함수

In [None]:
df.describe() # R에서 요약통계량을 보여주는 summary와 같은 기능

In [None]:
df.sort_values(by = 'B',ascending = False) # by 파라미터에 정한 값을 기준으로 정렬함
# ascending은 오름차순으로 정렬함

In [None]:
df['A'] # 열추출 가능

In [None]:
df[0:3] # slicing기법 가능

In [None]:
df['20130102':'20130104'] # 인덱스 이름으로 추출가능

## loc[] 사용

In [None]:
df.loc[dates[0]]

In [None]:
df.loc[:,['A','B']]

In [None]:
df.loc['20130102':'20130104',['A','B']]

In [None]:
df.loc[dates[0],'A']

## iloc[]사용

In [None]:
df.iloc[3]

In [None]:
df.iloc[3:5,0:2]

In [None]:
df.iloc[[1,2,4],[0,2]]

In [None]:
df.iloc[1:3,:]

## 조건문도 사용가능

In [None]:
df[(df.A > 0) & (df.B > 0)]

In [None]:
df[df > 0]

## 원본 데이터를 복사하기

In [None]:
df2 = df.copy()

In [None]:
df2['E'] = ['one', 'one','two','three','four','three']
df2

## isin()함수를 사용해서 데이터에 값이 있는지 확인

In [None]:
df2['E'].isin(['two','four'])

In [None]:
df2[df2['E'].isin(['two','four'])]

## apply() 함수 사용

In [None]:
df.apply(np.cumsum)

In [None]:
df.apply(lambda x: x.max() - x.min())

## 데이터 병합하기

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [None]:
result = pd.concat([df1, df2, df3]) # concat함수는 데이터를 세로로 병합
result

In [None]:
result = pd.concat([df1, df2, df3], keys=['x', 'y','z']) # keys파라미터를 사용해서 새로운 범주로 나눔
result

In [None]:
result.index

## 범주(lebals)확인

In [None]:
result.index.get_level_values(0)

In [None]:
result.index.get_level_values(1)

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
result = pd.concat([df1, df4], axis=1) # 가로로 합칠때 index의 합집합을 출력하고 만약 인덱스에 해당하는 값이 없으면 NAN을 출력
result

In [None]:
result = pd.concat([df1, df4], axis=1, join='inner') # index의 교집합만 출력하도록 하는
                                                     # join = 'inner'파라미터
result

In [None]:
result = pd.concat([df1, df4], ignore_index=True) # 인덱스를 무시하고 그냥 합침 
                                                   # ignore_index파라미터
result

## 데이터 병합하기2

In [None]:
left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})