In [2]:
import numpy as np 
import pandas as pd


### 2. Pandas 자료구조
Pandas에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용합니다.

#### 2-1. Series
먼저 Series에 대해서 알아보도록 하겠습니다. Series는 numpy의 array, python의 list와 유사한 성격을 가진 형태로 일련의 데이터를 저장할 수 있는 공간입니다.

In [8]:
# Series 정의하기
series1 = pd.Series([4, 7, -5, 3])
print(series1)
print()

# Series의 값만 확인하기
print(series1.values)
print()

# Series의 인덱스만 확인하기
print(obj.index)
print()

# Series의 자료형 확인하기
print(obj.dtypes)

0    4
1    7
2   -5
3    3
dtype: int64

[ 4  7 -5  3]

RangeIndex(start=0, stop=4, step=1)

int64


In [9]:
# 인덱스의 변경
series2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(series2)

d    4
b    7
a   -5
c    3
dtype: int64


In [24]:
# Dictionary(python) 형태의 자료를 Series(Pandas) 형태로 변환
sdata = {'Kim': 35000, 'Beomwoo': 67000, 'Joan': 12000, 'Choi': 4000}
obj3 = pd.Series(sdata)
print(obj3)
print()

# 인덱스의 변경
obj3.name = 'Salary'
obj3.index.name = "Names"
print(obj3)


Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
dtype: int64

Names
Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
Name: Salary, dtype: int64


#### 2-2. DataFrame
이번에는 DataFrame 대해서 알아보도록 하겠습니다. DataFrame 은 여러개의 Series를 저장할 수 있는 공간입니다.
__Data Frame 정의하기__  
DataFrame을 생성하기 위해서는 안에 들어갈 데이터를 정의해주어야 하는데, python의 dictionary 또는 numpy의 array로 정의할 수 있다.


In [25]:
data = {'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
print(df)

      name  year  points
0  Beomwoo  2013     1.5
1  Beomwoo  2014     1.7
2  Beomwoo  2015     3.6
3      Kim  2016     2.4
4     Park  2015     2.9


In [29]:
# 행 방향의 index
print(df.index)
print()

# 열 방향의 index
print(df.columns)
print()

# 값 얻기
print(df.values)

RangeIndex(start=0, stop=5, step=1, name='Num')

Index(['name', 'year', 'points'], dtype='object', name='Info')

[['Beomwoo' 2013 1.5]
 ['Beomwoo' 2014 1.7]
 ['Beomwoo' 2015 3.6]
 ['Kim' 2016 2.4]
 ['Park' 2015 2.9]]


In [27]:
# 각 인덱스에 대한 이름 설정하기
df.index.name = 'Num'
df.columns.name = 'Info'
print(df)

Info     name  year  points
Num                        
0     Beomwoo  2013     1.5
1     Beomwoo  2014     1.7
2     Beomwoo  2015     3.6
3         Kim  2016     2.4
4        Park  2015     2.9


In [30]:
# DataFrame을 만들면서 columns와 index를 설정
df2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
print(df2)

       year     name  points penalty
one    2013  Beomwoo     1.5     NaN
two    2014  Beomwoo     1.7     NaN
three  2015  Beomwoo     3.6     NaN
four   2016      Kim     2.4     NaN
five   2015     Park     2.9     NaN


In [32]:
# describe() 함수는 DataFrame의 기초통계량 값을 보여준다.
df2.describe()

Unnamed: 0,year,points
count,5.0,5.0
mean,2014.6,2.42
std,1.140175,0.864292
min,2013.0,1.5
25%,2014.0,1.7
50%,2015.0,2.4
75%,2015.0,2.9
max,2016.0,3.6


### 3. Dataframe indexing
#### 3-1. DataFrame에서 열선택하고 수정하기

In [38]:
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
           "year": [2014, 2015, 2016, 2015, 2016],
           "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, columns=["year", "names", "points", "penalty"],
                          index=["one", "two", "three", "four", "five"])

print(df)

       year    names  points penalty
one    2014    Kilho     1.5     NaN
two    2015    Kilho     1.7     NaN
three  2016    Kilho     3.6     NaN
four   2015  Charles     2.4     NaN
five   2016  Charles     2.9     NaN


In [40]:
# year라는 컬럼 선택
print(df['year'])
print()
#같은 값을 뽑아내는 다른 방법
print(df.year)

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64


In [41]:
#한번에 여러 컬럼은 선택하는 법
print(df[['year','points']])

Unnamed: 0,year,points
one,2014,1.5
two,2015,1.7
three,2016,3.6
four,2015,2.4
five,2016,2.9


In [45]:
#한 컬럼을 특정 값으로 대체하는 방법
df['penalty'] = 0.5
print(df)
print()

#한 컬럼에 값을 대입하는 방법
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5]
print(df)
print()

#새로운 컬럼 추가하기
df['zeros'] = np.arange(5)
print(df)

       year    names  points  penalty
one    2014    Kilho     1.5      0.5
two    2015    Kilho     1.7      0.5
three  2016    Kilho     3.6      0.5
four   2015  Charles     2.4      0.5
five   2016  Charles     2.9      0.5

       year    names  points  penalty
one    2014    Kilho     1.5      0.1
two    2015    Kilho     1.7      0.2
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4
five   2016  Charles     2.9      0.5

       year    names  points  penalty  zeros
one    2014    Kilho     1.5      0.1      0
two    2015    Kilho     1.7      0.2      1
three  2016    Kilho     3.6      0.3      2
four   2015  Charles     2.4      0.4      3
five   2016  Charles     2.9      0.5      4


In [46]:
#기존의 컬럼값으로 새로운 컬럼의 생성
df['net_points'] = df['points'] - df['penalty']
print(df)
print()

#boolean 컬럼 생성
df['high_points'] = df['net_points'] > 2.0
print(df)
print()


       year    names  points  penalty  zeros  net_points
one    2014    Kilho     1.5      0.1      0         1.4
two    2015    Kilho     1.7      0.2      1         1.5
three  2016    Kilho     3.6      0.3      2         3.3
four   2015  Charles     2.4      0.4      3         2.0
five   2016  Charles     2.9      0.5      4         2.4

       year    names  points  penalty  zeros  net_points  high_points
one    2014    Kilho     1.5      0.1      0         1.4        False
two    2015    Kilho     1.7      0.2      1         1.5        False
three  2016    Kilho     3.6      0.3      2         3.3         True
four   2015  Charles     2.4      0.4      3         2.0        False
five   2016  Charles     2.9      0.5      4         2.4         True



In [47]:
#열 삭제하기
del df['high_points']
del df['net_points']
del df['zeros']

print(df)
print()

       year    names  points  penalty
one    2014    Kilho     1.5      0.1
two    2015    Kilho     1.7      0.2
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4
five   2016  Charles     2.9      0.5



#### 3-2. DataFrame에서 행을 선택하고 조작하기
pandas에서는 DataFrame에서 행을 인덱싱하는 방법이 무수히 많다.  
물론 위에서 소개했던 열을 선택하는 방법도 수많은 방법중에 하나에 불과하다.


#### loc를 활용한 조작법

In [50]:
# 0번째 부터 2(3-1) 번째까지 가져온다.
# 뒤에 써준 숫자번째의 행은 뺀다.
print(df[0:3])
print()

# .loc 또는 .iloc 함수를 사용하는 방법.
print(df.loc['two'])
print()

print(df.loc['two':'four'])
print()

print(df.loc[:,'year'])
print()

print(df.loc[:,['year','names']])
print()

print(df.loc['three':'five','year':'penalty'])
print()

# 새로운 행 삽입
df.loc['six',:] = [2013,'Jun',4.0,0.1,2.1]
print(df)

       year  names  points  penalty
one    2014  Kilho     1.5      0.1
two    2015  Kilho     1.7      0.2
three  2016  Kilho     3.6      0.3

year        2015
names      Kilho
points       1.7
penalty      0.2
Name: two, dtype: object

       year    names  points  penalty
two    2015    Kilho     1.7      0.2
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

       year    names
one    2014    Kilho
two    2015    Kilho
three  2016    Kilho
four   2015  Charles
five   2016  Charles

       year    names  points  penalty
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4
five   2016  Charles     2.9      0.5



#### iloc를 활용한 조작법

In [52]:
print(df.iloc[3])
print()

print(df.iloc[3:5, 0:2])
print()

print(df.iloc[[0,1,3], [1,2]])
print()

print(df.iloc[:,1:4])

year          2015
names      Charles
points         2.4
penalty        0.4
Name: four, dtype: object

      year    names
four  2015  Charles
five  2016  Charles

        names  points
one     Kilho     1.5
two     Kilho     1.7
four  Charles     2.4

         names  points  penalty
one      Kilho     1.5      0.1
two      Kilho     1.7      0.2
three    Kilho     3.6      0.3
four   Charles     2.4      0.4
five   Charles     2.9      0.5


#### 3-3. Boolean indexing


In [60]:
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
           "year": [2014, 2015, 2016, 2015, 2016],
           "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, columns=["year", "names", "points", "penalty"],
                          index=["one", "two", "three", "four", "five"])

print(df)
print()

# year가 2014보다 큰 모든 행의 값
print(df.loc[df['year']>2014,:])
print()

print(df.loc[df['names'] == 'Kilho',['names','points']])
print()

#논리연산자 활용
print(df.loc[(df['points']>2)&(df['points']<3),:])
print()

#새로운 값을 대입
df.loc[df['points'] > 3, 'penalty'] = 0
print(df)

       year    names  points penalty
one    2014    Kilho     1.5     NaN
two    2015    Kilho     1.7     NaN
three  2016    Kilho     3.6     NaN
four   2015  Charles     2.4     NaN
five   2016  Charles     2.9     NaN

       year    names  points penalty
two    2015    Kilho     1.7     NaN
three  2016    Kilho     3.6     NaN
four   2015  Charles     2.4     NaN
five   2016  Charles     2.9     NaN

       names  points
one    Kilho     1.5
two    Kilho     1.7
three  Kilho     3.6

      year    names  points penalty
four  2015  Charles     2.4     NaN
five  2016  Charles     2.9     NaN

       year    names  points penalty
one    2014    Kilho     1.5     NaN
two    2015    Kilho     1.7     NaN
three  2016    Kilho     3.6       0
four   2015  Charles     2.4     NaN
five   2016  Charles     2.9     NaN


### 4. NaN 값의 처리
DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의 순서가 달라도 알아서 맞춰서 정의된다.  
하지만 data에 포함되어 있지 않은 값은 NaN(Not a Number)으로 나타나게 되는데,  이는 __null과 같은 개념__ 이다.  
NaN값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.  
따라서 올바른 데이터 처리를 위해 \*추가적으로 값\*을 넣어줘야 한다.  


In [61]:
df = pd.DataFrame(np.random.randn(6,4))
df.columns = ['A', 'B', 'C', 'D']
df.index = pd.date_range('20160701', periods=6)

# np.nan은 NaN값을 의미한다.
df['F'] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
print(df)

                   A         B         C         D    F
2016-07-01 -1.249581 -1.476555  0.381929 -1.269941  1.0
2016-07-02  0.885774  0.475795 -1.140601  0.258364  NaN
2016-07-03  1.429792 -0.399389 -1.065372  1.175202  3.5
2016-07-04  0.103539  1.680554 -1.037303 -0.465233  6.1
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890  NaN
2016-07-06  0.051526 -0.009317  1.274400  1.410809  7.0


In [62]:
# 행의 값중 하나라도 nan인 경우 그 행을 없앤다.
print(df.dropna(how='any'))
print()

# 행의 값의 모든 값이 nan인 경우 그 행을 없앤다.
print(df.dropna(how='all'))

                   A         B         C         D    F
2016-07-01 -1.249581 -1.476555  0.381929 -1.269941  1.0
2016-07-03  1.429792 -0.399389 -1.065372  1.175202  3.5
2016-07-04  0.103539  1.680554 -1.037303 -0.465233  6.1
2016-07-06  0.051526 -0.009317  1.274400  1.410809  7.0

                   A         B         C         D    F
2016-07-01 -1.249581 -1.476555  0.381929 -1.269941  1.0
2016-07-02  0.885774  0.475795 -1.140601  0.258364  NaN
2016-07-03  1.429792 -0.399389 -1.065372  1.175202  3.5
2016-07-04  0.103539  1.680554 -1.037303 -0.465233  6.1
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890  NaN
2016-07-06  0.051526 -0.009317  1.274400  1.410809  7.0


#### 주의  
drop함수는 특정 행 또는 열을 drop하고난 DataFrame을 반환한다.  
즉, 반환을 받지 않으면 기존의 DataFrame은 그대로이다.  
아니면, inplace=True라는 인자를 추가하여, 반환을 받지 않고서도 기존의 DataFrame이 변경되도록 한다.


In [65]:
# nan값인지 확인하기
print(df.isnull())
print()

# nan값에 값 넣기
print(df.fillna(value=1000))
print()

# F열에서 nan값을 포함하는 행만 추출하기
print(df.loc[df.isnull()['F'],:])


                A      B      C      D      F
2016-07-01  False  False  False  False  False
2016-07-02  False  False  False  False   True
2016-07-03  False  False  False  False  False
2016-07-04  False  False  False  False  False
2016-07-05  False  False  False  False   True
2016-07-06  False  False  False  False  False

                   A         B         C         D       F
2016-07-01 -1.249581 -1.476555  0.381929 -1.269941     1.0
2016-07-02  0.885774  0.475795 -1.140601  0.258364  1000.0
2016-07-03  1.429792 -0.399389 -1.065372  1.175202     3.5
2016-07-04  0.103539  1.680554 -1.037303 -0.465233     6.1
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890  1000.0
2016-07-06  0.051526 -0.009317  1.274400  1.410809     7.0

                   A         B         C         D   F
2016-07-02  0.885774  0.475795 -1.140601  0.258364 NaN
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890 NaN


In [66]:
# 특정 행 drop하기
print(df.drop(pd.to_datetime('20160701')))
print()

# 특정 열 삭제하기
print(df.drop('F', axis = 1))


                   A         B         C         D    F
2016-07-02  0.885774  0.475795 -1.140601  0.258364  NaN
2016-07-03  1.429792 -0.399389 -1.065372  1.175202  3.5
2016-07-04  0.103539  1.680554 -1.037303 -0.465233  6.1
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890  NaN
2016-07-06  0.051526 -0.009317  1.274400  1.410809  7.0

                   A         B         C         D
2016-07-01 -1.249581 -1.476555  0.381929 -1.269941
2016-07-02  0.885774  0.475795 -1.140601  0.258364
2016-07-03  1.429792 -0.399389 -1.065372  1.175202
2016-07-04  0.103539  1.680554 -1.037303 -0.465233
2016-07-05 -0.821645 -1.356797 -2.030277 -0.782890
2016-07-06  0.051526 -0.009317  1.274400  1.410809


### 5. 기초통계량 계산함수

#### pandas에서 DataFrame에 적용되는 함수들
sum() 함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.  

- count 전체 성분의 (NaN이 아닌) 값의 갯수를 계산
- min, max 전체 성분의 최솟, 최댓값을 계산
- argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
- idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환
- quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
- sum 전체 성분의 합을 계산
- mean 전체 성분의 평균을 계산
- median 전체 성분의 중간값을 반환
- mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
- std, var 전체 성분의 표준편차, 분산을 계산
- cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)
- cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)


In [67]:
data = [[1.4, np.nan],
           [7.1, -4.5],
        [np.nan, np.nan],
        [0.75, -1.3]]
df = pd.DataFrame(data, columns=["one", "two"], index=["a", "b", "c", "d"])
print(df)

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3


In [69]:
# 행방향으로의 합(즉, 각 열의 합)
print(df.sum(axis=0))
print()

# 열방향으로의 합(즉, 각 행의 합)
print(df.sum(axis=1))
print()

print(df.sum(axis=1, skipna=False))
print()

# 특정 행 또는 특정 열에서만 계산하기
print(df['one'].sum())

one    9.25
two   -5.80
dtype: float64

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

9.25


In [70]:
df2 = pd.DataFrame(np.random.randn(6, 4),
                   columns=["A", "B", "C", "D"],
                   index=pd.date_range("20160701", periods=6))
print(df2)

                   A         B         C         D
2016-07-01  0.893298  0.346248  0.034775 -0.777409
2016-07-02  1.633778 -0.439492  1.136540  1.243686
2016-07-03  2.227631  0.168136 -1.663749 -2.769160
2016-07-04  0.505680  0.307991 -0.724779 -0.989870
2016-07-05  0.380868 -0.545718 -0.775533  3.318822
2016-07-06  0.378744  0.272824  0.453741 -0.304547


In [72]:
# A열과 B열의 상관계수 구하기
print(df2['A'].corr(df2['B']))
print()

# B열과 C열의 공분산 구하기
print(df2['B'].cov(df2['C']))
        

-0.06066718265979114

-0.08303888752816795


### 6. 정렬함수

In [79]:
dates = df2.index
random_dates = np.random.permutation(dates)
df2 = df2.reindex(index=random_dates, columns=["D", "B", "C", "A"])

print(df2)

                   D         B         C         A
2016-07-04 -0.989870  0.307991 -0.724779  0.505680
2016-07-02  1.243686 -0.439492  1.136540  1.633778
2016-07-05  3.318822 -0.545718 -0.775533  0.380868
2016-07-03 -2.769160  0.168136 -1.663749  2.227631
2016-07-06 -0.304547  0.272824  0.453741  0.378744
2016-07-01 -0.777409  0.346248  0.034775  0.893298


In [81]:
# index와 column의 순서가 섞여있다.
# 이때 index가 오름차순이 되도록 정렬
print(df2.sort_index(axis=0))
print()

# column을 기준으로 정렬
print(df2.sort_index(axis=1))

# 내림차순으로 정렬
print(df2.sort_index(axis=1, ascending=False))


                   D         B         C         A
2016-07-01 -0.777409  0.346248  0.034775  0.893298
2016-07-02  1.243686 -0.439492  1.136540  1.633778
2016-07-03 -2.769160  0.168136 -1.663749  2.227631
2016-07-04 -0.989870  0.307991 -0.724779  0.505680
2016-07-05  3.318822 -0.545718 -0.775533  0.380868
2016-07-06 -0.304547  0.272824  0.453741  0.378744

                   A         B         C         D
2016-07-04  0.505680  0.307991 -0.724779 -0.989870
2016-07-02  1.633778 -0.439492  1.136540  1.243686
2016-07-05  0.380868 -0.545718 -0.775533  3.318822
2016-07-03  2.227631  0.168136 -1.663749 -2.769160
2016-07-06  0.378744  0.272824  0.453741 -0.304547
2016-07-01  0.893298  0.346248  0.034775 -0.777409
                   D         C         B         A
2016-07-04 -0.989870 -0.724779  0.307991  0.505680
2016-07-02  1.243686  1.136540 -0.439492  1.633778
2016-07-05  3.318822 -0.775533 -0.545718  0.380868
2016-07-03 -2.769160 -1.663749  0.168136  2.227631
2016-07-06 -0.304547  0.453741

In [82]:
df2["E"] = np.random.randint(0, 6, size=6)
df2["F"] = ["alpha", "beta", "gamma", "gamma", "alpha", "gamma"]


# 값 기준 정렬하기
# D열의 값이 오름차순이 되도록 정렬하기
print(df2.sort_values(by='D'))
print()

# B열의 값이 내림차순이 되도록 정렬하기
print(df2.sort_values(by='B', ascending=False))
print()

# E열과 F열을 동시에 고려하여, 오름차순으로 하려면?
print(df2.sort_values(by=['E','F']))

                   D         B         C         A  E      F
2016-07-03 -2.769160  0.168136 -1.663749  2.227631  0  gamma
2016-07-04 -0.989870  0.307991 -0.724779  0.505680  3  alpha
2016-07-01 -0.777409  0.346248  0.034775  0.893298  5  gamma
2016-07-06 -0.304547  0.272824  0.453741  0.378744  1  alpha
2016-07-02  1.243686 -0.439492  1.136540  1.633778  4   beta
2016-07-05  3.318822 -0.545718 -0.775533  0.380868  1  gamma

                   D         B         C         A  E      F
2016-07-01 -0.777409  0.346248  0.034775  0.893298  5  gamma
2016-07-04 -0.989870  0.307991 -0.724779  0.505680  3  alpha
2016-07-06 -0.304547  0.272824  0.453741  0.378744  1  alpha
2016-07-03 -2.769160  0.168136 -1.663749  2.227631  0  gamma
2016-07-02  1.243686 -0.439492  1.136540  1.633778  4   beta
2016-07-05  3.318822 -0.545718 -0.775533  0.380868  1  gamma

                   D         B         C         A  E      F
2016-07-03 -2.769160  0.168136 -1.663749  2.227631  0  gamma
2016-07-06 -0.304547  

### 7. 기타함수

In [85]:
# 지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기
print(df2['F'].unique())
print()

# 지정한 행 또는 열에서 값에 따른 개수 얻기
print(df2['F'].value_counts())
print()

# 지정한 행 또는 열에서 입력한 값이 있는지 확인하기
print(df2['F'].isin(['alpha','beta']))
print()

# F열의 값이 alpha나 beta인 모든 행 구하기
print(df2.loc[df2['F'].isin(['alpha','beta']),:])


['alpha' 'beta' 'gamma']

gamma    3
alpha    2
beta     1
Name: F, dtype: int64

2016-07-04     True
2016-07-02     True
2016-07-05    False
2016-07-03    False
2016-07-06     True
2016-07-01    False
Name: F, dtype: bool

                   D         B         C         A  E      F
2016-07-04 -0.989870  0.307991 -0.724779  0.505680  3  alpha
2016-07-02  1.243686 -0.439492  1.136540  1.633778  4   beta
2016-07-06 -0.304547  0.272824  0.453741  0.378744  1  alpha


#### 사용자가 직접 만든 함수 적용하기


In [89]:
df3 = pd.DataFrame(np.random.randn(4, 3), columns=["b", "d", "e"],
                   index=["Seoul", "Incheon", "Busan", "Daegu"])
print(df3)
print()

func = lambda x: x.max() - x.min()

print(df3.apply(func, axis=0))


                b         d         e
Seoul   -0.528309  2.158892 -1.146573
Incheon -0.299555  0.904851 -1.166333
Busan   -1.228021 -1.083243 -2.551926
Daegu    0.970654  0.106577  0.936188

b    2.198675
d    3.242136
e    3.488114
dtype: float64
