In [1]:
# pandas 사용하기
import numpy as np # numpy 도 함께 import
import pandas as pd

In [3]:
# 2. Pandas 자료구조
# 2-1. Series
# Series 정의하기
obj = pd.Series([4, 7, -5, 3]) # [4, 7, -5, 3] => list data type
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [4]:
# Series의 값만 확인하기
print(obj.values)

[ 4  7 -5  3]


In [5]:
# Series의 index만 확인하기
print(obj.index)
# stop=4라는 의미 : index가 3까지 있다라는 의미, (4는 index로 포함안됨)

RangeIndex(start=0, stop=4, step=1)


In [6]:
# Series의 원소 자료형 확인하기
obj.dtypes

dtype('int64')

In [6]:
# 기본 인덱스를 바꿔 생성할 수 있다.
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다
sdata = {'Kim': 35000, 'Beomwoo': 67000, 'Joan': 12000, 'Choi': 4000}
obj3 = pd.Series(sdata)
print(obj3)

Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
dtype: int64


In [8]:
# series 객체의 이름과 index 이름을 지정할 수 있다
obj3.name = 'Salary'
obj3.index.name = "Names"
print(obj3)

Names
Kim        35000
Beomwoo    67000
Joan       12000
Choi        4000
Name: Salary, dtype: int64


In [9]:
# index 변경 가능하다
obj3.index = ['A', 'B', 'C', 'D']
print(obj3)

A    35000
B    67000
C    12000
D     4000
Name: Salary, dtype: int64


In [10]:
# 2-2. Data Frame
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data = {'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data)
# 행과 열의 구조를 가진 데이터가 생기는 것을 확인할 수 있다
print(df)

      name  year  points
0  Beomwoo  2013     1.5
1  Beomwoo  2014     1.7
2  Beomwoo  2015     3.6
3      Kim  2016     2.4
4     Park  2015     2.9


In [11]:
# 행 방향의 index
df.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
# 열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [13]:
# 값 얻기 (numpy의 2차원 array 형태로 출력)
df.values

array([['Beomwoo', 2013, 1.5],
       ['Beomwoo', 2014, 1.7],
       ['Beomwoo', 2015, 3.6],
       ['Kim', 2016, 2.4],
       ['Park', 2015, 2.9]], dtype=object)

In [14]:
# 인덱스와 column에 대한 이름 설정하기
df.index.name = 'Num'
df.columns.name = 'Info'
print(df)

Info     name  year  points
Num                        
0     Beomwoo  2013     1.5
1     Beomwoo  2014     1.7
2     Beomwoo  2015     3.6
3         Kim  2016     2.4
4        Park  2015     2.9


In [15]:
# DataFrame을 만들면서 columns와 index를 설정할 수 있다.
df2 = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
# 1. data에 penalty라는 column이 없는데, df2 출력할 때 는 penalty column에 NaN 보여줌
# 2. NaN(Not a Number) 의미 : null과 같은 개념으로 값이 없다는 의미임
# 3. NaN은 나중에 df2의 연산 수행할 때 처리가 되지 않아, 
#    올바른 데이터 처리를 위해 다른 값으로 변환시켜야 함
print(df2)

       year     name  points penalty
one    2013  Beomwoo     1.5     NaN
two    2014  Beomwoo     1.7     NaN
three  2015  Beomwoo     3.6     NaN
four   2016      Kim     2.4     NaN
five   2015     Park     2.9     NaN


In [16]:
# describe() 함수는 DataFrame의 계산 가능한 값들에 대한 다양한 계산 값을 보여준다.
# 1. DataFrame객체인 df2의 column중 number 속성을 갖는 column에 대하여
#    count, min, mean, std등의 정보 제공
print(df2.describe())

              year    points
count     5.000000  5.000000
mean   2014.600000  2.420000
std       1.140175  0.864292
min    2013.000000  1.500000
25%    2014.000000  1.700000
50%    2015.000000  2.400000
75%    2015.000000  2.900000
max    2016.000000  3.600000


In [16]:
# 3. DataFrame Indexing
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
           "year": [2014, 2015, 2016, 2015, 2016],
           "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, columns=["year", "names", "points", "penalty"],
                          index=["one", "two", "three", "four", "five"])
print(df)

       year    names  points penalty
one    2014    Kilho     1.5     NaN
two    2015    Kilho     1.7     NaN
three  2016    Kilho     3.6     NaN
four   2015  Charles     2.4     NaN
five   2016  Charles     2.9     NaN


In [17]:
# 3-1. DataFrame에서 열을 선택하고 조작하기
df['year']

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [18]:
# 동일한 의미를 갖는, 다른 방법
df.year

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [19]:
df[['year','points']]

Unnamed: 0,year,points
one,2014,1.5
two,2015,1.7
three,2016,3.6
four,2015,2.4
five,2016,2.9


In [20]:
# 특정 열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df['penalty'] = 0.5
print(df)

       year    names  points  penalty
one    2014    Kilho     1.5      0.5
two    2015    Kilho     1.7      0.5
three  2016    Kilho     3.6      0.5
four   2015  Charles     2.4      0.5
five   2016  Charles     2.9      0.5


In [21]:
# 또는
df['penalty'] = [0.1, 0.2, 0.3, 0.4, 0.5] # python의 List나 numpy의 array
print(df)

       year    names  points  penalty
one    2014    Kilho     1.5      0.1
two    2015    Kilho     1.7      0.2
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4
five   2016  Charles     2.9      0.5


In [22]:
# 새로운 열을 추가하기
# df['zeros'] = [0,1,2,3,4]와 동일한 의미
df['zeros'] = np.arange(5) # [0,1,2,3,4]
print(df)

       year    names  points  penalty  zeros
one    2014    Kilho     1.5      0.1      0
two    2015    Kilho     1.7      0.2      1
three  2016    Kilho     3.6      0.3      2
four   2015  Charles     2.4      0.4      3
five   2016  Charles     2.9      0.5      4


In [23]:
# Series를 사용하여 column을 추가할 수도 있다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two','four','five'])
# debt column에 val값이 들어갈 때 해당 index에 맞춰 들어감
df['debt'] = val
print(df)

       year    names  points  penalty  zeros  debt
one    2014    Kilho     1.5      0.1      0   NaN
two    2015    Kilho     1.7      0.2      1  -1.2
three  2016    Kilho     3.6      0.3      2   NaN
four   2015  Charles     2.4      0.4      3  -1.5
five   2016  Charles     2.9      0.5      4  -1.7


In [24]:
# 새로운 column을 기존 column 연산을 수행하여 생성 가능
df['net_points'] = df['points'] - df['penalty']
df['high_points'] = df['net_points'] > 2.0
print(df)

       year    names  points  penalty  zeros  debt  net_points  high_points
one    2014    Kilho     1.5      0.1      0   NaN         1.4        False
two    2015    Kilho     1.7      0.2      1  -1.2         1.5        False
three  2016    Kilho     3.6      0.3      2   NaN         3.3         True
four   2015  Charles     2.4      0.4      3  -1.5         2.0        False
five   2016  Charles     2.9      0.5      4  -1.7         2.4         True


In [25]:
# 열 삭제하기
del df['high_points']
del df['net_points']
del df['zeros']
print(df)

       year    names  points  penalty  debt
one    2014    Kilho     1.5      0.1   NaN
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [26]:
df.columns

Index(['year', 'names', 'points', 'penalty', 'debt'], dtype='object')

In [27]:
df.index.name = 'Order'
df.columns.name = 'Info'
print(df)

Info   year    names  points  penalty  debt
Order                                      
one    2014    Kilho     1.5      0.1   NaN
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [29]:
# 3-2. DataFrame에서 행을 선택하고 조작하기
# 1번째(index=0) 부터 3번째(index=2)까지 가져온다.
# 뒤에 써준 숫자번째의 행은 뺀다.
print(df[0:3])

Info   year  names  points  penalty  debt
Order                                    
one    2014  Kilho     1.5      0.1   NaN
two    2015  Kilho     1.7      0.2  -1.2
three  2016  Kilho     3.6      0.3   NaN


In [28]:
# two라는 행부터 four라는 행까지 가져온다.
# 뒤에 써준 이름의 행을 빼지 않는다.
print(df['two':'four']) # 하지만 비추천!

Info   year    names  points  penalty  debt
Order                                      
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5


In [31]:
# 아래 방법을 권장한다. 
# .loc 또는 .iloc 함수를 사용하는 방법. (loc : location(위치)의 약어)
print(df.loc['two']) # 반환 형태는 Series

Info
year        2015
names      Kilho
points       1.7
penalty      0.2
debt        -1.2
Name: two, dtype: object


In [32]:
print(df.loc['two':'four'])

Info   year    names  points  penalty  debt
Order                                      
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5


In [33]:
# df.loc[row, column]
print(df.loc['two':'four', 'points'])

Order
two      1.7
three    3.6
four     2.4
Name: points, dtype: float64


In [34]:
print(df.loc[:,'year']) # == df['year']

Order
one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64


In [36]:
print(df.loc[:,['year','names']])

Info   year    names
Order               
one    2014    Kilho
two    2015    Kilho
three  2016    Kilho
four   2015  Charles
five   2016  Charles


In [37]:
print(df.loc['three':'five','year':'penalty'])

Info   year    names  points  penalty
Order                                
three  2016    Kilho     3.6      0.3
four   2015  Charles     2.4      0.4
five   2016  Charles     2.9      0.5


In [38]:
# 새로운 행 삽입하기
df.loc['six',:] = [2013,'Jun',4.0,0.1,2.1]
print(df)

Info     year    names  points  penalty  debt
Order                                        
one    2014.0    Kilho     1.5      0.1   NaN
two    2015.0    Kilho     1.7      0.2  -1.2
three  2016.0    Kilho     3.6      0.3   NaN
four   2015.0  Charles     2.4      0.4  -1.5
five   2016.0  Charles     2.9      0.5  -1.7
six    2013.0      Jun     4.0      0.1   2.1


In [39]:
# .iloc(index location) 사용:: index 번호를 사용한다.
print(df.iloc[3]) # 4번째 행(index=3)을 가져온다.

Info
year          2015
names      Charles
points         2.4
penalty        0.4
debt          -1.5
Name: four, dtype: object


In [40]:
print(df.iloc[3:5, 0:2])

Info     year    names
Order                 
four   2015.0  Charles
five   2016.0  Charles


In [41]:
print(df.iloc[[0,1,3], [1,2]])

Info     names  points
Order                 
one      Kilho     1.5
two      Kilho     1.7
four   Charles     2.4


In [42]:
print(df.iloc[:,1:4])

Info     names  points  penalty
Order                          
one      Kilho     1.5      0.1
two      Kilho     1.7      0.2
three    Kilho     3.6      0.3
four   Charles     2.4      0.4
five   Charles     2.9      0.5
six        Jun     4.0      0.1


In [43]:
print(df.iloc[1,1])

Kilho


In [29]:
# 4. DataFrame에서의 boolean Indexing
print(df)

Info   year    names  points  penalty  debt
Order                                      
one    2014    Kilho     1.5      0.1   NaN
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [30]:
# year가 2014보다 큰 boolean data
print(df['year'] > 2014)

Order
one      False
two       True
three     True
four      True
five      True
Name: year, dtype: bool


In [31]:
# year가 2014보다 큰 모든 행의 값
print(df.loc[df['year']>2014,:])

Info   year    names  points  penalty  debt
Order                                      
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.3   NaN
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [32]:
print(df.loc[df['names'] == 'Kilho',['names','points']])

Info   names  points
Order               
one    Kilho     1.5
two    Kilho     1.7
three  Kilho     3.6


In [33]:
# numpy에서와 같이 논리연산을 응용할 수 있다.
print(df.loc[(df['points']>2)&(df['points']<3),:])

Info   year    names  points  penalty  debt
Order                                      
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [34]:
# 새로운 값을 대입할 수도 있다.
df.loc[df['points'] > 3, 'penalty'] = 0
print(df)

Info   year    names  points  penalty  debt
Order                                      
one    2014    Kilho     1.5      0.1   NaN
two    2015    Kilho     1.7      0.2  -1.2
three  2016    Kilho     3.6      0.0   NaN
four   2015  Charles     2.4      0.4  -1.5
five   2016  Charles     2.9      0.5  -1.7


In [35]:
# 5. Data 처리 함수
# DataFrame을 만들때 index, column을 설정하지 않으면 기본값으로 0부터 시작하는 정수형 숫자로 입력된다.
df = pd.DataFrame(np.random.randn(6,4))
print(df)

          0         1         2         3
0 -0.637644  0.240396  0.572835  0.790000
1 -0.291952  0.494574  0.424441 -0.231522
2  0.805147 -0.464319 -0.187026 -0.016858
3  0.485668 -0.949158  2.495520  2.814839
4  1.514288  1.237998 -0.397501 -1.531157
5  1.364585  0.512689  0.890525  1.789149


In [36]:
df.columns = ['A', 'B', 'C', 'D']
# 1. pandas에서 제공하는 date range함수는 datetime 자료형으로 구성된, 
#   날짜 시각등을 알 수 있는 자료형을 만드는 함수
df.index = pd.date_range('20160701', periods=6)
print(df.index)

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
               '2016-07-05', '2016-07-06'],
              dtype='datetime64[ns]', freq='D')


In [37]:
print(df)

                   A         B         C         D
2016-07-01 -0.637644  0.240396  0.572835  0.790000
2016-07-02 -0.291952  0.494574  0.424441 -0.231522
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858
2016-07-04  0.485668 -0.949158  2.495520  2.814839
2016-07-05  1.514288  1.237998 -0.397501 -1.531157
2016-07-06  1.364585  0.512689  0.890525  1.789149


In [38]:
# np.nan은 NaN값을 의미한다.
# 'F' column 새로 추가
df['F'] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
print(df)

                   A         B         C         D    F
2016-07-01 -0.637644  0.240396  0.572835  0.790000  1.0
2016-07-02 -0.291952  0.494574  0.424441 -0.231522  NaN
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-04  0.485668 -0.949158  2.495520  2.814839  6.1
2016-07-05  1.514288  1.237998 -0.397501 -1.531157  NaN
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [39]:
# NaN 없애기 : dropna 함수 사용
# how='any' => 행의 값중 하나라도 nan인 경우 그 행을 없앤다.
print(df.dropna(how='any'))

                   A         B         C         D    F
2016-07-01 -0.637644  0.240396  0.572835  0.790000  1.0
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-04  0.485668 -0.949158  2.495520  2.814839  6.1
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [41]:
# how='all' => 행의 모든 값이 nan인 경우 그 행을 없앤다.
print(df.dropna(how='all'))
# drop함수 사용시 주의 사항
# 1. drop함수는 특정 행 또는 열을 drop하고난 DataFrame을 return한다.
# 2. 즉, return된 dataFrame을 다른 변수로 받지 않으면 기존의 DataFrame은 그대로이다.
# 3. 아니면, inplace=True라는 argument를 drop함수에 추가하여, 반환을 받지 않고서도
#    기존의 DataFrame이 변경되도록 한다.

                   A         B         C         D    F
2016-07-01 -0.637644  0.240396  0.572835  0.790000  1.0
2016-07-02 -0.291952  0.494574  0.424441 -0.231522  NaN
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-04  0.485668 -0.949158  2.495520  2.814839  6.1
2016-07-05  1.514288  1.237998 -0.397501 -1.531157  NaN
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [42]:
# fillna => nan값에 값 넣기
print(df.fillna(value=0.5))

                   A         B         C         D    F
2016-07-01 -0.637644  0.240396  0.572835  0.790000  1.0
2016-07-02 -0.291952  0.494574  0.424441 -0.231522  0.5
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-04  0.485668 -0.949158  2.495520  2.814839  6.1
2016-07-05  1.514288  1.237998 -0.397501 -1.531157  0.5
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [43]:
# nan값인지 확인하기 => NaN값이면 isnull() return값이 True
print(df.isnull())

                A      B      C      D      F
2016-07-01  False  False  False  False  False
2016-07-02  False  False  False  False   True
2016-07-03  False  False  False  False  False
2016-07-04  False  False  False  False  False
2016-07-05  False  False  False  False   True
2016-07-06  False  False  False  False  False


In [58]:
# F열에서 nan값을 포함하는 행만 추출하기
print(df.loc[df.isnull()['F'],:])

                   A         B         C         D   F
2016-07-02  0.138896  1.508043 -0.044458  0.435650 NaN
2016-07-05  0.250331 -1.356299 -2.177627 -0.410708 NaN


In [44]:
pd.to_datetime('20160701')

Timestamp('2016-07-01 00:00:00')

In [45]:
# 특정 행 drop하기
print(df.drop(pd.to_datetime('20160701')))

                   A         B         C         D    F
2016-07-02 -0.291952  0.494574  0.424441 -0.231522  NaN
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-04  0.485668 -0.949158  2.495520  2.814839  6.1
2016-07-05  1.514288  1.237998 -0.397501 -1.531157  NaN
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [46]:
# 2개 이상도 drop 가능
print(df.drop([pd.to_datetime('20160702'),pd.to_datetime('20160704')]))

                   A         B         C         D    F
2016-07-01 -0.637644  0.240396  0.572835  0.790000  1.0
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858  3.5
2016-07-05  1.514288  1.237998 -0.397501 -1.531157  NaN
2016-07-06  1.364585  0.512689  0.890525  1.789149  7.0


In [47]:
# 특정 열 삭제하기
print(df.drop('F', axis = 1))

                   A         B         C         D
2016-07-01 -0.637644  0.240396  0.572835  0.790000
2016-07-02 -0.291952  0.494574  0.424441 -0.231522
2016-07-03  0.805147 -0.464319 -0.187026 -0.016858
2016-07-04  0.485668 -0.949158  2.495520  2.814839
2016-07-05  1.514288  1.237998 -0.397501 -1.531157
2016-07-06  1.364585  0.512689  0.890525  1.789149


In [48]:
# 2개 이상의 열도 가능
df.drop(['B','D'], axis = 1)

Unnamed: 0,A,C,F
2016-07-01,-0.637644,0.572835,1.0
2016-07-02,-0.291952,0.424441,
2016-07-03,0.805147,-0.187026,3.5
2016-07-04,0.485668,2.49552,6.1
2016-07-05,1.514288,-0.397501,
2016-07-06,1.364585,0.890525,7.0


In [53]:
# 6. Data 분석용 함수들
data = [[1.4, np.nan],
           [7.1, -4.5],
        [np.nan, np.nan],
        [0.75, -1.3]]
df = pd.DataFrame(data, columns=["one", "two"], index=["a", "b", "c", "d"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [50]:
# 행방향으로의 합(즉, 각 열의 합)
# 합계 계산시 NaN을 제외하고 계산
df.sum(axis=0)

one    9.25
two   -5.80
dtype: float64

In [66]:
# 열방향으로의 합(즉, 각 행의 합)
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [67]:
# 열방향 합계 계산시 skipna=False를 주면, NaN도 포함하여 계산
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [68]:
# 특정 행 또는 특정 열에서만 계산하기
df['one'].sum()

9.25

In [51]:
df.loc['b'].sum()

2.5999999999999996

In [70]:
# pandas에서 DataFrame에 적용되는 함수들
# 1. sum() : 전체 성분의 합을 계산
# 2. count() : 전체 성분의 (NaN이 아닌) 값의 갯수를 계산
# 3. min(), max() : 전체 성분의 최솟, 최댓값을 계산
# 4. argmin, argmax : 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# 5. idxmin, idxmax : 전체 인덱스 중 최솟값, 최댓값을 반환
# 6. quantile : 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
# 7. mean : 전체 성분의 평균을 계산
# 8. median : 전체 성분의 중간값을 반환
# 9. mad : 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# 10. std, var : 전체 성분의 표준편차, 분산을 계산
# 11. cumsum : 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐)
# 12. cumprod : 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [52]:
df2 = pd.DataFrame(np.random.randn(6, 4),
                   columns=["A", "B", "C", "D"],
                   index=pd.date_range("20160701", periods=6))
df2

Unnamed: 0,A,B,C,D
2016-07-01,0.540525,-0.943359,0.783512,-0.56797
2016-07-02,0.329857,-0.083998,1.606878,-0.99376
2016-07-03,-0.425523,0.791017,-0.581478,0.67251
2016-07-04,-0.021463,0.104425,-1.076018,-0.717744
2016-07-05,-0.422218,-0.37254,0.123113,0.204169
2016-07-06,-1.339214,0.165547,-1.029701,-0.964421


In [72]:
# A열과 B열의 상관계수(correlation) 구하기
df2['A'].corr(df2['B'])

-0.6799035123608923

In [54]:
# B열과 C열의 공분산(covariance) 구하기
df2['B'].cov(df2['C'])

-0.3345139606835962

In [61]:
# 6.2 정렬함수 및 기타함수
dates = df2.index
# permutation => index 순서를 random(무작위)로 재정렬 시킨다는 의미
random_dates = np.random.permutation(dates)
# reindex : 기존 index를 수정할 떄 설정하여 사용
df2 = df2.reindex(index=random_dates, columns=["D", "B", "C", "A"])
df2

Unnamed: 0,D,B,C,A
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463
2016-07-01,-0.56797,-0.943359,0.783512,0.540525
2016-07-05,0.204169,-0.37254,0.123113,-0.422218
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214
2016-07-02,-0.99376,-0.083998,1.606878,0.329857
2016-07-03,0.67251,0.791017,-0.581478,-0.425523


In [62]:
# index와 column의 순서가 섞여있다.
# 이때 index가 오름차순이 되도록 정렬해보자
df2.sort_index(axis=0)

Unnamed: 0,D,B,C,A
2016-07-01,-0.56797,-0.943359,0.783512,0.540525
2016-07-02,-0.99376,-0.083998,1.606878,0.329857
2016-07-03,0.67251,0.791017,-0.581478,-0.425523
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463
2016-07-05,0.204169,-0.37254,0.123113,-0.422218
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214


In [63]:
# column을 기준으로 정렬
df2.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2016-07-04,-0.021463,0.104425,-1.076018,-0.717744
2016-07-01,0.540525,-0.943359,0.783512,-0.56797
2016-07-05,-0.422218,-0.37254,0.123113,0.204169
2016-07-06,-1.339214,0.165547,-1.029701,-0.964421
2016-07-02,0.329857,-0.083998,1.606878,-0.99376
2016-07-03,-0.425523,0.791017,-0.581478,0.67251


In [64]:
# 내림차순으로 sorting
df2.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2016-07-04,-0.717744,-1.076018,0.104425,-0.021463
2016-07-01,-0.56797,0.783512,-0.943359,0.540525
2016-07-05,0.204169,0.123113,-0.37254,-0.422218
2016-07-06,-0.964421,-1.029701,0.165547,-1.339214
2016-07-02,-0.99376,1.606878,-0.083998,0.329857
2016-07-03,0.67251,-0.581478,0.791017,-0.425523


In [65]:
# 값 기준 정렬하기
# D열의 값이 오름차순이 되도록 정렬하기
df2.sort_values(by='D')

Unnamed: 0,D,B,C,A
2016-07-02,-0.99376,-0.083998,1.606878,0.329857
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463
2016-07-01,-0.56797,-0.943359,0.783512,0.540525
2016-07-05,0.204169,-0.37254,0.123113,-0.422218
2016-07-03,0.67251,0.791017,-0.581478,-0.425523


In [66]:
# B열의 값이 내림차순이 되도록 정렬하기
df2.sort_values(by='B', ascending=False)

Unnamed: 0,D,B,C,A
2016-07-03,0.67251,0.791017,-0.581478,-0.425523
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463
2016-07-02,-0.99376,-0.083998,1.606878,0.329857
2016-07-05,0.204169,-0.37254,0.123113,-0.422218
2016-07-01,-0.56797,-0.943359,0.783512,0.540525


In [67]:
df2["E"] = np.random.randint(0, 6, size=6)
df2["F"] = ["alpha", "beta", "gamma", "gamma", "alpha", "gamma"]
df2

Unnamed: 0,D,B,C,A,E,F
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463,0,alpha
2016-07-01,-0.56797,-0.943359,0.783512,0.540525,2,beta
2016-07-05,0.204169,-0.37254,0.123113,-0.422218,5,gamma
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214,2,gamma
2016-07-02,-0.99376,-0.083998,1.606878,0.329857,5,alpha
2016-07-03,0.67251,0.791017,-0.581478,-0.425523,4,gamma


In [68]:
# E열과 F열을 동시에 고려하여, 오름차순으로 하려면?
df2.sort_values(by=['E','F'])

Unnamed: 0,D,B,C,A,E,F
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463,0,alpha
2016-07-01,-0.56797,-0.943359,0.783512,0.540525,2,beta
2016-07-06,-0.964421,0.165547,-1.029701,-1.339214,2,gamma
2016-07-03,0.67251,0.791017,-0.581478,-0.425523,4,gamma
2016-07-02,-0.99376,-0.083998,1.606878,0.329857,5,alpha
2016-07-05,0.204169,-0.37254,0.123113,-0.422218,5,gamma


In [69]:
# 지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기
df2['F'].unique()

array(['alpha', 'beta', 'gamma'], dtype=object)

In [70]:
# 지정한 행 또는 열에서 값에 따른 개수 얻기
df2['F'].value_counts()

gamma    3
alpha    2
beta     1
Name: F, dtype: int64

In [71]:
# 지정한 행 또는 열에서 입력한 값이 있는지 확인하기
df2['F'].isin(['alpha','beta'])

2016-07-04     True
2016-07-01     True
2016-07-05    False
2016-07-06    False
2016-07-02     True
2016-07-03    False
Name: F, dtype: bool

In [72]:
# 다음과 같이 응용할 수 있다.
# F열의 값이 alpha나 beta인 모든 행 구하기
df2.loc[df2['F'].isin(['alpha','beta']),:]

Unnamed: 0,D,B,C,A,E,F
2016-07-04,-0.717744,0.104425,-1.076018,-0.021463,0,alpha
2016-07-01,-0.56797,-0.943359,0.783512,0.540525,2,beta
2016-07-02,-0.99376,-0.083998,1.606878,0.329857,5,alpha


In [73]:
# 6.3 사용자가 직접 만든 함수를 적용하기
df3 = pd.DataFrame(np.random.randn(4, 3), columns=["b", "d", "e"],
                   index=["Seoul", "Incheon", "Busan", "Daegu"])
df3

Unnamed: 0,b,d,e
Seoul,-0.067277,-0.150353,-0.210141
Incheon,0.311108,0.662847,-1.167205
Busan,-0.70508,0.55033,0.402121
Daegu,-0.325303,0.259909,-0.477571


In [74]:
# lamda 함수 선언 : parameter : 함수 body code
# func = lambda x: x.max() - x.min()
def func(x) :
    return (x.max() - x.min())
df3.apply(func, axis=0)

b    1.016188
d    0.813199
e    1.569327
dtype: float64