# Pandas
파이썬 데이터 분석의 3대 라이브러리: 
* Numpy : 배열, 행열을 다룸
* Pandas : 엑셀과 같은 데이터프레임을 다룸
* Matplotlib : 시각화

In [0]:
# pandas 사용하기
import numpy as np
import pandas as pd


In [0]:
# 2. Pandas 자료구조
# Pandas 에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용한다.
# 이 자료구조들은 빅 데이터 분석에 있어서 높은 수준의 성능을 보여준다.

In [0]:
# 2-1. Series

In [0]:
# Series 정의하기
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [0]:
# Series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3])

In [0]:
# Series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [0]:
# Series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [0]:
# 인덱스를 바꿀 수 있다
obj2 = pd.Series([4,7,-5,3],index=['d','s','e','f'])
obj2.index

Index(['d', 's', 'e', 'f'], dtype='object')

In [0]:
# python의 dictionary 자료형을 Series data로 만들 수 있다.
# dictionary의 key가 Series의 index가 된다
sdata = {'kim':35000, 'park':67000, 'john':12000, 'choi':4000}
obj3 = pd.Series(sdata)
obj3

kim     35000
park    67000
john    12000
choi     4000
dtype: int64

In [0]:
# index 변경
obj3.index = ['갤럭시S10','IPhone','NoteX','IPad']
obj3.index

Index(['갤럭시S10', 'IPhone', 'NoteX', 'IPad'], dtype='object')

In [0]:
# 2-2. Data Frame

In [0]:
# Data Frame 정의하기
# 이전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데,
# 이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.

data = {'name':['lee', 'lee', 'lee', 'kim', 'park'],
       'year':[2013, 2014, 2015, 2016, 2015],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}
df2 = pd.DataFrame(data,columns=['year','name','points','penalty'],
                  index = ['one','twp','three','four','five'])
df2

Unnamed: 0,year,name,points,penalty
one,2013,lee,1.5,
twp,2014,lee,1.7,
three,2015,lee,3.6,
four,2016,kim,2.4,
five,2015,park,2.9,


In [0]:
# 행과 열의 구조를 가진 데이터가 생긴다.
df

NameError: ignored

In [0]:
# 행 번호
df.columns

NameError: ignored

In [0]:
# 열 이름
print(df.index)
#맨 앞에서부터 2개 tail은 맨 뒤에서부터
df.head(2)

In [0]:
# 값 얻기
df

In [0]:
# DataFrame을 만들면서 columns와 index를 설정할 수 있다.
df2 = pd.DataFrame(data,columns = ['Name','Year','Points'],index = ['one','two','three','four'])
print(df2)


In [0]:
# DataFrame을 정의하면서, data로 들어가는 python dictionary와 columns의
# 순서가 달라도 알아서 맞춰서 정의된다.
# 하지만 data에 포함되어 있지 않은 값은
# Nan(Not a Number)으로 나타나게 된다.
# 이는 null과 같은 개념이다.
# Nan 값은 추후에 어떠한 방법으로도 처리가 되지 않는 데이터이다.
# 따라서 올바른 데이터 처리를 위해 추가적으로 값을 넣어줘야 한다.

In [0]:
# describe() 함수는 DataFrame의 계산 가능한 값들에 대한
# 요약통계 값을 보여준다.


In [0]:
# 3. DataFrame Indexing

In [0]:
data = {'names':['lee', 'lee', 'lee', 'park', 'park'],
       'year': [2014, 2015, 2016, 2015, 2016],
       'points':[1.5, 1.7, 3.6, 2.4, 2.9]}



In [0]:
# 3-1. DataFrame 에서 열을 선택하고 조작하기

In [0]:
# 특정 열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
# 또는
# python의 List나 numpy의 array
df2 = pd.DataFrame(data,columns = ['names','year','points','hello'],index = ['one','two','three','four','five'])
#df2['Year'][2]=1
#df2.Year =1
#df2.hello = [3,4,5,None]
df2

Unnamed: 0,names,year,points,hello
one,lee,2014,1.5,
two,lee,2015,1.7,
three,lee,2016,3.6,
four,park,2015,2.4,
five,park,2016,2.9,


In [0]:
df = pd.DataFrame(data)
df['names']

0     lee
1     lee
2     lee
3    park
4    park
Name: names, dtype: object

In [0]:
# 동일한 의미를 갖는, 다른 방법
df.year

0    2014
1    2015
2    2016
3    2015
4    2016
Name: year, dtype: int64

In [0]:
df[['year','points']]

Unnamed: 0,year,points
0,2014,1.5
1,2015,1.7
2,2016,3.6
3,2015,2.4
4,2016,2.9


In [0]:
# 새로운 열을 추가하기
df2['zeros']=np.arange(5)
df2

Unnamed: 0,names,year,points,hello,zeros
one,lee,2014,1.5,,0
two,lee,2015,1.7,,1
three,lee,2016,3.6,,2
four,park,2015,2.4,,3
five,park,2016,2.9,,4


In [0]:
# Series를 추가할 수도 있다.
val = pd.Series([-1.2,-1.4,3.0],index = ['two','four','five'])
df2['debt'] = val

In [0]:
df2

Unnamed: 0,names,year,points,hello,zeros,debt
one,lee,2014,1.5,,0,
two,lee,2015,1.7,,1,-1.2
three,lee,2016,3.6,,2,
four,park,2015,2.4,,3,-1.4
five,park,2016,2.9,,4,3.0


In [0]:
df2['net_points'] = df2['hello'] - df2['year']
df2['high_points'] = df2.zeros>2
df2

Unnamed: 0,names,year,points,hello,zeros,debt,net_points,high_points
one,lee,2014,1.5,,0,,,False
two,lee,2015,1.7,,1,-1.2,,False
three,lee,2016,3.6,,2,,,False
four,park,2015,2.4,,3,-1.4,,True
five,park,2016,2.9,,4,3.0,,True


In [0]:
# 하지만 Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 
# 데이터가 들어간다.
# 이점이 python list나 numpy array로 데이터를 넣을 때와 가장 큰 차이점이다.

In [0]:
# 열 삭제하기
del df2['net_points']
df2

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True
five,park,2016,2.9,,4,3.0,True


In [0]:
# 3-2. DataFrame에서 행을 선택하고 조작하기
# Pandas에서는 DataFrame에서 행을 인덱싱하는 방법이 무수히 많다.
# 물론 위에서 소개했던 열을 선택하는 방법도 수많은 방법 중에 하나에 불과하다.
df2[:3]

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False


In [0]:
df2[::2]

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
three,lee,2016,3.6,,2,,False
five,park,2016,2.9,,4,3.0,True


In [0]:
# 0번째 부터 2(3-1)번째 까지 가져온다.
# 뒤에 써준 숫자번째의 행은 뺀다.
df2[0:2]

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False


In [0]:
# 아래 방법을 권장한다.
# .loc 또는 .iloc 함수를 사용하는 방법
df2.loc['two']

names            lee
year            2015
points           1.7
hello            NaN
zeros              1
debt            -1.2
high_points    False
Name: two, dtype: object

In [0]:
df2.loc['two':'four']

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True


In [0]:
df2.loc[:,'year']

one      2014
two      2015
three    2016
four     2015
five     2016
Name: year, dtype: int64

In [0]:
#복사할때 새로운 공간할당을 위해 copy
df = df2.copy()
df2
df.Name = 1
df

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True
five,park,2016,2.9,,4,3.0,True


In [0]:
# 새로운 행 삽입하기
#df2.loc['six',:] = [2013,'june',4.0,2]
df2.loc['six'] = ['june',2017,4.0,3,3,3,True]

In [0]:
df2

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True
five,park,2016,2.9,,4,3.0,True
six,june,2017,4.0,3.0,3,3.0,True


In [0]:
# .iloc 사용 :: index 번호를 사용한다.
df2.iloc[3]

Unnamed: 0,hello
one,
two,
three,
four,
five,
six,3.0


In [0]:
df2.iloc[3:5,0:2]

Unnamed: 0,names,year
four,park,2015
five,park,2016


In [0]:
df2.iloc[[1,3,4],[2]]

Unnamed: 0,points
two,1.7
four,2.4
five,2.9


In [0]:
df2.iloc[:,0:4]

Unnamed: 0,names,year,points,hello
one,lee,2014,1.5,
two,lee,2015,1.7,
three,lee,2016,3.6,
four,park,2015,2.4,
five,park,2016,2.9,
six,june,2017,4.0,3.0


In [0]:
df2.iloc[4][1]

2016

In [0]:
df2.iloc[4,1]

2016

In [0]:
df2

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True
five,park,2016,2.9,,4,3.0,True
six,june,2017,4.0,3.0,3,3.0,True


In [0]:
#year가 2014보다 큰 모든 행의 값
df2.loc[df2.year>2014,:]

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
two,lee,2015,1.7,,1,-1.2,False
three,lee,2016,3.6,,2,,False
four,park,2015,2.4,,3,-1.4,True
five,park,2016,2.9,,4,3.0,True
six,june,2017,4.0,3.0,3,3.0,True


In [0]:
#name이 lee인 애들에서 points와 zeros를 가져오세요
df2.loc[df2.names =='lee',['points','zeros']]

df2.loc[df2['names']=='lee',['points','zeros']]

Unnamed: 0,points,zeros
one,1.5,0
two,1.7,1
three,3.6,2


In [0]:
#points가 1.7미만 or points>2.9
df2.loc[((df2.points<1.7) | (df2.points>2.9)) , :]

Unnamed: 0,names,year,points,hello,zeros,debt,high_points
one,lee,2014,1.5,,0,,False
three,lee,2016,3.6,,2,,False
six,june,2017,4.0,3.0,3,3.0,True


In [0]:
# 4.DataFrame에서의 boolean Indexing


In [0]:
# year가 2014보다 큰 boolean data


In [0]:
# year가 2014보다 큰 모든 행의 값


In [0]:
# numpy에서와 같이 논리연산을 응용할 수 있다.


In [0]:
# 새로운 값을 대입할 수도 있다.


In [0]:
# 5.Data

In [0]:
# DataFrame을 만들 때 index, column을 설정하지 않으면 
# 기본 값으로 0부터 시작하는 정수형 숫자로 입력된다.
df = pd.DataFrame(np.random.randn(6,4))
df

Unnamed: 0,0,1,2,3
0,0.715454,1.064547,1.5262,0.395077
1,-0.715198,0.782138,-1.806332,0.361159
2,2.59435,-2.007996,-0.342244,1.620392
3,0.25307,-0.83643,-0.923085,-0.162492
4,-0.460992,1.365307,-0.805626,0.059174
5,-0.47829,1.377063,0.358636,-0.624817


In [0]:
# pandas에서 제공하는 date_range 함수는 datetime 자료형으로 구성된,
# 날짜, 시각 등을 알 수 있는 자료형을 만드는 함수
df.columns = ['A','B','C','D']
df.index = pd.date_range('20190911',periods = 6)
df.index

DatetimeIndex(['2019-09-11', '2019-09-12', '2019-09-13', '2019-09-14',
               '2019-09-15', '2019-09-16'],
              dtype='datetime64[ns]', freq='D')

In [0]:
# np.nan은 NaN값을 의미한다.
df['F'] =[1.0,np.nan,3.5,6.1,np.nan,7]
df

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,
2019-09-13,2.59435,-2.007996,-0.342244,1.620392,3.5
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# NaN 없애기

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,
2019-09-13,2.59435,-2.007996,-0.342244,1.620392,3.5
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# 행의 값 중 하나라도 nan인 경우 그 행을 없앤다.
df.dropna(how = 'any')

In [0]:
# 행의 값이 모두 nan인 경우 그행을 없앤다.
df.dropna(how = 'all')

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,
2019-09-13,2.59435,-2.007996,-0.342244,1.620392,3.5
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# 주의 drop함수는 특정 행 또는 열을 drop하고 난 DataFrame을 반환한다.
# 즉, 반환을 받지 않으면 기존의 DataFrame은 그대로이다.
# 아니면, inplace = True 라는 인자를 추가하여, 반환을 받지 않고서도
# 기존의 DataFrame이 변경되도록 한다.

In [0]:
# nan 값에 값 넣기
df.fillna(value = 0.5)

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,0.5
2019-09-13,2.59435,-2.007996,-0.342244,1.620392,3.5
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,0.5
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# nan 값인지 확인하기
df.isnull()

Unnamed: 0,A,B,C,D,F
2019-09-11,False,False,False,False,False
2019-09-12,False,False,False,False,True
2019-09-13,False,False,False,False,False
2019-09-14,False,False,False,False,False
2019-09-15,False,False,False,False,True
2019-09-16,False,False,False,False,False


In [0]:
# F열에서 nan값을 포함하는 행만 추출하기
df.loc[df.isnull()['F']]
df.loc[df.isnull()['F'],:]

Unnamed: 0,A,B,C,D,F
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,


In [0]:
pd.to_datetime('20190911')

Timestamp('2019-09-11 00:00:00')

In [0]:
# 특정 행 drop 하기
df.drop(pd.to_datetime('20190913'))

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-12,-0.715198,0.782138,-1.806332,0.361159,
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-15,-0.460992,1.365307,-0.805626,0.059174,
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# 2개 이상도 가능
df.drop([pd.to_datetime('20190912'),pd.to_datetime('20190915')])

Unnamed: 0,A,B,C,D,F
2019-09-11,0.715454,1.064547,1.5262,0.395077,1.0
2019-09-13,2.59435,-2.007996,-0.342244,1.620392,3.5
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492,6.1
2019-09-16,-0.47829,1.377063,0.358636,-0.624817,7.0


In [0]:
# 특정 열 삭제하기
df.drop('F',axis=1)

Unnamed: 0,A,B,C,D
2019-09-11,0.715454,1.064547,1.5262,0.395077
2019-09-12,-0.715198,0.782138,-1.806332,0.361159
2019-09-13,2.59435,-2.007996,-0.342244,1.620392
2019-09-14,0.25307,-0.83643,-0.923085,-0.162492
2019-09-15,-0.460992,1.365307,-0.805626,0.059174
2019-09-16,-0.47829,1.377063,0.358636,-0.624817


In [0]:
# 2개 이상의 열도 가능
df.drop(['F','A'],axis=1)

Unnamed: 0,B,C,D
2019-09-11,1.064547,1.5262,0.395077
2019-09-12,0.782138,-1.806332,0.361159
2019-09-13,-2.007996,-0.342244,1.620392
2019-09-14,-0.83643,-0.923085,-0.162492
2019-09-15,1.365307,-0.805626,0.059174
2019-09-16,1.377063,0.358636,-0.624817


In [0]:
# 6.Data 분석용 함수들

In [0]:
data = [[1.4, np.nan],
       [7.1, -4.5],
       [np.nan, np.nan],
       [0.75, -1.3]]
df = pd.DataFrame(data, columns = ['one','two'], index = ['a','b','c','d'])

In [0]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [0]:
#  각 열의 합
df.sum(axis=0)

one    9.25
two   -5.80
dtype: float64

In [0]:
# 각 행의 합
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [0]:
# 이 때, 위에서 볼 수 있듯이 NaN값은 배제하고 계산한다.
# NaN 값을 배제하지 않고 계산하려면 아래와 같이 skipna에 대해 false를 지정해 준다.

In [0]:
df.sum(axis =1 , skipna = True)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [0]:
# 특정 행 또는 특정 열에서만 계산하기
df['one'].sum()

9.25

In [0]:
df.loc[:,'one'].sum()

9.25

In [0]:
df.loc['b',:].sum()

2.5999999999999996

In [0]:
# pandas에서 DataFrame에 적용되는 함수들
# sum()함수 이외에도 pandas에서 DataFrame에 적용되는 함수는 다음의 것들이 있다.
# count 전체 성분의(NaN이 아닌) 값의 갯수를 계산
# min, max 전체 성분의 최솟, 최댓값을 계산
# argmin, argmax 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# idxmin, idxmax 전체 인덱스 중 최솟값, 최댓값을 반환
# quantile 전체 성분의 특정 사분위수에 해당하는 값을 반환 (0~1 사이)
# sum 전체 성분의 합을 계산
# mean 전체 성분의 평균을 계산
# median 전체 성분의 중간값을 반환
# mad 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# std, var 전체 성분의 표준편차, 분산을 계산
# cumsum 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산(0에서부터 계속 더해짐)
# cumprod 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산(1에서부터 계속 곱해짐)

In [0]:
df2 = pd.DataFrame(np.random.randn(6,4),
                  columns=['A', 'B', 'C', 'D'],
                  index = pd.date_range('20160701', periods=6))


In [0]:
# A열과 B열의 상관계수 구하기
df2['A'].corr(df2['B'])

0.2979640059825435

In [0]:
# 정렬함수 및 기타함수


In [0]:
dates = df2.index
random_dates = np.random.permutation(dates)
df2 = df2.reindex(index=random_dates, columns = ['D', 'B', 'C', 'A'])
df2

Unnamed: 0,D,B,C,A
2016-07-02,0.353058,0.795795,-1.511252,0.191501
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753
2016-07-05,-1.158493,0.627869,-0.313282,0.983126
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007


In [0]:
# index와 column의 순서가 섞여있다.
# 이 때 index가 오름차순이 되도록 정렬해보자
df2.sort_index(axis = 0)

Unnamed: 0,D,B,C,A
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007
2016-07-02,0.353058,0.795795,-1.511252,0.191501
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515
2016-07-05,-1.158493,0.627869,-0.313282,0.983126
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722


In [0]:
# column을 기준으로?
df2.sort_index(axis = 1)

Unnamed: 0,A,B,C,D
2016-07-02,0.191501,0.795795,-1.511252,0.353058
2016-07-04,-0.388515,1.893435,-0.208564,-1.030252
2016-07-03,-1.23753,-0.403722,-0.73296,-0.743018
2016-07-05,0.983126,0.627869,-0.313282,-1.158493
2016-07-06,-0.095722,-0.373579,-0.275117,-0.01501
2016-07-01,-0.774007,0.249234,-0.700656,-0.111633


In [0]:
# 내림차순으로는?
df2.sort_index(axis = 0, ascending = False)

Unnamed: 0,D,B,C,A
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722
2016-07-05,-1.158493,0.627869,-0.313282,0.983126
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753
2016-07-02,0.353058,0.795795,-1.511252,0.191501
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007


In [0]:
# 값 기준 정렬하기
# D열의 값이 오름차순이 되도록 정렬하기
df2.sort_values(by='D')

Unnamed: 0,D,B,C,A
2016-07-05,-1.158493,0.627869,-0.313282,0.983126
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722
2016-07-02,0.353058,0.795795,-1.511252,0.191501


In [0]:
# B열의 값이 내림차순이 되도록 정렬하기
df2.sort_values(by=['D','B'],ascending = False)

Unnamed: 0,D,B,C,A
2016-07-02,0.353058,0.795795,-1.511252,0.191501
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515
2016-07-05,-1.158493,0.627869,-0.313282,0.983126


In [0]:
# E열과 F열을 동시에 고려하여, 오름차순으로 하려면?
df2['E'] = np.random.randint(0,6,size=6)
df2['F']='a','b','g','g','a','g'
df2
#두개 이상의 열을 넣으면 첫번째 리스트값이 우선순위
df2.sort_values(by=['E','D'],ascending = False)

Unnamed: 0,D,B,C,A,E,F
2016-07-02,0.353058,0.795795,-1.511252,0.191501,3,a
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753,3,g
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722,2,a
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007,1,g
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515,1,b
2016-07-05,-1.158493,0.627869,-0.313282,0.983126,1,g


In [0]:
# 지정한 행 또는 열에서 중복값을 제외한 유니크한 값만 얻기
df2.sort_values(by=['E','D'],ascending = False)

Unnamed: 0,D,B,C,A,E,F
2016-07-02,0.353058,0.795795,-1.511252,0.191501,3,a
2016-07-03,-0.743018,-0.403722,-0.73296,-1.23753,3,g
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722,2,a
2016-07-01,-0.111633,0.249234,-0.700656,-0.774007,1,g
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515,1,b
2016-07-05,-1.158493,0.627869,-0.313282,0.983126,1,g


In [0]:
# 지정한 행 또는 열에서 값에 따른 개수 얻기
df2['F'].unique()

array(['a', 'b', 'g'], dtype=object)

In [0]:
# 지정한 행 또는 열에서 입력한 값이 있는지 확인하기
df2['F'].value_counts()

g    3
a    2
b    1
Name: F, dtype: int64

In [0]:
# F열의 값이 a나 b인 모든 행 구하기
#df2['F'].isin(['a','b'])
df2.loc[df2['F'].isin(['a','b']),:]

Unnamed: 0,D,B,C,A,E,F
2016-07-02,0.353058,0.795795,-1.511252,0.191501,3,a
2016-07-04,-1.030252,1.893435,-0.208564,-0.388515,1,b
2016-07-06,-0.01501,-0.373579,-0.275117,-0.095722,2,a


In [0]:
# 사용자가 직접 만든 함수를 적용하기
func = lambda x:x.max() - x.min()
"""def func(x):
  r = x.max()-x.min()
  return r
"""

'def func(x):\n  r = x.max()-x.min()\n  return r\n'

In [0]:
del df2['F']
df2.apply(func,axis=0)

D    1.511551
B    2.297157
C    1.302687
A    2.220656
E    2.000000
dtype: float64