# Pandas - basic
- 데이터프레임(Dataframe)과 시리즈(Series)

In [18]:
# 시리즈와 데이터프레임 두가지가 기본이다
# 자동으로 인덱스가 만들어진다

import numpy as np
import pandas as pd

In [19]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) 
data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [20]:
data['city'], type(data['city'])

(0    서울
 1    부산
 2    대전
 3    대구
 4    광주
 Name: city, dtype: object,
 pandas.core.series.Series)

In [21]:
data[['year', 'city', 'temp']]

Unnamed: 0,year,city,temp
0,2017,서울,18
1,2017,부산,20
2,2018,대전,19
3,2018,대구,21
4,2018,광주,20


In [22]:
data.index = ['a','b','c','d','e']
data

Unnamed: 0,city,year,temp
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [23]:
data.columns = ['도시','연도','날씨']
data

Unnamed: 0,도시,연도,날씨
a,서울,2017,18
b,부산,2017,20
c,대전,2018,19
d,대구,2018,21
e,광주,2018,20


In [24]:
data.set_index(['도시'], inplace=True)

In [25]:
data

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


## accessing specific values

In [26]:
# accessing specific columns
data['연도']   # column 값으로접근 

도시
서울    2017
부산    2017
대전    2018
대구    2018
광주    2018
Name: 연도, dtype: int64

In [28]:
data.연도     # 속성 값으로 접근

도시
서울    2017
부산    2017
대전    2018
대구    2018
광주    2018
Name: 연도, dtype: int64

In [29]:
data

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [30]:
# accessing specific rows - two ways (index name, index number)
data.loc['서울']   # index name

연도    2017
날씨      18
Name: 서울, dtype: int64

In [31]:
data.loc[['서울','부산']]

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20


In [32]:
data.iloc[1:5]    # index number (like an array)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [33]:
data.loc['부산':'광주']  # 위와 동일 (차이점은 마지막 부분이 포함된다는 것)

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [36]:
# 새로운 열 추가 (feature)
cars = [50,40,20,30,10]
data['car'] = cars
data

Unnamed: 0_level_0,연도,날씨,car
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,50
부산,2017,20,40
대전,2018,19,20
대구,2018,21,30
광주,2018,20,10


In [38]:
data['high'] = data.car >= 30 
data

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대전,2018,19,20,False
대구,2018,21,30,True
광주,2018,20,10,False


In [39]:
data.drop('대전')   # remove row

Unnamed: 0_level_0,연도,날씨,car,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,2017,18,50,True
부산,2017,20,40,True
대구,2018,21,30,True
광주,2018,20,10,False


In [40]:
data.drop('car', axis=1)  # remove column

Unnamed: 0_level_0,연도,날씨,high
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2017,18,True
부산,2017,20,True
대전,2018,19,False
대구,2018,21,True
광주,2018,20,False


In [41]:
data.drop(['car', 'high'], 1)

  data.drop(['car', 'high'], 1)


Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


## define a new method using Lambda()
- 이름없는 함수
- 형식: "lamda 인수: 인수가 포함된 식"
- 이름을 줄 수도 있음.

In [42]:
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['A', 'B', 'C'], index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [43]:
df.max(0)  #열을 기준으로 탐색

A     9
B    10
C    11
dtype: int32

In [44]:
df.max()   # defaults axis = 0

A     9
B    10
C    11
dtype: int32

In [47]:
df.max(1), type(df.max(1))

(a     2
 b     5
 c     8
 d    11
 dtype: int32,
 pandas.core.series.Series)

In [49]:
df.idxmax(0), df.idxmax(1)    # 인덱스 위치 반환

(A    d
 B    d
 C    d
 dtype: object,
 a    C
 b    C
 c    C
 d    C
 dtype: object)

In [50]:
print(df.max(0), '\n', df.min(0), '\n', df.sum(0), '\n', df.mean(0))

A     9
B    10
C    11
dtype: int32 
 A    0
B    1
C    2
dtype: int32 
 A    18
B    22
C    26
dtype: int64 
 A    4.5
B    5.5
C    6.5
dtype: float64


In [51]:
df.A

a    0
b    3
c    6
d    9
Name: A, dtype: int32

In [52]:
df.A.max(), df.A.min()

(9, 0)

In [53]:
df.max(0) - df.min(0)

A    9
B    9
C    9
dtype: int32

In [54]:
f = lambda x: x.max() - x.min()

In [55]:
df.apply(f)   

A    9
B    9
C    9
dtype: int64

In [57]:
df.apply(f, 1)   # array 처럼 행 1, 열 0

a    2
b    2
c    2
d    2
dtype: int64

## Series

In [59]:
# 파이썬 기본 타입인  딕셔너리로부터 시리즈를 만들 수 있다
dic = {'서울':800, '부산':150, '대구': 100}
dic

{'서울': 800, '부산': 150, '대구': 100}

In [60]:
s = pd.Series(dic) 
s

서울    800
부산    150
대구    100
dtype: int64

In [66]:
s.values, s.index, s.items

(array([800, 150, 100], dtype=int64),
 Index(['서울', '부산', '대구'], dtype='object'),
 <bound method Series.items of 서울    800
 부산    150
 대구    100
 dtype: int64>)

In [67]:
s.value_counts() 

800    1
150    1
100    1
dtype: int64

In [68]:
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [69]:
df.A.value_counts()

0    1
3    1
6    1
9    1
Name: A, dtype: int64

# Pandas - data processing
## sorting

In [70]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [71]:
obj.sort_index() 

a    1
b    2
c    3
d    0
dtype: int64

In [72]:
obj.sort_values(ascending=False)  # descending order

c    3
b    2
a    1
d    0
dtype: int64

In [74]:
obj  # 위에서 sort를 해줬으나 obj의 결과는 변하지 않는다.

d    0
a    1
b    2
c    3
dtype: int64

In [75]:
df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
df

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [76]:
df.sort_index()     # alphabet 순 정렬 

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [77]:
df.sort_index(axis=1)    # 열(columns)을 기준으로 정렬 

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [78]:
try:
    df.sort_column()
except:
    print("Error: 'DataFrame' object has no attribute 'sort_column'")

Error: 'DataFrame' object has no attribute 'sort_column'


In [79]:
df.sort_index(axis=1, ascending=False)   # descending order

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [80]:
df = pd.DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]}) 
df

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [81]:
df.sort_values(by='b')


Unnamed: 0,b,a,c
3,2,5,9
2,3,2,7
0,4,4,5
1,7,9,3


## ranking, idxmax, idxmin

In [85]:
# 순위 매기기 rank        작은 값 부터 1위라고 순위를 매긴다 
obj = pd.Series([100, 23, 99, 33])
obj

0    100
1     23
2     99
3     33
dtype: int64

In [86]:
obj.rank(ascending=False)

0    1.0
1    4.0
2    2.0
3    3.0
dtype: float64

In [87]:
obj = pd.Series([100, 33, 99, 33])  # 동점이 있으면 평균값을 준다
obj.rank(ascending=False)

0    1.0
1    3.5
2    2.0
3    3.5
dtype: float64

In [88]:
obj.rank(method='first', ascending=False)
# 동일한 값이 존재 할 경우 먼저 나타나는 것에게 높은 순위를 줄 수 있다

0    1.0
1    3.0
2    2.0
3    4.0
dtype: float64

In [89]:
df = pd.DataFrame({'b': [4,7,3,2], 'a': [4,9,2,5], 'c': [5,3,7,9]})
df

Unnamed: 0,b,a,c
0,4,4,5
1,7,9,3
2,3,2,7
3,2,5,9


In [90]:
df.rank()

Unnamed: 0,b,a,c
0,3.0,2.0,2.0
1,4.0,4.0,1.0
2,2.0,1.0,3.0
3,1.0,3.0,4.0


In [91]:
df.rank(axis=1, ascending=False)      #행 기준으로 rank를 수행

Unnamed: 0,b,a,c
0,2.5,2.5,1.0
1,2.0,1.0,3.0
2,2.0,3.0,1.0
3,3.0,2.0,1.0


In [92]:
# NaN이 있는 경우 빼고 계산한다
df = pd.DataFrame({'b': [4, 7, 3, 2], 'a': [4,9,2,5], 'c': [5,3,7,np.nan]})
df

Unnamed: 0,b,a,c
0,4,4,5.0
1,7,9,3.0
2,3,2,7.0
3,2,5,


In [93]:
print(df.sum(0))
print(df.mean(0))

b    16.0
a    20.0
c    15.0
dtype: float64
b    4.0
a    5.0
c    5.0
dtype: float64


In [94]:
df.sum(skipna=False)
# NaN이 있으면 이를 반영하여 스킵하지 않는다
# skipna 은 skip NaN을 뜻함.

b    16.0
a    20.0
c     NaN
dtype: float64

In [95]:
# 최대치, 최소치가 있는 위치를 반환한다
print(df.idxmax(), df.idxmin())

b    1
a    1
c    2
dtype: int64 b    3
a    2
c    1
dtype: int64


## unique, value_counts, isin

In [96]:
# 유니크한 값 찾기 (set)
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [97]:
set(obj)

{'a', 'b', 'c', 'd'}

In [98]:
obj.unique()   ## value 값의 종류를 확인 할 수 있다.

array(['c', 'a', 'd', 'b'], dtype=object)

In [99]:
# 빈도수를 간단히 알 수 있다. 빈도수가 높은 순으로 정렬된다.
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [100]:
# 빈도수와 관련없이 나타나는 순서대로 보려면
obj.value_counts(sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [102]:
# 특정한 내용이 들어있는지 알려면 isin()을 사용한다
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [103]:
obj[mask] ## obj에서 mask 값이 true인 값만을 출력

0    c
5    b
6    b
7    c
8    c
dtype: object

In [104]:
# 아래는 같은 결과를 얻는다
obj[obj.isin(['b', 'c'])] 

0    c
5    b
6    b
7    c
8    c
dtype: object

## apply, fillna

In [105]:
df = pd.DataFrame({'X':['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], 
                  'Y':['f', 'g', 'd', 'g', 'h', 'e', 'd', 'h', 'f'],
                   'Z':['a', 'e', 'd', 'g', 'd', 'e', 'q', 'b', 'c']})
df

Unnamed: 0,X,Y,Z
0,c,f,a
1,a,g,e
2,d,d,d
3,a,g,g
4,a,h,d
5,b,e,e
6,b,d,q
7,c,h,b
8,c,f,c


In [106]:
df.apply(lambda s: s.value_counts())    # same as the below

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [107]:
# 각 항목이 들어 있는 갯수를 센다. 없는 값은 NaN으로 표시된다
df.apply(pd.value_counts)

Unnamed: 0,X,Y,Z
a,3.0,,1.0
b,2.0,,1.0
c,3.0,,1.0
d,1.0,2.0,2.0
e,,1.0,2.0
f,,2.0,
g,,2.0,1.0
h,,2.0,
q,,,1.0


In [108]:
df.apply(pd.value_counts).fillna(0) ## fillna 은 fill NaN을 뜻한다.

Unnamed: 0,X,Y,Z
a,3.0,0.0,1.0
b,2.0,0.0,1.0
c,3.0,0.0,1.0
d,1.0,2.0,2.0
e,0.0,1.0,2.0
f,0.0,2.0,0.0
g,0.0,2.0,1.0
h,0.0,2.0,0.0
q,0.0,0.0,1.0


## missing value (dropna)

In [110]:
# 결측치 처리
from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [111]:
data.dropna() # data에서 Na값들을 지움

0    1.0
2    3.5
4    7.0
dtype: float64

In [112]:
# 같은 결과
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [113]:
df = pd.DataFrame([[NA, 6.5, 3.], [NA, NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])
df

Unnamed: 0,0,1,2
0,,6.5,3.0
1,,,
2,,,
3,,6.5,3.0


In [114]:
df.dropna()   # 한 항목이라도 NA가 있으면 해당 행을 삭제한다

Unnamed: 0,0,1,2


In [115]:
df.dropna(how='all') # 행의 모든 항목이 NA일때 해당 행을 삭제한다

Unnamed: 0,0,1,2
0,,6.5,3.0
3,,6.5,3.0


In [127]:
df.dropna(axis=1)  # 컬럼에 대한 삭제


0
1
2
3
4
5
6


In [116]:
df.dropna(axis=1, how='all')

Unnamed: 0,1,2
0,6.5,3.0
1,,
2,,
3,6.5,3.0


In [125]:
df = pd.DataFrame(np.random.randn(7 , 3))
df.iloc[:4, 1] = NA  #행 1에 적용
df.iloc[:2, 2] = NA
df.iloc[0,0] = NA
df

Unnamed: 0,0,1,2
0,,,
1,-2.177963,,
2,0.614606,,1.117759
3,-0.778597,,-0.862477
4,0.232544,0.292593,-0.93542
5,-0.600258,-0.665512,0.113548
6,2.417117,-1.530979,-0.674605


In [126]:
df.dropna(thresh=2) # 축을 기준으로 2개 이상이면 그 축을 삭제

Unnamed: 0,0,1,2
2,0.614606,,1.117759
3,-0.778597,,-0.862477
4,0.232544,0.292593,-0.93542
5,-0.600258,-0.665512,0.113548
6,2.417117,-1.530979,-0.674605


## concat
- concat 명령을 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.
- 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [129]:
df1 = pd.DataFrame(np.arange(12).reshape(3,4))
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [131]:
df2 = pd.DataFrame(np.ones((3,4))) 
df2

Unnamed: 0,0,1,2,3
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0


In [132]:
pd.concat([df1,df2])

Unnamed: 0,0,1,2,3
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0


In [133]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,0,1,2,3,0.1,1.1,2.1,3.1
0,0,1,2,3,1.0,1.0,1.0,1.0
1,4,5,6,7,1.0,1.0,1.0,1.0
2,8,9,10,11,1.0,1.0,1.0,1.0


## merge

In [134]:
df1 = pd.DataFrame({'고객번호': [1001, 1002, 1003, 1004],
                    '이름': ['A', 'B', 'C', 'D']})
df1

Unnamed: 0,고객번호,이름
0,1001,A
1,1002,B
2,1003,C
3,1004,D


In [135]:
df2 = pd.DataFrame({'고객번호': [1001, 1001, 1002, 1006],
                    '금액': [10000, 20000, 15000, 5000]})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1002,15000
3,1006,5000


In [136]:
pd.merge(df1, df2, on="고객번호")   # 공통인 열을 찾아 합친다 (inner join)

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000
1,1001,A,20000
2,1002,B,15000


In [137]:
pd.merge(df1, df2, on="고객번호", how='outer') # 키 값이 한쪽에만 있어도 보여줌 (outer join)

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000.0
1,1001,A,20000.0
2,1002,B,15000.0
3,1003,C,
4,1004,D,
5,1006,,5000.0


In [138]:
pd.merge(df1, df2, on="고객번호", how='left')  # 첫번째 데이터프레임의 키 값을 모두 보여준다

Unnamed: 0,고객번호,이름,금액
0,1001,A,10000.0
1,1001,A,20000.0
2,1002,B,15000.0
3,1003,C,
4,1004,D,


## join
- join(): combines two dataframes on the basis of their indexes
- merge(): is more versatile and allows us to specify columns beside the index to join on for both dataframes.

In [139]:
# join method 를 사용할 수도 있다.
df1 = df1.set_index('고객번호')
df2 = df2.set_index('고객번호')
df1

Unnamed: 0_level_0,이름
고객번호,Unnamed: 1_level_1
1001,A
1002,B
1003,C
1004,D


In [140]:
df2

Unnamed: 0_level_0,금액
고객번호,Unnamed: 1_level_1
1001,10000
1001,20000
1002,15000
1006,5000


In [141]:
df1.join(df2)

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,A,10000.0
1001,A,20000.0
1002,B,15000.0
1003,C,
1004,D,


In [142]:
df1.join(df2, how='outer')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,A,10000.0
1001,A,20000.0
1002,B,15000.0
1003,C,
1004,D,
1006,,5000.0


## groupby (**)

In [144]:
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


In [145]:
df.groupby('Team').groups    # view groups

{'Devils': [2, 3], 'Kings': [4, 6, 7], 'Riders': [0, 1, 8, 11], 'Royals': [9, 10], 'kings': [5]}

In [146]:
df.groupby('Year').groups

{2014: [0, 2, 4, 9], 2015: [1, 3, 5, 10], 2016: [6, 8], 2017: [7, 11]}

In [147]:
df.groupby(['Team','Year']).groups

{('Devils', 2014): [2], ('Devils', 2015): [3], ('Kings', 2014): [4], ('Kings', 2016): [6], ('Kings', 2017): [7], ('Riders', 2014): [0], ('Riders', 2015): [1], ('Riders', 2016): [8], ('Riders', 2017): [11], ('Royals', 2014): [9], ('Royals', 2015): [10], ('kings', 2015): [5]}

In [155]:
grouped = df.groupby('Year')
for name, group in grouped:
   print (name)
   print (group)

2014
     Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701
2015
      Team  Rank  Year  Points
1   Riders     2  2015     789
3   Devils     3  2015     673
5    kings     4  2015     812
10  Royals     1  2015     804
2016
     Team  Rank  Year  Points
6   Kings     1  2016     756
8  Riders     2  2016     694
2017
      Team  Rank  Year  Points
7    Kings     1  2017     788
11  Riders     2  2017     690


In [157]:
# selecting group
grouped = df.groupby('Year')
print (grouped.get_group(2014))

     Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701


In [158]:
# aggregations
grouped = df.groupby('Year')
print (grouped['Points'].agg(np.mean))

Year
2014    795.25
2015    769.50
2016    725.00
2017    739.00
Name: Points, dtype: float64


In [160]:
# transformation
grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()
grouped.transform(score)

Unnamed: 0,Rank,Year,Points
0,-1.5,-1.161895,1.284327
1,0.5,-0.387298,0.302029
2,-0.707107,-0.707107,0.707107
3,0.707107,0.707107,-0.707107
4,1.154701,-1.091089,-0.860862
5,,,
6,-0.57735,0.218218,-0.236043
7,-0.57735,0.872872,1.096905
8,0.5,0.387298,-0.770596
9,0.707107,-0.707107,-0.707107


In [165]:
# filtration
df.groupby('Team').filter(lambda x: len(x) >= 3)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
4,Kings,3,2014,741
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
11,Riders,2,2017,690
