In [20]:
import numpy as np
import pandas as pd
index = ['a', 'b', 'c', 'd']
ser2= pd.Series(np.arange(4)*10, index)
ser2

a     0
b    10
c    20
d    30
dtype: int32

In [12]:
ser1 = pd.Series(np.arange(4)*10)
ser1

0     0
1    10
2    20
3    30
dtype: int32

In [21]:
ser2['b' : 'd']                       # label로 slicing하면 '끝점'도 포함한다

b    10
c    20
d    30
dtype: int32

In [22]:
ser2['b' : 'd'] = 5
ser2

a    0
b    5
c    5
d    5
dtype: int32

In [24]:
# 데이터 프레임 만들기
data = np.arange(16).reshape((4,4))
index = ['Ohio', 'Colorado', 'Utah', 'New York']
columns = ['one', 'two', 'three', 'four']
df1 = pd.DataFrame(data, index, columns)
df1

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [25]:
df1['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [26]:
df1.two

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [27]:
df1[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [28]:
df1[:2]                                # [:2] => [0~1] 행 출력

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [29]:
df1[df1['three'] >5]                   # df1 데이터프레임에서 columns 'three'의 값이 5보다 큰 행만 출력

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [31]:
# loc와 iloc로 선택하기
### 축 이름을 선택 (loc)
df1.loc['Colorado', ['two', 'three']]                 # data.loc("index", "columns")

two      5
three    6
Name: Colorado, dtype: int32

In [32]:
df1.loc['Utah', ['one', 'four']]

one      8
four    11
Name: Utah, dtype: int32

In [34]:
### 정수 색인으로 선택 (iloc)
df1.iloc[0, [3,0,1]]

four    3
one     0
two     1
Name: Ohio, dtype: int32

In [36]:
df1.iloc[1]

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [37]:
df1.iloc[[1,2], [3,0,1]]              # [1,2] => index     [3,0,1] => columns

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [40]:
# 산술 연산과 데이터 정렬

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index = ['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a', 'c', 'e', 'f', 'g'])

In [41]:
s1+s2                        # 서로 대응되는 색인이 없는 경우, 데이터값은 'NaN'
                             # 산술 연산 시 누락된 값은 전파된다.

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [44]:
# 산술 연산 메서드에 채워 넣을 값 지정하기
df1 = pd.DataFrame(np.arange(12).reshape((3,4)), columns = ['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.arange(20).reshape((4,5)), columns = ['a', 'b', 'c', 'd', 'e'])

df2.loc[1, 'b'] = np.nan
print(df1)
print(df2)

   a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
    a     b   c   d   e
0   0   1.0   2   3   4
1   5   NaN   7   8   9
2  10  11.0  12  13  14
3  15  16.0  17  18  19


In [45]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [49]:
df1.add(df2, fill_value = 0)                           # NaN 값을 0으로 채우고 더하기

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [51]:
# 함수 적용과 매핑
frame = pd.DataFrame(np.random.randn(4,3), columns = ['b', 'd', 'e'], index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.44487,1.018663,0.86035
Ohio,0.08162,-0.64776,0.581488
Texas,-0.371608,1.599731,0.045564
Oregon,0.562531,1.947162,1.790809


In [52]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.44487,1.018663,0.86035
Ohio,0.08162,0.64776,0.581488
Texas,0.371608,1.599731,0.045564
Oregon,0.562531,1.947162,1.790809


In [53]:
# lambda함수를 통해 각 columns별 '최대값 - 최소값' 구하기 (.for apply method)
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.007401
d    2.594923
e    1.745244
dtype: float64

In [54]:
# 각 로우에 대해 한번씩 수행해보기 
frame.apply(lambda x: x.max() - x.min(), axis = 'columns')

Utah      1.463534
Ohio      1.229248
Texas     1.971338
Oregon    1.384632
dtype: float64

In [55]:
def f(x):
    data = [x.min(), x.max()]
    index = ['min', 'max']
    return pd.Series(data, index)

frame.apply(f)

Unnamed: 0,b,d,e
min,-0.44487,-0.64776,0.045564
max,0.562531,1.947162,1.790809


In [56]:
format = lambda x: '%.2f' % x                   # 소수점 아래 2번째까지만 표기 '%.2f'
frame.applymap(format)                          # 2차원에서는 applymap 사용 

Unnamed: 0,b,d,e
Utah,-0.44,1.02,0.86
Ohio,0.08,-0.65,0.58
Texas,-0.37,1.6,0.05
Oregon,0.56,1.95,1.79


In [57]:
frame['e'].map(format)                           # Series 일땐 map 함수를 사용

Utah      0.86
Ohio      0.58
Texas     0.05
Oregon    1.79
Name: e, dtype: object

In [63]:
# 정렬과 순위
s3 = pd.Series([0,1,2,3], index = ['d', 'a', 'b', 'c'])
s3.sort_index()                                           # index 순으로 정렬

a    1
b    2
c    3
d    0
dtype: int64

In [65]:
df3 = pd.DataFrame(np.arange(8).reshape((2,4)), index = ['three', 'one'], columns = ['d', 'a', 'b', 'c'])
df3.sort_index()                                          # index 순으로 정렬

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [85]:
# df3.sort_index().sort_index(axis=1)
df4 = df3.sort_index()
df4.sort_index(axis=1)

Unnamed: 0,a,b,c,d
one,5,6,7,4
three,1,2,3,0


In [86]:
# 내림차순 정렬
df3.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [89]:
s4 = pd.Series([4, 7, -3, 2])
s4.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [90]:
# 순위
s5 = pd.Series([7, -5, 7, 4, 2, 0, 4])
s5.rank()                                   # 등수에대한 가중치 점수를 도출

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [93]:
s5.rank(method = 'first')                  # method = first  => 데이터 내의 위치에 따라 순위를 매긴다.

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [96]:
s5.rank(ascending = False, method = 'max')                     # 내림차순으로 순위를 매김

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [104]:
# 중복 색인
s6 = pd.Series(range(5), index = ['kim', 'kim', 'lee', 'lee', 'park'])
s6

kim     0
kim     1
lee     2
lee     3
park    4
dtype: int64

In [105]:
# 해당 값이 유일한지 아닌지  
s6.index.is_unique
# False => 중복된 값이 있다.   /    True => 중복된 값이 없다.

False

In [106]:
# 중복 o => Series객체 반환
s6['kim']

kim    0
kim    1
dtype: int64

In [108]:
# 중복 x => 스칼라값 반환
s6['park']

4