In [1]:
import pandas as pd
import numpy as np

**Series**
~~~
numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타내기
index를 지정하거나 0-based indexing 생성
같은 type의 0가 이상의 데이터 가지기
~~~

In [3]:
s1=pd.Series(['a', 'b', 'c'])   #index, value (data type)
s1

0    a
1    b
2    c
dtype: object

In [6]:
s2=pd.Series(np.arange(200))
s2

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

In [9]:
s3=pd.Series([1,2,3], [100, 200, 300])   #값 이후에 index 적기s3
s3

100    1
200    2
300    3
dtype: int64

In [11]:
s4=pd.Series([1,2,3], ['1','b','c'])  #문자도 index로 활용 가능하다
s4

1    1
b    2
c    3
dtype: int64

**data type**
~~~
int 16: 2 byte
int 32: 4 byte
int 64: 8 byte
~~~

In [13]:
#data, index, data type
s5=pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int16)
s5

100    0
101    1
102    2
103    3
104    4
dtype: int16

In [15]:
s5.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [16]:
s5.values

array([0, 1, 2, 3, 4], dtype=int16)

In [17]:
s5[100]  #indexing은 python 기본과 동일

0

In [19]:
#index 재사용도 가능
s6=pd.Series(np.arange(5), s5.index)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int32

**Series size, shape, unique, count, value_counts 함수**
~~~
size: 개수 반환
shape: 튜플 형태로 shape 반환
unique: 유일한 값만 ndarray로 반환
count: NaN을 제외한 개수를 반환
mean: NaN을 제외한 평균
value_counts: NaN을 제외하고 각 값들의 빈도를 반환
~~~

In [20]:
s=pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [21]:
s.unique()   #반복되는 값을 제외하고 array로 알려줌

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [23]:
s.value_counts()  #각 value가 index가 되서 그 빈도를 알려준다

1.0    5
2.0    4
5.0    2
3.0    2
7.0    1
4.0    1
dtype: int64

In [24]:
a=np.array([2,2,2,2,np.NaN])
b=pd.Series(a)
print("Series 사용 후 a의 평균", b.mean())
print("a의 평균", a.mean())   #NaN이 있으면 평균은 무조건 NaN으로 나온다

Series 사용 후 a의 평균 2.0
a의 평균 nan


In [25]:
#index를 활용 가능하다
s[[1,3,5,7]].value_counts()   #1,3,5,7는 index값이다

1.0    3
2.0    1
dtype: int64

In [26]:
# head는 기본 5개의 상위 값을 보여준다
s.head()

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
dtype: float64

In [27]:
# 상위 값 몇 개를 보여 줄 것인지 지정도 가능하다
s.head(n=7)

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [28]:
#하위 데이터 불러옴
s.tail()

11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [30]:
s1=pd.Series([1,2,3,4], ['a','b','c','d'])
s2=pd.Series([7,2,8,3],['d','a','c','b'])
s1+s2  #같은 index의 value들 끼리 연산

a     3
b     5
c    11
d    11
dtype: int64

**산술 연산의 경우 index의 pair가 맞지 않으면 결과는 NaN**

In [31]:
s1**2

a     1
b     4
c     9
d    16
dtype: int64

In [32]:
s1**s2

a        1
b        8
c     6561
d    16384
dtype: int64

In [34]:
s1['m']=11
s2['l']=12
s1

a     1
b     2
c     3
d     4
m    11
dtype: int64

In [35]:
s2

d     7
a     2
c     8
b     3
l    12
dtype: int64

In [36]:
s1+s2

a     3.0
b     5.0
c    11.0
d    11.0
l     NaN
m     NaN
dtype: float64

In [38]:
bs=pd.Series(np.arange(10), np.arange(10)+1)
bs

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [39]:
bs>5   #boolean 형태로 결과 출력

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [40]:
bs[bs>5]    #조건에 만족하는 value만 print

7     6
8     7
9     8
10    9
dtype: int32

In [41]:
bs[bs%2==0]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [42]:
s.index>5

array([False, False, False, False, False, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [43]:
s[s.index>5]

6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

**다중 조건인 경우 &(and), |(or)를 사용해서 연결 가능**

In [45]:
bs[(bs<3)|(bs>7)]

1     0
2     1
3     2
9     8
10    9
dtype: int32

In [46]:
bs[(bs>2)&(bs<5)]

4    3
5    4
dtype: int32

In [48]:
(bs>=5).sum()   #True인 것의 개수

5

In [49]:
bs[bs>=5].sum()   #조건에 만족하는 value들의 합

35

# Series 내용 변경
~~~
drop을 사용하면 한시적으로 특정 값 제거 가능 
(아니면 indexing 사용으로 그존의 방법으로 특정 index값 변경 가능)
~~~

In [57]:
ch=pd.Series(np.arange(10,15), ['a','b','c','d','e'])
ch

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [58]:
ch['a']=55
ch

a    55
b    11
c    12
d    13
e    14
dtype: int32

In [59]:
ch.drop('c')     #본래의 값은 바뀌지 않고 한시적으로 바뀐다

a    55
b    11
d    13
e    14
dtype: int32

In [60]:
ch.drop('d', inplace=True)   #inplace=True는 값을 한시적으로가 아닌 영원히 변화 시킨다
ch

a    55
b    11
c    12
e    14
dtype: int32

In [62]:
ch[['a','b']]=[100,110]
ch

a    100
b    110
c     12
e     14
dtype: int32

**인덱스를 활용한 슬라이싱 가능**

In [63]:
sl=pd.Series(np.arange(100,105), ['a','b','c','d','e'])
s1

a     1
b     2
c     3
d     4
m    11
dtype: int64

In [64]:
sl['a':'c']    #끝나는 지점 포함

a    100
b    101
c    102
dtype: int32

In [66]:
s1=pd.Series(np.arange(100,110))
s1

0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int32

In [67]:
s1[2:5]    #마지막 값은 포함 안 함

2    102
3    103
4    104
dtype: int32