## pandas Series 데이터 생성하기

In [5]:
import numpy as np
import pandas as pd

### Series
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

- data로만 생성하기
    - index는 기본적으로 0부터 자동적으로 생성

In [6]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [7]:
s2 = pd.Series(['a', 'b', 'c'])
s2

0    a
1    b
2    c
dtype: object

In [8]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

In [9]:
s4 = pd.Series([1,2,3],[100,200,300])
s4

100    1
200    2
300    3
dtype: int64

In [10]:
s5 = pd.Series([1,2,3],['a','b','c'])
s5

a    1
b    2
c    3
dtype: int64

In [11]:
s6 = pd.Series(np.arange(5), np.arange(100,105), dtype= np.int16)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int16

### 인덱스 활용하기

In [12]:
s6.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [13]:
s6.values

array([0, 1, 2, 3, 4], dtype=int16)

1. 인덱스를 통한 데이터 접근

In [14]:
s6[104]

4

2. 인덱스를 활용해여 멀티플한 값에 접근

In [15]:
s6[[100, 102,104]]


100    0
102    2
104    4
dtype: int16

3. 인덱스를 통한 데이터 업데이트

In [16]:
s6[104] = 70
s6.values

array([ 0,  1,  2,  3, 70], dtype=int16)

In [17]:
s6[108] = 'a'
s6[2] = 'b'
s6

100     0
101     1
102     2
103     3
104    70
108     a
2       b
dtype: object

4.  인덱스 재사용하기

In [18]:
s7 = pd.Series(np.arange(7), s6.index)
s7

100    0
101    1
102    2
103    3
104    4
108    5
2      6
dtype: int32

### Series 함수 활용해서 데이터 분석하기

In [19]:
import numpy as np
import pandas as pd

#### Series size, shape, unique, count, value, counts 함수
- size : 개수 반환
- shape : 튜플형태로 shape반환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- value_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [20]:
s = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,6, np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    6.0
15    NaN
dtype: float64

In [21]:
len(s)

16

In [22]:
s.size

16

In [23]:
s.shape

(16,)

In [24]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  6., nan])

In [25]:
s.count()

15

In [26]:
a = np.array([1,1,2,2,3,3,np.NaN])
a.mean()

b = pd.Series(a)
b.mean()

2.0

In [27]:
s.mean()

2.6

In [28]:
s.value_counts()

1.0    5
2.0    4
5.0    2
3.0    2
6.0    1
4.0    1
dtype: int64

#### head, tail 함수
- head :  상위 n개 출력 기본 5개
- tail : 하위 n개 출력 기본 5개

In [32]:
s.head(n = 7)

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [34]:
s.tail(n=3)

13    5.0
14    6.0
15    NaN
dtype: float64

### 산술연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
- Series와으이 연산은 각 인덱스에 맞는 값끼리 연산이 적용
    - 이때. 인덱스의 pair가 맞지 않으면. 결과는 NaN

In [35]:
import numpy as np
import pandas as pd

#### 인덱스를 기준으로 연산

In [37]:
s1 = pd.Series([1,2,3,4],['a','b','c','d'])
s2 = pd.Series([6,3,2,1],['d','c','b','a'])
s1

a    1
b    2
c    3
d    4
dtype: int64

In [38]:
s2

d    6
c    3
b    2
a    1
dtype: int64

In [40]:
s1+s2 # 인덱스끼리 더한다

a     2
b     4
c     6
d    10
dtype: int64

In [43]:
s1**3

a     1
b     8
c    27
d    64
dtype: int64

In [44]:
s1 ** s2

a       1
b       4
c      27
d    4096
dtype: int64

In [50]:
s1['e'] = 2
print(s1**s2)
print(s2**s1)

a       1.0
b       4.0
c      27.0
d    4096.0
e       NaN
dtype: float64
a       1.0
b       4.0
c      27.0
d    1296.0
e       NaN
dtype: float64


### Boolean selection
- boolean Series가 []와 함께 사용되면 True값에 해당하는 값만 새로 반환되는 Seroes객체에 포함됨
- 다중조건의 경우, & | 사용해서 연결한다

In [56]:
import numpy as np
import pandas as pd

In [60]:
s = pd.Series(np.arange(10),np.arange(10)+1)


In [67]:
s_mask = s > 5 # s의 값에 대해 참거짓을 나눈다

In [68]:
s[s_mask]

7     6
8     7
9     8
10    9
dtype: int32

In [70]:
s.index > 5 # s의 인덱스에 대해 참거짓으로 나눈다

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [73]:
s[(s>4)&(s.index<8)]

6    5
7    6
dtype: int32

In [74]:
(s >=7).sum()  # 참의 개수

3

In [75]:
(s[s>=7]).sum() #참인 인덱스의 합

24

### Series 값 변경
- 추가 및 업데이트 : 인덱스를 사용
- 삭제 : drop함수 이용

In [95]:
s = pd.Series(np.arange(100,105),['a','b','c','d','e'])

In [96]:
s['a'] = 1 # 업데이트

In [97]:
s['s'] = 2 # 추가

In [98]:
s.drop('s') # s자체는 보존, 삭제된 복사본 반환
s

a      1
b    101
c    102
d    103
e    104
s      2
dtype: int64

In [99]:
s.drop('s',inplace=True) # 객체 자체로 다룬다
s

a      1
b    101
c    102
d    103
e    104
dtype: int64

In [107]:
# s[['a','w']] = [1,100] 업데이트와 추가는 동시에 안됨 
s[['a','b']] = [1,2] # 업데이트는 동시에 가능
#s[['q','w']] = [0,0] # 추가도 동시에 불가능
s

a      1
b      2
c    102
d    103
e    104
dtype: int64

### slicing
- 리스트, ndarray와 동일하게 적용

In [108]:
s1 = pd.Series(np.arange(100,105))

In [109]:
s1[1:3]

1    101
2    102
dtype: int32

In [112]:
s2 = pd.Series(np.arange(100,105),['a','t','c','d','e'])

In [113]:
s2[1:3] #마지막 인데스는 생략

t    101
c    102
dtype: int32

In [115]:
s2['t':'d'] # 문자열인 경우 마지막 인덱스까지 반환

t    101
c    102
d    103
dtype: int32