### Pandas Series 생성

In [1]:
import numpy as np
import pandas as pd

#### Series
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
  - 같은 타입의 0개 이상의 데이터를 가질 수 있음

In [2]:
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [3]:
s2 = pd.Series(['a','b','c'])
s2

0    a
1    b
2    c
dtype: object

In [4]:
s3 = pd.Series(np.arange(100))
s3

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

- data, index 함께 명시

In [5]:
s4 = pd.Series([1,2,3],[100,200,300])
s4

100    1
200    2
300    3
dtype: int64

In [6]:
s5 = pd.Series([1,2,3],['a','b','c'])
s5

a    1
b    2
c    3
dtype: int64

- data, index, data type 명시

In [7]:
s6 = pd.Series(np.arange(5), np.arange(100,105), dtype=np.int16)
s6

100    0
101    1
102    2
103    3
104    4
dtype: int16

#### 인덱스 활용하기

In [8]:
s6.index

Index([100, 101, 102, 103, 104], dtype='int32')

In [9]:
s6.values

array([0, 1, 2, 3, 4], dtype=int16)

1. 인덱스를 통한 접근

In [10]:
s6[104]

4

In [13]:
#s6[104]

2. 인덱스를 통해 업데이트

In [14]:
print(s6[104])
s6[104] = 40
s6[104]

4


40

In [15]:
s6[105]=50
s6[200]=300
s6

100      0
101      1
102      2
103      3
104     40
105     50
200    300
dtype: int16

3. 인덱스 재사용

In [16]:
s7 = pd.Series(np.arange(7),s6.index)
s7

100    0
101    1
102    2
103    3
104    4
105    5
200    6
dtype: int32

### pandas 활용하기

#### **Series size, shape, unique, count, value_counts 함수**
 - size : 개수 반환
 - shape : 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean: NaN을 제외한 평균 
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환 

In [17]:
import numpy as np
import pandas as pd

In [18]:
s8 = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7, np.NaN])
s8

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [19]:
s8.shape

(16,)

In [20]:
s8.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [21]:
s8.count()

15

In [28]:
a = np.array([2, 2, 2, 2, np.NaN])
a.mean()

nan

In [29]:
s8.mean()

2.6666666666666665

In [32]:
s8[[5, 7, 8, 10]].value_counts()

1.0    2
2.0    1
3.0    1
Name: count, dtype: int64

#### **head, tail 함수**
 - head : 상위 n개 출력 기본 5개
 - tail : 하위 n개 출력 기본 5개

In [38]:
s8.head(3)

0    1.0
1    1.0
2    2.0
dtype: float64

In [39]:
s8.tail(2)

14    7.0
15    NaN
dtype: float64

#  Series 연산
#### 같은 index끼리 연산

In [44]:
s9 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s10 = pd.Series([6, 5, 4, 3], ['d', 'c', 'b', 'a'])

In [45]:
s9 + s10

a     4
b     6
c     8
d    10
dtype: int64

In [46]:
s10 + s9

a     4
b     6
c     8
d    10
dtype: int64

In [47]:
s9 * s10

a     3
b     8
c    15
d    24
dtype: int64

### index pair가 맞지 않는 경우
#### 해당 index에 대해선 NaN 값 생성

In [49]:
s11 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
s12 = pd.Series([6, 5, 4, 3], ['e','f', 'g', 'h'])
s11 + s12

a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
f   NaN
g   NaN
h   NaN
dtype: float64

In [54]:
s13 = pd.Series(np.arange(10), np.arange(1, 11))
s13

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [55]:
s13 > 13

1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
dtype: bool

In [56]:
s13[s13>5] #값이 5보다 큰

7     6
8     7
9     8
10    9
dtype: int32

In [57]:
s13.index > 5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [58]:
s13[s13.index>5] #인덱스가 5보다 큰 

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [62]:
s13[(s13>5)&(s13.index>5)] #인덱스가 5보다 크고 값이 5보다 큰

7     6
8     7
9     8
10    9
dtype: int32

In [63]:
(s13 >= 7).sum() #True의 개수

3

In [65]:
s13>=7

1     False
2     False
3     False
4     False
5     False
6     False
7     False
8      True
9      True
10     True
dtype: bool

In [66]:
s13[s13>=7].sum() #True인 value의 합

24

In [68]:
s14 = pd.Series(np.arange(100, 105), ['a', 'b', 'c', 'd', 'e'])
s14

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [70]:
s14['a'] = 200
s14['f'] = 500
s14

a    200
b    101
c    102
d    103
e    104
f    500
dtype: int32

In [72]:
s14.drop('f', inplace=True) # .drop -> 해당 열 지우기
s14

a    200
b    101
c    102
d    103
e    104
dtype: int32

In [74]:
s14['a':'b'] = [101, 200] # 슬라이싱
s14

a    101
b    200
c    102
d    103
e    104
dtype: int32

In [77]:
s16 = pd.Series(np.arange(100, 105), ['a', 'c', 'e', 'b', 'd'])
s16

a    100
c    101
e    102
b    103
d    104
dtype: int32

In [78]:
s16['c':'d']

c    101
e    102
b    103
d    104
dtype: int32

In [79]:
'e' in s16 #s15의 인덱스안에 'e'가 있는가?

True

#### 그 외 함수
#### pd.isnull(객체) -> 값이 null인가? (T, F로 각 값에 대해 리턴)
#### pd.notnull(객체) -> 값이 null이 아닌가? (T, F로 각 값에 대해 리턴)
#### 객체.isnull() -> 값이 null인가? (T, F로 각 값에 대해 리턴)
#### 객체.notnull() -> 값이 null이 아닌가? (T, F로 각 값에 대해 리턴)
#### 객체.name = '' -> 객체에 이름 지정
#### 객체.index.name = '' -> 객체의 인덱스에 이름 지정
