### Pandas

#### series 

 - pandas의 기본 객체 중 하나
 - numpy 의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄 
 - index를 지정하지 않을시, 기본적으로 ndarray 와 같이 0-based 인덱스 생성,지정할 경우 명시적으로 지정된 index를 사용
 - 같은 타입의 0개 이상의 데이터를 가질 수 있음
 
 
 
 - data로만 생성하기
  - index는 기본적으로 0부터 자동적으로 생성

In [2]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [3]:
pd.Series(['a', 'b', 'c'])

0    a
1    b
2    c
dtype: object

- data, index 함께 명시하기

In [6]:
pd.Series(np.arange(200))

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

In [7]:
pd.Series([1, 2, 3], [100, 200, 300])

100    1
200    2
300    3
dtype: int64

In [10]:
s1 = pd.Series([1, 2, 3], ['a', 'w', 'm'])
s1

a    1
w    2
m    3
dtype: int64

- data, index, data type 함께 명시하기

In [11]:
s2 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int32)
s2

100    0
101    1
102    2
103    3
104    4
dtype: int32

#### 인덱스 활용하기

In [12]:
s2.index

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [13]:
s2.values

array([0, 1, 2, 3, 4], dtype=int32)

1. 인덱스를 통한 데이터 접근

In [16]:
s2[104]

4

2. 인덱스를 통한 데이터 업데이트

In [18]:
s2[104] = 70
s2

100     0
101     1
102     2
103     3
104    70
dtype: int32

In [20]:
s2[105] = 90
s2[106] = 200
s2

100      0
101      1
102      2
103      3
104     70
105     90
106    200
dtype: int64

3. 인덱스 재사용하기

In [22]:
s3 = pd.Series(np.arange(7), s2.index)
s3

100    0
101    1
102    2
103    3
104    4
105    5
106    6
dtype: int64

#### series size, shape, unique, count, value_counts 함수

 - size : 개수 반환
 - shape : 튜플 형태로 shape 반환
 - unique : 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean : NaN을 제외한 평균
 - value_counts : NaN을 제외하고 각 값들의 빈도를 반환

In [24]:
s = pd.Series([1, 2, 3, 2, 3, 2, 4, 6, 4, 5, 7, 6, np.NaN])
s

0     1.0
1     2.0
2     3.0
3     2.0
4     3.0
5     2.0
6     4.0
7     6.0
8     4.0
9     5.0
10    7.0
11    6.0
12    NaN
dtype: float64

In [25]:
len(s)

13

In [27]:
s.size

13

In [28]:
s.shape

(13,)

In [31]:
s.unique()

array([ 1.,  2.,  3.,  4.,  6.,  5.,  7., nan])

In [32]:
s.count()

12

In [33]:
s.mean()

3.75

In [37]:
a = np.array([2, 2, 2, 2, np.NaN])
a.mean()

nan

In [38]:
b = pd.Series([2, 2, 3, 4, np.NaN])
b.mean()

2.75

In [39]:
s.value_counts()

2.0    3
6.0    2
4.0    2
3.0    2
7.0    1
5.0    1
1.0    1
dtype: int64

#### index를 활용하여 multiful한 값에 접근

In [43]:
s[[5, 7, 8, 10]].value_counts()

7.0    1
4.0    1
6.0    1
2.0    1
dtype: int64

#### head, tail 함수

 - head : 상위 n개 출력 기본 5개
 - tail : 하위 n개 출력 기본 5개

In [46]:
s.head(8)

0    1.0
1    2.0
2    3.0
3    2.0
4    3.0
5    2.0
6    4.0
7    6.0
dtype: float64

In [45]:
s.tail()

8     4.0
9     5.0
10    7.0
11    6.0
12    NaN
dtype: float64

#### index를 기준으로 연산

In [47]:
a1 = pd.Series([1, 2, 3, 4], ['a', 'b', 'c', 'd'])
a2 = pd.Series([6, 3, 2, 1], ['d', 'c', 'b', 'a'])

a1

a    1
b    2
c    3
d    4
dtype: int64

In [49]:
a2

d    6
c    3
b    2
a    1
dtype: int64

In [50]:
a1+a2

a     2
b     4
c     6
d    10
dtype: int64

#### 산술연산

 - series의 경우에도 스칼라와 같은 연산은 각 원소별로 스칼라와의 연산이 적용
 - series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
     - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [51]:
a1 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [52]:
a1 ** a2

a       1
b       4
c      27
d    4096
dtype: int64

#### index pair가 맞지 않는 경우

 - 해당 index에 대해서는 NaN 값 생성

In [53]:
a1['k'] = 7
a2['e'] = 9

In [54]:
a1

a    1
b    2
c    3
d    4
k    7
dtype: int64

In [55]:
a2

d    6
c    3
b    2
a    1
e    9
dtype: int64

In [56]:
a1 + a2

a     2.0
b     4.0
c     6.0
d    10.0
e     NaN
k     NaN
dtype: float64