In [1]:
import pandas as pd
import numpy as np

### Series
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음
- 시스템 상에서 어떤 타입인지 인식하여 저장

- data로만 생성하기
  - index는 기본적으로 0부터 자동적으로 생성

In [2]:
s1=pd.Series([1,2,3])
s1 #출력값의 왼쪽이 인덱스, 오른쪽이 값이다

0    1
1    2
2    3
dtype: int64

In [3]:
s2=pd.Series(['a','b','c'])
s2

0    a
1    b
2    c
dtype: object

In [4]:
s3=pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

- data, index 함께 명시하기

In [7]:
s4=pd.Series([1,2,3],[100,200,300])
s4

100    1
200    2
300    3
dtype: int64

In [8]:
s5=pd.Series([1,2,3],['one','two','three'])
s5

one      1
two      2
three    3
dtype: int64

- numpy는 인덱스가 자동으로 생성되고, 항상 시작을 0부터 시작하는 모듈
- pandas는 Series 사용으로 인덱싱 작업을 할 수 있다.

- data, index, datatype 함께 명시하기

In [9]:
s6=pd.Series(np.arange(5),np.arange(100,105),dtype=np.int32) #dtype은 주로 공간 최적화를 위해 사용함
s6 #명시하지 않을 경우 기본 타입은 int64

100    0
101    1
102    2
103    3
104    4
dtype: int32

### 인덱스 활용하기

1. 인덱스를 통한 데이터의 접근

In [10]:
s6.index#인덱스만 추출

Int64Index([100, 101, 102, 103, 104], dtype='int64')

In [11]:
s6.values#값만 추출

array([0, 1, 2, 3, 4])

In [15]:
s6[104] #사전에 정의된 인덱스로 값에 접근

4

In [16]:
s6[104]=70
s6[104]

70

2. 인덱스를 통한 데이터 업데이트
  - 인덱스가 존재하지 않은 상태였다면 **새로운 인덱스/값을 만들어 저장시킨다**

In [17]:
s6[105]=90 #새로운 인덱스 만듦
s6[105]

90

3. 인덱스 재사용하기
  - 새로운 시리즈를 만들 때 다른 시리즈의 인덱스를 재사용할 수 있다.

In [20]:
s7=pd.Series(np.arange(6),s6.index)
s7

100    0
101    1
102    2
103    3
104    4
105    5
dtype: int32

### Series를 사용한 데이터 분석

### Series size, shape, unique, count, value_counts 함수
- size : 개수 반환
- shape : 튜플 형태로 shape 변환
- unique : 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean : NaN을 제외한 평균
- **value_counts : NaN을 제외하고 각 값들의 빈도를 반환(좀 많이 쓰임)**


> **NaN** : Not a Number의 줄임말. 값이 존재하지 않는 경우에 해당

In [21]:
s=pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN])
s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [22]:
len(s) #길이를 구함

16

In [27]:
s.size

16

In [29]:
s.unique()

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [31]:
s.count() #NaN를 제외한 길이를 구함

15

In [34]:
a=np.array([2,2,2,2,np.NaN])
print(a.mean())#기존 numpy는 구할 수 없음

b=pd.Series(a)
print(b.mean())#pandas의 평균은 ㄱㄴ

nan
2.0


In [37]:
s.value_counts() #데이터의 분포 빈도를 시각화

1.0    5
2.0    4
3.0    2
5.0    2
7.0    1
4.0    1
dtype: int64

- index를 활용하여 여러 값에 접근
  - index를 리스트 형태로 만들어서 인자로 보내주어야 한다

In [38]:
s[[1,2,3]]

1    1.0
2    2.0
3    1.0
dtype: float64

In [40]:
s[[1,2,3]].value_counts() #요런 함수도 사용 가능

1.0    2
2.0    1
dtype: int64

- head, tail 함수
  - head : 상위 n개 출력. 기본 5개
  - tail : 하위 n개 출력. 기본 5개

In [41]:
s.head(n=7)

0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
5    2.0
6    2.0
dtype: float64

In [42]:
s.tail(n=3)

13    5.0
14    7.0
15    NaN
dtype: float64

In [43]:
s#전체를 보고 싶으면 그냥 s

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

### Series 데이터 연산
- Series는 기본적으로 index를 기준으로 연산

In [48]:
s1=pd.Series([1,2,3,4],['a','b','c','d'])
s2=pd.Series([5,4,1,2,2],['d','c','b','a','e'])
s1

a    1
b    2
c    3
d    4
dtype: int64

In [49]:
s2

d    5
c    4
b    1
a    2
e    2
dtype: int64

In [50]:
s1+s2 #공통된 인덱스를 가지고 연산이 진행
#둘의 인덱스의 차이가 발생한다면 NaN 발생

a    3.0
b    3.0
c    7.0
d    9.0
e    NaN
dtype: float64

### 산술 연산
- Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용된다.
- Series의 연산은 각 인덱스에 맞는 값끼리 연산 적용
  - 인덱스의 pair가 맞지 않는다면 NaN

In [51]:
s1**2

a     1
b     4
c     9
d    16
dtype: int64

- index pair가 맞지 않은 경우

In [52]:
s1['g']=20
s2['f']=21
s1+s2

a    3.0
b    3.0
c    7.0
d    9.0
e    NaN
f    NaN
g    NaN
dtype: float64

### Boolean selection
- boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series 객체에 포함됨
- 다중조건의 경우 &,| 통해 연결 가능

In [56]:
s=pd.Series(np.arange(10),np.arange(10)+1) #인덱스를 0이 아닌 1부터 주고 싶을 때 저렇게 사용
s.index

Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')

In [57]:
s>5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [59]:
s[s>5] #boolean 조건을 인덱스의 조건으로 활용

7     6
8     7
9     8
10    9
dtype: int32

In [60]:
s[s%2==0] #짝수인 값을 조건으로

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [61]:
s.index>5 #인덱스의 값을 기준으로 조건 검사

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [63]:
s[s.index>5]#인덱스의 값을 활용하는 문장

6     5
7     6
8     7
9     8
10    9
dtype: int32

- 다중 조건 활용
  - 각 다중 조건에 소괄호를 붙여 표현하여야 한다.

In [64]:
#5보다 크고 8보다 작은 값만 출력
s[(s>5)&(s<8)]

7    6
8    7
dtype: int32

In [65]:
(s>=7).sum() #s가 7 이상인 s의 개수를 셈

3

In [66]:
(s[s>=7]).sum() #s가 7이상인 s의 값들의 합

24

### Series 변경과 슬라이싱
- **Series 값 변경**
  - 추가 및 업데이트 : 인덱스 이용
  - 삭제 : drop 이용

In [67]:
s=pd.Series(np.arange(100,105),['a','b','c','d','e'])
s

a    100
b    101
c    102
d    103
e    104
dtype: int32

In [68]:
s['a']=300#데이터의 업데이트
s['f']=200#데이터의 추가

In [71]:
s.drop('c')#특정 값의 삭제

a    300
b    101
d    103
e    104
f    200
dtype: int64

In [72]:
s #s 자체가 값을 삭제하는 것은 아니다

a    300
b    101
c    102
d    103
e    104
f    200
dtype: int64

- **대부분의 연산은 원본을 건드리지 않은 채 복사본을 반환하는 것에 유의한다.**

In [73]:
#직접 삭제를 하고 싶은 경우
s.drop('d',inplace=True)#복사본이 아닌 원본 삭제

In [74]:
s #'d' 인덱스 값이 아예 삭제되는 것을 볼 수 있다.

a    300
b    101
c    102
e    104
f    200
dtype: int64

- 다중 업데이트도 가능
  - 리스트를 넘겨주어 한꺼번에 처리가 가능하다.

In [77]:
s[['a','b']]=[123,456]
s

a    123
b    456
c    102
e    104
f    200
dtype: int64

- **다중 추가는 불가능함에 유의**

In [78]:
s[['y','z']]=[123,456]

KeyError: "None of [Index(['y', 'z'], dtype='object')] are in the [index]"

### Slicing
- 리스트, ndarray와 동일하게 적용

In [82]:
s1=pd.Series(np.arange(100,105),['a','b','d','c','f'])
s1

a    100
b    101
d    102
c    103
f    104
dtype: int32

- 인덱스가 정수가 아니더라도 **인덱싱 순서에 맞추어 차례대로 출력이 되는 기능이 존재**

In [83]:
s1[:3]#슬라이싱 방법은 기존 방법과 동일함

a    100
b    101
d    102
dtype: int32

- 문자열로 슬라이싱하게 된다면, **맨 끝의 인덱스도 포함됨에 유의한다.**

In [84]:
s1['a':'d']

a    100
b    101
d    102
dtype: int32