# pandas 정리 - Series

In [1]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np

### Series
Series의 내부에는 배열형태의 자료가 입력된다.  
Series의 객체들 : values, index ,...  
Series의 배열, 색인(Index) 객체는 각각 values, index속성을 통해 얻을 수 있다.  
각각의 데이터를 지칭하는 인덱스에 이름을 지정하고, Series객체를 생성해야 할때는 Seris([1,3,4], index=['a','b','c']) 와 같은 형식으로 생성할 수 있다.  
Series는 고정된 길이의 정렬된 사전형이다.

## Series를 초기화하는 여러가지 방식
**1) 가장 기본적인 방식**
```python
obj = Series([1,2,3,4])  
```
**2) 인덱스에 이름을 부여하는 방식 (중요)**  
```python
obj2 = Series([1,2,3,4], index=['a','b','c','d'])  
```
**3) 딕셔너리 변수를 Series의 생성자에 전달하는 방식**  
```python
dict_data = { 'a':1, 'b':2, 'c':3, 'd':4 }  
obj3 = Series(dict_data)  
```

Series의 내부에는 ~리스트~ 배열형태의 자료가 입력된다.

In [19]:
obj = Series([4,7,-5,1])
obj

0    4
1    7
2   -5
3    1
dtype: int64

### Series 객체들
1. values, index 객체
2. 

#### Series의 values, index 객체
#### \- Series의 배열, 색인(Index) 객체는 각각 values, index속성을 통해 얻을 수 있다.
index는 기본적으로 0~N-1까지의 숫자가 지정된다.
Series의 배열,색인 객체는 각각 values, index속성으로 얻을수 있다.

In [3]:
obj.values

array([ 4,  7, -5,  1])

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

### 인덱스에 별도의 이름 부여
#### \- 각각의 데이터를 지칭하는 인덱스에 이름을 지정하고, Series객체를 생성해야 할때는 아래와 같이 생성한다.

In [5]:
obj2 = Series([1,2,3,4], index=['a','b','c','d'])
obj2

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
obj2.index

Index([u'a', u'b', u'c', u'd'], dtype='object')

#### \- 만들어진 각각의 인덱스는 지정했던 이름으로 접근한다

In [7]:
obj2['a']

1

In [8]:
obj2['d']

4

#### \- 여러개의 색인을 한번에 지정하여 출력하는 것도 가능하다.
#### \- 이때 [ ] 로 한번더 감싸주어야 한다.

In [9]:
obj2[['a','d','b']]

a    1
d    4
b    2
dtype: int64

#### 조건 연산(불리언 연산), 특정 값과의 비교, 산술연산을 수행해도 index-value관계연결은 유지된다.

In [10]:
obj2[obj2>3]

d    4
dtype: int64

In [11]:
obj2[obj2>1]

b    2
c    3
d    4
dtype: int64

In [12]:
obj2*2

a    2
b    4
c    6
d    8
dtype: int64

In [13]:
np.exp(obj2)

a     2.718282
b     7.389056
c    20.085537
d    54.598150
dtype: float64

#### Series는 고정된 길이의 정렬된 사전형이다.
Series는 색인 값에 데이터값을 매핑하고 있으므로 파이썬의 자료형과 비슷하다. Series객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수들에서 사전형을 대체해 사용가능하다.

In [14]:
'b' in obj2

True

In [15]:
'f' in obj2

False

## Series 초기화방식 3) - 딕셔너리 이용
#### 파이썬 딕셔너리에 데이터를 저장해야 한다면, 딕셔너리 객체로부터 Series객체를 생성하는 것도 가능하다.
: 사전객체만 가진 Series객체를 생성하면 Series객체의 색인은 사전의 키 값이 순서대로 들어간다.

In [16]:
sdata = {'Ohio':11, 'Texas': 12, 'Oregon':13, 'Utah': 14}
obj3 = Series(sdata)
obj3

Ohio      11
Oregon    13
Texas     12
Utah      14
dtype: int64

In [17]:
type(obj3)

pandas.core.series.Series

In [18]:
type(sdata)

dict

http://sinpong.tistory.com/127

## Series를 딕셔너리로 초기화할 때, 딕셔너리에 존재하지 않는  키를 지정할 경우
아래의 예제를 보면 인덱스 'California'에는 NaN이 입력되어 있다. sdata에는 Cailfornia라는 키값이 존재하지 않기 때문이다. sdata라는 dictionary에는 Ohio에 11, Texas에 12, Oregon에 13, Utah에 14가 저장되어 있다. obj4를 초기화 할때 index객체에 전달해준 값은 Ohio, Oregon, Texas이므로 이 키들에 맞는 값들이 대입되었다.
  
누락된 값은 NaN으로 표시되고, pandas에서는 누락된 값 혹은 NA값으로 취급한다. 

In [21]:
sdata = {'Ohio':11, 'Texas': 12, 'Oregon':13, 'Utah': 14}
states = ['California','Ohio','Oregon','Texas']
obj4 = Series(sdata, index = states)
obj4

California     NaN
Ohio          11.0
Oregon        13.0
Texas         12.0
dtype: float64

## pandas에서 누락된 데이터를 찾을 때
- isnull, notnull함수를 사용한다.
  
아래 예제를 살펴보면 바로 이전에서 입력했던 obj4의 California라는 키에 대한 값이 누락되어 있어서 NaN이 입력되어 있기때문에 isnull()을 사용할 경우 California 키에 대해 isnull()을 적용한 결과가 True를 출력하게 된다.  
  
isnull()을 사용할 경우 그 Series내부에 모든 값들을 모두 검사해서 값을 돌려준다.

In [22]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

notnull()을 사용할 경우

In [24]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Series객체의 isnull()을 사용할 경우

In [26]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

## Series의 주요 기능 
- 다르게 색인된 데이터에 대한 산술연산  
(인덱싱된 데이터가 다를 경우에 대한 산술연산)

In [33]:
# obj3의 값 확인
obj3

Ohio      11
Oregon    13
Texas     12
Utah      14
dtype: int64

In [32]:
# obj4의 값 확인
obj4

California     NaN
Ohio          11.0
Oregon        13.0
Texas         12.0
dtype: float64

In [34]:
obj3 + obj4

California     NaN
Ohio          22.0
Oregon        26.0
Texas         24.0
Utah           NaN
dtype: float64

California : 없음 + NaN == NaN  
Ohio : 11 + 11 == 22.0  
Oregon : 13 + 13 == 26  
Texas : 12 + 12 == 24  
Utah : 14 + 없음 == NaN  

## Series 객체, index객체는 모두 name속성이 있다.

In [35]:
obj4.name = 'population'
obj4.index.name = 'state'

In [36]:
obj4

state
California     NaN
Ohio          11.0
Oregon        13.0
Texas         12.0
Name: population, dtype: float64

## Series의 색인은 대입연산으로 변경할 수 있다.
- Series의 index객체의 name은 대입으로 변경가능하다.
- Series의 index는 대입을 통해 변경이 가능하다

**Series의 index객체의 이름변경**

In [37]:
sdata = {'Ohio':11, 'Texas': 12, 'Oregon':13, 'Utah': 14}
obj4 = Series(sdata)
obj4

Ohio      11
Oregon    13
Texas     12
Utah      14
dtype: int64

In [38]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
Ohio      11
Oregon    13
Texas     12
Utah      14
Name: population, dtype: int64

**Series의 색인은 대입을 통해 변경가능하다.**

In [39]:
obj4.index = ['Korean','Math','English','Science']
obj4

Korean     11
Math       13
English    12
Science    14
Name: population, dtype: int64

In [2]:
! pwd

/Users/soon/Documents/workspace/for-git/pythonic2/pythonic/pydata/pandas/1-essential
