# Python for Data Analysis

#### Numpy 대비 Pandas 는 Index 와 Columns 를 갖는다는 점이 특징이다.
#### 그래서 기본적으로 사전 { } 를 통해서, Series/DataFrame 을 생성한다.

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

## 5.1.1 Series
### Series 는 고정길이의 정렬된 사전. 으로 생각할 수 있다.

In [24]:
obj = Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [2]:
arr1 = np.array([4,7,-5,3])
arr1

array([ 4,  7, -5,  3])

In [7]:
obj1 = Series(arr1)
obj1

0    4
1    7
2   -5
3    3
dtype: int32

In [10]:
l = [4,7,-5,3]
arr1 = np.array(l)
ser1 = Series(l)
ser2 = Series(arr1)
l, arr1

([4, 7, -5, 3], array([ 4,  7, -5,  3]))

In [14]:
ser1, ser2

(0    4
 1    7
 2   -5
 3    3
 dtype: int64, 0    4
 1    7
 2   -5
 3    3
 dtype: int32)

In [15]:
type(l), arr1.dtype, ser1.dtype, ser2.dtype

(list, dtype('int32'), dtype('int64'), dtype('int32'))

#### Series 는 디폴트로 가로가 아니라 세로로 표시된다.

In [3]:
print(obj)
print(type(obj))

0    4
1    7
2   -5
3    3
dtype: int64
<class 'pandas.core.series.Series'>


In [16]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

#### np array 의 dtype 중에서, int32, float64 가 디폴트라서 표시 안되는 듯 ?

In [22]:
arr15 = obj.values
arr16 = np.array([4,7,-5,3])
arr17 = arr16.astype(np.float32)
arr15, type(arr15), arr15.dtype, arr16, type(arr16), arr16.dtype, arr17, type(arr17), arr17.dtype

(array([ 4,  7, -5,  3], dtype=int64),
 numpy.ndarray,
 dtype('int64'),
 array([ 4,  7, -5,  3]),
 numpy.ndarray,
 dtype('int32'),
 array([ 4.,  7., -5.,  3.], dtype=float32),
 numpy.ndarray,
 dtype('float32'))

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
obj[1:3]    # integer slicing

1    7
2   -5
dtype: int64

In [52]:
obj2 = Series([4,7,-5,3], index=['d', 'b', 'a', 'c',])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

### (integer) indexing/slicing of Series

In [9]:
obj[1]

7

In [10]:
obj[1:3]

1    7
2   -5
dtype: int64

In [11]:
obj[1,3]

KeyError: (1, 3)

#### Python 에서 indices 는, index / slice / key 만 가능하고, tuple / list 는 불가하다.
#### 그런데, pandas 에서는 list 도 가능하다.
#### 참고로, DataFrame.ix[row,col] 형식으로, tuple 타입의 index 를 사용하는 특수 경우도 있다.

In [12]:
obj[[1,3]]

1    7
3    3
dtype: int64

In [21]:
obj[(1,3)]

KeyError: (1, 3)

### (char) indexing/slicing of Series

In [10]:
obj2['a']

-5

In [12]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [13]:
obj2['c', 'a', 'd']

KeyError: ('c', 'a', 'd')

In [59]:
obj2[['c','a','d']]    # string(label) indexing is OK

c    3
a   -5
d    4
dtype: int64

In [60]:
obj2['d':'c']    # string(label) slicing is OK

d    4
b    7
a   -5
c    3
dtype: int64

In [56]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [62]:
obj2['c':'a']    # watch index order

Series([], dtype: int64)

In [63]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

### Series 의 char(label) indexing 은 . 과 [ ] 으로 액세스할 수 있다.
### Series 의 integer indexing 은 [ ] 으로만 엑세스할 수 있다.
#### 처음 공부할 때는 [ ] 으로만 사용하자.

In [19]:
obj[1]

7

In [20]:
obj.1

SyntaxError: invalid syntax (<ipython-input-20-b0292bf4418e>, line 1)

In [15]:
obj2.a

-5

In [16]:
obj2['a']

-5

### 제목은 ?

In [23]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [24]:
obj2 > 2

d     True
b     True
a    False
c     True
dtype: bool

In [25]:
type(obj2 > 2)

pandas.core.series.Series

In [26]:
obj2[obj2>2]

d    6
b    7
c    3
dtype: int64

In [27]:
print(obj2[obj2>0])

d    6
b    7
c    3
dtype: int64


In [28]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [29]:
'b' in obj2

True

In [30]:
'b' in obj2.index

True

In [31]:
'b' in obj2.values

  if __name__ == '__main__':


False

In [34]:
7 in obj2.values

True

In [3]:
sdata = {'ohio':10, 'Texas':20, 'Oregon':30, 'Utah':40}
obj3 = Series(sdata)
obj3

Oregon    30
Texas     20
Utah      40
ohio      10
dtype: int64

In [4]:
states1 = ('California', 'ohio', 'Oregon', 'Texas')
states2 = ('California', 'ohio', 'Oregon')
states3 = ('California', 'ohio', 'Oregon', 'Texas', 'Utah')

obj41 = Series(sdata, index=states1)
obj42 = Series(sdata, index=states2)
obj43 = Series(sdata, index=states3)

print(obj41)
print(obj42, obj43)

California     NaN
ohio          10.0
Oregon        30.0
Texas         20.0
dtype: float64
California     NaN
ohio          10.0
Oregon        30.0
dtype: float64 California     NaN
ohio          10.0
Oregon        30.0
Texas         20.0
Utah          40.0
dtype: float64


In [38]:
pd.isnull(obj41)

California     True
ohio          False
Oregon        False
Texas         False
dtype: bool

In [40]:
obj41.isnull()

California     True
ohio          False
Oregon        False
Texas         False
dtype: bool

In [41]:
obj3 + obj41

California     NaN
Oregon        60.0
Texas         40.0
Utah           NaN
ohio          20.0
dtype: float64

In [5]:
obj41.name = 'population'

In [6]:
obj41.index.name = 'state'

In [7]:
obj41

state
California     NaN
ohio          10.0
Oregon        30.0
Texas         20.0
Name: population, dtype: float64

#### Series <-> DataFrame 상호 변환시, name 속성이 사용된다.

In [14]:
frame5 = DataFrame(obj41)
frame5

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
ohio,10.0
Oregon,30.0
Texas,20.0


#### DataFrame 은 [ ] . 으로 가능하지만, Series 는 그렇지 않다.

In [19]:
frame5['population'], frame5.population

(state
 California     NaN
 ohio          10.0
 Oregon        30.0
 Texas         20.0
 Name: population, dtype: float64, state
 California     NaN
 ohio          10.0
 Oregon        30.0
 Texas         20.0
 Name: population, dtype: float64)

In [49]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [26]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [30]:
obj.reindex(['a', 'b', 'Steve'], fill_value=0)

a        0
b        0
Steve    7
dtype: int64

#### ser1.index = [ ] 와 ser1.reindex([ ]) 는 다르다.
#### 전자는 index 를 새롭게 지정하는 것이고, 후자는 기존 index 에 매핑하면서 지정하는 것이다.

In [34]:
ser1 = Series(np.arange(3))
ser1

0    0
1    1
2    2
dtype: int32

In [32]:
ser1.reindex(['Bob', 'Steve', 'Jeff', 'Ryan'])

Bob     NaN
Steve   NaN
Jeff    NaN
Ryan    NaN
dtype: float64

In [38]:
ser1.index = ['Bob', 'Steve', 'Jeff']
ser1

Bob      0
Steve    1
Jeff     2
dtype: int32

#### Series.values 는 1차원의 np.array 임

In [12]:
obj41.values, type(obj41.values)

(array([ nan,  10.,  30.,  20.]), numpy.ndarray)

In [51]:
obj    # string indexing 을 label indexing 이라고 함 ?

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [50]:
obj[1], obj['Steve']    # Series indexing 은 정수는 항상 가능함

(7, 7)

In [41]:
ser2 = Series(['blue', 'purple', 'yellow'], index=[0,2,4])
ser2

0      blue
2    purple
4    yellow
dtype: object

In [46]:
ser2.reindex(range(6), method='bfill')    # ffill

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object