# Configuring pandas

In [2]:
# import numpy and pandas
import numpy as np
import pandas as pd

# used for dates
import datetime
from datetime import datetime, date

# Set some pandas options controlling output format
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# bring in matplotlib for graphics .%matplotlib inline 쥬피터 노트북 그리기툴
import matplotlib.pyplot as plt
%matplotlib inline

## creating a series Using Python list and dictionaries

### 파이썬 리스트나 딕셔너리를 이용한 생성, Numpy 함수를 사용한 생성, 스칼라 값을 사용한 생성

In [4]:
# create a series of multiple balues from a list
s = pd.Series([10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [5]:
# values stored at index label 3
s[3]

13

In [6]:
# create a Series of a alphas
pd.Series(['Mike', 'Marcia', 'Mikael', 'Bleu'])

0      Mike
1    Marcia
2    Mikael
3      Bleu
dtype: object

In [7]:
# a sequence of 5 values, all2
pd.Series([2]*5)

0    2
1    2
2    2
3    2
4    2
dtype: int64

In [8]:
# use each character as a value
pd.Series(list('abcde'))

0    a
1    b
2    c
3    d
4    e
dtype: object

In [9]:
pd.Series({
    'Mike':'Dad',
    'Marcia':'Mom',
    'Mikael':'Son',
    'Bleu':'Best doggie ever',
})

Mike                   Dad
Marcia                 Mom
Mikael                 Son
Bleu      Best doggie ever
dtype: object

## Creation using Numpy functions

In [12]:
# 4. through 8
pd.Series(np.arange(4, 9))

0    4
1    5
2    6
3    7
4    8
dtype: int32

In [13]:
# 0 throug 9
pd.Series(np.linspace(0, 9, 5))
# 두 값 사이의 개수를 지정해 동일한 간격긔 값으로 나눔

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

In [14]:
pd.Series(np.linspace(0, 10, 5))
## 어떻게써도 값은 float형식으로 나오나보다.

0     0.0
1     2.5
2     5.0
3     7.5
4    10.0
dtype: float64

In [15]:
# random numbers
np.random.seed(12345) # 항상 정해진 결과를 받기 위한 시드설정
pd.Series(np.random.normal(size=5))

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

In [16]:
s = pd.Series(2)
s

0    2
dtype: int64

In [17]:
# create the Series
s = pd.Series(np.arange(0, 5))
# multiple all values by 2
s *2

0    0
1    2
2    4
3    6
4    8
dtype: int32

## The .index and .values properties

In [18]:
v = pd.Series([1, 2, 3])
v

0    1
1    2
2    3
dtype: int64

In [19]:
v.values

array([1, 2, 3], dtype=int64)

In [20]:
s.values

array([0, 1, 2, 3, 4])

In [21]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [22]:
v.items

<bound method Series.items of 0    1
1    2
2    3
dtype: int64>

In [23]:
type(s.values)

numpy.ndarray

In [24]:
type(s.index)

pandas.core.indexes.range.RangeIndex

In [26]:
test = pd.Series(list(range(0, 5)))
test

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [27]:
type(test.values) ## 리스트로 넣어도 np.arange로 변경된다.

numpy.ndarray

In [28]:
type(test.index)

pandas.core.indexes.range.RangeIndex

---
### difference between (len, size, shape)

In [29]:
len(s)

5

In [30]:
s.size

5

In [31]:
s.shape

(5,)

## Specifying an index at creation

In [32]:
# explicity create an index
labels = ['Mike', 'Marcia', 'Mikael', 'Bleu']
role = ['Dad', 'Mom', 'Son', 'Dog']
s = pd.Series(labels, index = role)
s

Dad      Mike
Mom    Marcia
Son    Mikael
Dog      Bleu
dtype: object

In [34]:
s[3]

'Bleu'

In [35]:
s['Dad']

'Mike'

In [36]:
s.index[3]

'Dog'

## Heads, tails and takes

In [37]:
# a ten item Series
s = pd.Series(np.arange(1, 10),
             index = list('abcdefghi'))

In [38]:
# 최상위 5개 항목
s.head()

a    1
b    2
c    3
d    4
e    5
dtype: int32

In [39]:
# 개수 조정 가능
s.head(n=3)

a    1
b    2
c    3
dtype: int32

In [41]:
# 최하위 5개
s.tail()

e    5
f    6
g    7
h    8
i    9
dtype: int32

In [43]:
# 원하는 인덱스만 뽑아오기
s.take([1, 5, 8])

b    2
f    6
i    9
dtype: int32

## Lookup by label using the [] and operators

In [44]:
s1 = pd.Series(np.arange(10, 15), index = list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [45]:
s1['a']

10

In [46]:
s1[['d', 'b']]

d    13
b    11
dtype: int32

In [47]:
s1[[3, 1]]

d    13
b    11
dtype: int32

In [48]:
s2 = pd.Series([1, 2, 3, 4], index = [10, 11, 12 ,13])
s2

10    1
11    2
12    3
13    4
dtype: int64

In [49]:
# 오.... 신기하다..
s2[[13, 11]]

13    4
11    2
dtype: int64

In [51]:
# to demo lookup by mathcing labels as integer values
s3 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s3

a    1
b    2
c    3
d    4
dtype: int64

In [52]:
# this is by lable not position
s3[[1, 2]]

b    2
c    3
dtype: int64

In [53]:
s1

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [56]:
s1.iloc[[1, 2]]

b    11
c    12
dtype: int32

In [59]:
s2[[13, 11]]

13    4
11    2
dtype: int64

In [62]:
s2.loc[[13, 12]]

13    4
12    3
dtype: int64

In [65]:
s1.iloc[[1, 2]]

b    11
c    12
dtype: int32

In [66]:
s1.loc[['b', 'c']]

b    11
c    12
dtype: int32

## Slicing a Series into subsets

### 슬라이싱은 pandas 객체로부터 부분집합, 즉 서브셋을 추출, 슬라이싱을 사용하면 포지션이나 인덱스 레이블로 선택한 아이템의 순서오 간격을 제어

### 슬라이싱은 평범한 []연산자를 슬라이스 객체에도 적용할 수 있게 오버로딩한 것, 슬라이스 객체는 start:end:step을 사용하고 슬라이스 지정자라고 함

In [68]:
s = pd.Series(np.arange(100, 110),
             index = np.arange(10,20))
s

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [69]:
s[1:6]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [79]:
s.iloc[list(range(1, 6))]

11    101
12    102
13    103
14    104
15    105
dtype: int32

In [84]:
# 슬라이싱이 훨씬 간단하고 편하다
s[1:6:2]

11    101
13    103
15    105
dtype: int32

In [85]:
s.iloc[list(range(1, 6, 2))]

11    101
13    103
15    105
dtype: int32

In [86]:
s[:5] # head와 동일

10    100
11    101
12    102
13    103
14    104
dtype: int32

In [87]:
s[4:]

14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [88]:
s[:5:2]

10    100
12    102
14    104
dtype: int32

In [90]:
s[4::2]

14    104
16    106
18    108
dtype: int32

In [91]:
# 역순출력 우와...
s[::-1]

19    109
18    108
17    107
16    106
15    105
14    104
13    103
12    102
11    101
10    100
dtype: int32

In [92]:
s[::-1][:5] # tail의 역순과 같아졌다.

19    109
18    108
17    107
16    106
15    105
dtype: int32

In [100]:
# 뒤에 다섯개만 제외.
s[:-5]

10    100
11    101
12    102
13    103
14    104
dtype: int32

In [94]:
s[4::-2]

14    104
12    102
10    100
dtype: int32

In [95]:
# tail과 비슷한 친구를 만들어보자.
s[-4:]

16    106
17    107
18    108
19    109
dtype: int32

In [98]:
# 잘 된다. 안되는 예제를 찾아보자.
s[-5:-2]

15    105
16    106
17    107
dtype: int32

In [99]:
s[:-1]

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
dtype: int32

In [103]:
# 넘치는 데이터는 괜찮다.
s[:100]

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32

In [105]:
# 값이 없어졌다!
s[:-100]

Series([], dtype: int32)

In [120]:
# 마찬가지로 없는 값이 되었다.
s[100:-100]

Series([], dtype: int32)

In [121]:
# 아하 이제 좀 알겠다.
s[100:]

Series([], dtype: int32)

In [108]:
s = pd.Series(np.arange(0, 5),
             index = list('abcde'))
s

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [109]:
# 문자열 인덱스도 슬라이싱에서 벗어날 수 없다.
s[1:3]

b    1
c    2
dtype: int32

In [110]:
# 놀랍다. 아스키코드 값으로 슬라이싱하는건가..?? 여튼 신기하다
s['b':'d']

b    1
c    2
d    3
dtype: int32

In [111]:
s1 =pd.Series([1,2], index=['a', 'b'])
s1

a    1
b    2
dtype: int64

In [113]:
s2 = pd.Series([4,3], index=['b', 'a'])
s2

b    4
a    3
dtype: int64

In [114]:
# 인덱스 값만 같다면 잘 더해지는구나!
s1 + s2

a    4
b    6
dtype: int64

In [116]:
# 그렇다면 새로운 인덱스가 들어온다면??
s3 = pd.Series([5, 5], index = ['a', 'c'])
s3

a    5
c    5
dtype: int64

In [117]:
# 같은 인덱스값은 더해서 리턴하지만, 없는 값은 NaN 으로 나타난다.
# 어찌 보면 이게 똑똑한거다. 없는 파라미터를 비교할 순 없으니...
# 결과값은 float!
s1 + s3

a    6.0
b    NaN
c    NaN
dtype: float64

In [118]:
s1 * 2 # 원소마다 곱하기 2배

a    2
b    4
dtype: int64

In [119]:
# index 빌려오기
t = pd.Series(2, s1.index)
t

a    2
b    2
dtype: int64

In [122]:
s1 * t # 각 원소의 곱으로 이루어진다.

a    2
b    4
dtype: int64

In [123]:
s1 * s3 # 오...? float값으로 변했다 신기방기!

a    5.0
b    NaN
c    NaN
dtype: float64

In [125]:
## 엥...?? 왜 같은 인덱스에 값이 두개지
s1 = pd.Series([1.0, 2.0, 3.0], index=['a', 'a', 'b'])
s1

a    1.0
a    2.0
b    3.0
dtype: float64

In [126]:
# 흠....엑셀데이터로 접근할 때 괜찮을 것 같긴 한데...
# merge / average로 구할 순 없나??
s1.loc['a']

a    1.0
a    2.0
dtype: float64

In [128]:
s2 = pd.Series([4.0, 5.0, 6.0, 7.0], index = ['a', 'a', 'c', 'a'])
s2

a    4.0
a    5.0
c    6.0
a    7.0
dtype: float64

In [130]:
# 데카르트곱! 어렵다!
s1 + s2

a    5.0
a    6.0
a    8.0
a    6.0
a    7.0
a    9.0
b    NaN
c    NaN
dtype: float64

## Boolean selection

### Series 항목을 검색, Pandas의 불리언 선택, 논리식 값을 적용하고, 새로운 Series 반환, True 값만 추출 작업

In [131]:
# 와.....
s = pd.Series(np.arange(0, 5), index = list('abcde'))
logical_results = s>= 3
logical_results

a    False
b    False
c    False
d     True
e     True
dtype: bool

In [132]:
# select where True
s[logical_results]

d    3
e    4
dtype: int32

In [133]:
# a little shorter version
s[s > 3] ## 저번시간 DataFrame Filter와 동일하다

e    4
dtype: int32

In [135]:
## 논리식
s[(s >= 2) & (s < 5) ]

c    2
d    3
e    4
dtype: int32

In [137]:
# 조금 파이썬스럽게 짜봤는데 이건 안되나보다 ㅎㅎ
s[(2 <= s < 5)]

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [138]:
# 전체에 대한 판별. all True일 때 True 반환
(s > 0).all()

False

In [139]:
# 어떤 s에 대해서 True일 때 True 반환
(s > 0).any() 

True

In [140]:
# how many values < 2?
# count와 같다.
(s < 2).sum()

2

In [142]:
# 결국 이거랑 동일하다.
len(s[(s < 2 )])

2

In [143]:
# 내가 원하는 건 aggregate 라면...?
# 그건 나중에 알아보자 ^_^.....

## Reindexing a Series (Pandas가 수행하는 상상수의 정렬 작업 과정)

### 1. 어떤 레이블 집합과 일치하게 기존 데이터를 재정렬

### 2. 어떤 레이블에 대한 데이터가 없을 경우 NaN 삽입

### 3.  어떤 종류...?

In [147]:
np.random.seed(123456)
s1 = pd.Series(np.random.randn(4), index=list('abcd'))
s1

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
dtype: float64

In [151]:
s1.index = np.arange(1, 5)
s1

1    0.469112
2   -0.282863
3   -1.509059
4   -1.135632
dtype: float64

In [153]:
s1.index = list('abcd')

In [155]:
# 어....index['g']값이....없다... < 필요한 인덱스만 골라쓸 수 있다!
s2 = s1.reindex(['a', 'c', 'g'])
s2

a    0.469112
c   -1.509059
g         NaN
dtype: float64

In [156]:
s2.index

Index(['a', 'c', 'g'], dtype='object')

In [157]:
s2.values

array([ 0.4691123, -1.5090585,        nan])

In [159]:
# 인덱스가 문자인지 숫자인지 잘 따져야한다.
s1 = pd.Series([0, 1, 2], index = [0, 1, 2])
s2 = pd.Series([3, 4, 5], index = list('012'))
s1 + s2

0    3
1    5
2    7
dtype: int64

In [160]:
# 방법 1
s1 = pd.Series([0, 1, 2], index = [0, 1, 2])
s2 = pd.Series([3, 4, 5], index = map(int, list('012')))
s1 + s2

0    3
1    5
2    7
dtype: int64

In [161]:
# 방법 2
s2.index = s2.index.values.astype(int)
s1 + s2

0    3
1    5
2    7
dtype: int64

# 05/02 ~ 8주차 (아래서부터 이어서 계속)

In [10]:
np.random.seed(123456)
s = pd.Series(np.random.randn(3), index=['a','b','c'])
s

a    0.469112
b   -0.282863
c   -1.509059
dtype: float64

In [11]:
# 값이 없는 경우 새로운 데이터를 추가
s['d'] = 100
s

a      0.469112
b     -0.282863
c     -1.509059
d    100.000000
dtype: float64

In [14]:
# 값이 있는 경우 기존 데이터를 교체
s['d']= -100
s

a      0.469112
b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [15]:
del(s['a'])
s

b     -0.282863
c     -1.509059
d   -100.000000
dtype: float64

In [16]:
copy = s.copy()
sliced = copy[:2] # 이미 a는 없어졌다!
sliced

b   -0.282863
c   -1.509059
dtype: float64

In [5]:
s3 = pd.Series(['red','green','blue'], index = [0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [9]:
s3.reindex(np.arange(0, 7))

0      red
1      NaN
2      NaN
3    green
4      NaN
5     blue
6      NaN
dtype: object

In [8]:
s3.reindex(np.arange(0, 7), method='ffill')

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object