## Introduction
#### pandas는 고수준의 자료구조와 데이터 분석도구를 포함하고있다. 
#### pandas는 for문을 사용하지 않거나, 배열기반의 함수를 제공하는 등 Numpy 기반 계산 스타일을 많이 차용했다. 
#### pandas는 표 형식의 데이터나 다양한 데이터를 다루는데 초점을 맞추어 설계된 점이 Numpy와 가장 큰 차이점이다. 
#### Numpy는 단일 산술배열 데이터를 다루는데 특화되어 있다.

## pandas Data Structures
#### pandas는 "Series"와 "DataFrame"의 두가지 기본적인 자료구조를 가지고 있다.
#### 이 두 자료구조로 모든것을 해결할 수는 없지만 대부분의 응용에 사용하기 매우 쉬우며 탄탄한 기반을 제공한다. 

### Series
#### 일련의 객체를 담을 수있는 1차원 배열 같은 자료구조이다. 그리고 배열의 데이터와 연관된 색인(index)을 가지고있다.

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [8]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

obj = pd.Series([4,7,-5,3])
# 왼쪽에 색인, 오른쪽에 해당색인의  값을 나타낸다. 
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [9]:
obj.values #value 속성

array([ 4,  7, -5,  3], dtype=int64)

In [10]:
obj.index #index 속성

RangeIndex(start=0, stop=4, step=1)

In [11]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c']) #각각의 데이터를 지칭하는 색인을 지정하여 생성
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [13]:
obj2.values

array([ 4,  7, -5,  3], dtype=int64)

#### 단일값 또는 여러값을 선택할때 색인으로 레이블을 사용할 수 있다.
#### 불 연산, 산술연산 또는 수학연산을 수행해도 색인-값 연결이 유지된다. 

In [14]:
obj2['a']

-5

In [15]:
obj2['d'] = 6
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [16]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [17]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [18]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [19]:
import numpy as np

np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

#### Series Vs. Python Dictionary.
#### Series를 고정 길이의 정렬된 Dictionary라고 생각하자.
#### Series 객체는 파이썬의 Dictionary를 인자로 받아야 하는 응용에서 Dictionary를 대체해서 사용할 수 있다. 

In [20]:
'b' in obj2

True

In [21]:
'e' in obj2

False

In [22]:
sdata = {'Ohio': 35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000} #Python Dictionary 

#sdata
obj3 = pd.Series(sdata) #Dictionary 객체로부터 Series 객체 생성
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [23]:
states = ['California','Ohio','Oregon','Texas'] #색인을 직접 지정
obj4 = pd.Series(sdata, index=states)
obj4
#California에 대한값은 없으므로 NaN(Not a Number)으로 표시되고 누락된(NA) 값으로 취급
#Utha는 states에 없으므로 실행결과에서는 빠지게 된다.

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [24]:
pd.isnull(obj4) #누락된(NA)값을 찾는 메소드, pandas의 메소드

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [25]:
pd.notnull(obj4) #누락된(NA)값을 찾는 메소드(isnull과 반대로), pandas의 메소드

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [26]:
obj4.isnull()  #Series의 인스턴스 메소드로도 가능

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [27]:
obj4.notnull()  #Series의 인스턴스 메소드로도 가능

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### Series의 유용한 기능 중 하나는 색인과 레이블로 자동  정렬하는것이다. 

In [28]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [29]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [30]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

#### Series 객체와 Series 색인은 name 속성을가지고  있다. 나중에 배우지만,  pandas의 핵심기능과 밀접한 관련이  있다. 

In [31]:
obj4.name = 'population'  #Series 객체에 name 속성부여
obj4.index.name = 'state' #Series 색인에 name 속성부여

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [32]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [33]:
obj.index = ['Bob','Steve','Jeff','Ryan'] #색인은 대입하여 변경 할 수도 있다. 
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame
#### DataFrame은 표 같은 스프레드시트 형식의 구조이고 여러개의 컬럼이 있는데 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.
#### DataFrame은 row와 col에 대한 색인을 가지고 있는데, 색인의 모양은 같은 Series객체를 담고 있는 파이썬 dictionary로 생각하면 편하다. 
#### 물리적으로 DataFrame은 2차원이지만 계층적 색인을 이용해서 좀 더 고차원적인 데이터를 표현가능- advanced pandas 
#### DataFrame 객체는 다양한 방법으로 생성할 수있지만, 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 dictionary를 이용하거나, 
#### Numpy배열을 이용하는것이다.

In [34]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year' : [2000, 2001, 2002, 2001, 2002, 2003],
       'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
# 만들어진 DataFrame의 색인은 Series와 같은 방식으로 대입되며 컬럼은 정렬되어 저장된다.  

In [35]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [36]:
frame.head()
# 큰 DataFrame을 다룰 때는 hesd 메소드를 사용하여 처음 5개의 row만 출력할 수도 있다.   

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [37]:
pd.DataFrame(data, columns=['year', 'state','pop'])
#원하는 순서대로 column을 지정하면 원하는 순서를 가진 DataFrame을 생성한다. 

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [38]:
pd.DataFrame(data, columns=['year', 'state'])
#원하는 순서대로 column을 지정하면 원하는 순서를 가진 DataFrame을 생성한다. 

Unnamed: 0,year,state
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada
5,2003,Nevada


In [39]:
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'],
                     index = ['one', 'two', 'three', 'four', 'five', 'six'])
frame2
# Series와 마찬가지로 Dictionary에 없는 값을 넘겨주면 NaN으로 처리된다. 

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [40]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [41]:
frame2['state'] 
# DataFrame의 컬럼은 Seriese처럼 사전형식의 표기법으로 접근하거나또는 frame2.state 처럼 속성형식으로 접근
#frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [42]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

#### Rows는 위치나 loc 속성을 이용해서 아름을 통해 접근이 가능하다.

In [43]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [44]:
# 컬럼은 대입이 가능하다. 
# 예를들어 현재 비어있는 'debt' 컬럼에 스칼라값이나 배열의 값을 대입할 수 있다. 
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [45]:
#immpy as np
frame2['debt'] = np.arange(6.0)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [46]:
#리스트나 배열을 컬럼에 대입할때는 길이가 DataFrame의 크기와 동일해야 한다.
#Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며, 존재하지 않는 색인에는 NaN이 대입된다. 
val = pd.Series([-1.2, -1.5, -1.7], index = ['two','four','five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [47]:
frame2['eastern'] = frame2.state == 'Ohio' # state 컬럼의 값이 'Ohio'인지 아닌지에 대한 불리언 값을 갖는 새로운 컬럼 생성 
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


#### 'del' keyword에 대한 예제

In [48]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [49]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [50]:
#중첩된 dictionary를 이용하여 데이터를 생성할 수있다. 
# 중첩된 dictionary를 DataFrame에 넘기면, 바깥의 키는 컬럼이 되고 안쪽의 키는 로우가 된다.
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [51]:
#Numpy 배열과 유사한 문법으로 데이터를 전치(transpose)할 수 있다. 
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [52]:
#중첩된 dictionary를 이용할때, 색인을 직접 지정
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [53]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [54]:
pdata = {'Ohio': frame3['Ohio'][:-1],
        'Nevada': frame3['Nevada'][:2]}  #frame3['Nevada'][:-1]과 같은 결과
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [55]:
#name 속성 지정
frame3.index.name = 'year'
frame3.columns.name = 'state'

frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [56]:
#Series와 유사하게 value 속성은 DataFrame에 저장된 데이터를 2차원으로 반환한다.
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [57]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [58]:
frame2.values  #DataFrame의 컬럼이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 컬럼 배열의 dtype이 선택된다.

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 색인객체
#### pandas의 색인객체는 표 형식의 데이터에서 각 row와 col에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체이다. 

In [59]:
import pandas as pd
import numpy as np

obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [60]:
index[1:]

Index(['b', 'c'], dtype='object')

In [61]:
#색인객체는 변경이 불가능하다.
index[1] = 'd'

TypeError: Index does not support mutable operations

In [62]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [63]:
#자료구조 사이에서 안전하게 공유될 수 있다.
obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [64]:
obj2.index is labels

True

In [65]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [66]:
frame3.index

Int64Index([2001, 2002, 2000], dtype='int64', name='year')

In [67]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [68]:
'Ohio' in frame3.columns

True

In [69]:
2003 in frame3.columns

False

In [70]:
#파이썬의 집합과 갈리 pandas의 인덱스는 중복되는 값을 허용한다.
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 핵심기능
### 재색인(reindex)
#### pandas 객체의 중요한 기능중 하나는 reindex인데, 새로운 색인에 맞게 객체를 새로 생성한다.


In [71]:
obj=pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [72]:
#위의 Series객체에 reindex를 호출하면 새로운 색인에 맞게 재배열하고, 존재하지 않는 색인값이 있다면 NaN을 추가한다.
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [73]:
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [74]:
#시계열 같은 순차적 데이터를 재색인할때 값을 보간하거나 채워넣을경우가 있다. 
#method 옵션을 사용해서 이를 해결할수 있으며, ffill 같은 매서드를 사용해서 누락된값을 직전의 값으로 채울 수 있다.
obj3.reindex(range(6), method='ffill')  #bfil과 비교

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [75]:
#DataFrame에 대한 reindex는 row, col 둘다 변경 가능하다.
frame = pd.DataFrame(np.arange(9).reshape(3,3),
                     index=['a','c','d'], columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [76]:
frame2=frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [77]:
#컬럼은 columns 예약어를 사용해서 재색인한다.
states=['Texas', 'Utha', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utha,California
a,1,,2
c,4,,5
d,7,,8


### 하나의 row나 col 삭제하기 
#### drop 메소드를 사용하여 선택한 값들이 삭제된 새로운 객체를 얻는다.

In [78]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [79]:
new_obj = obj.drop('c')  # del obj['c']  #예약어 del을 사용해도 됨
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [80]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [81]:
#DataFrame에서는 row와 col 모두 값을 삭제 할 수 있다. 
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [82]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [83]:
#컬럼값을 삭제할때는 axis=1 또는 axis='columns'인자를 넘겨주면 된다.
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [84]:
data.drop(['two','four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


#### drop 메소드는 Series나 DataFrame의 변형된 객체를 반환하는게 아니라, 새로운객체를 반환한다.
#### inplace옵션을 사용하는 경우, 버려지는 값을 모두 삭제하므로 주의해야 한다. 

In [85]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [86]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
obj.drop('c')

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [87]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [88]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### 색인하기(Indexing), 선택하기(Selection), 거르기(Filtering)

In [89]:
obj = pd.Series(np.arange(4.), index = ['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [90]:
obj['b']

1.0

In [91]:
obj[1]

1.0

In [92]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [93]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [94]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [95]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [96]:
#레이블 이름으로 슬라이싱하면 시작점과 끝점을 포함한다. 파이썬의 슬라이싱과 다른점을 확인.
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [97]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

#### 색인으로 DataFrame에서 하나 이상의 컬럼 값을 가져올 수 있다 .

In [98]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [99]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [100]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


#### There are some special cases in this indexing - 
#### 1. 부울린 배열로 선택.

In [101]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 2. 스칼라 비교를 이용해 생성된 불리언 DataFrame을 이용해 선택

In [102]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [103]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### loc와 iloc로 선택하기
#### 축의 이름을 선택할때는 loc
#### 정수 색인으로 선택할때는 iloc

In [104]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [105]:
data.loc['Colorado']

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [106]:
data.loc['Colorado', ['two','three']] #row 위치를 접근할때 loc 사용

two      5
three    6
Name: Colorado, dtype: int32

In [107]:
data.iloc[2, [3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [108]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


#### loc와 iloc는 단일 라벨이나 라벨 리스트도 지원한다.

In [109]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [110]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [111]:
data.iloc[:, :3][data.three > 0]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### 정수 색인
#### pandas는 리스트나 튜플과 같은 파이썬 내장 자료구조와 색인방법이 차이가 있다. 

In [112]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [106]:
ser[-1]

KeyError: -1

In [107]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [108]:
ser2 = pd.Series(np.arange(3.), index=['a','b','c'])  #정수 기반의 색인을 사용하지 않으면 이러한 모호함은 사라진다.
ser2[-1]

2.0

In [113]:
ser[:1]

0    0.0
dtype: float64

In [114]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [115]:
ser.iloc[:1]   #라벨에에 대해서는 loc를 사용하고, 정수 색인에 대해서는 iloc를 사용

0    0.0
dtype: float64

### 산술연산과 데이터 색인
#### 객체를 더할때 짝이 맞지 않으면 결과에 두 색인이 통합된다.

In [116]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index = ['a','c','e','f','g'])

s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [117]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [118]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

#### DataFrames의 경우 정렬은 row와 col 모두에 적용된다. 

In [119]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'), 
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list('bde'), 
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [120]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [121]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [122]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [123]:
df1 = pd.DataFrame({'A': [1,2]})
df2 = pd.DataFrame({'B': [3,4]})

In [124]:
df1

Unnamed: 0,A
0,1
1,2


In [125]:
df2

Unnamed: 0,B
0,3
1,4


In [126]:
#공통되는 컬럼 라벨이나 로우 라벨이 없는 경우 결과가 없다.
df1 - df2

Unnamed: 0,A,B
0,,
1,,


### 산술연산 메소드에 채워넣을 값 지정

In [127]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

In [128]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [129]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [130]:
df2.loc[1,'b'] = np.nan

In [131]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [132]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [133]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [134]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [135]:
#df1에 add 메소드를 사용하고, fill_value 값을 인자로 전달한다.
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


#### For every arithematic operation for Series and DataFrame, we have a counterpart starting with letter r, where arguments are flipped.
#### We can specify fill value also when reindexing a Series or DataFrame. 

In [136]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [137]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [138]:
#Series나 DataFrame을 재색인 할때도 fill_value를 지정할 수 있다.
df1.reindex(columns = df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [139]:
df1.radd(df2)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


### DataFrame과 Series 간의 연산

In [140]:
# For NumPy

arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [141]:
#Numpy에서는 arr - arr[0]은 각 row에대해 수행된다 - 브로드캐스팅
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [142]:
# For DataFrame and Series
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                    columns=list('bde'),
                    index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]

In [143]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [144]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [145]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [146]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [147]:
#색인값을 찾을수가 없으면 객체는 형식을 맞추기 위해 재색인 된다.
series2 = pd.Series(range(3), index=['b','e','f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [148]:
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [149]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [150]:
#만약 각 row에 대해 수행하고 싶으면, 연산 메소드를 사용한다.
# axis는 연산을 적용하할 축 번호이다. axis='index'나 axis=0은 DataFrame의 row를 따라 연산을 수행하라는 의미이다.
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 함수의 적용과 매핑
#### pandas에서도 numpy의 유니버설 함수를 적용할 수 있다. 

In [151]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                    index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.045275,0.59692,-0.091722
Ohio,-0.268603,-0.027993,-0.140265
Texas,-0.884777,0.513309,-1.203491
Oregon,-3.293396,0.464853,0.309313


In [152]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.045275,0.59692,0.091722
Ohio,0.268603,0.027993,0.140265
Texas,0.884777,0.513309,1.203491
Oregon,3.293396,0.464853,0.309313


In [153]:
#frame의 각 컬럼에 대해 수행, 결과값은 계산을 적용한 컬럼을 색인값으로 하는 Series 반환 
f = lambda x: x.max() - x.min()
frame.apply(f)

b    3.248122
d    0.624914
e    1.512804
dtype: float64

In [154]:
#axis='column'인자를 사용하면 frame의 각 로우에 대해 수행 
frame.apply(f, axis='columns')

Utah      0.688642
Ohio      0.240610
Texas     1.716800
Oregon    3.758249
dtype: float64

In [155]:
frame

Unnamed: 0,b,d,e
Utah,-0.045275,0.59692,-0.091722
Ohio,-0.268603,-0.027993,-0.140265
Texas,-0.884777,0.513309,-1.203491
Oregon,-3.293396,0.464853,0.309313


In [156]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-3.293396,-0.027993,-1.203491
max,-0.045275,0.59692,0.309313


In [157]:
#배열의 각 원소에 적용되는 파이썬 함수를 사용할 수 있다.
# frame 객체에서 실수값을 문자열로 포맷할때 applymap을 이용
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.05,0.6,-0.09
Ohio,-0.27,-0.03,-0.14
Texas,-0.88,0.51,-1.2
Oregon,-3.29,0.46,0.31


In [158]:
#Series는 map 메소드를 가지고 있다. 위의 예제에서 applymap인 이유가 그 때문이다. 
frame['e'].map(format)

Utah      -0.09
Ohio      -0.14
Texas     -1.20
Oregon     0.31
Name: e, dtype: object

### 정렬과 순위 

In [159]:
#sort_index 메소드
obj = pd.Series(range(4), index=['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [160]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=['three','one'],
                    columns = ['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [163]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [164]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [165]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [166]:
#Series 객체를 값에 따라 정렬하고 싶으면 sort_value 사용  
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [167]:
frame = pd.DataFrame({'b': [4,7,-3,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [168]:
frame.sort_values()

TypeError: sort_values() missing 1 required positional argument: 'by'

In [169]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [170]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [203]:
#순위는 정렬과 유사한다. 유효한 데이터 갯수까지 순서를 매긴다. 동점인 항목에 대해서는 편균순위를 매긴다.
obj = pd.Series([7,-5,7,4,2,0,4])
obj

# 값   : 7 -5 7  4 2 0 4
# 순위 : 6  1 7  4 3 2 5

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [204]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [205]:
# 순서에 따라 순위를 매길때는 'first'
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [206]:
# 내림차순, 동률인경우, 그룹 내에서 높은 순으로 적용한다. 
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [210]:
frame = pd.DataFrame({'b': [4.3,7,-3,2], 'a':[0,1,0,1],
                     'c': [-2,5,8,-2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [211]:
frame.rank(axis='columns')

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


In [212]:
frame.rank(axis=0)

Unnamed: 0,a,b,c
0,1.5,3.0,2.0
1,3.5,4.0,3.0
2,1.5,1.0,4.0
3,3.5,2.0,1.0


#### 중복색인

In [213]:
obj = pd.Series(range(5), index=['a','a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [214]:
obj.index.is_unique

False

In [215]:
obj['a']

a    0
a    1
dtype: int64

In [216]:
obj['c']

4

In [217]:
df = pd.DataFrame(np.random.randn(4,3), index=['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,-1.264541,1.576618,0.440338
a,0.475566,0.258039,-0.207064
b,-0.114073,-1.66808,-1.238659
b,0.052254,2.040598,1.058911


In [218]:
df.loc['b']

Unnamed: 0,0,1,2
b,-0.114073,-1.66808,-1.238659
b,0.052254,2.040598,1.058911


In [220]:
df.iloc[:, 1:3]

Unnamed: 0,1,2
a,1.576618,0.440338
a,0.258039,-0.207064
b,-1.66808,-1.238659
b,2.040598,1.058911


## 기술 통계 계산과 요약

In [174]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75,-1.3]],
                 index=['a','b','c','d'],
                 columns=['one','two'])

df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [175]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [176]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [177]:
df.mean(axis='columns')

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [178]:
#'skipna'옵션을 사용해서 NaN을 제외할지 결정
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [179]:
df.idxmax()

one    b
two    d
dtype: object

In [180]:
df.idxmin(axis='columns')

a    one
b    two
c    NaN
d    two
dtype: object

In [181]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [222]:
#누적(accumulation) 합
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [225]:
#여러개의 통계 결과를 출력
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


### 상관관계와 공분산

### conda install pandas-datareader

In [1]:
import pandas as pd
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
           for ticker in ['AAPL', 'IBM','MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
                    for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                    for ticker, data in all_data.items()})

In [2]:
returns = price.pct_change()

In [3]:
returns.tail(10)

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-03-08,-0.011676,-0.003094,-0.010971,0.006437
2022-03-09,0.034997,0.004297,0.045858,0.051757
2022-03-10,-0.027186,-0.014815,-0.010087,-0.008845
2022-03-11,-0.023909,-0.003136,-0.019328,-0.01663
2022-03-14,-0.026562,-0.000161,-0.012961,-0.028622
2022-03-15,0.029677,0.013716,0.038743,0.023035
2022-03-16,0.029015,0.011143,0.025213,0.031081
2022-03-17,0.006454,0.007242,0.002819,0.006807
2022-03-18,0.020919,0.006252,0.017648,0.016352
2022-03-21,0.008538,-0.005126,-0.004227,-0.002361


In [4]:
returns['MSFT'].corr(returns['IBM'])

0.4814172480953317

In [5]:
returns['MSFT'].cov(returns['IBM'])

0.0001436353377347359

In [6]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.429135,0.745948,0.66606
IBM,0.429135,1.0,0.481417,0.454935
MSFT,0.745948,0.481417,1.0,0.785419
GOOG,0.66606,0.454935,0.785419,1.0


In [7]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.00038,0.00014,0.000259,0.000228
IBM,0.00014,0.00028,0.000144,0.000134
MSFT,0.000259,0.000144,0.000317,0.000246
GOOG,0.000228,0.000134,0.000246,0.000309


In [8]:
returns.corrwith(returns.IBM) #다른 Series나 DataFrame과의 상관관계를 계산한다.

AAPL    0.429135
IBM     1.000000
MSFT    0.481417
GOOG    0.454935
dtype: float64

## 유일값, 값 세기, 멤버십

In [26]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [27]:
uniques = obj.unique()  #중복되는 값을 제거하고, 유리한 값만 담고있는 Series를 반환한다.
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [28]:
obj.value_counts()  #Series에서 도수(frequency)를 내림차순으로 정령하여 계산한다.  

c    3
a    3
b    2
d    1
dtype: int64

In [29]:
obj.value_counts(sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [32]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

In [34]:
mask = obj.isin(['b', 'c']) #값이 존재하는지 불리언 값으로 알려준다
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [35]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [37]:
# Index.get_indexer 메서드는 여러값이 글어있는 배열에서 유릴한 값의 색인 배열을 구할 수 있다.
unique_vals = obj.unique()
pd.Index(unique_vals).get_indexer(obj)

array([0, 1, 2, 1, 1, 3, 3, 0, 0], dtype=int64)