#### dataframe indexing, slicing
- 메모리를 어떻게 보는지에 따라 reference와 copy로 구분이 되므로 유심히 볼 것.

In [2]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [3]:
df1 = DataFrame(np.arange(12).reshape((4, 3)), columns=['a', 'b', 'c'])
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [7]:
df1.iloc[:, 1]

0     1
1     4
2     7
3    10
Name: b, dtype: int32

In [8]:
df1.loc[:, 'b']

0     1
1     4
2     7
3    10
Name: b, dtype: int32

In [None]:
# Series로 들어오는 것은 copy : 기존 값 불변
# DataFrame, 2d array로 들어올 시 reference : 기존의 값 변경

In [31]:
v1 = df1.loc[2, ['b', 'c']]
v1[0] = 100
df1

# fancy indexing도 data를 copy해온 것임을 알 수 있다.

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [41]:
v2 = df1.iloc[0:2, 1]
v2[0, 0] = 50
df1
# Series의 array는 연속된 data, 행 방향으로 바라보면 여러 개의 columns를 보게되는데 이는 연속적인 data가 아니다.

Unnamed: 0,a,b,c
0,0,50,2
1,3,4,5
2,6,7,8
3,9,10,11


In [42]:
v2 = df1.iloc[0:1, 1:]
v2[0, 0] = 150
df1

Unnamed: 0,a,b,c
0,0,50,2
1,3,4,5
2,6,7,8
3,9,10,11


- array(8,1)을 reshape(4,2) 하게 된 것을 2개의 columns로 바꾸게 되면, 열 방향이 아닌 행 방향으로 연속적인 data를 갖는다.

- data의 구조를 파악하기 싫다면, data를 copy해서 가져오게되면 기존의 Series처럼 열 방향의 연속된 data로 처리할 수 있다.

#### 산술 연산과 데이터 정렬

- 색인(index)을 기준으로 데이터가 연산된다. 
- 짝이 맞지 않는 색인으로 데이터 연산 시 NaN값이 생성되는데 이를 방지하기 위해서 df.add 이용

#### DataFrame.add

In [44]:
df1

Unnamed: 0,a,b,c
0,0,50,2
1,3,4,5
2,6,7,8
3,9,10,11


In [45]:
series = df1.iloc[0]

In [46]:
series

a     0
b    50
c     2
Name: 0, dtype: int32

In [47]:
df1 - series # broadcasting

Unnamed: 0,a,b,c
0,0,0,0
1,3,-46,3
2,6,-43,6
3,9,-40,9


- 산술 연산의 매칭 index의 default axis는 'column'이기 때문에 'row'로 바꾸려면 axis를 0으로 변경할 것.
- df1.sub()

#### 함수 적용과 매핑
- df1.apply() : axis를 설정해서 적용 방향을 설정, 적용될 함수 설정
- map : 모든 element에 적용되는 함수
- reduct 함수 외에도 함수를 적용해서 차원을 줄일 수 있음. ex) min, max를 이용한 2개의 series로 축소

#### 정렬(Sorting)

In [52]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index() # index로 정렬

a    1
b    2
c    3
d    0
dtype: int64

In [56]:
frame = DataFrame(np.arange(8).reshape(2, 4), index=['b', 'a'])
frame.sort_index()

Unnamed: 0,0,1,2,3
a,4,5,6,7
b,0,1,2,3


In [60]:
frame.sort_index(by=2)

  """Entry point for launching an IPython kernel.


Unnamed: 0,0,1,2,3
b,0,1,2,3
a,4,5,6,7


In [61]:
frame.sort_index(by=['col1', 'col2'])  # col1에 의해 우선 정렬 실시하고, 정렬된 순서 안에서 col2 또한 정렬할 것.

  """Entry point for launching an IPython kernel.


KeyError: 'col1'

#### 순위
- DataFrame.rank
- 데이터 처리할 때 유용할 듯.

In [None]:
# df1.rank()

#### 중복된 색인
- 같은 색인을 가진 data가 존재함.
- ex) 동일한 인덱스일 때, df.loc['index'] : 차원축소 없이 임의의 df로 표현된다. why? index 구성자체가 2개 이상이니까.

#### 기술 통계 계산과 요약
- pandas 객체는 일반적인 수학 연산과 통계량을 위한 메소드를 가지고 있다.
- 기술통계 default : axis = 0, skipna = True
- cumsum() :누적 합, 차원 축소가 이루어지지 않음. cf) cummin, commax
- 일반적인 정규분포라면 mean과 median의 값이 같다. 같지 않다면, 한 쪽으로 치우친(skewed) 분포라고 볼 수 있다. ex) left skewd, right skewed
- diff 1차 산술 차를 구한다. ex) diff(1), 첫 element를 Na로 비우고 그 다음부터 첫번째 index 
- pct_change : % 변화율을 구한다.

#### pandas-datareader
- conda install pandas-datareader

In [68]:
import pandas_datareader as pdr

SyntaxError: invalid syntax (<ipython-input-68-c3c5e6a2dc1c>, line 1)

In [1]:
!pip install pandas-datareader



You are using pip version 18.1, however version 19.0.3 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [5]:
import pandas_datareader as pdr

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = pdr.get_data_yahoo(ticker)

price = DataFrame({tic: data['Adj Close']
                   for tic, data in all_data.items()})
volume = DataFrame({tic: data['Volume']
                    for tic, data in all_data.items()})

ImportError: No module named 'pandas_datareader'

In [6]:
# 위 결과로 ['AAPL', 'IBM', 'MSFT', 'GOOG']가 dict의 4가지 열로 구성된다.

#### 상관계수
- DataFrame.corr(), cov()
- 두 변수 간의 관계를 찾는 것.
- 변수의 변화에 따라 결과값 혹은 다른 변수의 변화를 찾아내는 것.
- 측정 단위에 따라 기울기는 달라지기 때문에 그래프의 기울기와는 무관함. 중요한 건 그래프의 폭이 얼마나 적은지가 중요
- 그래프의 모양에 따라 상관관계 파악 가능. ex) 원 모양 : 상관관계가 없음. 
- 점 x에 따른 y에 따른 분포가 작으면 상관관계가 높다고 판단 가능.

In [11]:
# method : pearson, kendall, spearman

In [13]:
# corr : 두 변수 간의 상관관계를 측정할 때, scale과는 무관해야한다. 주로 -1~1 사이가 되야함. 표준편차로 나눌 것
# cov : 공분산.
# ex) 사람의 몸무게를 g으로 측정하면 : scale이 커진다. 이를 키 cm와 비교하게되면 안 되고, kg으로 환산할 것. 

In [None]:
#  what is 3포?

In [14]:
# corrwith() : 특정 변수와의 상관관계 확인

In [None]:
# corrwith(axis = 0) : 같은 변수 내에 다른 종류와의 상관 관계. ex) 'A회사'의 '주가'와 '거래량' 사이의 관계
# 거래량이 오르면 주가는 떨어지게 된다는 결과를 얻음. 

#### unique
- DataFrame.unique()
- 행과 열에 따른 dict를 만들어낼 수 있음.

#### 결측처리
- np.nan, None도 전부 NaN으로 처리된다.

#### 결측치 제거
- DataFrame.dropna()
- how : ex) how(all), 전부 Na인 것 제거.
- limit, thresh ex) thresh(3) : non-Na 3개 이상인 값만 drop되지 않고 남긴다.
- axis는 제거 되어서 축소되어질 열을 보면 안 헷갈린다. axis = 0 : 행을 없앨 것, axis = 1 : 열을 없앨 것.

#### 결측치 채우기
- DataFrame.fillna()

In [46]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [47]:
df1['a']

0    0
1    3
2    6
3    9
Name: a, dtype: int32

### 계층적 색인
- 고차원의 data를 저차원에서 계층적으로 투영하게 해준다.

#### 1. 계층적 색인 생성

In [52]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [59]:
df2 = df1.stack()
df2

0  a     0
   b     1
   c     2
1  a     3
   b     4
   c     5
2  a     6
   b     7
   c     8
3  a     9
   b    10
   c    11
dtype: int32

In [58]:
df2.index # stack을 하게되면 multi indexing이 된다.

MultiIndex(levels=[[0, 1, 2, 3], ['a', 'b', 'c']],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])

In [60]:
df2[1] # 점 색인을 했지만 여러개 값을 반환하는 모습을 볼 수 있음.

a    3
b    4
c    5
dtype: int32

- mutli indexing : DataFrame을 Series로 보기 위함.

- level 색인에서는 연속적인 색인이더라도, reference의 값 대체가 불가능하다.

In [64]:
# multiidx 생성자 함수 by arrays
multiidx = pd.MultiIndex.from_arrays()

TypeError: from_arrays() missing 1 required positional argument: 'arrays'

#### 2. 계층 재정렬
- 계층적 색인에서 계층 순서를 바꾸거나, 계층의 순서에 따라 data를 재정렬하고자 한다.
- level : unique한 name
- label :  
- multi index의 바깥부터 순서대로 axis는 0, 1, .. 순서로 사용한다.
- index를 기준으로 정렬이 가능하다.
- DataFrame.sort_index()

#### 3. 계층적 요약 통계
- DataFrame.sum(level = 'key', axis = '')
- axis와 level을 어떻게 고르느냐에 따라 data의 shape이 어떻게 바뀔지 항상 생각할 것.

#### DataFrame의 Columns 사용하기
- index를 지정하지 않으면 index는 그저 rangeindex() 공간으로 존재할 뿐이다.
- 이러한 range들을 iterator라고 불린다. 즉, 값은 없지만 반복시키면 값을 던져주는 역할

- DataFrame.set_index() : rangeindex를 명시한 index로 지정하는 것.

- DataFrame.reset_index() : 명시된 index를 다시 원래의 rangeindex로 reset시켜줌.

In [66]:
df1.reset_index() # 만약 column과 중복된 이름의 index라면 reset 시 오류가 난다..

Unnamed: 0,index,a,b,c
0,0,0,1,2
1,1,3,4,5
2,2,6,7,8
3,3,9,10,11


### View와 Copy

- view
- copy

#### Do not chained indexing

- indexing을 할 때는, 가급적 한 번에 처리할 것.

In [69]:
from datetime import datetime, date
import pandas_datareader as pdr

pdata = pd.Panel(dict((stk, pdr.get_data_yahoo(stk, 
                                               start="2016-01-01", 
                                               end="2017-12-31"))
                       for stk in ['AAPL', 'GOOG', 'MSFT', 'DELL']))

ImportError: No module named 'pandas_datareader'

#### 데이터 구조

- Panel > DataFrame > Series

In [None]:
# Panel은 점색인만 가능하다.