## pandas DataFrame
 DataFrame은 표와 같은 스프레트 시트 형식의 자료구조로서, 여러개의 컬럼을 가지고 있다. 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우,컬럼에 대한 index가 있다.   
  
DataFrame은 **각 인덱스마다 Series객체를 담고 있는 python dictionary라고 생각한다면 이해가 수월하다.** DataFrame객체는 다양한 방법으로 생성할 수 있지만 가장 흔하게 사용되는 방법은  
* 같은 길이의 리스트에 담긴 dictionary를 이용하는 방식
* Numpy배열을 이용하는 방식  
  
이다.

In [1]:
from pandas import DataFrame, Series
import pandas as pd
import numpy as np

In [2]:
dict_data = {
    'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year'  : [2000, 2001, 2002, 2001, 2002],
    'pop'   : [1.5, 1.7, 3.6, 2.4, 2.9]
}
df_data = DataFrame(dict_data)
df_data

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


**Series와의 비교**

In [3]:
# Series객체의 선언방식
sdata = {'Ohio':11, 'Texas': 12, 'Oregon':13, 'Utah': 14}
obj4 = Series(sdata)
obj4

Ohio      11
Oregon    13
Texas     12
Utah      14
dtype: int64

In [4]:
# DataFrame객체의 선언방식
dict_data = {
    'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year'  : [2000, 2001, 2002, 2001, 2002],
    'pop'   : [1.5, 1.7, 3.6, 2.4, 2.9]
}
df_data = DataFrame(dict_data)
df_data

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


**각 컬럼명에 대해 나열된 각 데이터들의 집합은 Series타입이다. **

In [5]:
print('type of df_data :: ' + str(type(df_data)))
print('type of df_data[state] :: ' + str(type(df_data['state'])))

type of df_data :: <class 'pandas.core.frame.DataFrame'>
type of df_data[state] :: <class 'pandas.core.series.Series'>


* **원하는 순서대로 columns를 지정하면 지정한 순서를 가진 DataFrame객체가 생성된다.**  
* **순서를 변경할 수도 있다. dictionary에 등록된 키의 이름을 임의로 순서를 지정해 나열할 수도 있다.**

In [6]:
DataFrame(dict_data, columns=['year','state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


**Series와 마찬가지로 data에 없는 값을 넘길 경우 NA값이 지정된다**

In [7]:
df_data2 = DataFrame(dict_data, columns=['year','state','pop','debt'], index=['one','two','three','four','five'])
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


**DataFrame의 컬럼은 Series처럼 dictionary형식의 표기법으로 접근하거나 속성형식으로 접근가능하다**  
* **df_data2['state']**  
* **df_data2.state**  


In [8]:
df_data2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [9]:
df_data2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

# DataFrame의 특정 로우접근 방식
1. **.ix['인덱스명']** \- deprecated되었다. loc또는 iloc를 사용해야 한다.
2. **.loc['인덱스명']** \- label based indexing
3. **.iloc['인덱스명']** \- positional indexing

반환된 Series객체가 DataFrame같은 색인을 가지면 알맞은 값으로 name속성이 채워진다. 로우는 위치나 ix같은 몇 가지 메서드를 통해 접근할 수 있다.

## 1\. .ix['인덱스명']을 이용하는 방식 

In [10]:
# ix['인덱스명']은 deprecated 되었다. 따라서 iloc 또는 loc을 사용해야 한다.
df_data2.ix['three']
"""에러메시지 내용 :
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
"""

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


'\xec\x97\x90\xeb\x9f\xac\xeb\xa9\x94\xec\x8b\x9c\xec\xa7\x80 \xeb\x82\xb4\xec\x9a\xa9 :\n.ix is deprecated. Please use\n.loc for label based indexing or\n.iloc for positional indexing\n\nSee the documentation here:\nhttp://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix\n'

## 2\. .loc['인덱스명']을 이용하는 방식 

In [11]:
dict_data = {
    'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year'  : [2000, 2001, 2002, 2001, 2002],
    'pop'   : [1.5, 1.7, 3.6, 2.4, 2.9]
}
df_data2 = DataFrame(dict_data, columns=['year','state','pop','debt'], index=['one','two','three','four','five'])
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [12]:
df_data2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

## 3\. .iloc['인덱스명']을 이용하는 방식 
**iloc[]는 positional indexing이기 때문에**, 0~n-1까지의 위치를 나타내는 숫자값을 입력해주어야 한다.(iloc for positional indexing 이기 때문이다.) 

In [13]:
#df_data2.iloc['three'] - 에러!!
df_data2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

# 컬럼은 대입이 가능하다.
예를 들어 현재 비어있는 'debt'컬럼에 스칼라값 또는 배열의 값을 대입할 수 있다.  

**컬럼'debt'의 모든 로우에 대해 스칼라값 대입**

In [14]:
df_data2['debt'] = 11.1

In [15]:
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,11.1
two,2001,Ohio,1.7,11.1
three,2002,Ohio,3.6,11.1
four,2001,Nevada,2.4,11.1
five,2002,Nevada,2.9,11.1


**컬럼'debt'의 모든 로우에 대해 배열값 대입**  
np.arange(n)은 0~n-1까지의 값을 배열로 만들어준다.

In [16]:
df_data2['debt'] = np.arange(5)
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


** \- 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다.**  
** \- Series를 대입하면 DataFrame의 인덱스에 따라 값이 대입되며 존재하지 않는 인덱스에는 값이 대입되지 않는다**  

In [17]:
sr_debt = Series([39,39,39], index=['two','four','five'])
df_data2['debt'] = sr_debt
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,39.0
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,39.0
five,2002,Nevada,2.9,39.0


# 컬럼 삭제 - del 예약어 사용

In [18]:
# 1) 예제를 위해 하나의 컬럼생성
df_data2['TEST'] = df_data2.state == 'Ohio'
df_data2

Unnamed: 0,year,state,pop,debt,TEST
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,39.0,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,39.0,False
five,2002,Nevada,2.9,39.0,False


# review >> '내부데이터에 대한 View'
- 무슨의미인지 조사해볼 것

In [19]:
# 2) 컬럼 삭제 - del 예약어 사용
del df_data2['TEST']
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,39.0
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,39.0
five,2002,Nevada,2.9,39.0


DataFrame의 index를 이용해 생성된 컬럼은 내부데이터에 대한 뷰(View)이며 복사가 이루어지지 않는다. 따라서 이렇게 얻은 Series객체에 대한 변경은 실제 DataFrame에 반영된다. 복사본이 필요할 경우 Series의 copy메서드를 이용한다.

# DataFrame초기화 방식(3)
### 중첩된 딕셔너리를 이용해 데이터 생성
바깥에 있는(outer) 사전의 키값이 컬럼이 되고 내부의(Inner) 키는 index의 이름이 된다.  
(바깥에 있는 사전의 키 값이 컬럼이 되고 안에 있는 키는 로우가 된다.)

In [20]:
dict_nested = {'Nevada' : {2001 : 2.4, 2002: 2.9}, 
               'Ohio': {2000:1.5, 2001:1.7, 2002:3.6}}
df_nested = DataFrame(dict_nested)
df_nested

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


numpy에서와 마찬가지로 T를 이용해서 결과값을 뒤집을 수 있다.

In [21]:
df_nested.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [22]:
type(df_nested.T)

pandas.core.frame.DataFrame

중첩된 딕셔너리를 이용해서 DataFrame을 생성할때 안쪽의 사전 값은 키값별로 조합되어 결과의 index가 되지만 index를 직접 지정할 경우 지정된 색인으로 DataFrame을 생성한다

In [23]:
DataFrame(dict_nested, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Series객체를 담고 있는 사전데이터도 같은 방식으로 취급된다.

# DataFrame 인덱싱, 슬라이싱
슬라이싱, 표현식 예제

In [24]:
#현재 df_nested의 값
df_nested

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [25]:
# 가장 마지막 요소[-1]는 포함하지 않고 처음부터 끝까지 출력
df_nested['Ohio'][:-1]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [28]:
type(df_nested['Ohio'][:-1])

pandas.core.series.Series

In [27]:
# 가장 마지막 요소[2], 즉 [len(df_nested)-1]은 포함하지 않고 처음부터 끝까지 출력
df_nested['Nevada'][:2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

In [29]:
type(df_nested['Nevada'][:2])

pandas.core.series.Series

# DataFrame초기화 방식 (4)
### 키에 대한 값으로 Series를 지정한 딕셔너리를 전달하여 DataFrame초기화

In [31]:
dict_sr_state = { 'ohio' : df_nested['Ohio'][:-1],
                  'nevada' : df_nested['Nevada'][:2]}
DataFrame(dict_sr_state)

Unnamed: 0,nevada,ohio
2000,,1.5
2001,2.4,1.7


In [32]:
df_nested

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


# DataFrame의 index, colums속성
- index, columns의 name을 명시적으로 지정하기

In [34]:
df_nested.index.name = 'yaar'
df_nested.columns.name = 'state'
df_nested

state,Nevada,Ohio
yaar,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


# DataFrame의 values속성
dataframe의 values는 저장된 데이터를 2차원 배열로 반환한다.

In [35]:
df_nested.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

dataframe의 컬럼에 서로 다른 dtype이 있다면 모든 컬럼을 수용하기 위해 그 컬럼 배열의 dtype이 선택된다.

In [39]:
df_data2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,39.0
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,39.0
five,2002,Nevada,2.9,39.0


In [38]:
df_data2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, 39.0],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, 39.0],
       [2002, 'Nevada', 2.9, 39.0]], dtype=object)

In [None]:
df_data_test = 