## 03-04 DataFrame

DataFrame은 행과 열에 레이블을 가진 2차원 데이터이다. 데이터형은 열마다 다른 형을 가질 수 있다. 1차원 데이터인 Series의 집합으로 인식하는 것도 가능하다. DataFrame에는 다음과 같은 특징이 있다. 
- 행과 열에 레이블을 가진 2차원 데이터
- 열마다 다른 형태를 가질 수 있음
- 테이블형 데이터에 대해 불러오기, 데이터 쓰기 가능
- DataFrmae 끼리 여러가지 조건을 사용한 결합 처리가 가능
- 크로스 집계가 가능


### DataFrame 작성하기
DataFrame 의 작성에는 pandas.DataFrame 클래스를 사용한다. 제1인수에는 1차원 또는 2차원 데이터를 넘긴다. 
키워드 인수 index 및 columns 에 레이블이 도는 값을 넘기는 것으로데이터를 표사힌다. 

In [1]:
import pandas as pd

df = pd.DataFrame([[1, 10, 100], [2, 20, 200], [3, 30, 300]], index =['r1', 'r2', 'r3'], columns =['c1', 'c2', 'c3'])

print(df)

    c1  c2   c3
r1   1  10  100
r2   2  20  200
r3   3  30  300


### 레이블을 사용해서 데이터 선택하기

Series와 같이 DataFrmae.loc를 사용해서 데이터를 추출한다. 
DataFrame의 경우에는 행과 열의 레이블을 각각 지정한다. 


In [2]:
print(df.loc['r2', 'c2'])

20


### 모든 행(열)을 지정하는 경우
모든 열을 지정하는 경우 요소에 [:] 를 넘긴다.  

In [3]:
print(df.loc['r2', :])

c1      2
c2     20
c3    200
Name: r2, dtype: int64


모든 행을 지정하는 경우도 같다. 

In [4]:
print(df.loc[:, 'c2'])

r1    10
r2    20
r3    30
Name: c2, dtype: int64


### 슬라이스나 리스트를 넘겨주는 방법

슬라이스나 리스트를 넘기는 방법은 Series와 같다.

In [5]:
# 행 레이블을 리스트로지정, 열 레이블을 슬라이스로 지정
df.loc[['r1', 'r3'], 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


### iloc를 사용해서 데이터를 선택하기
Series 와 같이 DataFrame.iloc 를 사용해서 데이터의 위치에 의한 데이터 추출이 가능하다. 
DataFrame의 경우에는 행과 열의 위치를 각각 지정한다. 

In [6]:
df.iloc[1:3, [0,2]]

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


### 열 이름을 지정해서 데이터 선택하기

loc나 iloc를 지정하지 않고 DataFrame에 대해 지정한 경우는 열 지정이 되고 되돌아 오는 데이터형은 Series가 된다. 

In [7]:
df['c2']

r1    10
r2    20
r3    30
Name: c2, dtype: int64

### 논리값을 사용해서 데이터 선택하기

Series 와 같이 비교 연산을 하면 논리값이 되돌아 온다. 

In [8]:
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [9]:
# 비교 연산을 이용한 데이터 추출
df.loc[df['c2'] > 10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


### 2개 이상의 조건을 조합하는 경우
다음의 연산자를 사용한다. 
- & : and 조건
- | : or 조건
- 2개 이상의 조건을 조합하는 경우, 괄호()로 묶어 조건을 분류한다.     

In [10]:
# 복수 조건을 조합한 데이터 추출
df.loc[(df['c1']>1)&(df['c3']<300)]

Unnamed: 0,c1,c2,c3
r2,2,20,200
