In [3]:
# DataFrame
# 표 같은 스프레드시트 형식의 자료구조이다.
# 여러 컬럼이 있는데, 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등) 을 담을 수 있다.
import pandas as pd


data = {'state' : ['Ohio', 'Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year'  : [2000, 2001, 2002, 2001, 2002, 2001],
        'pop'   : [1.5, 1.7, 3.6, 2.4, 2.9,1.1]}

frame = pd.DataFrame(data)

# jupyter 노트북 사용시 html 코드 형식으로 출력된다.
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2001,1.1


In [4]:
# 처음 다섯개만 출력
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [5]:
# 컬럼의 출력을 변경
pd.DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2001,Nevada,1.1


In [6]:
# 사전에 없는 값을 넘기면 결측치로 저장된다.
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2001,Nevada,1.1,


In [7]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [8]:
# DataFrame 의 컬럼은 Series 처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [9]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2001
Name: year, dtype: int64

In [10]:
# 반환된 Series 객체가 DataFrame 과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.
# 로우는 위치나 loc 속성을 이용해서 이름을 통해 접근할 수 있다.
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [12]:
# 컬럼은 대입이 가능하다. 현재 비어있는 'debt' 컬럼에 스칼라값이나 배열의 값을 대입할 수 있다.
frame2['debt'] = 16.5

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2001,Nevada,1.1,16.5


In [15]:
# 리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다.
# Series 를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치가 대입된다.

val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

frame2['debt'] = val

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2001,Nevada,1.1,
