# DataFrame Data type

- 다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형
    - Series의 dict 형태라고 보면 됨
        - `{'컬럼명1': Series1, '컬럼명2': Series2}`
        - 각 Series는 DataFrame의 column을 이룸
        - 당연히 DataFrame을 이루는 Series간의 index는 서로 다 같음! => 동일 index 사용

## DataFrame을 만드는 다양한 방법들

In [16]:
s1 = np.arange(1,6,1)
s2 = np.arange(6,11,1)

s1
s2

array([1, 2, 3, 4, 5])

array([ 6,  7,  8,  9, 10])

In [23]:
df = pd.DataFrame(
    {
        'c1':s1,
        'c2':s2
    }
)

df

Unnamed: 0,c1,c2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [29]:
# 1번째 방법 (Default index and columns would be set)
pd.DataFrame(
    [
        [10,11],
        [10,12]
    ]
)
pd.DataFrame(
    np.array(
        [
            [10,11],
            [10,12]
        ]
    )
)

Unnamed: 0,0,1
0,10,11
1,10,12


Unnamed: 0,0,1
0,10,11
1,10,12


In [35]:
# 2번째 방법 (Default index and column names would be set)
# (가로로 뉘어짐)
pd.DataFrame(
    [
        pd.Series(np.arange(10,15)),  # 굳이 Series가 아니고 list이어도 됨 (iterable한 object면 다 가능)
        pd.Series(np.arange(15,20))
    ]
)
pd.DataFrame(
    [
        np.arange(10,15), 
        np.arange(15,20)
    ]
)
                  

Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


In [37]:
# 3번째 방법 (with column & index names)
pd.DataFrame(
    np.array(
        [
            [10,11],
            [20,21]
        ]
    ),
    columns = ['a','b'],
    index = ['r1','r2']
)        

Unnamed: 0,a,b
r1,10,11
r2,20,21


In [39]:
# 4번째 방법
s1 = pd.Series(np.arange(1,6,1))
s2 = pd.Series(np.arange(6,11,1))

pd.DataFrame(
    {'c1':s1,
     'c2':s2}
)

Unnamed: 0,c1,c2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [43]:
# 참고: 1줄짜리 만들 때도 value들은 list type으로 설정해줘야 함

pd.DataFrame(
    {'c1':[0],
     'c2':[1]
    }
)

Unnamed: 0,c1,c2
0,0,1


In [45]:
s1 = pd.Series(np.arange(1,6,1), index=['a','b','c','d','e'])
s2 = pd.Series(np.arange(6,11,1), index=['b','c','d','f','g'])

df = pd.DataFrame(
    {'c1':s1,
     'c2':s2}
)

## DataFrame 생성시, Series간에 Index 기준으로 자동정렬!

In [58]:
s1 = pd.Series(np.arange(1,6,1))
s2 = pd.Series(np.arange(6,11,1))
s3 = pd.Series(np.arange(12,15), index=[1,2,10])
               
df = pd.DataFrame({'c1':s1, 'c2':s2, 'c3':s3})
df

Unnamed: 0,c1,c2,c3
0,1.0,6.0,
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,9.0,
4,5.0,10.0,
10,,,14.0


## DataFrame에 새로운 column 추가하기

In [60]:
df['c4'] = pd.Series([1,2,3,4], index=[0,1,2,10])

In [61]:
df

Unnamed: 0,c1,c2,c3,c4
0,1.0,6.0,,1.0
1,2.0,7.0,12.0,2.0
2,3.0,8.0,13.0,3.0
3,4.0,9.0,,
4,5.0,10.0,,
10,,,14.0,4.0
