# DataFrame 생성하기

In [1]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame([1, 2, 3])    # 3row x 1col DataFrame 객체 생성됨
df

Unnamed: 0,0
0,1
1,2
2,3


In [4]:
type(df)

pandas.core.frame.DataFrame

In [6]:
pd.DataFrame(("dog", "cat", "bird"))

Unnamed: 0,0
0,dog
1,cat
2,bird


In [7]:
pd.DataFrame((
    "dog",   # 리스트의 첫번째 원소가 첫번째 row
    "cat",   # 리스트의 두번째 원소가 두번째 row
    "bird"
))

Unnamed: 0,0
0,dog
1,cat
2,bird


In [12]:
df = pd.DataFrame([
    [1, 2, 3],   # 리스트의 첫번째 원소가 첫번째 row
    [4, 5, 6]    # 리스트의 두번째 원소가 두번째 row
])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [10]:
pd.DataFrame([
    [1, 2, 3],   # 리스트의 첫번째 원소가 첫번째 row
    [4, 5]    # 리스트의 두번째 원소가 두번째 row
])

Unnamed: 0,0,1,2
0,1,2,3.0
1,4,5,


## shape, ndim, size, len(), dtype

In [13]:
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [14]:
df.shape

(2, 3)

In [15]:
df.ndim

2

In [16]:
df.size

6

In [17]:
len(df)  # row 의 개수

2

In [18]:
df.dtype  # dtype 은 컬럼마다 있다. DataFrame 에는 dtype 없다.

AttributeError: 'DataFrame' object has no attribute 'dtype'

#### column, index

In [19]:
df1 = pd.DataFrame([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [20]:
df1.columns

RangeIndex(start=0, stop=4, step=1)

In [21]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [22]:
df1.columns.values  # array 객체값

array([0, 1, 2, 3], dtype=int64)

In [24]:
df1.index.values  # array 객체값

array([0, 1, 2], dtype=int64)

#### index 와 colume 을 지정하여 DataFrame 작성하기

In [27]:
pd.DataFrame(
    [['a', 'b'],['c', 'd']], 
    index = ['row 1', 'row 2'],
    columns = ['col 1', 'col 2']
)

Unnamed: 0,col 1,col 2
row 1,a,b
row 2,c,d


#### column, index 변경

In [29]:
df2 = pd.DataFrame([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
], columns = ['a', 'b', 'c', 'd'])
df2

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [30]:
df2.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

In [31]:
df2.columns.values

array(['a', 'b', 'c', 'd'], dtype=object)

In [32]:
# 컬럼변경 list 나 array 사용
df2.columns = np.array(['AA','BB','CC','DD'])

In [33]:
df2

Unnamed: 0,AA,BB,CC,DD
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [34]:
df2.columns = ['가', '나', '다']   # 컬럼의 개수 다르면 에러남

ValueError: Length mismatch: Expected axis has 4 elements, new values have 3 elements

In [35]:
df2.index = ['정을영', '박수지', '김병진']

In [36]:
df2

Unnamed: 0,AA,BB,CC,DD
정을영,1,2,3,4
박수지,5,6,7,8
김병진,9,10,11,12


## dictionary로 부터 생성하기
 - dict의 key -> column

In [38]:
data = {'a' : 100, 'b': 200, 'c': 300}
pd.DataFrame(data, index=['x', 'y', 'z'])

Unnamed: 0,a,b,c
x,100,200,300
y,100,200,300
z,100,200,300


In [39]:
data = {'a' : [100, 200, 300], 'b': [1, 2, 3], 'c': [4, 5, 6]}
pd.DataFrame(data, index=['x', 'y', 'z'])

Unnamed: 0,a,b,c
x,100,1,4
y,200,2,5
z,300,3,6


## Series로 부터 생성하기
 - 각 Series의 인덱스 -> column
 -결국 DataFrame = Series x Series x ...  (Series 가 쌓인 형태가 DataFrame)

In [40]:
a = pd.Series([100, 200, 300], ['a', 'b', 'c'])
b = pd.Series([101, 202, 303], ['a', 'b', 'c'])
c = pd.Series([110, 220, 330], ['a', 'b', 'c'])

In [41]:
a

a    100
b    200
c    300
dtype: int64

In [42]:
b

a    101
b    202
c    303
dtype: int64

In [43]:
c

a    110
b    220
c    330
dtype: int64

In [44]:
pd.DataFrame([a, b, c])  # index 는 기본적으로 0-base

Unnamed: 0,a,b,c
0,100,200,300
1,101,202,303
2,110,220,330


In [45]:
# 만약에 Series 의 인덱스가 매칭이 안되는 상황이라면?
d = pd.Series([400, 420, 430], ['a','b','d'])
d

a    400
b    420
d    430
dtype: int64

In [46]:
pd.DataFrame([
    a, 
    b, 
    c, 
    d
])

Unnamed: 0,a,b,c,d
0,100.0,200.0,300.0,
1,101.0,202.0,303.0,
2,110.0,220.0,330.0,
3,400.0,420.0,,430.0
