In [1]:
import numpy as np
import pandas as pd

### DataFrame
- Series가 인덱스를 가지는 1차원 배열
- DataFrame은 행 인덱스와 열 인덱스를 가지는 2차원 배열

In [6]:
# 간단한 예시
# 2차원 데이터
pd.DataFrame([[1,2,3,4],[5,6,7,8]]) # => 행 index와 row index가 동시에 존재하는것을 확인할수 있다

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


- colums(열 인덱스) index(행 인덱스)를 지정해줄수도 있다

In [8]:
pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns = ['서울','부산','경기','대전'],index=['오전','오후'])

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


- dtype도 지정해줄수 있다
    - pd.DataFrame()에서 각 열마다 dtype 지정해줄수 있을거 같지만 안된다 => single type만 가능하다
    - 개별적으로는 각 열마다 dtype 가능하다

In [25]:
# 생성할때는 singe 
pd.DataFrame([[1,2],[5,6]],columns=['a','b'],dtype=(float,int))

Unnamed: 0,a,b
0,1.0,2.0
1,5.0,6.0


In [23]:
# 개별적으로 update 가능하다 
df01 = pd.DataFrame([[1,2],[5,6]],columns=['a','b'])
df01['a'] = df01['a'].astype(float)
df01

Unnamed: 0,a,b
0,1.0,2
1,5.0,6


In [28]:
# 개별적으로 assign 가능하다 
series01 = pd.Series([1,2,3,4],name='x')
series02 = pd.Series([1,2,3,4],name='y',dtype=float)
df01 = pd.DataFrame({'x':series01,'y':series02})
display(df01)

Unnamed: 0,x,y
0,1,1.0
1,2,2.0
2,3,3.0
3,4,4.0


In [None]:
def dfinfo(df):
    display(df)
    print('shape:',df.shape)
    print('size:',df.size)
    print('ndim:',df.ndim)
    print('index:',df.index)     # row index
    print('columns:',df.columns) # column inex 
    print('values:\n',df.values,type(df.values)) #ndarray 형식으로 나온다

In [3]:
df01 = pd.DataFrame([[20,'M',False],[34,'F',True]]) # index 와 columns가 자동으로 숫자로 채워진다
display(df01)

Unnamed: 0,0,1,2
0,20,M,False
1,34,F,True


### DataFrame creation
- 더 자세하게 세부적으로 나눌수 있지만 간략하게는 다음과 같다
    - 1차원 => column으로 들어간다
        - 1차원 ndarray 혹은 1차원 ndarray를 구성하는 data(list,tuple,range)
        - 단일 Series 혹은 Series를 구성하는 data (list,tuple,range,ndarray)
    - 2차원
        - [{'key1':value1, 'key2':value2,,,},{'key1':value1, 'key2':value2,,,}]
        - 2차원 데이터 혹은 ndarray를 구성하는 데이터
    - dict
        - {'key1':Series,'key2':Series,,}
        - {'key1':data,'key2':data,,} Series를 구성하는 data(list,tuple,range)

In [34]:
# 1차원 ndarray
display(pd.DataFrame([1,2,3]))
display(pd.DataFrame((1,2,3)))

Unnamed: 0,0
0,1
1,2
2,3


Unnamed: 0,0
0,1
1,2
2,3


In [38]:
# 1차원 단일 Series
population = pd.Series([100,200,300,400],name='population') # name은 column 명으로 들어간다
display(pd.DataFrame(population))

Unnamed: 0,population
0,100
1,200
2,300
3,400


In [42]:
# 2차원 ndarray
display(pd.DataFrame([[1,2,3],[4,5,6]]))
display(pd.DataFrame([(1,2,3),(4,5,6)]))
display(pd.DataFrame(((1,2,3),(4,5,6))))

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [43]:
# 2차원 ; list of dict
pd.DataFrame([{'a':1,'b':2,'c':3},{'a':1,'b':2,'c':3}])

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


- list of dict에서 일부 키가 누락되더라도 알아서 NaN으로 생성된다

In [45]:
# 2차원 ; list of dict
# 일부 키 누락
pd.DataFrame([{'a':1,'c':3},{'a':1,'b':2}])

Unnamed: 0,a,c,b
0,1,3.0,
1,1,,2.0


In [None]:
# 3차