In [2]:
import numpy as np
import pandas as pd

### DataFrame
- Series가 인덱스를 가지는 1차원 배열
- DataFrame은 행 인덱스와 열 인덱스를 가지는 2차원 배열

In [6]:
# 간단한 예시
# 2차원 데이터
pd.DataFrame([[1,2,3,4],[5,6,7,8]]) # => 행 index와 row index가 동시에 존재하는것을 확인할수 있다

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


- colums(열 인덱스) index(행 인덱스)를 지정해줄수도 있다
- 지정해주지 않으면 자동으로 0-based 인덱스가 생성된다

In [54]:
# column index 둘다 명시
pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns = ['서울','부산','경기','대전'],index=['오전','오후'])

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


In [52]:
# 0-based 인덱스가 column 과 index에 모두 생성됨
pd.DataFrame([[1,2,3,4],[5,6,7,8]])

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


- dtype도 지정해줄수 있다
    - pd.DataFrame()에서 각 열마다 dtype 지정해줄수 있을거 같지만 안된다 => single type만 가능하다
    - 개별적으로는 각 열마다 dtype 가능하다

In [4]:
# 생성할때는 single 
pd.DataFrame([[1,2],[5,6]],columns=['a','b'],dtype=(float))

Unnamed: 0,a,b
0,1.0,2.0
1,5.0,6.0


In [23]:
# 개별적으로 update 가능하다 
df01 = pd.DataFrame([[1,2],[5,6]],columns=['a','b'])
df01['a'] = df01['a'].astype(float)
df01

Unnamed: 0,a,b
0,1.0,2
1,5.0,6


In [5]:
# 개별적으로 assign(생성) 가능하다 
series01 = pd.Series([1,2,3,4],name='x')
series02 = pd.Series([1,2,3,4],name='y',dtype=float)
df01 = pd.DataFrame({'x':series01,'y':series02})
display(df01)

Unnamed: 0,x,y
0,1,1.0
1,2,2.0
2,3,3.0
3,4,4.0


### DataFrame의 유용한 속성들 
- 하나 유이할건 values는 ndarray 형식으로 값들을 돌려준다

In [55]:
def dfinfo(df):
    display(df)
    print('shape:',df.shape)
    print('size:',df.size)
    print('ndim:',df.ndim)
    print('index:',df.index)     # row index
    print('columns:',df.columns) # column inex 
    print('values:\n',df.values,type(df.values)) #ndarray 형식으로 나온다

In [56]:
df01 = pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns = ['서울','부산','경기','대전'],index=['오전','오후'])
dfinfo(df01)

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


shape: (2, 4)
size: 8
ndim: 2
index: Index(['오전', '오후'], dtype='object')
columns: Index(['서울', '부산', '경기', '대전'], dtype='object')
values:
 [[1 2 3 4]
 [5 6 7 8]] <class 'numpy.ndarray'>


### DataFrame creation
#### DataFrame 차원에서 key값은 columns 다
- 더 자세하게 세부적으로 나눌수 있지만 간략하게는 다음과 같다
    - 1차원 => column으로 들어간다
        - 1차원 ndarray 혹은 1차원 ndarray를 구성하는 data(list,tuple,range)
        - 단일 Series 혹은 Series를 구성하는 data (list,tuple,range,ndarray)
    - 2차원 => row 단위로 들어간다
        - [{'key1':value1, 'key2':value2,,,},{'key1':value1, 'key2':value2,,,}]
        - 2차원 데이터 혹은 ndarray를 구성하는 데이터
    - dict => key값에 해당하는 데이터가 하나의 column으로 들어간다
        - {'key1':Series,'key2':Series,,}
        - {'key1':data,'key2':data,,} Series를 구성하는 data(list,tuple,range)

In [34]:
# 1차원 ndarray
display(pd.DataFrame([1,2,3]))
display(pd.DataFrame((1,2,3)))

Unnamed: 0,0
0,1
1,2
2,3


Unnamed: 0,0
0,1
1,2
2,3


In [38]:
# 1차원 단일 Series
population = pd.Series([100,200,300,400],name='population') # name은 column 명으로 들어간다
display(pd.DataFrame(population))

Unnamed: 0,population
0,100
1,200
2,300
3,400


In [42]:
# 2차원 ndarray
display(pd.DataFrame([[1,2,3],[4,5,6]]))
display(pd.DataFrame([(1,2,3),(4,5,6)]))
display(pd.DataFrame(((1,2,3),(4,5,6))))

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [43]:
# 2차원 ; list of dict
pd.DataFrame([{'a':1,'b':2,'c':3},{'a':1,'b':2,'c':3}])

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,3


- list of dict에서 일부 키가 누락되더라도 알아서 NaN으로 생성된다

In [45]:
# 2차원 ; list of dict
# 일부 키 누락
pd.DataFrame([{'a':1,'c':3},{'a':1,'b':2}])

Unnamed: 0,a,c,b
0,1,3.0,
1,1,,2.0


In [48]:
# 딕셔너리 형식 
pd.DataFrame({'population':[100,200,300],'country':['KOR','JPN','CHN']})

Unnamed: 0,population,country
0,100,KOR
1,200,JPN
2,300,CHN


In [47]:
# 딕셔너리 형식 (가장 정형화된)
population = pd.Series([100,200,300,400])
country = pd.Series(['KOR','JPN','CHN','USA'])
pd.DataFrame({'population':population,'country':country})

Unnamed: 0,population,country
0,100,KOR
1,200,JPN
2,300,CHN
3,400,USA


- 아래와 같이 입력하면 결국 2차원 데이터로 인식해서 row단위로 들어가게 된다

In [50]:
population = pd.Series([100,200,300,400])
country = pd.Series(['KOR','JPN','CHN','USA'])
pd.DataFrame([population,country])

Unnamed: 0,0,1,2,3
0,100,200,300,400
1,KOR,JPN,CHN,USA


### DataFrame 연산
- Series와 동일하다
    - Numpy universial function을 활요한 벡터 연산 지원한다
    - index를 기준으로 연산된다
    - index가 다를시 결과는 NaN
- 추가적으로 numpy 배열에서 보았던 것처럼 broadcasting도 가능하다
    - numpy broadcasting의 규칙을 따른다 
    - 웬만하면 ndarray 객체를 사용해서 연산하자 => 에러 발생 안한다
    - df 와  series 사이의 연산에는 index 보존 그대로 적용된다

In [11]:
# 벡터 연산
df01 = pd.DataFrame([[1,2,3],[4,5,6]])
display(df01+1)
display(df01*10)
display(df01/30)

Unnamed: 0,0,1,2
0,2,3,4
1,5,6,7


Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60


Unnamed: 0,0,1,2
0,0.033333,0.066667,0.1
1,0.133333,0.166667,0.2


In [31]:
# index를 보존한다
# index 가 맞지 않는 부분은 NaN으로 표시된다
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'])
df02 = pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns=['A','B','C','D'])
df01+df02

Unnamed: 0,A,B,C,D
0,2,4,6,
1,9,11,13,


In [32]:
# 반드시 인덱스가 있어야 계산할수 있다는 것은 아니다
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'])
df01+ np.arange(1,7).reshape(2,3)

Unnamed: 0,A,B,C
0,2,4,6
1,8,10,12


In [33]:
# broadcasting
# numpy의 broadcastng 규칙을 따른다
display(df01 + np.array([1000,2000,3000]))
display(df01 + np.array([1000,2000]).reshape(2,1))

Unnamed: 0,A,B,C
0,1001,2002,3003
1,1004,2005,3006


Unnamed: 0,A,B,C
0,1001,1002,1003
1,2004,2005,2006


#### 연산 심화

In [39]:
# broadcasting 
# df + series
# index 영향을 받는다
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'],index = ['가','나'])
print(df01.iloc[0])
df01 + df01.iloc[0] # 행방향으로 broadcasting 되기때문에 Sereis의 index가 A B C면 알맞게 더해지는거다

A    1
B    2
C    3
Name: 가, dtype: int64


Unnamed: 0,A,B,C
가,2,4,6
나,5,7,9


In [42]:
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'],index = ['가','나'])
df01 + pd.Series([100,100,100],index=['A','B','C'])

Unnamed: 0,A,B,C
가,101,102,103
나,104,105,106


In [40]:
# broadcasting 
# df + series
# index 영향을 받는다
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'],index = ['가','나'])
df01 + pd.Series([100,100,100])

Unnamed: 0,A,B,C,0,1,2
가,,,,,,
나,,,,,,


In [43]:
# df + df
# 는 row index column index다 맞아야한다
# broadcasting 생각처럼 안됨
df01 = pd.DataFrame([[1,2,3],[4,5,6]],columns=['A','B','C'],index = ['가','나'])
df02 = pd.DataFrame([[100],[200]],index=['가','나'])
df01+df02

Unnamed: 0,A,B,C,0
가,,,,
나,,,,
