# 3. DataFrame

## 3-1. DataFrame 생성하기
* 2차원 행렬데이터에 행인덱스, 열인덱스가 붙은 것
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column index)
* Numpy의 2차원 배열은 동일한 자료형을 가지지만 DataFrame은 열마다 자료형이 다를 수 있음

In [96]:
import pandas as pd
import numpy as np

In [97]:
# 1. value 값만 주기
data = [['삼성',2000,'스마트폰'],
        ['현대',1000,'자동차'],
        ['네이버',500,'포털']]
d=pd.DataFrame(data)
d

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [98]:
d.shape

(3, 3)

In [99]:
type(d)

pandas.core.frame.DataFrame

In [100]:
# 행 index
d.index

RangeIndex(start=0, stop=3, step=1)

In [101]:
# 열 index
d.columns

RangeIndex(start=0, stop=3, step=1)

In [102]:
# value 확인
d.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [103]:
d.values[0,0] , d.values[0,1]

('삼성', 2000)

In [104]:
type(d.values[0,0]) , type(d.values[0,1])

(str, int)

In [105]:
d.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차


In [106]:
d.tail(2)

Unnamed: 0,0,1,2
1,현대,1000,자동차
2,네이버,500,포털


In [107]:
# DataFrame의 데이터 구조 파악하기
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [108]:
# 데이터 통계값 요약해서 보기
d.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [109]:
# 4분위수 (Quartile) : 통계값 중의 하나로 데이터의 분포를 작은 수부터 큰 수까지 나열하여 4등분한 지점 (데이터를 25%씩 동등 분할)
# cf) Quantile : 주어진 데이터를 동등하게 분할하는 지점
# Q1(25%, 1사분위),Q2(50%, 2사분위),Q3(75%, 3사분위),Q4(100%, 4사분위)
# 50% == median(중앙값, 중위값)
d.median()

1    1000.0
dtype: float64

In [110]:
# 2. value와 index 둘다 주기
index = [1,2,3]
columns = ['기업명','주가','업종']
data = [['삼성',2000,'스마트폰'],
        ['현대',1000,'자동차'],
        ['네이버',500,'포털']]
d=pd.DataFrame(data,index,columns)
d

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [111]:
d.index

Int64Index([1, 2, 3], dtype='int64')

In [112]:
d.columns

Index(['기업명', '주가', '업종'], dtype='object')

In [113]:
d.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [114]:
# 3. 딕셔너리로 만들기 (열 기준)
data={
    '기업명' : ['삼성','현대','네이버'],
    '주가' : [2000,1000,500],
    '업종' : ['스마트폰','자동차','포털']
}
d2 = pd.DataFrame(data=data, index=index)
d2

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [115]:
# 행 인덱스 이름 주기
d.index.name='순서'
d

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [116]:
# 열 인덱스 이름 주가
d.columns.name='항목'
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


## 3-2 DataFrame 인덱싱과 슬라이싱

In [117]:
# 열 인덱싱
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [118]:
d['기업명']

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [119]:
type(d['기업명'])

pandas.core.series.Series

In [120]:
d.기업명

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [121]:
#여러개의 열 인덱싱(Fancy Indexing)
a=d[['기업명','업종']]
a

항목,기업명,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1
1,삼성,스마트폰
2,현대,자동차
3,네이버,포털


In [122]:
type(a)

pandas.core.frame.DataFrame

In [123]:
d[['기업명']]

항목,기업명
순서,Unnamed: 1_level_1
1,삼성
2,현대
3,네이버


In [124]:
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [125]:
# 기업명 -> 행 인덱스로 옮기기
d.index=d['기업명']
d

항목,기업명,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트폰
현대,현대,1000,자동차
네이버,네이버,500,포털


In [126]:
del d['기업명']
d

항목,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
현대,1000,자동차
네이버,500,포털


In [127]:
# 열 추가
d['발행주식수']=[30000,20000,10000]
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [128]:
# 행 인덱싱
# 1. loc(label location): 인데스 라벨을 통해서 인덱싱
d.loc['삼성']

항목
주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [129]:
# d.log['LG']

In [130]:
d.loc[['삼성','네이버']]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [131]:
# 2. iloc (integer location) (0 인덱스를 사용해서 인덱싱)
d.iloc[0]

항목
주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [132]:
d.iloc[-1]

항목
주가         500
업종          포털
발행주식수    10000
Name: 네이버, dtype: object

In [133]:
d.iloc[[0,-1]]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [134]:
d.iloc[::2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [135]:
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [136]:
# 열 데이터 -> 행 데이터
d['업종']

기업명
삼성     스마트폰
현대      자동차
네이버      포털
Name: 업종, dtype: object

In [137]:
d['업종']['삼성']

'스마트폰'

In [138]:
# 행 데이터 -> 열 데이터
d.loc['삼성']['업종']

'스마트폰'

In [139]:
# 이 방식 권장
d.loc['삼성','업종']

'스마트폰'

In [140]:
d.iloc[0,1]

'스마트폰'

In [141]:
# 슬라이싱 (start:end:step)
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [142]:
# 행 슬라이싱
d[:2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [143]:
d[1:]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [144]:
d[:'현대']

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [145]:
# 열 슬라이싱
d.columns[1:]

Index(['업종', '발행주식수'], dtype='object', name='항목')

In [146]:
d[d.columns[:2]]

항목,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
현대,1000,자동차
네이버,500,포털


In [147]:
# Boolean 인덱싱
d['발행주식수'] >= 15000

기업명
삼성      True
현대      True
네이버    False
Name: 발행주식수, dtype: bool

In [148]:
d[d['발행주식수'] >= 15000]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [149]:
d['주가'] < 1500

기업명
삼성     False
현대      True
네이버     True
Name: 주가, dtype: bool

In [150]:
d[d['주가'] < 1500]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [151]:
# loc 슬라이싱
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [152]:

d.loc['삼성':'현대']

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [153]:
d.iloc[:2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [154]:
# 슬라이싱으로 갖고오기
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [155]:
d.loc['삼성':'현대','업종':'발행주식수']

항목,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


In [156]:
d.iloc[:2,1:]

항목,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


## 3-3. DataFrame 데이터 CRUD

In [157]:
# 행 데이터 추가
# d = d.append({'주가':1500,'업종':'메모리','발행주식수':15000}, ignore_index=True)
d

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [158]:
data2 = {'주가':1500,'업종':'메모리','발행주식수':15000}
index2 = ['SK']
d2 = pd.DataFrame(data=data2, index=index2)
d2

Unnamed: 0,주가,업종,발행주식수
SK,1500,메모리,15000


In [159]:
# 행 추가 1 (append)
d = d.append(d2)
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
SK,1500,메모리,15000


In [160]:
# 행 추가 2 (concat)
d = pd.concat([d,d2])
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
SK,1500,메모리,15000
SK,1500,메모리,15000


In [161]:
# 행 추가 3 (loc)
d.loc['카카오'] = [1500,'IT서비스업',15000]
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
SK,1500,메모리,15000
SK,1500,메모리,15000
카카오,1500,IT서비스업,15000


In [162]:
# 열 추가
d['시가총액'] = d['주가'] * d['발행주식수']
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
현대,1000,자동차,20000,20000000
네이버,500,포털,10000,5000000
SK,1500,메모리,15000,22500000
SK,1500,메모리,15000,22500000
카카오,1500,IT서비스업,15000,22500000


In [163]:
# 전체 행 데이터 변경
d.loc['네이버'] = [1000,'IT서비스업',15000,1000*15000]
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
현대,1000,자동차,20000,20000000
네이버,1000,IT서비스업,15000,15000000
SK,1500,메모리,15000,22500000
SK,1500,메모리,15000,22500000
카카오,1500,IT서비스업,15000,22500000


In [164]:
# 전체 열 데이터 변경
d['주가'] += 500
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
현대,1500,자동차,20000,20000000
네이버,1500,IT서비스업,15000,15000000
SK,2000,메모리,15000,22500000
SK,2000,메모리,15000,22500000
카카오,2000,IT서비스업,15000,22500000


In [165]:
d['시가총액'] = d['주가'] * d['발행주식수']
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,75000000
현대,1500,자동차,20000,30000000
네이버,1500,IT서비스업,15000,22500000
SK,2000,메모리,15000,30000000
SK,2000,메모리,15000,30000000
카카오,2000,IT서비스업,15000,30000000


In [166]:
d.loc['카카오','업종'] = '금융업'
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,75000000
현대,1500,자동차,20000,30000000
네이버,1500,IT서비스업,15000,22500000
SK,2000,메모리,15000,30000000
SK,2000,메모리,15000,30000000
카카오,2000,금융업,15000,30000000


In [167]:
# 행 삭제
d = d.drop('SK', axis=0) # ['SK','네이버']
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,75000000
현대,1500,자동차,20000,30000000
네이버,1500,IT서비스업,15000,22500000
카카오,2000,금융업,15000,30000000


In [168]:
# 열 삭제
d = d.drop('시가총액',axis=1) # ['업종','시가총액']
d

Unnamed: 0,주가,업종,발행주식수
삼성,2500,스마트폰,30000
현대,1500,자동차,20000
네이버,1500,IT서비스업,15000
카카오,2000,금융업,15000


In [169]:
# d.drop(columns='시가총액')

In [170]:
d = d.drop(index='카카오')

In [171]:
d = d.drop(columns='발행주식수')
d

Unnamed: 0,주가,업종
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업


# 3-4. DataFrame 연산


In [172]:
d

Unnamed: 0,주가,업종
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업


In [173]:
d2 = d.copy()
d2

Unnamed: 0,주가,업종
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업


In [174]:
id(d), id(d2)

(3074869383712, 3074869387216)

In [175]:
d + d2

Unnamed: 0,주가,업종
삼성,5000,스마트폰스마트폰
현대,3000,자동차자동차
네이버,3000,IT서비스업IT서비스업


In [176]:
'스마트폰' + '스마트폰'

'스마트폰스마트폰'

In [177]:
# '스마트폰'-'스마트폰' -> 에러
# d - d2

In [178]:
d.append(d2)

Unnamed: 0,주가,업종
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업


In [179]:
# Aggregation 함수
d

Unnamed: 0,주가,업종
삼성,2500,스마트폰
현대,1500,자동차
네이버,1500,IT서비스업


In [180]:
# 각 컬럼에서 가장 작은 값
d.min()


주가      1500
업종    IT서비스업
dtype: object

In [181]:
d.max()

주가    2500
업종     자동차
dtype: object

In [182]:
d['주가'].min()

1500

In [183]:
d['발행주식수'].max()

KeyError: '발행주식수'