# 3. DataFrame
* 2차원 행렬데이터에 행 인덱스, 열 인덱스를 붙인 것, 엑셀의 Sheet 유사
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column index)
* NumPy의 2차원 배열은 동일한 자료형을 가져야 하지만, DataFrame은 열마다 자료형이 다를 수 있음

## 3-1 DataFrame 생성하기

In [80]:
import pandas as pd
import numpy as np

In [81]:
# 1. value값만 주기
data = [['삼성', 2000, '스마트폰'],
        ['LG', 1000, '가전제품'],
        ['네이버', 500, '포털']]
d = pd.DataFrame(data)
d

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,LG,1000,가전제품
2,네이버,500,포털


In [82]:
type(d)

pandas.core.frame.DataFrame

In [83]:
d.shape

(3, 3)

In [84]:
# 행 index
d.index

RangeIndex(start=0, stop=3, step=1)

In [85]:
# 열 index
d.columns

RangeIndex(start=0, stop=3, step=1)

In [86]:
# value 속성
d.values

array([['삼성', 2000, '스마트폰'],
       ['LG', 1000, '가전제품'],
       ['네이버', 500, '포털']], dtype=object)

In [87]:
type(d.values)

numpy.ndarray

In [88]:
d.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,LG,1000,가전제품


In [89]:
d.tail(2)

Unnamed: 0,0,1,2
1,LG,1000,가전제품
2,네이버,500,포털


In [90]:
# DataFrame의 데이터 구조보기
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [91]:
# 컬럼에 대한 요약 통계값
d.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [92]:
# 4분위수  (Quartile) : 통계값 중의 하나, 데이터의 분포를 작은 수부터 큰수까지 나열하여 4등분한 지점 (25%씩 동등 분할한 지점)
# cf) Quantile : 주어진 데이터를 동등하게 분할한 지점
# Q1(25%), Q2(50%), Q3(75%), Q4(100%)
d.median()

1    1000.0
dtype: float64

In [93]:
# 2. value값과 index 둘다 주기
index = [1, 2, 3] # 행 인덱스
columns = ['기업명', '주가', '업종'] # 열 인덱스
data = [['삼성', 2000, '스마트폰'],
        ['LG', 1000, '가전제품'],
        ['네이버', 500, '포털']]
d = pd.DataFrame(data=data, index=index, columns=columns)
d

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [94]:
# 3. 딕셔너리 형태로 주기
data = {
    '기업명': ['삼성', 'LG', '네이버'],
    '주가': [2000, 1000, 500],
    '업종': ['스마트폰', '가전제품', '포털']
}
d2 = pd.DataFrame(data=data, index=index)
d2

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [95]:
d2.index.name = '순서'
d2

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [96]:
# 열 인덱스에 이름 붙이기
d2.columns.name = '항목'
d2

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


## 3-2. DataFrame 인덱싱과 슬라이싱

In [97]:
# 열 인덱싱
d['기업명']

1     삼성
2     LG
3    네이버
Name: 기업명, dtype: object

In [98]:
type(d['기업명'])

pandas.core.series.Series

In [99]:
d.기업명

1     삼성
2     LG
3    네이버
Name: 기업명, dtype: object

In [100]:
# 여려개의 열 인덱싱하기 (Fancy Indexing)
b = d[['기업명', '업종']]
b

Unnamed: 0,기업명,업종
1,삼성,스마트폰
2,LG,가전제품
3,네이버,포털


In [101]:
type(b)

pandas.core.frame.DataFrame

In [102]:
# 하나의 열만 인덱싱하여 DataFrame 만들기 (기업명)
d[['기업명']]

Unnamed: 0,기업명
1,삼성
2,LG
3,네이버


In [103]:
# 기업명 -> 행인덱스, 주가와 업종으로 이루어진 DataFrame
d

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [104]:
d.index

Int64Index([1, 2, 3], dtype='int64')

In [105]:
d.index = d['기업명']
d

Unnamed: 0_level_0,기업명,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트폰
LG,LG,1000,가전제품
네이버,네이버,500,포털


In [106]:
del d['기업명']
d

Unnamed: 0_level_0,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
LG,1000,가전제품
네이버,500,포털


In [107]:
# 컬럼 추가 (발행주식수)
d['발행주식수'] = [30000, 20000, 10000]
d

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000


In [108]:
# 행 인덱싱 (삼성)
# 1. loc (label location) : 행 인덱스 라벨을 기준으로 행 인덱싱
a = d.loc['삼성']
a

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [109]:
type(a)

pandas.core.series.Series

In [110]:
# d.loc['현대']

In [111]:
d.loc[['삼성', '네이버']]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [112]:
# 2. iloc (integer location) : 0인덱스를 기준으로 행 인덱싱
d.iloc[0]

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [113]:
d.iloc[-1]

주가         500
업종          포털
발행주식수    10000
Name: 네이버, dtype: object

In [114]:
d.iloc[[0, -1]]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [115]:
# 열 인덱싱 -> 행 인덱싱
d['업종']

기업명
삼성     스마트폰
LG     가전제품
네이버      포털
Name: 업종, dtype: object

In [116]:
d['업종']['삼성'] # d['업종', '삼성']은 안됨

'스마트폰'

In [117]:
# 행 인덱싱 -> 열 인덱싱
d.loc['삼성']

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [118]:
d.loc['삼성']['업종']

'스마트폰'

In [119]:
d.loc['삼성', '업종'] # 더 많이 씀

'스마트폰'

In [120]:
d.iloc[0, 1]

'스마트폰'

In [121]:
# 슬라이싱
d

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000


In [122]:
# 행 슬라이싱 (start:end:step)
d[:2]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000


In [123]:
d[1:]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LG,1000,가전제품,20000
네이버,500,포털,10000


In [124]:
d[1:-1]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LG,1000,가전제품,20000


In [125]:
d['삼성':'LG'] # 이름으로 주면 뒤에꺼까지 다 나옴

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000


In [126]:
d.columns

Index(['주가', '업종', '발행주식수'], dtype='object')

In [127]:
d.columns[:2]

Index(['주가', '업종'], dtype='object')

In [128]:
# 열 슬라이싱
d[d.columns[:2]] # d[['주가', '업종']]이랑 똑같음

Unnamed: 0_level_0,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
LG,1000,가전제품
네이버,500,포털


In [129]:
# Boolean 인덱싱
d

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000


In [130]:
d['발행주식수'] >= 15000

기업명
삼성      True
LG      True
네이버    False
Name: 발행주식수, dtype: bool

In [131]:
d[d['발행주식수'] >= 15000]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000


In [132]:
d['주가'] >= 1500

기업명
삼성      True
LG     False
네이버    False
Name: 주가, dtype: bool

In [133]:
d[d['주가'] >= 1500]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000


In [134]:
# loc 슬라이싱
d.loc['삼성':'LG']

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000


In [135]:
# iloc 슬라이싱
d.iloc[:2]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000


In [136]:
d.loc['삼성':'LG', '업종':'발행주식수']

Unnamed: 0_level_0,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
LG,가전제품,20000


In [137]:
d.iloc[:2, 1:]

Unnamed: 0_level_0,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
LG,가전제품,20000


## 3-3. DataFrame 데이터 CRUD

In [138]:
# 행 추가
#d = d.append({'주가': 1500, '업종': 'IT', '발행주식수': 15000}, ignore_index=True)
#d

In [139]:
d

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000


In [140]:
data2 = {'주가': 1500, '업종': 'IT', '발행주식수': 15000}
index2 = ['카카오']
d2 = pd.DataFrame(data=data2, index=index2)
d2

Unnamed: 0,주가,업종,발행주식수
카카오,1500,IT,15000


In [141]:
# 행 추가 1
d = d.append(d2)
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000
카카오,1500,IT,15000


In [142]:
# 행 추가 2
d = pd.concat([d, d2])
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000
카카오,1500,IT,15000
카카오,1500,IT,15000


In [143]:
# 행 추가 3
s = pd.Series(data2)
s

주가        1500
업종          IT
발행주식수    15000
dtype: object

In [144]:
s.name = '카카오'

In [145]:
d.append(s)

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000
카카오,1500,IT,15000
카카오,1500,IT,15000
카카오,1500,IT,15000


In [146]:
# 행 추가 4
d.loc['현대'] = [1700, '자동차', 18000]
d

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
LG,1000,가전제품,20000
네이버,500,포털,10000
카카오,1500,IT,15000
카카오,1500,IT,15000
현대,1700,자동차,18000


In [147]:
# 열 추가 
d['시가총액'] = d['주가'] * d['발행주식수']
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
LG,1000,가전제품,20000,20000000
네이버,500,포털,10000,5000000
카카오,1500,IT,15000,22500000
카카오,1500,IT,15000,22500000
현대,1700,자동차,18000,30600000


In [148]:
# 전체 행 데이터 변경
d.loc['네이버'] = [1000, 'IT서비스업', 15000, 1000 * 15000]
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
LG,1000,가전제품,20000,20000000
네이버,1000,IT서비스업,15000,15000000
카카오,1500,IT,15000,22500000
카카오,1500,IT,15000,22500000
현대,1700,자동차,18000,30600000


In [149]:
# 전체 열 데이터 변경
d['주가'] += 500
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
LG,1500,가전제품,20000,20000000
네이버,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
카카오,2000,IT,15000,22500000
현대,2200,자동차,18000,30600000


In [150]:
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
LG,1500,가전제품,20000,20000000
네이버,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
카카오,2000,IT,15000,22500000
현대,2200,자동차,18000,30600000


In [151]:
d.loc['현대', '업종'] = '전기자동차'
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
LG,1500,가전제품,20000,20000000
네이버,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
카카오,2000,IT,15000,22500000
현대,2200,전기자동차,18000,30600000


In [152]:
# 행 삭제
d = d.drop('카카오')
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
LG,1500,가전제품,20000,20000000
네이버,1500,IT서비스업,15000,15000000
현대,2200,전기자동차,18000,30600000


In [153]:
d = d.drop(index='현대') # ['현대', '네이버']
d

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트폰,30000,60000000
LG,1500,가전제품,20000,20000000
네이버,1500,IT서비스업,15000,15000000


In [154]:
# 열 삭제
d = d.drop('시가총액', axis=1)
d

Unnamed: 0,주가,업종,발행주식수
삼성,2500,스마트폰,30000
LG,1500,가전제품,20000
네이버,1500,IT서비스업,15000


In [155]:
d = d.drop(columns='발행주식수')
d

Unnamed: 0,주가,업종
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업


# 3-4. DataFrame 연산

In [157]:
# DataFrame간의 연산
d2 = d.copy()
d2

Unnamed: 0,주가,업종
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업


In [158]:
id(d), id(d2)

(2573525082176, 2573525064864)

In [159]:
d + d2

Unnamed: 0,주가,업종
삼성,5000,스마트폰스마트폰
LG,3000,가전제품가전제품
네이버,3000,IT서비스업IT서비스업


In [160]:
'스마트폰' + '스마트폰'

'스마트폰스마트폰'

In [161]:
d['주가'] - d2['주가']

삼성     0
LG     0
네이버    0
Name: 주가, dtype: int64

In [162]:
d.append(d2)

Unnamed: 0,주가,업종
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업


In [163]:
pd.concat([d, d2])

Unnamed: 0,주가,업종
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업


In [164]:
# Aggregation 함수
d

Unnamed: 0,주가,업종
삼성,2500,스마트폰
LG,1500,가전제품
네이버,1500,IT서비스업


In [165]:
d.min()

주가      1500
업종    IT서비스업
dtype: object

In [166]:
d.max()

주가    2500
업종    스마트폰
dtype: object

In [167]:
d['주가'].min()

1500

In [168]:
d['주가'].max()

2500