# 3. DataFrame

## 3-1. DataFrame 생성하기
* 2차원 행렬데이터에 행인덱스, 열인덱스가 붙은 것(엑셀 Sheet와 유사)
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column index)
* Numpy의 2차원 배열은 동일한 자료형을 가지지만 DataFrame은 열마다 자료형이 다를 수 있음

In [56]:
import pandas as pd

import numpy as np

In [57]:
# 1. value값만 주기
data = [['삼성',2000,'스마트폰'],
        ['현대',1000,'자동차'],
        ['네이버',500,'포털']]
d = pd.DataFrame(data)
d

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [58]:
type(d)

pandas.core.frame.DataFrame

In [59]:
d.shape

(3, 3)

In [60]:
# 행 index
d.index

RangeIndex(start=0, stop=3, step=1)

In [61]:
d.columns

RangeIndex(start=0, stop=3, step=1)

In [62]:
d.values[0,0],type(d.values[0,0]),d.values[0,1],type(d.values[0,1])

('삼성', str, 2000, int)

In [63]:
d.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차


In [64]:
d.tail(2)

Unnamed: 0,0,1,2
1,현대,1000,자동차
2,네이버,500,포털


In [65]:
# DataFrame의 데이터 파악하기
d.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [66]:
# 데이터 통계값 요약해서 보기
d.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [67]:
# 4분위수 (Quartile) : 통계값 중의 하나로 데이터의 분포를 작은 수부터 큰 수까지 나열하여 4등분한 지점(데이터를 25%씩 동등 분할)
# cf) Quantile
# Q1(25%, 1사분위), Q2(50%, 2사분위), Q3(75%, 3사분위), Q4(100%, 4사분위)
# 50% == median : 주어진 데이터를 동등하게 분할하는 지점
d.median()

1    1000.0
dtype: float64

In [68]:
# 2. value와 index 둘다 추가
index = [1, 2, 3]
columns = ['기업명', '주가', '업종']
data = [['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']]
d = pd.DataFrame(data=data, index=index, columns=columns)
d

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [69]:
d.columns

Index(['기업명', '주가', '업종'], dtype='object')

In [70]:
d.index

Int64Index([1, 2, 3], dtype='int64')

In [71]:
# 3.딕셔너리로 만들기
data = {
    '기업명': ['삼성', '현대', '네이버'],
    '주가': [2000, 1000, 500],
    '업종': ['스마트폰', '자동차', '포털']
}
d2 = pd.DataFrame(data=data)
d2

Unnamed: 0,기업명,주가,업종
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [72]:
# 행 인덱스 이름 추가
d.index.name = '순서'
d

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [73]:
# 열 인덱스 이름 주기
d.columns.name = '항목'
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [74]:
# 열 인덱싱
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


## 3-2. DataFrame 인덱싱과 슬라이싱

In [75]:
# 열 인덱싱
d

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [76]:
d['기업명']

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [77]:
type(d['기업명'])

pandas.core.series.Series

In [78]:
d.기업명

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [79]:
# 여러개의 열 인덱싱 (Fancy Indexing)
d[['기업명','업종']]

항목,기업명,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1
1,삼성,스마트폰
2,현대,자동차
3,네이버,포털


In [80]:
# 기업명 -> 행 인덱스로 옮기기
d.index = d['기업명']

In [81]:
d

항목,기업명,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트폰
현대,현대,1000,자동차
네이버,네이버,500,포털


In [82]:
# 열 추가 
d['발행주식수'] = [30000,20000,10000] 
d

항목,기업명,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
삼성,삼성,2000,스마트폰,30000
현대,현대,1000,자동차,20000
네이버,네이버,500,포털,10000


In [83]:
# 행 인덱싱
# 1. loc (label location): 인덱스 라벨을 통해서 인덱싱
d.loc['삼성']

항목
기업명         삼성
주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [84]:
d.loc[['삼성','네이버']]

항목,기업명,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
삼성,삼성,2000,스마트폰,30000
네이버,네이버,500,포털,10000


In [85]:
# 2.iloc (integer location) (0 인덱스를 사용해서 인덱싱)
d.iloc[1]

항목
기업명         현대
주가        1000
업종         자동차
발행주식수    20000
Name: 현대, dtype: object

In [86]:
d.iloc[[0,2]]

항목,기업명,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
삼성,삼성,2000,스마트폰,30000
네이버,네이버,500,포털,10000


In [87]:
d

항목,기업명,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
삼성,삼성,2000,스마트폰,30000
현대,현대,1000,자동차,20000
네이버,네이버,500,포털,10000


In [88]:
d.loc['삼성'][2]

'스마트폰'

In [91]:
# 열데이터 -> 행 데이터
d['기업명']['삼성']

'삼성'

In [None]:
# 요 방식 권장
d.loc['삼성','업종']

In [None]:
d.iloc[0,1]

In [None]:
#슬라이싱 (start:end:step)
d

In [None]:
# 행 슬라이싱
d[:2]

In [None]:
d[:'현대']

In [None]:
d.columns

In [None]:
d.columns[1:]

In [None]:
d[d.columns[2:]]

In [None]:
d

In [None]:
# Boolean 인덱싱
d['발행주식수'] >= 15000

In [None]:
d[d['발행주식수'] >= 15000]

In [None]:
d[d['주가'] < 1500]

In [None]:
# Loc 슬라이싱
d

In [None]:
d.iloc[:2]

In [None]:
# 스마트폰, 자동차 슬라이싱으로 갖고 오기
d

In [None]:
d.loc['삼성':'현대','업종':'발행주식수']

In [None]:
d.iloc[:2,2:3]

## 3-3. DataFrame 데이터 CRUD

In [None]:
# 행 데이터 추가
#d = d.append({'기업명':'SK','주가': 1500,'업종':'메모리','발행주식수':15000},ignore_index=True)
#d

In [None]:
data2 = {'기업명':'SK','주가': 1500,'업종':'메모리','발행주식수':15000}
index2 = ['SK']
d2 = pd.DataFrame(data=data2,index=index2)
d2

In [None]:
d = d.append(d2)
d

In [None]:
d

In [None]:
#행 추가 3 (loc)
d.loc['카카오'] = ['카카오',1500,'IT서비스업',15000]
d

In [None]:
#행 추가 2(concat)

In [None]:
#열 추가
d['시가총액'] = d['주가'] * d['발행주식수']
d

In [None]:
# 전체 열 데이터 변경
d['주가'] = d['주가'] + 500
d

In [None]:
d['시가총액'] = d['주가'] * d['발행주식수']
d

In [None]:
d.loc['카카오','업종'] = '금융업'
d

In [None]:
# 열삭제
d = d.drop('시가총액', axis = 1) # ['업종', '시가총액']
d

In [None]:
# 열 삭제 2
d = d.drop('발행주식수', axis=1)


In [None]:
d

## 3-4. DataFrame 연산

In [None]:
d2 = d.copy()
d2

In [None]:
id(d), id(d2)

In [None]:
d+d2

In [None]:
d

In [None]:
pd.concat([d,d2])

In [None]:
d.min()

In [None]:
d

In [None]:
d.max()

In [None]:
d['주가'].max()

In [None]:
d['발행주식수'].min()

In [None]:
d

In [None]:
# 행삭제
d = d.drop('SK')
d

In [None]:
d