## 3. DataFrame
* 2차원 행렬데이터에 행 인덱스, 열 인덱스를 붙인것, 엑셀의 Sheet 유사
* DataFrame = 2차원 배열의 값(Value) + 행 인덱스(row index) + 열 인덱스(column index)
* Numpy의 2차원 배열은 type이 같아야 하지만, DataFrame 열 마다 자료형이 다를 수 있음 => DataFrame에 들어가면 그렇게 됨... 왜 그런지는 source code 봐야할듯

## 3-1. DataFrame 생성하기

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 1. Value 값만 주기
data = [['삼성',2000,'스마트 폰'],['LG',1000,'가전제품'],['Naver',500,'포털']] #2차원 array는 1차원 array를 가진다
d = pd.DataFrame(data)
d

Unnamed: 0,0,1,2
0,삼성,2000,스마트 폰
1,LG,1000,가전제품
2,Naver,500,포털


In [3]:
type(d)

pandas.core.frame.DataFrame

In [4]:
d.shape

(3, 3)

In [5]:
#행 인덱스 보기
d.index

RangeIndex(start=0, stop=3, step=1)

In [6]:
#열 인덱스 보기
d.columns

RangeIndex(start=0, stop=3, step=1)

In [7]:
d.values

array([['삼성', 2000, '스마트 폰'],
       ['LG', 1000, '가전제품'],
       ['Naver', 500, '포털']], dtype=object)

In [8]:
type(d.values)

numpy.ndarray

In [9]:
d.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트 폰
1,LG,1000,가전제품


In [10]:
d.tail(2)

Unnamed: 0,0,1,2
1,LG,1000,가전제품
2,Naver,500,포털


In [11]:
#DataFrame의 데이터 구조보기
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [12]:
# column에 대한 요약 통계값
d.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [13]:
#4분위수 (Quartile): 통계값 중의 하나, 데이터의 분포를 작은 수부터 큰수까지 나열하여 4등분한 지점 (25%씩 동등 분할한 지점) =>Quantile 중 4분할인것.
# cf) Quantile : 주어진 데이터를 동등하게 분할한 지점
# Q1(25%) 1사 분위수 , Q2(50%) 2사 분위수, Q3(75%) 3사 분위수, Q4(100%) 4사 분위수
d.median()

1    1000.0
dtype: float64

In [14]:
# 2.value값과 index 둘다 주기
index = [1,2,3] #행 인덱스
columns = ['기업명', '주가','주요 업종'] #열 인덱스
data = [['삼성', 2000, '스마트 폰'],
       ['LG', 1000, '가전제품'],
       ['Naver', 500, '포털']]
d = pd.DataFrame(data = data, index = index, columns = columns)
d

Unnamed: 0,기업명,주가,주요 업종
1,삼성,2000,스마트 폰
2,LG,1000,가전제품
3,Naver,500,포털


In [15]:
# 3.딕셔너리 형태로 주기 (열기준으로 만든다)
data = {
    '기업명' : ['삼성','LG','네이버'],
    '주가' : [2000,1000,500],
    '업종' : ['스마트폰','가전제품','포털'] 
}

d2 = pd.DataFrame(data = data, index = index)
d2

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [16]:
d2.index.name = '순서'
d2

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


In [17]:
#열 인덱스 이름 붙이기
d2.columns.name = '항목'
d2

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,LG,1000,가전제품
3,네이버,500,포털


## 3-2. DataFrame 인덱싱과 슬라이싱

In [18]:
# 열 인덱싱
d2['기업명']

순서
1     삼성
2     LG
3    네이버
Name: 기업명, dtype: object

In [19]:
d2.기업명

순서
1     삼성
2     LG
3    네이버
Name: 기업명, dtype: object

In [20]:
#여러개의 열 인덱싱하기( Fancy indexing)
tmp = d2[['기업명','업종']]
tmp

항목,기업명,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1
1,삼성,스마트폰
2,LG,가전제품
3,네이버,포털


In [21]:
type(tmp)

pandas.core.frame.DataFrame

In [22]:
#하나의 열만 인덱싱하여 DataFrame 만들기(기업명)
tmp = d[['기업명']] #Fancy Indexing하면 DataFrame으로 가져올 수 있다.
tmp

Unnamed: 0,기업명
1,삼성
2,LG
3,Naver


In [23]:
type(tmp)

pandas.core.frame.DataFrame

In [24]:
#기업명을 행인덱스로 만들고 주가와 업종으로 이루어진 DataFrame
d

Unnamed: 0,기업명,주가,주요 업종
1,삼성,2000,스마트 폰
2,LG,1000,가전제품
3,Naver,500,포털


In [25]:
d.index

Int64Index([1, 2, 3], dtype='int64')

In [26]:
d.index = d['기업명']
d

Unnamed: 0_level_0,기업명,주가,주요 업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트 폰
LG,LG,1000,가전제품
Naver,Naver,500,포털


In [27]:
del d['기업명']
d

Unnamed: 0_level_0,주가,주요 업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트 폰
LG,1000,가전제품
Naver,500,포털


In [28]:
# 컬럼 추가 (발행 주식 수)
d['발행주식수'] = [300000,200000,10000]
d

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000


In [29]:
# row 인덱싱 (삼성)
# 1. loc (label location): 행 인덱스 라벨을 기준으로 행 인덱싱
d.loc['삼성']

주가         2000
주요 업종     스마트 폰
발행주식수    300000
Name: 삼성, dtype: object

In [30]:
# d.loc['현대'] #없으면 에러

In [31]:
d.loc[['삼성','Naver']]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
Naver,500,포털,10000


In [32]:
# 2.iloc (integer location) : 0 인덱스를 기준으로 행 인덱싱
d.iloc[0]

주가         2000
주요 업종     스마트 폰
발행주식수    300000
Name: 삼성, dtype: object

In [33]:
d.iloc[-1]

주가         500
주요 업종       포털
발행주식수    10000
Name: Naver, dtype: object

In [34]:
d.iloc[[0,-1]]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
Naver,500,포털,10000


In [35]:
d['주요 업종']

기업명
삼성       스마트 폰
LG        가전제품
Naver       포털
Name: 주요 업종, dtype: object

In [36]:
d['주요 업종']['삼성']

'스마트 폰'

In [37]:
d.loc['삼성']

주가         2000
주요 업종     스마트 폰
발행주식수    300000
Name: 삼성, dtype: object

In [38]:
d.loc['삼성']['주요 업종']

'스마트 폰'

In [39]:
d.loc['삼성','주요 업종']#더 많이 씀

'스마트 폰'

In [40]:
d['주요 업종']['삼성']
# d['주요 업종', '삼성'] 이거 에러남

'스마트 폰'

In [41]:
d.iloc[0]

주가         2000
주요 업종     스마트 폰
발행주식수    300000
Name: 삼성, dtype: object

In [42]:
d.iloc[0][1]

'스마트 폰'

In [43]:
d.iloc[0,1]

'스마트 폰'

In [44]:
#슬라이싱
d

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000


In [45]:
#행 슬라이싱
d['삼성':'LG']

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000


In [46]:
d[:2]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000


In [47]:
d[1:]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LG,1000,가전제품,200000
Naver,500,포털,10000


In [48]:
d[1:2]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LG,1000,가전제품,200000


In [49]:
d

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000


In [50]:
# 열 슬라이싱
d.columns
d.columns[:2]

Index(['주가', '주요 업종'], dtype='object')

In [51]:
d[d.columns[:2]]

Unnamed: 0_level_0,주가,주요 업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트 폰
LG,1000,가전제품
Naver,500,포털


In [52]:
d.loc['삼성':'LG','주요 업종':'발행주식수']

Unnamed: 0_level_0,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트 폰,300000
LG,가전제품,200000


In [53]:
d.iloc[:2,1:]

Unnamed: 0_level_0,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트 폰,300000
LG,가전제품,200000


In [54]:
#Boolean 인덱싱
d['발행주식수'] > 15000

기업명
삼성        True
LG        True
Naver    False
Name: 발행주식수, dtype: bool

In [55]:
d[d['발행주식수'] > 15000]

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000


## 3-3. DataFrame 데이터 CRUD

In [56]:
# 행 추가
# d = d.append({
#     '주가':1500,
#     '주요 업종':'IT',
#     '발행주식수':15000,
# },ignore_index = True)
#위에 처럼 하면 안됨
d

Unnamed: 0_level_0,주가,주요 업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000


In [57]:
data2 = {
    '주가':1500,
    '주요 업종':'IT',
    '발행주식수':15000,
}
index2 = ['카카오']
d2 = pd.DataFrame(data = data2, index = index2)
d2

Unnamed: 0,주가,주요 업종,발행주식수
카카오,1500,IT,15000


In [58]:
d = d.append(d2) #DataFrame으로 만들고 append, 그리고 append할때는 반드시 = 사용
d

Unnamed: 0,주가,주요 업종,발행주식수
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000
카카오,1500,IT,15000


In [59]:
#행 추가 2
pd.concat([d,d2]) #concat이용! 어쨌든 새로 추가할 data는 DataFrame이여야 한다!
d

Unnamed: 0,주가,주요 업종,발행주식수
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000
카카오,1500,IT,15000


In [60]:
#행 추가 3 => Series이용
s =pd.Series(data = data2)
s.name = '카카오'
d.append(s)

Unnamed: 0,주가,주요 업종,발행주식수
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000
카카오,1500,IT,15000
카카오,1500,IT,15000


In [61]:
#행 추가 4 => loc 이게 제일 쉽다!
d.loc['현대'] = [1700,'자동차',18000] #리스트!
d

Unnamed: 0,주가,주요 업종,발행주식수
삼성,2000,스마트 폰,300000
LG,1000,가전제품,200000
Naver,500,포털,10000
카카오,1500,IT,15000
현대,1700,자동차,18000


In [62]:
#열 추가!
d['시가총액']=d['주가']* d['발행주식수']
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2000,스마트 폰,300000,600000000
LG,1000,가전제품,200000,200000000
Naver,500,포털,10000,5000000
카카오,1500,IT,15000,22500000
현대,1700,자동차,18000,30600000


In [63]:
#행 데이터 전체 변경
d.loc['Naver'] = [1000,'IT서비스업',15000,1000*15000]
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2000,스마트 폰,300000,600000000
LG,1000,가전제품,200000,200000000
Naver,1000,IT서비스업,15000,15000000
카카오,1500,IT,15000,22500000
현대,1700,자동차,18000,30600000


In [64]:
#전체 열 데이터 변경
d['주가'] = d['주가'] + 500
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2500,스마트 폰,300000,600000000
LG,1500,가전제품,200000,200000000
Naver,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
현대,2200,자동차,18000,30600000


In [65]:
d.loc['현대','주요 업종'] = '전기자동차'
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2500,스마트 폰,300000,600000000
LG,1500,가전제품,200000,200000000
Naver,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
현대,2200,전기자동차,18000,30600000


In [66]:
d.columns

Index(['주가', '주요 업종', '발행주식수', '시가총액'], dtype='object')

In [67]:
d.rename(columns={'주요 업종':'업종'})

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2500,스마트 폰,300000,600000000
LG,1500,가전제품,200000,200000000
Naver,1500,IT서비스업,15000,15000000
카카오,2000,IT,15000,22500000
현대,2200,전기자동차,18000,30600000


In [68]:
# 행 삭제
d = d.drop('카카오')
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2500,스마트 폰,300000,600000000
LG,1500,가전제품,200000,200000000
Naver,1500,IT서비스업,15000,15000000
현대,2200,전기자동차,18000,30600000


In [69]:
d = d.drop(index = '현대') #'현대','네이버'
d

Unnamed: 0,주가,주요 업종,발행주식수,시가총액
삼성,2500,스마트 폰,300000,600000000
LG,1500,가전제품,200000,200000000
Naver,1500,IT서비스업,15000,15000000


In [70]:
import pandas as pd
d = pd.DataFrame(data = data2, index = index2)
d.drop?

[0;31mSignature:[0m
[0md[0m[0;34m.[0m[0mdrop[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mlabels[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mlevel[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0merrors[0m[0;34m=[0m[0;34m'raise'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Drop specified labels from rows or columns.

Remove rows or columns by specifying label names and corresponding
axis, or by specifying directly index or column names. When using a
multi-index, labels on different levels can be removed by specifying
the level.

Parameters
----------
labels 

In [71]:
#열 삭제
d = d.drop('시가총액',axis=1)
d

KeyError: "['시가총액'] not found in axis"

In [71]:
d = d.drop(columns = '발행주식수')
d

Unnamed: 0,주가,주요 업종
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업


## 3-4. DataFrame 연산

In [72]:
# DataFrame간의 연산
d2 = d.copy()
d2

Unnamed: 0,주가,주요 업종
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업


In [73]:
id(d), id(d2)

(140676789955648, 140676789956464)

In [74]:
d+d2

Unnamed: 0,주가,주요 업종
삼성,5000,스마트 폰스마트 폰
LG,3000,가전제품가전제품
Naver,3000,IT서비스업IT서비스업


In [75]:
d['주가'] - d2['주가']

삼성       0
LG       0
Naver    0
Name: 주가, dtype: int64

In [76]:
d.append(d2)

Unnamed: 0,주가,주요 업종
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업


In [77]:
pd.concat([d,d2])

Unnamed: 0,주가,주요 업종
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업
삼성,2500,스마트 폰
LG,1500,가전제품
Naver,1500,IT서비스업


In [78]:
#Aggregation 함수 (집합, 모으다)
d.min()

주가         1500
주요 업종    IT서비스업
dtype: object

In [79]:
d.max()

주가        2500
주요 업종    스마트 폰
dtype: object

In [80]:
d['주가'].min()

1500

In [81]:
d['주가'].max()

2500