# 3. DataFrame

## 3-1. DataFrame 생성하기
* 2차원 행렬데이터에 행인덱스, 열인덱스가 붙은 것 (엑셀 Sheet 유사)
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column index)
* Numpy의 2차원 배열은 동일한 자료형을 가지지만 DataFrame은 열마다 자료형이 다를 수 있음

In [2]:
import pandas as pd
import numpy as np

### 1. value값만 주기

In [3]:
data = [['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']]
df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df.shape

(3, 3)

In [7]:
# 행 index
df.index

RangeIndex(start=0, stop=3, step=1)

In [8]:
# 열 index
df.columns

RangeIndex(start=0, stop=3, step=1)

In [9]:
# values 확인
df.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [10]:
df.values[0, 0], df.values[0][0], df[0][0], df.values[0, 1]

('삼성', '삼성', '삼성', 2000)

In [11]:
type(df.values[0, 0]), type(df.values[0, 1])

(str, int)

In [12]:
df.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차


In [13]:
df.tail(2)

Unnamed: 0,0,1,2
1,현대,1000,자동차
2,네이버,500,포털


In [14]:
# DataFrame의 데이터 구조 파악하기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [15]:
# 데이터 통계값 요약해서 보기
df.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [16]:
# 4분위수 (Quartile): 통계값 중의 하나로 데이터의 분포를 작은 수부터 큰 수까지 나열하여 4등분한 지점 (데이터를 25%씩 동등 분할, Q1, Q2, Q3)
# cf) Quantile: 주어진 데이터를 동등하게 분할하는 지점.
#   특별하게 4개로 나누면 Quartile
# Q1(25%, 1사분위), Q2(50%, 2사분위), Q3(75%, 3사분위), Q4(100%, 4사분위)
# Q2(50%) == median(중앙값, 중위값)
df.median()

1    1000.0
dtype: float64

### 2. value와 index 둘다 주기

In [17]:
index = [1, 2, 3]
columns = ['기업명', '주가', '업종']
data = [['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']]
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [18]:
df.index, df.columns, df.values

(Int64Index([1, 2, 3], dtype='int64'),
 Index(['기업명', '주가', '업종'], dtype='object'),
 array([['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']], dtype=object))

### 3. 딕셔너리로 만들기 (열 기준으로 만듦)

In [19]:
data = {
    '기업명': ['삼성', '현대', '네이버'],
    '주가': [2000, 1000, 500],
    '업종': ['스마트폰', '자동차', '포털'],
}
d2 = pd.DataFrame(data=data, index=index)
d2

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [20]:
# 행 인덱스 이름 주기
df.index.name = '순서'
df

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [21]:
# 열 인덱스 이름 주기
df.columns.name = '항목'
df

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


## 3-2. DataFrame 인덱싱과 슬라이싱

In [22]:
# 열 인덱싱
df

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [23]:
df['기업명']

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [24]:
type(df['기업명'])

pandas.core.series.Series

In [25]:
df.기업명

순서
1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [26]:
# 여러개의 열 인덱싱 (Fancy Indexing)
a = df[['기업명', '업종']]
a, type(a)

(항목  기업명    업종
 순서           
 1    삼성  스마트폰
 2    현대   자동차
 3   네이버    포털,
 pandas.core.frame.DataFrame)

In [27]:
df[['기업명']]

항목,기업명
순서,Unnamed: 1_level_1
1,삼성
2,현대
3,네이버


In [28]:
# 기업명 -> 행 인덱스로 옮기기
df.index = df['기업명']
df

항목,기업명,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트폰
현대,현대,1000,자동차
네이버,네이버,500,포털


In [29]:
# 열 삭제
del df['기업명']
df

항목,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
현대,1000,자동차
네이버,500,포털


In [30]:
# 열 추가
df['발행주식수'] = [30000, 20000, 10000]
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [32]:
# 행 인덱싱
# 1. loc (label location) : 인덱스 라벨을 통해서 인덱싱
df.loc['삼성']

항목
주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [None]:
# df.loc['LG'] error

In [33]:
df.loc[['삼성', '네이버']]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [34]:
# 2. iloc (integer location) : 0인덱스를 사용해서 인덱싱
df.iloc[0]

항목
주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [36]:
df.iloc[-1]

항목
주가         500
업종          포털
발행주식수    10000
Name: 네이버, dtype: object

In [37]:
df.iloc[[0, -1]]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [38]:
df.iloc[::2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


[가져오기 비교](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)

In [None]:
# 열 데이터 -> 행 데이터
df['업종']['삼성']

In [43]:
# 행 데이터 -> 열 데이터
df.loc['삼성']['업종']

'스마트폰'

In [44]:
df.loc['삼성', '업종']

'스마트폰'

In [46]:
df.iloc[0, 1]

'스마트폰'

In [47]:
# 슬라이싱 (start:end:step)
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [48]:
# 행 슬라이싱
df[:2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [49]:
df[1:]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [53]:
df[:'현대']

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [55]:
# 열 슬라이싱
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [56]:
df.columns

Index(['주가', '업종', '발행주식수'], dtype='object', name='항목')

In [58]:
df.columns[1:]

Index(['업종', '발행주식수'], dtype='object', name='항목')

In [59]:
df[df.columns[1:]]

항목,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000
네이버,포털,10000


In [60]:
df[df.columns[:2]]

항목,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
현대,1000,자동차
네이버,500,포털


In [61]:
# Boolean 인덱싱
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [65]:
df['발행주식수'] >= 15000

기업명
삼성      True
현대      True
네이버    False
Name: 발행주식수, dtype: bool

In [62]:
df[df['발행주식수'] >= 15000]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [66]:
df['주가'] < 1500

기업명
삼성     False
현대      True
네이버     True
Name: 주가, dtype: bool

In [67]:
df[df['주가'] < 1500]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [68]:
# loc 슬라이싱
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [70]:
df.loc['삼성':'현대']

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [71]:
df.iloc[:2]

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [72]:
# 스마트폰, 자동차 슬라이싱으로 갖고오기
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [76]:
df.loc['삼성':'현대', '업종':'발행주식수']

항목,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


In [77]:
df.iloc[:2, 1:]

항목,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


## 3-3. DataFrame 데이터 CRUD

In [79]:
# 행 데이터 추가
df.append({'주가': 1500, '업종': '메모리', '발행주식수': 15000}, ignore_index=True)  # but only 

Unnamed: 0,주가,업종,발행주식수
0,2000,스마트폰,30000
1,1000,자동차,20000
2,500,포털,10000
3,1500,메모리,15000


In [80]:
df

항목,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
