# 3. DataFrame 개요

In [1]:
import pandas as pd
import numpy as np

## 3-1. DataFrame 생성하기
* 2차원 행렬 데이터에 행 인덱스, 열 인덱스를 붙인 것, 엑셀의 Sheet와 유사
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column index)
* Series는 엑셀 Sheet의 열 1개, DataFrame은 Series가 여러개 모인 형태
* NumPy의 2차원 배열은 모두 같은 자료형을 가져야 하지만, DataFrame은 열마다 자료형이 다를 수 있음

In [2]:
# 1. value값만 주고 DataFrame 생성하기
# Series는 data가 1차원 배열이었지만, DataFrame은 2차원 배열로 생성
data = [['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']]
data

[['삼성', 2000, '스마트폰'], ['현대', 1000, '자동차'], ['네이버', 500, '포털']]

In [3]:
# 인덱스를 지정하지 않으면 0부터 시작하는 정수값이 부여됨 (행 인덱스, 열 인덱스)
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
# DataFrame의 모양 확인하기
df.shape

(3, 3)

In [6]:
# 행 index 속성
df.index

RangeIndex(start=0, stop=3, step=1)

In [7]:
# 열 column 속성
df.columns

RangeIndex(start=0, stop=3, step=1)

In [8]:
# values 속성
df.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [9]:
df.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차


In [10]:
df.tail(2)

Unnamed: 0,0,1,2
1,현대,1000,자동차
2,네이버,500,포털


In [11]:
# DataFrame의 데이터 파악하기
# 데이터의 구성과 구조 파악하기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [12]:
# 컬럼에 대한 요약 통계값 (NaN값은 제외)
df.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


In [13]:
# 4분위수 (Quartile) : 통계값 중의 하나로 데이터의 분포를 작은 수부터 큰수로 나열하여 4등분한 지점 (데이터를 25%씩 동등 분할한 지점)
# cf) Quantile : 주어진 데이터를 동등하게 분할한 지점 (각 그룹이 같은 데이터 수를 보유하도록 분할)
# Q1(25%), Q2(50%,중앙값), Q3(75%), Q4(100%)
# 피자를 동등하게 나누기
df.median()

1    1000.0
dtype: float64

In [14]:
# 2. value값과 index 둘다 주고 DataFrame 생성하기
index = [1, 2, 3]  # 행 인덱스 라벨
columns = ['기업명', '주가', '업종']  # 열 컬럼명
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [15]:
df.index

Int64Index([1, 2, 3], dtype='int64')

In [16]:
df.columns

Index(['기업명', '주가', '업종'], dtype='object')

In [17]:
df.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [18]:
# 3. 딕셔너리 형태로 DataFrame 생성하기 (열기준으로 만들기)
data2 = {'기업명': ['삼성', '현대', '네이버'], 
         '주가': [2000, 1000, 500], 
         '업종': ['스마트폰', '자동차', '포털']}
data2

{'기업명': ['삼성', '현대', '네이버'],
 '주가': [2000, 1000, 500],
 '업종': ['스마트폰', '자동차', '포털']}

In [19]:
df2 = pd.DataFrame(data=data2, index=index)
df2

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [20]:
df2.index

Int64Index([1, 2, 3], dtype='int64')

In [21]:
df2.columns

Index(['기업명', '주가', '업종'], dtype='object')

In [22]:
df2.values

array([['삼성', 2000, '스마트폰'],
       ['현대', 1000, '자동차'],
       ['네이버', 500, '포털']], dtype=object)

In [23]:
# index에 이름 붙이기
df2.index.name = '순서'
df2

Unnamed: 0_level_0,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [24]:
# column에 이름 붙이기
df2.columns.name = '항목'
df2

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


## 3-2. DataFrame 인덱싱과 슬라이싱

### 열 인덱싱

In [25]:
# 열 인덱싱
a = df['기업명']
a

1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [26]:
# 하나의 열만 인덱싱한 결과의 타입은?
# Series는 한개의 Column과 같다.
type(a)

pandas.core.series.Series

In [27]:
df.기업명

1     삼성
2     현대
3    네이버
Name: 기업명, dtype: object

In [28]:
# 여러개의 열 인덱싱하기 (Fancy Indexing)
b = df[['기업명', '주가']]
b

Unnamed: 0,기업명,주가
1,삼성,2000
2,현대,1000
3,네이버,500


In [29]:
# 여러개의 열을 인덱싱한 결과의 타입은?
type(b)

pandas.core.frame.DataFrame

In [30]:
# 하나의 열만 인덱싱하여 DataFrame타입을 만들려면?
c = df[['기업명']]
c

Unnamed: 0,기업명
1,삼성
2,현대
3,네이버


In [31]:
type(c)

pandas.core.frame.DataFrame

In [32]:
df

Unnamed: 0,기업명,주가,업종
1,삼성,2000,스마트폰
2,현대,1000,자동차
3,네이버,500,포털


In [33]:
# DataFrame의 구조를 바꿔보자
# 기업명을 행 인덱스로 옮기고, 주가/업종 2개의 열로 이루어진 DataFrame 만들기
df.index = df['기업명']
df

Unnamed: 0_level_0,기업명,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,삼성,2000,스마트폰
현대,현대,1000,자동차
네이버,네이버,500,포털


In [34]:
del df['기업명']
df

Unnamed: 0_level_0,주가,업종
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,2000,스마트폰
현대,1000,자동차
네이버,500,포털


In [35]:
# 컬럼 추가
df['발행주식수'] = [30000, 20000, 10000]
df

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


### 행 인덱싱

In [36]:
df

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [37]:
# 삼성 데이터 가져오기
# 1. loc (label location) : 인덱스 라벨을 기준으로 행 데이터 추출
# 열 인덱스가 행 인덱스로 되는 Series 리턴
df.loc['삼성']

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [38]:
# 없는 인덱스 라벨로 추출하면 에러
#df.loc['LG']

In [39]:
df.loc[['삼성', '네이버']]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [40]:
# 2. iloc (integer location) : 0으로 시작하는 숫자 인덱스를 기준으로 행 데이터 추출
df.iloc[0]

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [41]:
df.iloc[-1]

주가         500
업종          포털
발행주식수    10000
Name: 네이버, dtype: object

In [42]:
df.iloc[[0, 2]]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
네이버,500,포털,10000


In [43]:
# 스마트폰 가져오기
df

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000


In [44]:
# 열 데이터 -> 행 데이터
# 업종 열 데이터 먼저 가져오기 (Series 형태)
df['업종']

기업명
삼성     스마트폰
현대      자동차
네이버      포털
Name: 업종, dtype: object

In [45]:
# Series의 행인덱스로 다시 검색
df['업종']['삼성']   # series를 가져온 후 다시 검색하므로 df['업종', '삼성']는 안됨

'스마트폰'

In [46]:
# 행 데이터 -> 열 데이터
df.loc['삼성']

주가        2000
업종        스마트폰
발행주식수    30000
Name: 삼성, dtype: object

In [56]:
df.loc['삼성']['업종']

'스마트폰'

In [57]:
# 아래 방식 권장
# https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
df.loc['삼성', '업종']

'스마트폰'

In [58]:
# df.iloc[0]['업종']  # df.iloc[0][1], df.iloc[0, 1]도 가능
df.iloc[0, 1]

'스마트폰'

In [49]:
# Boolean 인덱싱
df['발행주식수'] > 15000

기업명
삼성      True
현대      True
네이버    False
Name: 발행주식수, dtype: bool

In [50]:
df[df['발행주식수'] > 15000]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


### 슬라이싱

In [51]:
# 행 슬라이싱 (start:end:step)
df[:1]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000


In [52]:
df[1:]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [53]:
df[1:2]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000


In [55]:
df['현대':'네이버']

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
현대,1000,자동차,20000
네이버,500,포털,10000


In [59]:
df.columns[1:3]

Index(['업종', '발행주식수'], dtype='object')

In [60]:
# 열 슬라이싱
df[df.columns[1:3]]

Unnamed: 0_level_0,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000
네이버,포털,10000


In [63]:
# loc 슬라이싱
df.loc['삼성':'현대']

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [64]:
# iloc 슬라이싱
df.iloc[:2]

Unnamed: 0_level_0,주가,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
삼성,2000,스마트폰,30000
현대,1000,자동차,20000


In [66]:
# 삼성, 현대의 업종, 발행주식수 데이터를 슬라이싱으로 가져오기
df.loc['삼성':'현대', '업종':'발행주식수']

Unnamed: 0_level_0,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


In [67]:
df.iloc[:2, 1:]

Unnamed: 0_level_0,업종,발행주식수
기업명,Unnamed: 1_level_1,Unnamed: 2_level_1
삼성,스마트폰,30000
현대,자동차,20000


## 3-3. DataFrame 데이터 CRUD

In [288]:
# 행 추가 1
#df = df.append({'주가': 1500, '업종': '가전제품', '발행주식수': 15000}, ignore_index=True)
#df

In [68]:
# index를 유지하면서 행 데이터를 추가하기
df2 = pd.DataFrame({'주가': 1500, '업종': '가전제품', '발행주식수': 15000}, index=['LG'])
df2

Unnamed: 0,주가,업종,발행주식수
LG,1500,가전제품,15000


In [69]:
# 행 추가 1
df = df.append(df2)
df

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000


In [70]:
# 행 추가 2
df = pd.concat([df, df2])
df

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000
LG,1500,가전제품,15000


In [71]:
# 행 추가 3
df.loc['카카오'] = [1700, 'IT서비스', 17000]
df

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000
LG,1500,가전제품,15000
카카오,1700,IT서비스,17000


In [293]:
# 열 추가
df['시가총액'] = df['주가'] * df['발행주식수']
df

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
현대,1000,자동차,20000,20000000
네이버,500,포털,10000,5000000
LG,1500,가전제품,15000,22500000
LG,1500,가전제품,15000,22500000
카카오,1700,서비스업,17000,28900000


In [294]:
# 전체 행 데이터 변경
df.loc['LG'] = [100, '가전제품2', 10000, 1000000]
df

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2000,스마트폰,30000,60000000
현대,1000,자동차,20000,20000000
네이버,500,포털,10000,5000000
LG,100,가전제품2,10000,1000000
LG,100,가전제품2,10000,1000000
카카오,1700,서비스업,17000,28900000


In [295]:
# 전체 열 데이터 변경
df['주가'] += 10
df['시가총액'] = df['주가'] * df['발행주식수']
df

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2010,스마트폰,30000,60300000
현대,1010,자동차,20000,20200000
네이버,510,포털,10000,5100000
LG,110,가전제품2,10000,1100000
LG,110,가전제품2,10000,1100000
카카오,1710,서비스업,17000,29070000


In [296]:
# 한 개 데이터 변경
df['업종']['LG'] = '가전제품'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['업종']['LG'] = '가전제품'


Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2010,스마트폰,30000,60300000
현대,1010,자동차,20000,20200000
네이버,510,포털,10000,5100000
LG,110,가전제품,10000,1100000
LG,110,가전제품,10000,1100000
카카오,1710,서비스업,17000,29070000


In [297]:
df.loc['LG']['업종'] = '가전제품'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc['LG']['업종'] = '가전제품'


In [298]:
# 이 방법이 더 좋음
df.loc['LG', '업종'] = '가전제품'
df

Unnamed: 0,주가,업종,발행주식수,시가총액
삼성,2010,스마트폰,30000,60300000
현대,1010,자동차,20000,20200000
네이버,510,포털,10000,5100000
LG,110,가전제품,10000,1100000
LG,110,가전제품,10000,1100000
카카오,1710,서비스업,17000,29070000


In [304]:
# 행 삭제
# drop? 해보기
df = df.drop('현대')    # 여러개이면 ['xx', 'yy']
df

Unnamed: 0,주가,업종
삼성,2010,스마트폰


In [None]:
df = df.drop(index='네이버', axis=0)  
df

In [300]:
# 열 삭제
df = df.drop('시가총액', axis=1)  # 여러개이면 ['xx', 'yy']
df

Unnamed: 0,주가,업종,발행주식수
삼성,2010,스마트폰,30000
현대,1010,자동차,20000
네이버,510,포털,10000
카카오,1710,서비스업,17000


In [302]:
df = df.drop(columns='발행주식수')  # 여러개이면 ['xx', 'yy']
df

Unnamed: 0,주가,업종
삼성,2010,스마트폰
현대,1010,자동차
네이버,510,포털


## 3-4. DataFrame 연산

In [144]:
# DataFrame 간의 연산
df2 = df.copy()
df2

Unnamed: 0,주가,업종,발행주식수
삼성,2010,스마트폰,30000
현대,1010,자동차,20000
네이버,510,포털,10000
카카오,1710,서비스업,17000


In [145]:
id(df), id(df2)

(2104004149552, 2104039417360)

In [146]:
df + df2

Unnamed: 0,주가,업종,발행주식수
삼성,4020,스마트폰스마트폰,60000
현대,2020,자동차자동차,40000
네이버,1020,포털포털,20000
카카오,3420,서비스업서비스업,34000


In [213]:
df.append(df2)

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000
LG,1500,가전제품,15000
LG,1500,가전제품,15000


In [214]:
pd.concat([df, df2])

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000
LG,1500,가전제품,15000
LG,1500,가전제품,15000


In [148]:
# df - df2는 업종 문자열 때문에 안됨
df['주가'] - df2['주가']

삼성     0
현대     0
네이버    0
카카오    0
Name: 주가, dtype: int64

In [149]:
# Scalar와의 연산 (주식 + 500)
df['주가'] += 500
df

Unnamed: 0,주가,업종,발행주식수
삼성,2510,스마트폰,30000
현대,1510,자동차,20000
네이버,1010,포털,10000
카카오,2210,서비스업,17000


In [150]:
# Aggregation 함수
# 각 column에서 가장 작은 값
df.min()

주가        1010
업종        서비스업
발행주식수    10000
dtype: object

In [151]:
# 각 column에서 가장 큰 값
df.max()

주가        2510
업종          포털
발행주식수    30000
dtype: object

In [152]:
# 주가 column에서 가장 작은 값
df['주가'].min()

1010

In [153]:
# 시가총액에서 가장 큰 값
df['발행주식수'].max()

30000

In [226]:
df

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
현대,1000,자동차,20000
네이버,500,포털,10000
LG,1500,가전제품,15000
LG,1500,가전제품,15000


In [305]:
# 여기까지하고 cheat sheet 살펴보기

In [227]:
(df['발행주식수'] >= 20000) & (df['주가'] >= 2000)

삼성      True
현대     False
네이버    False
LG     False
LG     False
dtype: bool

In [228]:
df[(df['발행주식수'] >= 20000) & (df['주가'] >= 2000)]

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000


In [229]:
df.query('발행주식수 >= 20000 & 주가 >= 2000')

Unnamed: 0,주가,업종,발행주식수
삼성,2000,스마트폰,30000
