# 🚩 DataFrame에 대해서
## 주요 토픽
1. 데이터프레임 기초
2. 데이터 접근 및 제거
3. 데이터프레임 결측값
4. 데이터프레임 정렬과 필터링
5. 데이터프레임 컬럼 수정
6. 판다스 데이터 타입
7. 메모리 최적화
## 목표
- 행 필터링/정렬, 결측값 처리, 새로운 컬럼 추가, 컬럼에 함수 적용하기

In [1]:
import numpy as np
import pandas as pd

## 1. 데이터프레임이란?
- 데이터프레임의 열은 하나의 Series이다
    - 각 컬럼은 동일한 행 인덱스를 공유한다.
    - 각 컬럼명 = column index. Series name 속성값을 포함한다.
### > 주요 속성
1. shape
2. index (행 인덱스)
3. columns
4. axes (행과 열의 인덱스)
5. dtypes (각 Series의 데이터 타입)

In [2]:
oil = pd.read_csv('./data/retail/oil.csv')
oil

Unnamed: 0,date,dcoilwtico
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.20
...,...,...
1213,2017-08-25,47.65
1214,2017-08-28,46.40
1215,2017-08-29,46.46
1216,2017-08-30,45.96


In [3]:
oil.shape

(1218, 2)

In [4]:
oil.axes

[RangeIndex(start=0, stop=1218, step=1),
 Index(['date', 'dcoilwtico'], dtype='object')]

In [5]:
oil.index

RangeIndex(start=0, stop=1218, step=1)

In [6]:
oil.columns

Index(['date', 'dcoilwtico'], dtype='object')

In [7]:
oil.columns = ['price_date', 'oil_price']
oil.head()

Unnamed: 0,price_date,oil_price
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.2


### > 주요 메서드
1. head, tail
2. sample (임의의 행 데이터 추출)
3. info (데이터프레임 기본 정보)
4. describe (데이터프레임의 통계 정보; ONLY numeric columns BY DEFAULT)

In [8]:
oil.head()

Unnamed: 0,price_date,oil_price
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.2


In [9]:
oil.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1218 entries, 0 to 1217
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   price_date  1218 non-null   object 
 1   oil_price   1175 non-null   float64
dtypes: float64(1), object(1)
memory usage: 19.2+ KB


In [10]:
oil.describe()

Unnamed: 0,oil_price
count,1175.0
mean,67.714366
std,25.630476
min,26.19
25%,46.405
50%,53.19
75%,95.66
max,110.62


In [11]:
oil.describe(include='all')

Unnamed: 0,price_date,oil_price
count,1218,1175.0
unique,1218,
top,2013-01-01,
freq,1,
mean,,67.714366
std,,25.630476
min,,26.19
25%,,46.405
50%,,53.19
75%,,95.66
