In [1]:
import pandas as pd
pd.options.display.max_rows=8
import seaborn as sns

In [2]:
# SAMPLE DATA
df = sns.load_dataset('iris')

### 데이터 정보

기본 정보 (데이터 타입, 개수, 메모리, ... )

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float16
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float16(1), float64(3), object(1)
memory usage: 5.1+ KB


In [16]:
# 실제 메모리 사용량(예측) 검사 ( 데이터가 클수록 시간이 오래 걸림 )
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float16
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float16(1), float64(3), object(1)
memory usage: 13.5 KB


참고 : 'deep'을 실행할 경우, 보통 약 3(?)배 전후로 보여진다. 이는 실제 데이터를 처리할 경우, pandas가 상당히 많은 메모리를 요구하기 때문에 주의가 필요

(데이터 처리 중 메모리 초과로 실패하는 경우가 생길 수 있음 )

*개인적인 생각 :CSV 데이터 용량 또는 .info() 기준, 메모리가 최소 3배는 여유가 있어야 한다.*

기본 summary 정보

In [11]:
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.056641,3.758,1.199333
std,0.828066,0.435791,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.800781,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.300781,5.1,1.8
max,7.9,4.398438,6.9,2.5


## 타입

출처 : http://pbpython.com/pandas_dtypes.html

| Pandas dtype | Python type | NumPy type | Usage |
|----------------|--------------|--------------|--------|
| object | str | string_, unicode_ | Text |
int64|int|int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64|Integer numbers
float64|float|float_, float16, float32, float64|Floating point numbers
bool|bool|bool_|True/False values
datetime64|NA|datetime64[ns]|Date and time values
timedelta[ns]|NA|NA|Differences between two datetimes
category|NA|NA|Finite list of text values

### 타입 변경

#### 1. Numeric Type

#### int, float 데이터 타입의 경우, Numpy type으로 변경이 가능하다. ( 메모리 최적화 활용 )

In [34]:
df['sepal_length'] = df['sepal_length'].astype('uint8')
df['sepal_width'] = df['sepal_width'].astype('float16')

# df['컬럼명'].astype('타입명')

**to_numeric 활용**

astype은 타입변환에 문제가 생기면 오류를 발생시키지만 errors='coerce'를 선택하면 에러없이 그 값은 Nan으로 바뀐다.

downcast는 4가지 중 선택하면 bit수는 알아서 최소로 선택한다??

In [81]:
# errors : {'ignore', 'raise', 'coerce'}
# downcast : {'integer', 'signed', 'unsigned', 'float' }
df['petal_length'] = pd.to_numeric(df['petal_length'], errors='coerce', downcast='integer')

#### 2. String Type

문자열을 object 타입이라고 한다. default 값

In [29]:
df['species'] = df['species'].astype('object')

#### 3. Category : 지정된 값으로만 채워질 수 있는 타입 

( 나머지는 NaN 처리 ) / 숫자, 문자 가능 / R에서 factor와 같음

*object 타입을 category로 바꾸면 메모리 절약에 큰 효과가 있다.* 단, unique한 값이 50% 이상이면 역효과

In [32]:
df['species'] = df['species'].astype('category')

In [33]:
df.species

0         setosa
1         setosa
2         setosa
3         setosa
         ...    
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: category
Categories (3, object): [setosa, versicolor, virginica]

In [23]:
# 임의로 생성 예시
## categories가 지정할 값, 나머지는 NaN 처리
pd.Categorical(['a','b','c','d','e'], categories=['a','b'], ordered=True)

[a, b, NaN, NaN, NaN]
Categories (2, object): [a < b]

#### 4. Time Type 

date 타입이 object 타입으로 로드되는 경우가 있을 때, 활용할 수 있다.

In [69]:
date_df = pd.DataFrame(['2019-01-01','2019-02-03'], columns=['date'])

In [70]:
date_df.dtypes # object 확인

date    object
dtype: object

In [71]:
# format은 현재 데이터의 입력된 형식을 입력한다. 
## 현재 YYYY-mm-dd 이므로 %Y-%m-%d ( 반드시 %가 들어간 형식으로 )
date_df['date'] = pd.to_datetime(date_df['date'], format='%Y-%m-%d')

In [72]:
date_df['date']

0   2019-01-01
1   2019-02-03
Name: date, dtype: datetime64[ns]