## downcast
* 메모리 부담 줄이기

In [1]:
# pandas 를 불러옵니다.
import pandas as pd

In [2]:
# data/nhis_drug_sample_2020_3.csv 파일을 로드합니다. 
df =pd.read_csv("data/nhis_drug_sample_2020_3.csv")

In [3]:
# info를 통해 데이터의 요약정보를 봅니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317677 entries, 0 to 317676
Data columns (total 15 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   기준년도         317677 non-null  int64  
 1   가입자 일련번호     317677 non-null  int64  
 2   처방내역일련번호     317677 non-null  int64  
 3   일련번호         317677 non-null  int64  
 4   성별코드         317677 non-null  int64  
 5   연령대코드(5세단위)  317677 non-null  int64  
 6   시도코드         317677 non-null  int64  
 7   요양개시일자       317677 non-null  object 
 8   약품일반성분명코드    317669 non-null  object 
 9   1회 투약량       317677 non-null  float64
 10  1일투약량        317677 non-null  int64  
 11  총투여일수        317677 non-null  int64  
 12  단가           317677 non-null  float64
 13  금액           317677 non-null  int64  
 14  데이터 공개일자     317677 non-null  object 
dtypes: float64(2), int64(10), object(3)
memory usage: 36.4+ MB


In [6]:
# dtypes 를 통해 데이터의 타입만 봅니다.
df.dtypes

기준년도             int64
가입자 일련번호         int64
처방내역일련번호         int64
일련번호             int64
성별코드             int64
연령대코드(5세단위)      int64
시도코드             int64
요양개시일자          object
약품일반성분명코드       object
1회 투약량         float64
1일투약량            int64
총투여일수            int64
단가             float64
금액               int64
데이터 공개일자        object
dtype: object

|    | Data type   | Description                                                          |
|---:|:------------|:---------------------------------------------------------------------|
|  0 | bool        | Boolean (True or False) stored as a byte                             |
|  1 | int         | Platform integer (normally either int32 or int64)                    |
|  2 | int8        | Byte (-128 to 127)                                                   |
|  3 | int16       | Integer (-32768 to 32767)                                            |
|  4 | int32       | Integer (-2147483648 to 2147483647)                                  |
|  5 | int64       | Integer (9223372036854775808 to 9223372036854775807)                 |
|  6 | uint8       | Unsigned integer (0 to 255)                                          |
|  7 | uint16      | Unsigned integer (0 to 65535)                                        |
|  8 | uint32      | Unsigned integer (0 to 4294967295)                                   |
|  9 | uint64      | Unsigned integer (0 to 18446744073709551615)                         |
| 10 | float       | Shorthand for float64.                                               |
| 11 | float16     | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa    |
| 12 | float32     | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa  |
| 13 | float64     | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa |
| 14 | complex     | Shorthand for complex128.                                            |
| 15 | complex64   | Complex number, represented by two 32-bit floats                     |
| 16 | complex128  | Complex number, represented by two 64-bit floats                     |

In [11]:
# 반복문을 사용해 컬럼 단위로 순회하며 데이터의 용량을 줄입니다.
# df[col].dtype.name 으로 데이터 타입명을 가져옵니다.
# 각 컬럼의 데이터 타입 이름이 int, float 으로 시작하는지를 봅니다.
# bool 일 때는 int8
# int 일 때는 unsigned
# float 일 때는 float 으로 downcast 합니다.
# downcast 는 pd.to_numeric 을 사용합니다.

for col in df.columns:
    dtype_name = df[col].dtypes.name
    if dtype_name.startswith("int"):
        df[col] = pd.to_numeric(df[col], downcast='unsigned')
    elif dtype_name.startswith("float"):
        df[col] = pd.to_numeric(df[col], downcast='float')
    elif dtype_name == "bool":
        df[col] = df[col].astype('int8')
   

In [12]:
# 메모리 크기가 줄어든 것을 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317677 entries, 0 to 317676
Data columns (total 15 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   기준년도         317677 non-null  uint16 
 1   가입자 일련번호     317677 non-null  uint32 
 2   처방내역일련번호     317677 non-null  uint32 
 3   일련번호         317677 non-null  uint8  
 4   성별코드         317677 non-null  uint8  
 5   연령대코드(5세단위)  317677 non-null  uint8  
 6   시도코드         317677 non-null  uint8  
 7   요양개시일자       317677 non-null  object 
 8   약품일반성분명코드    317669 non-null  object 
 9   1회 투약량       317677 non-null  float32
 10  1일투약량        317677 non-null  uint8  
 11  총투여일수        317677 non-null  uint16 
 12  단가           317677 non-null  float32
 13  금액           317677 non-null  uint32 
 14  데이터 공개일자     317677 non-null  object 
dtypes: float32(2), object(3), uint16(2), uint32(3), uint8(5)
memory usage: 16.1+ MB
