In [1]:
import pandas as pd

In [2]:
data = {
    'city' : ['서울', '경기', '제주', '부산'],
    'total1' : [12000, 34000, 50500, 42000],
    'total2' : [12500, 38000, 150000, 37000]
}

# 데이터 프레임 생성
df = pd.DataFrame(data)
df

Unnamed: 0,city,total1,total2
0,서울,12000,12500
1,경기,34000,38000
2,제주,50500,150000
3,부산,42000,37000


In [3]:
# 데이터프레임 전체 dtype
df.dtypes

city      object
total1     int64
total2     int64
dtype: object

# dtype 변경

## apply 함수
- 문법 : Series.apply(파이썬기본자료형)
- 타입 변환에 제한적임 

In [7]:
# total1의 dtype 변경
# int64 -> object
df.total1.apply(str)

0    12000
1    34000
2    50500
3    42000
Name: total1, dtype: object

In [11]:
# total1의 dtype 변경
# int64 -> object
df.total1 = df.total1.apply(str)
df.dtypes

city      object
total1    object
total2     int64
dtype: object

In [28]:
# total1, total2의 dtype을 실수로 변경
# df.total1.apply(float)
# df.total2.apply(float)
# df[['total1', 'total2']]
# df[['total1', 'total2']].apply(float) # Error
df[['total1', 'total2']].apply(pd.to_numeric)
df.dtypes

city      object
total1    object
total2     int64
dtype: object

## astype함수
- 문법 : 시리즈.astype(타입) -> 기본자료형은 그냥 사용, 다른 자료형은 문자열로 사용  
         데이터프레임.astype({컬럼명1 : 타입, 컬럼명2 : 타입)}
- 데이터에 맞는 타입 크기를 잘 정해서 사용
    - 메모리를 효율적으로 사용, 처리 속도 증가

In [39]:
# df.total1.astype(float)
# df.total1.astype('float32')
df.total1.astype('float64')
# df.astype({'total1' : float})

0    12000.0
1    34000.0
2    50500.0
3    42000.0
Name: total1, dtype: float64

In [38]:
# 표현할 수 있는 범위를 넘어서 데이터가 변형됨
df.total1.astype('float16')

0    12000.0
1    33984.0
2    50496.0
3    41984.0
Name: total1, dtype: float16

In [43]:
df.total1.astype('int8')

0   -32
1   -48
2    68
3    16
Name: total1, dtype: int8

In [44]:
type(df.total1.astype('int64')[0])

numpy.int64

In [46]:
df.dtypes

city      object
total1    object
total2     int64
dtype: object

In [51]:
# 여러 시리즈 타입 변경
df.astype({'total1' : float, 'total2' : float})

Unnamed: 0,city,total1,total2
0,서울,12000.0,12500.0
1,경기,34000.0,38000.0
2,제주,50500.0,150000.0
3,부산,42000.0,37000.0


In [52]:
df.astype({'total1' : float, 'total2' : float}).dtypes

city       object
total1    float64
total2    float64
dtype: object

In [53]:
df.astype({'total1' : 'float32', 'total2' : str})

Unnamed: 0,city,total1,total2
0,서울,12000.0,12500
1,경기,34000.0,38000
2,제주,50500.0,150000
3,부산,42000.0,37000


In [54]:
df.astype({'total1' : 'float32', 'total2' : str}).dtypes

city       object
total1    float32
total2     object
dtype: object

In [58]:
# 경기의 total1 값을 없음으로 변경
df.loc[df.city == '경기', 'total1'] = '없음'
df

Unnamed: 0,city,total1,total2
0,서울,12000,12500
1,경기,없음,38000
2,제주,50500,150000
3,부산,42000,37000


In [65]:
df.total1.dtypes

dtype('O')

In [71]:
# df.total1.astype(int) # Value Error
df.total1.apply(pd.to_numeric, errors='coerce') # 타입 변환이 안되는 데이터는 결측치로 처리
# 불규칙한 데이터를 지우고 작업할 때 사용

0    12000.0
1        NaN
2    50500.0
3    42000.0
Name: total1, dtype: float64

Help on method apply in module pandas.core.series:

apply(func: 'AggFuncType', convert_dtype: 'bool' = True, args: 'tuple[Any, ...]' = (), **kwargs) -> 'DataFrame | Series' method of pandas.core.series.Series instance
    Invoke function on values of Series.
    
    Can be ufunc (a NumPy function that applies to the entire Series)
    or a Python function that only works on single values.
    
    Parameters
    ----------
    func : function
        Python function or NumPy ufunc to apply.
    convert_dtype : bool, default True
        Try to find better dtype for elementwise function results. If
        False, leave as dtype=object. Note that the dtype is always
        preserved for some extension array dtypes, such as Categorical.
    args : tuple
        Positional arguments passed to func after the series value.
    **kwargs
        Additional keyword arguments passed to func.
    
    Returns
    -------
    Series or DataFrame
        If func returns a Series object the result