## 자료형을 자유자재로 변환하기 ─ astype 메서드

### 1. 자료준비

In [2]:
#Seaborn은 Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지이다.
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips") # tips dataset load하기 
tips.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [3]:
tips.shape

(244, 7)

### 데이터 타입확인 

In [7]:
#dataframe의 datatype확인 
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.3 KB


In [8]:
tips.total_bill.dtype

dtype('float64')

In [10]:
#sex, smoker, day, time 칼럼들의 datatype 확인하기 
#categoty type
tips.sex.dtype, tips.smoker.dtype, tips.day.dtype, tips.time.dtype

(CategoricalDtype(categories=['Male', 'Female'], ordered=False),
 CategoricalDtype(categories=['Yes', 'No'], ordered=False),
 CategoricalDtype(categories=['Thur', 'Fri', 'Sat', 'Sun'], ordered=False),
 CategoricalDtype(categories=['Lunch', 'Dinner'], ordered=False))

### 여러 가지 자료형을 문자열로 변환

In [13]:
tips['sex_str'] = tips['sex'].astype(str)  #타입을 변환하여 칼럼을 추가함 
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.2+ KB


### 자료형을 변환한 데이터 다시 원래대로 만들기

In [14]:
#문자열로 변환 ...판다스에서 문자열은 object
tips['total_bill'] = tips['total_bill'].astype(str) 
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [16]:
#다시 문자열을 실수로 변환 
tips['total_bill'] = tips['total_bill'].astype(float) 
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [17]:
tips["total_bill"] + 100

0      116.99
1      110.34
2      121.01
3      123.68
4      124.59
        ...  
239    129.03
240    127.18
241    122.67
242    117.82
243    118.78
Name: total_bill, Length: 244, dtype: float64

## 잘못 입력한 문자열 처리하기 ─ to_numeric 메서드

In [20]:
import warnings
warnings.filterwarnings("ignore")

In [21]:
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
tips_sub_miss
##참고 
##SettingWithCopyWarning : DataFrame의 일부로 구성된 파생 DataFrame에 변경을 가하는 경우 발생
#Pandas는 copy() 메서드를 통해 파생 DataFrame에 독립적인 메모리를 부여한 뒤 여기에 수정을 가하도록 유도

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,missing,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Male
3,missing,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
5,missing,4.71,Male,No,Sun,Dinner,4,Male
6,8.77,2.0,Male,No,Sun,Dinner,2,Male
7,missing,3.12,Male,No,Sun,Dinner,4,Male
8,15.04,1.96,Male,No,Sun,Dinner,2,Male
9,14.78,3.23,Male,No,Sun,Dinner,2,Male


In [14]:
print(tips_sub_miss.dtypes)  #total_bill      object

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [22]:
tips_sub_miss['total_bill'].astype(float)  #문자값이 있으므로 오류 발생 ......

ValueError: could not convert string to float: 'missing'

In [23]:
pd.to_numeric(tips_sub_miss['total_bill']) #문자값이 있으므로 오류발생 

ValueError: Unable to parse string "missing" at position 1

In [25]:
#errors 인자에 설정할 수 있는 값 : 
#raise : 숫자로 변환할 없는 값이 있으면 오류 발생 
#coerce(코어스): 숫자로 변환할 수 없는 값을 누락값으로 지정 ...........NaN   
#ignore : 아무 작업도 하지않음
tips_sub_miss['total_bill'] = pd.to_numeric( tips_sub_miss['total_bill'], errors='ignore')

In [32]:
tips_sub_miss['total_bill'] = pd.to_numeric( tips_sub_miss['total_bill'], errors='coerce')
#문자값은 NaN으로 변경되었고 데이터의 타입은 숫자로 변경됨 
tips_sub_miss['total_bill']

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float32

In [33]:
tips_sub_miss['total_bill'] + 10

0    26.990000
1          NaN
2    31.010000
3          NaN
4    34.590000
5          NaN
6    18.770000
7          NaN
8    25.040001
9    24.779999
Name: total_bill, dtype: float32

In [31]:
#downcast는 정수,실수와 같은 자료형을 더 작은 형태로 만든다.   float64 --> float32 로 변경됨 
#coerce (코어스) : 억압하다. 강요하다   errors='coerce',
tips_sub_miss['total_bill'] = pd.to_numeric( tips_sub_miss['total_bill'], 
                                            downcast='float')
tips_sub_miss['total_bill']

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float32

## 문자열을 카테고리로 변환하기

In [34]:
#카테고리 자료형 : 유한한 범위의 값만을 가질 수 있다.
#용량과 속도면에서 매유 효율적이다.
#주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용된다. 
tips['sex'] = tips['sex'].astype('str')    #category   ->  object로 변경됨 
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.7+ KB
None


In [29]:
#문자열을 카테고리로 변경하고 용량을 변경하니 더 줄어듦을 확인할 수 있다. 
#데이터의 양이 많다면 훨씬 더 차이가 난다. 
tips['sex'] = tips['sex'].astype('category')    #  object  -->  category로 변경됨 
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.2+ KB
None
