### 【 Pandas 자료형 변환 】
- 자료형 : object(str, mixed), int64, float64, bool, datetime64[ns], categorical
- 변환
    * DF.astype(), SR.astype()
    * to_numeric()
    * to_datetime()

In [10]:
## 모듈 로딩
import pandas as pd

In [11]:
## DF 인스턴스 생성
df = pd.DataFrame({
    "age"   : ["23", "45", "30"],                           # 문자열 숫자 *
    "height": [170.5, 180.2, 160.3],                        # 실수
    "passed": [1, 0, 1],                                    # 정수 (0/1) *
    "name"  : ["Ann","Hong","Lee"],                         # 문자열
    "birth" : ["2020-10-01","2000-01-01", "2005-12-24"],    # 문자열 날짜 *
    "gender": ["F", "M", "F"]                               # 문자열      *
})

## 컬럼별 타입 정보 => dtypes
print("변환 전:\n", df.dtypes)

변환 전:
 age        object
height    float64
passed      int64
name       object
birth      object
gender     object
dtype: object


In [19]:
## --------------------------------------------------------
## 데이터가 가진 의미에 따라 타입 변환
## --------------------------------------------------------

## 나이 : object ==> int
df["age"] = df["age"].astype('int8')     ## inplace 매개변수 X. 반드시 저장 필요!

print("변환 확인 :" , df.age.dtype)


변환 확인 : int8


In [13]:
## 합격여부 : int ==> category
df["passed"] = df["passed"].astype("category")     ## inplace 매개변수 X. 반드시 저장 필요!

print("변환 확인 :" , df.passed.dtype)


변환 확인 : category


In [14]:
## 이름 : object ==> string
df["name"] = df["name"].astype("string")     ## inplace 매개변수 X. 반드시 저장 필요!

print("변환 확인 :" , df.name.dtype)



변환 확인 : string


In [None]:
## 생일 : object ==> datetime64[ns]
#df["birth"] = df["birth"].astype("datetime64[ns]")     ## inplace 매개변수 X. 반드시 저장 필요!

df["birth"]  = pd.to_datetime(df["birth"])

print("변환 확인 :" , df.birth.dtype)



변환 확인 : datetime64[ns]


In [18]:
## 성별 : object ==> category
df["gender"] = df["gender"].astype("category")     
print("변환 확인 :" , df.gender.dtype)


## 전체 확인
print("전체 확인\n", df.dtypes)


변환 확인 : category
전체 확인
 age                int64
height           float64
passed          category
name      string[python]
birth     datetime64[ns]
gender          category
dtype: object


[3] 문자열 => 날짜시간 타입으로<hr>

In [None]:
date_s = pd.Series(["2025-10-01", "2025/10/02", "Oct 03, 2025"])

# 문자열 → datetime 형으로
date_s = pd.to_datetime(date_s, format="mixed") 

print(date_s.dt.year)
print(date_s.dt.day_name())


0    2025
1    2025
2    2025
dtype: int32
0    Wednesday
1     Thursday
2       Friday
dtype: object


[4] 여러 컬럼을 한꺼번에<hr>

In [10]:
df = pd.DataFrame({
    "A": ["1", "2", "3"],
    "B": ["4.1", "5.2", "6.3"]
})

# 여러 열을 한 번에 변환
df = df.astype({"A": "int", "B": "float"})
print(df.dtypes)

A      int64
B    float64
dtype: object


In [12]:
s = pd.Series(["10", "20", "??", "40"])

# 에러 발생 (??는 숫자가 아님)
# s.astype(int)  # ValueError 발생!

# 안전하게 변환: 숫자만 변환하고 나머지는 NaN 처리
s = pd.to_numeric(s, errors="coerce")
print(s)


0    10.0
1    20.0
2     NaN
3    40.0
dtype: float64
