# 데이터 프레임의 타입
- 각 컬럼(열)별로 데이터의 타입을 확인하는 방법
- 데이터 타입 변경 방법

In [1]:
import pandas as pd

## 데이터프레임 로드

In [4]:
df = pd.read_csv('datas/korea-star.csv')
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615


## 1. series의 type

In [5]:
# type 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


In [12]:
# type 변환
# type 변환을 위해서는 astype이라는 메소드를 사용

# 키 column은 현재 float, 정수형인 int type으로 변경 함
print(df['키'].dtypes)
print(df['키'].astype(int))
# df['키'].astype(int) : 에러발생. NaN 값이 들어있기 때문

float64


IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [14]:
# 때문에 fillna로 NaN 값을 임의로 채워줌
df['키'] = df['키'].fillna(-1)

In [15]:
df['키']

0     160.0
1     183.0
2     178.0
3     182.3
4      -1.0
5     179.2
6      -1.0
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [18]:
# 두 명령의 차이점을 확인 (dtypes: float64(1), dtypes: int32(1)의 차이)
# 위는 시리즈에 값을 직접 int로 바꿨기 때문에 컬럼에 바로 대입
# 아래는 식 전체가 데이터 프레임이므로 통째로 대입
df['키'] = df['키'].astype(int)
# df = df.astype({'키':'int'})
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,-1,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174,O,4925442


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      16 non-null     object
 1   그룹      14 non-null     object
 2   소속사     16 non-null     object
 3   성별      16 non-null     object
 4   생년월일    16 non-null     object
 5   키       16 non-null     int32 
 6   혈액형     16 non-null     object
 7   인기지수    16 non-null     int64 
dtypes: int32(1), int64(1), object(6)
memory usage: 1.1+ KB


In [22]:
# 날짜 변환하기 (datetime 타입)
# 현재 문자열
df['생년월일']

0     1991-03-29
1     1997-03-30
2     1995-12-30
3     1995-08-09
4     1998-08-26
5     1992-12-04
6     1989-03-09
7     1995-07-21
8     1995-06-08
9     1993-03-09
10    1996-12-10
11    1997-09-01
12    1995-07-23
13    1994-03-22
14    1994-02-10
15    1995-10-13
Name: 생년월일, dtype: object

In [24]:
# pandas 내부 메서드 to_datetime() 사용
# datetime 타입으로 바꾸기
pd.to_datetime(df['생년월일'])

0    1991-03-29
1    1997-03-30
2    1995-12-30
3    1995-08-09
4    1998-08-26
5    1992-12-04
6    1989-03-09
7    1995-07-21
8    1995-06-08
9    1993-03-09
10   1996-12-10
11   1997-09-01
12   1995-07-23
13   1994-03-22
14   1994-02-10
15   1995-10-13
Name: 생년월일, dtype: datetime64[ns]

In [25]:
# 데이터 프레임에 적용하기 위해서는 변환된 것을 df['날짜'] column에 다시 대입을 해줘야함
df['생년월일'] = pd.to_datetime(df['생년월일'])
df['생년월일']

0    1991-03-29
1    1997-03-30
2    1995-12-30
3    1995-08-09
4    1998-08-26
5    1992-12-04
6    1989-03-09
7    1995-07-21
8    1995-06-08
9    1993-03-09
10   1996-12-10
11   1997-09-01
12   1995-07-23
13   1994-03-22
14   1994-02-10
15   1995-10-13
Name: 생년월일, dtype: datetime64[ns]

In [28]:
# datetime 타입으로 변환해준 중요한 이유
# 매우 손쉽게, 월, 일, 요일 등등의 날짜 정보를 세부적으로 추출해낼 수 있음.
# Datetime Properties object인 'dt'에 다양한 date 정보들을 제공해 줌
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615


In [29]:
df['생년월일'].dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x00000271E0BE3E80>

In [30]:
df['생년월일'].dt.dayofweek 

0     4
1     6
2     5
3     2
4     2
5     4
6     3
7     4
8     3
9     1
10    1
11    0
12    6
13    1
14    3
15    4
Name: 생년월일, dtype: int32

In [34]:
# df['생년월일'].dt.year
# df['생년월일'].dt.month
# df['생년월일'].dt.day
# df['생년월일'].dt.hour
# df['생년월일'].dt.minute
# df['생년월일'].dt.second
# df['생년월일'].dt.dayofweek  #월요일부터

In [37]:
# 문제 : 년, 월, 일 각각의 컬럼으로 분리하기
df['생일_년'] = df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수,생일_년,생일_월,생일_일
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324,1991,3,29
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027,1997,3,30
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501,1995,12,30
3,민현,,플레디스,남자,1995-08-09,182,O,4989792,1995,8,9
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615,1998,8,26
