# 데이터 프레임의 타입
- 각 컬럼(열)별로 데이터의 타입을 확인하는 방법
- 데이터 타입 변경 방법

In [1]:
import pandas as pd

## 데이터프레임 로드

In [3]:
df = pd.read_csv('datas/korea-star.csv')

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [4]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160.0,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183.0,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182.3,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,,B,4668615


## 1. Series의 Type
### 1-1. type 확인하기

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      16 non-null     object 
 1   그룹      14 non-null     object 
 2   소속사     16 non-null     object 
 3   성별      16 non-null     object 
 4   생년월일    16 non-null     object 
 5   키       14 non-null     float64
 6   혈액형     16 non-null     object 
 7   인기지수    16 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


### 이전에 배운 info를 찍어보면, 우측에 type이 찍힌 것 확인 가능

- object: 일반 문자열 타입
- float: 실수
- int: 정수
- category: 카테고리
- datetime: 시간

### 1-2. type 변환하기
- type 변환을 위해서는 astype이라는 메소드를 사용

키 column은 현재 float, 정수형인 int type으로 변경 함

In [6]:
df['키'].dtypes

dtype('float64')

In [7]:
df['키'].astype(int)

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

에러가 발생. NaN 값이 들어있기 때문에 변경이 안됨

이럴 때는 fillna로 NaN 값을 임의로 채워 줌.

In [8]:
# fillna NaN 값을 임의로 채워줌 fillna(채워줄 값)
df['키'] = df['키'].fillna(-1)

In [9]:
df["키"]

0     160.0
1     183.0
2     178.0
3     182.3
4      -1.0
5     179.2
6      -1.0
7     175.0
8     176.0
9     174.0
10    180.0
11    178.0
12    162.1
13    167.1
14    161.0
15    173.6
Name: 키, dtype: float64

In [10]:
# 두 명령의 차이점을 확인해 봅시다.
df['키'] = df['키'].astype(int)
# df = df.astype({'키':'int'})
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,-1,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174,O,4925442


In [11]:
# 두 명령의 차이점을 확인해 봅시다.
# df['키'] = df['키'].astype(int)
df = df.astype({'키':'int'})
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615
5,진,방탄소년단,빅히트,남자,1992-12-04,179,O,4570308
6,윤아,소녀시대,SM,여자,1989-03-09,-1,A,3918661
7,백호,뉴이스트,플레디스,남자,1995-07-21,175,AB,3301654
8,JR,뉴이스트,플레디스,남자,1995-06-08,176,O,3274137
9,슈가,방탄소년단,빅히트,남자,1993-03-09,174,O,4925442


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      16 non-null     object
 1   그룹      14 non-null     object
 2   소속사     16 non-null     object
 3   성별      16 non-null     object
 4   생년월일    16 non-null     object
 5   키       16 non-null     int32 
 6   혈액형     16 non-null     object
 7   인기지수    16 non-null     int64 
dtypes: int32(1), int64(1), object(6)
memory usage: 1.1+ KB


### 1-3. 날짜 변환하기 (datetime 타입)
- 날짜를 변환하기 위해서는 pandas 메소드인 **to_datetime()** 이라는 메소드를 사용

현재 날짜 column은 dtype:이 object, 즉 문자열 타입으로 되어 있음.

In [13]:
df['생년월일']

0     1991-03-29
1     1997-03-30
2     1995-12-30
3     1995-08-09
4     1998-08-26
5     1992-12-04
6     1989-03-09
7     1995-07-21
8     1995-06-08
9     1993-03-09
10    1996-12-10
11    1997-09-01
12    1995-07-23
13    1994-03-22
14    1994-02-10
15    1995-10-13
Name: 생년월일, dtype: object

### datetime 타입으로 바꾸기

In [14]:
pd.to_datetime(df['생년월일'])

0    1991-03-29
1    1997-03-30
2    1995-12-30
3    1995-08-09
4    1998-08-26
5    1992-12-04
6    1989-03-09
7    1995-07-21
8    1995-06-08
9    1993-03-09
10   1996-12-10
11   1997-09-01
12   1995-07-23
13   1994-03-22
14   1994-02-10
15   1995-10-13
Name: 생년월일, dtype: datetime64[ns]

**데이터 프레임에 적용**하기 위해서는 변환된 것을 **df['날짜'] column에 다시 대입**을 해줘야함.

In [15]:
df['생년월일'] = pd.to_datetime(df['생년월일'])
df['생년월일']

0    1991-03-29
1    1997-03-30
2    1995-12-30
3    1995-08-09
4    1998-08-26
5    1992-12-04
6    1989-03-09
7    1995-07-21
8    1995-06-08
9    1993-03-09
10   1996-12-10
11   1997-09-01
12   1995-07-23
13   1994-03-22
14   1994-02-10
15   1995-10-13
Name: 생년월일, dtype: datetime64[ns]

#### datetime 타입으로 변환해준 중요한 이유

- 매우 손쉽게, 월, 일, 요일 등등의 날짜 정보를 세부적으로 추출해낼 수 있음.
- Datetime Properties object인 'dt'에 다양한 date 정보들을 제공해 줌

In [16]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615


In [17]:
df['생년월일'].dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x00000285C664F7F0>

##### **월요일: 0 화요일: 1, 수요일: 2, 목요일: 3, 금요일: 4, 토요일: 5, 일요일: 6**

In [19]:
df['생년월일'].dt.dayofweek # 날짜에서 요일 0~6 월화수목금토일

0     4
1     6
2     5
3     2
4     2
5     4
6     3
7     4
8     3
9     1
10    1
11    0
12    6
13    1
14    3
15    4
Name: 생년월일, dtype: int32

In [20]:
df['생년월일'].dt.year

0     1991
1     1997
2     1995
3     1995
4     1998
5     1992
6     1989
7     1995
8     1995
9     1993
10    1996
11    1997
12    1995
13    1994
14    1994
15    1995
Name: 생년월일, dtype: int32

In [21]:
df['생년월일'].dt.month

0      3
1      3
2     12
3      8
4      8
5     12
6      3
7      7
8      6
9      3
10    12
11     9
12     7
13     3
14     2
15    10
Name: 생년월일, dtype: int32

In [22]:
df['생년월일'].dt.day

0     29
1     30
2     30
3      9
4     26
5      4
6      9
7     21
8      8
9      9
10    10
11     1
12    23
13    22
14    10
15    13
Name: 생년월일, dtype: int32

In [23]:
df['생년월일'].dt.hour

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
Name: 생년월일, dtype: int32

In [24]:
df['생년월일'].dt.minute

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
Name: 생년월일, dtype: int32

In [25]:
df['생년월일'].dt.second

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
Name: 생년월일, dtype: int32

In [26]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501
3,민현,,플레디스,남자,1995-08-09,182,O,4989792
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615


## [문제]
년, 월, 일 각각의 컬럼럼으로 분리하기

In [27]:
df['생일_년'] = df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day

In [28]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,인기지수,생일_년,생일_월,생일_일
0,아이린,레드벨벳,SM,여자,1991-03-29,160,A,8256324,1991,3,29
1,차은우,아스트로,판타지오,남자,1997-03-30,183,B,3506027,1997,3,30
2,뷔,방탄소년단,빅히트,남자,1995-12-30,178,AB,8073501,1995,12,30
3,민현,,플레디스,남자,1995-08-09,182,O,4989792,1995,8,9
4,소연,아이들,큐브,여자,1998-08-26,-1,B,4668615,1998,8,26
