In [1]:
import pandas as pd

## 실습에 사용할 예제 파일

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## 데이터프레임 로드

In [2]:
df = pd.read_csv('http://bit.ly/ds-korean-idol')

In [3]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 1. Series의 Type

### 1-1. type 확인하기

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


이전에 배운 info를 찍어보면, 우측에 type이 같이 찍히는 것을 확인하실 수 있습니다.

* object: 일반 문자열 타입
* float: 실수
* int: 정수
* category: 카테고리
* datetime: 시간

### 1-2. type 변환하기

* type 변환을 위해서는 **astype**이라는 메소드를 사용합니다.

키 column은 현재 float로 명시되어 있습니다.

정수형인 int type으로 변경해 보겠습니다.

In [5]:
df['키'].dtypes

dtype('float64')

In [6]:
df['키'].astype(int)

ValueError: Cannot convert non-finite values (NA or inf) to integer

에러가 발생했습니다..NaN 값이 들어있기 때문에 변경이 안됩니다.

이럴 때는 fillna로 빈값을 임의로 채워 주겠습니다.

In [7]:
df['키'] = df['키'].fillna(-1)

In [8]:
df['키']

0     173.6
1     177.0
2     180.0
3     178.0
4     162.1
5     178.0
6     182.3
7      -1.0
8     179.2
9     167.1
10     -1.0
11    183.0
12    175.0
13    176.0
14    174.0
Name: 키, dtype: float64

In [9]:
df['키'].astype(object)

0     173.6
1       177
2       180
3       178
4     162.1
5       178
6     182.3
7        -1
8     179.2
9     167.1
10       -1
11      183
12      175
13      176
14      174
Name: 키, dtype: object

int형으로 타입을 바꾸니 float -> int로 변경 된 것을 볼 수 있습니다.

### 1-3. 날짜 변환하기 (datetime 타입)

* 날짜를 변환하기 위해서는 판다스 메소드인 **to_datetime**이라는 메소드를 사용합니다.

현재 날짜 column은 dtype:이 object, 즉 문자열 타입으로 되어 있습니다.

In [10]:
df['생년월일']

0     1995-10-13
1     1988-08-18
2     1996-12-10
3     1995-12-30
4     1995-07-23
5     1997-09-01
6     1995-08-09
7     1998-08-26
8     1992-12-04
9     1994-03-22
10    1989-03-09
11    1997-03-30
12    1995-07-21
13    1995-06-08
14    1993-03-09
Name: 생년월일, dtype: object

**datetime 타입**으로 바꾸어 볼까요?

In [11]:
pd.to_datetime(df['생년월일'])

0    1995-10-13
1    1988-08-18
2    1996-12-10
3    1995-12-30
4    1995-07-23
5    1997-09-01
6    1995-08-09
7    1998-08-26
8    1992-12-04
9    1994-03-22
10   1989-03-09
11   1997-03-30
12   1995-07-21
13   1995-06-08
14   1993-03-09
Name: 생년월일, dtype: datetime64[ns]

dtype이 **datetime**으로 변환된 것을 확인 하셨나요?

하지만, 이렇게 해준다고 해서 우리의 DataFrame에는 반영되어 있지 않습니다.

변환된 것을 **df['날짜'] column에 다시 대입**을 해줘야 정상적으로 변환된 값이 들어 갑니다.

In [12]:
df['생년월일'] = pd.to_datetime(df['생년월일'])
df['생년월일']

0    1995-10-13
1    1988-08-18
2    1996-12-10
3    1995-12-30
4    1995-07-23
5    1997-09-01
6    1995-08-09
7    1998-08-26
8    1992-12-04
9    1994-03-22
10   1989-03-09
11   1997-03-30
12   1995-07-21
13   1995-06-08
14   1993-03-09
Name: 생년월일, dtype: datetime64[ns]

datetime 타입으로 우리가 **변환해준 중요한 이유**가 있습니다!

* 매우 손쉽게, 월, 일, 요일 등등의 날짜 정보를 세부적으로 추출해낼 수 있습니다.
* datetime의 약어인 **'dt'**에는 다양한 정보들을 제공해 줍니다.

In [13]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [14]:
df['생년월일'].dt.dayofweek

0     4
1     3
2     1
3     5
4     6
5     0
6     2
7     2
8     4
9     1
10    3
11    6
12    4
13    3
14    1
Name: 생년월일, dtype: int64

In [15]:
df['생년월일'].dt.year

0     1995
1     1988
2     1996
3     1995
4     1995
5     1997
6     1995
7     1998
8     1992
9     1994
10    1989
11    1997
12    1995
13    1995
14    1993
Name: 생년월일, dtype: int64

In [16]:
df['생년월일'].dt.month

0     10
1      8
2     12
3     12
4      7
5      9
6      8
7      8
8     12
9      3
10     3
11     3
12     7
13     6
14     3
Name: 생년월일, dtype: int64

In [17]:
df['생년월일'].dt.day

0     13
1     18
2     10
3     30
4     23
5      1
6      9
7     26
8      4
9     22
10     9
11    30
12    21
13     8
14     9
Name: 생년월일, dtype: int64

In [18]:
df['생년월일'].dt.hour

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

In [19]:
df['생년월일'].dt.minute

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

In [20]:
df['생년월일'].dt.second

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
Name: 생년월일, dtype: int64

**월요일: 0 화요일: 1, 수요일: 2, 목요일: 3, 금요일: 4, 토요일: 5, 일요일: 6**

In [21]:
df['생년월일'].dt.dayofweek

0     4
1     3
2     1
3     5
4     6
5     0
6     2
7     2
8     4
9     1
10    3
11    6
12    4
13    3
14    1
Name: 생년월일, dtype: int64

In [22]:
df['생년월일'].dt.weekofyear

  """Entry point for launching an IPython kernel.


0     41
1     33
2     50
3     52
4     29
5     36
6     32
7     35
8     49
9     12
10    10
11    13
12    29
13    23
14    10
Name: 생년월일, dtype: int64

In [23]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [24]:
df['생일_년'] = df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day

In [25]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,생일_년,생일_월,생일_일
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,1995,10,13
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,1988,8,18
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,1996,12,10
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,1995,12,30
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,1995,7,23
