## 모듈 import

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [2]:
df = sns.load_dataset('titanic') 
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## 새로운 컬럼 추가

In [3]:
df1 = df.copy()

In [4]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


임의의 값을 **대입**하여 새로운 컬럼을 추가할 수 있습니다.

In [5]:
# df1에 True로 채워진 'VIP' 컬럼을 추가합니다.
df1["VIP"] = True

In [6]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,VIP
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,True
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,True
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,True


## 삭제

삭제는 **행(row) 삭제와 열(column) 삭제**로 구분할 수 있습니다.

### 행 (row) 삭제

행 삭제시 **index를 지정하여 삭제**합니다.

In [7]:
# df1의 1번 행을 삭제합니다.
df1.drop(1)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,VIP
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,True
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,True
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,True


**fancy indexing**을 활용하여 삭제할 수 있습니다.

In [8]:
# df1에서 1, 3, 5, 7, 9 행을 삭제합니다.
df1.drop(df1.index[[1,3,5,7,9]])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,VIP
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,True
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,True
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,True


### 열 (column) 삭제

In [9]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,VIP
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,True
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,True
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,True


열 삭제시 **반드시 `axis=1` 옵션을 지정**해야 합니다. 2번째 위치에 지정시 `axis=`을 생략할 수 있습니다.

In [18]:
# df1의 'class' 열을 삭제하고, 앞에서부터 5개 데이터를 출력합니다.
df1.drop('class', axis = 1).head()
df1.drop('class', 1).head()

  df1.drop('class', 1).head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,who,adult_male,deck,embark_town,alive,alone,VIP
0,0,3,male,22.0,1,0,7.25,S,man,True,,Southampton,no,False,True
1,1,1,female,38.0,1,0,71.2833,C,woman,False,C,Cherbourg,yes,False,True
2,1,3,female,26.0,0,0,7.925,S,woman,False,,Southampton,yes,True,True
3,1,1,female,35.0,1,0,53.1,S,woman,False,C,Southampton,yes,False,True
4,0,3,male,35.0,0,0,8.05,S,man,True,,Southampton,no,True,True


**다수의 컬럼(column) 삭제**도 가능합니다.

In [12]:
# df1에서 'who', 'deck', 'alive' 열을 삭제합니다.
df1.drop(["who", "deck","alive"], axis = 1)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,adult_male,embark_town,alone,VIP
0,0,3,male,22.0,1,0,7.2500,S,Third,True,Southampton,False,True
1,1,1,female,38.0,1,0,71.2833,C,First,False,Cherbourg,False,True
2,1,3,female,26.0,0,0,7.9250,S,Third,False,Southampton,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,False,Southampton,False,True
4,0,3,male,35.0,0,0,8.0500,S,Third,True,Southampton,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,True,Southampton,True,True
887,1,1,female,19.0,0,0,30.0000,S,First,False,Southampton,True,True
888,0,3,female,,1,2,23.4500,S,Third,False,Southampton,False,True
889,1,1,male,26.0,0,0,30.0000,C,First,True,Cherbourg,True,True


삭제된 내용을 바로 적용하려면 `inplace=True`를 지정합니다.

In [19]:
# df1에서 'who', 'deck', 'alive' 열을 삭제합니다. (원본 수정)
df1.drop(["who", "deck", "alive"], axis = 1, inplace = True)

In [20]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,adult_male,embark_town,alone,VIP
0,0,3,male,22.0,1,0,7.25,S,Third,True,Southampton,False,True
1,1,1,female,38.0,1,0,71.2833,C,First,False,Cherbourg,False,True
2,1,3,female,26.0,0,0,7.925,S,Third,False,Southampton,True,True
3,1,1,female,35.0,1,0,53.1,S,First,False,Southampton,False,True
4,0,3,male,35.0,0,0,8.05,S,Third,True,Southampton,True,True


## 컬럼간 연산

**컬럼(column) 과 컬럼 사이의 연산을 매우 쉽게 적용**할 수 있습니다.

In [21]:
df1 = df.copy()

**family(가족)**의 총합은 **sibsp**컬럼과 **parch**의 합산으로 구할 수 있습니다.

In [23]:
# df1의 'sibsp' 컬럼과 'parch' 컬럼을 더하여 'family'라는 새로운 컬럼을 추가한다.
df1["family"] = df1["sibsp"] + df1["parch"]
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,family
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,0


**문자열의 합 (이어붙히기)도 가능**합니다.

In [24]:
# df1의 'who' 컬럼과 문자열 '-'과 'sex' 컬럼을 더하여 'gender'라는 새로운 컬럼을 추가한다.
df1["gender"] = df1["who"]+"-"+df1["sex"]
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,family,gender
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1,man-male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1,woman-female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0,woman-female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1,woman-female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,0,man-male


컬럼간 연산시 `round()`를 사용하여 소수점 자릿수를 지정할 수 있습니다.

**round(숫자, 소수 몇 째자리)**

In [25]:
df1['round'] = round(df1['fare'] / df1['age'], 2)

In [26]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,family,gender,round
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1,man-male,0.33
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1,woman-female,1.88
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0,woman-female,0.3
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1,woman-female,1.52
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,0,man-male,0.23


연산시 1개의 컬럼이라도 **NaN 값을 포함하고 있다면 결과는 NaN** 이 됩니다.

In [27]:
df1.loc[df1['age'].isnull(), 'deck':].head()

Unnamed: 0,deck,embark_town,alive,alone,family,gender,round
5,,Queenstown,no,True,0,man-male,
17,,Southampton,yes,True,0,man-male,
19,,Cherbourg,yes,True,0,woman-female,
26,,Cherbourg,no,True,0,man-male,
28,,Queenstown,yes,True,0,woman-female,


## category 타입

In [28]:
df1 = df.copy()
df1.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [29]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


**`category`로 변경**

`category`로 변경시에는 Categories가 같이 출력 됩니다.

In [30]:
# who 칼럼을 category 형태로 변경하세요

df1["who"].astype("category").head()

0      man
1    woman
2    woman
3    woman
4      man
Name: who, dtype: category
Categories (3, object): ['child', 'man', 'woman']

In [31]:
# 실제로 바뀌었는지 확인하세요
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


변경사항을 적용합니다.

In [32]:
# who 칼럼을 category 형태로 변경(저장)하세요
df1["who"] = df1["who"].astype("category").head()

`category` 타입으로 변경시 사용하는 메모리도 감소합니다.

In [33]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          5 non-null      category
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(3), float64(2), int64(4), object(4)
memory usage: 74.7+ KB


타입을 `category`로 변환했다면 **.cat**으로 접근하여 category 타입이 제공하는 **attribute를 사용**할 수 있습니다.

**카테고리 출력**

In [34]:
df1['who'].cat.categories

Index(['child', 'man', 'woman'], dtype='object')

**카테고리 이름 변경**

- 변경시 원래 순서에 맞게 입력

In [35]:
df1['who'].cat.categories = ['아이', '남자', '여자']
df1['who'].value_counts()

  df1['who'].cat.categories = ['아이', '남자', '여자']


여자    3
남자    2
아이    0
Name: who, dtype: int64

In [37]:
df1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,남자,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,여자,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,여자,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,여자,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,남자,True,,Southampton,no,True


## datetime - 날짜, 시간

### to_datetime

샘플용 **서울시 공공자전거 데이터를 로드**합니다.

In [38]:
df2 = pd.read_csv('data/seoul_bicycle.csv')
df2.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,이용시간
0,Jan-20-2020,3,중랑센터,일일(회원),M,AGE_003,3,61.82,0.52,2230.0,75
1,Jan-20-2020,3,중랑센터,일일(회원),M,AGE_004,1,39.62,0.28,1220.0,15
2,Jan-20-2020,3,중랑센터,정기,M,AGE_005,3,430.85,4.01,17270.0,53
3,Jan-20-2020,5,상암센터 정비실,일일(회원),\N,AGE_005,2,1.79,0.02,90.0,33
4,Jan-20-2020,5,상암센터 정비실,정기,F,AGE_003,1,4501.96,45.47,196010.0,64


In [39]:
df2.dtypes

대여일자       object
대여소번호       int64
대여소명       object
대여구분코드     object
성별         object
연령대코드      object
이용건수        int64
운동량        object
탄소량        object
이동거리      float64
이용시간        int64
dtype: object

**대여일자** 컬럼은 날짜 관련 컬럼처럼 보이나 `info()`는 object로 인식하였습니다.

`datetime`타입으로 변경해야 .dt 접근자를 사용할 수 있습니다.

**`pd.to_datetime()`**: datetime type으로 변환합니다.

In [40]:
# df2의 '대여일자' 컬럼의 데이터 타입을 datetime으로 변경하세요.
pd.to_datetime(df2['대여일자'])

0        2020-01-20
1        2020-01-20
2        2020-01-20
3        2020-01-20
4        2020-01-20
            ...    
327226   2020-05-20
327227   2020-05-20
327228   2020-05-20
327229   2020-05-20
327230   2020-05-20
Name: 대여일자, Length: 327231, dtype: datetime64[ns]

재대입하여 **컬럼에 적용**합니다.

In [45]:
# df2의 '대여일자' 컬럼의 데이터 타입을 datetime으로 변경하세요. (원본 수정)
df2['대여일자'] = pd.to_datetime(df2['대여일자'])
df2.dtypes

대여일자      datetime64[ns]
대여소번호              int64
대여소명              object
대여구분코드            object
성별                object
연령대코드             object
이용건수               int64
운동량               object
탄소량               object
이동거리             float64
이용시간               int64
dtype: object

### datetime 타입

`datetime` 타입에서는 **dt** 접근자로 다음과 같은 날짜 속성에 쉽게 접근할 수 있습니다.

Pandas의 **dt (datetime) 날짜 관련 변수**는 다음과 같습니다.

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.year.html)

- pandas.Series.dt.year: 연도
- pandas.Series.dt.month: 월
- pandas.Series.dt.day: 일
- pandas.Series.dt.hour: 시
- pandas.Series.dt.minute: 분
- pandas.Series.dt.second: 초
- pandas.Series.dt.microsecond: micro 초
- pandas.Series.dt.nanosecond: nano 초
- pandas.Series.dt.week: 주
- pandas.Series.dt.weekofyear: 연중 몇 째주
- pandas.Series.dt.dayofweek: 요일
- pandas.Series.dt.weekday: 요일 (dayofweek과 동일)
- pandas.Series.dt.dayofyear: 연중 몇 번째 날
- pandas.Series.dt.quarter: 분기

In [48]:
# 연도
df2["대여일자"].dt.year.head()

0    2020
1    2020
2    2020
3    2020
4    2020
Name: 대여일자, dtype: int64

In [50]:
# 월
df2["대여일자"].dt.month.head()

0    1
1    1
2    1
3    1
4    1
Name: 대여일자, dtype: int64

In [51]:
# 일
df2["대여일자"].dt.day.head()

0    20
1    20
2    20
3    20
4    20
Name: 대여일자, dtype: int64

**dayofweek**는 숫자로 요일이 표기 됩니다.
- 월요일: 0, 일요일: 6

In [52]:
df2['대여일자'].dt.dayofweek # 요일
df2['대여일자'].dt.day_name() # 요일 이름

0            Monday
1            Monday
2            Monday
3            Monday
4            Monday
            ...    
327226    Wednesday
327227    Wednesday
327228    Wednesday
327229    Wednesday
327230    Wednesday
Name: 대여일자, Length: 327231, dtype: object

### 연습문제

In [55]:
# 데이터셋 로드
df2 = pd.read_csv('data/seoul_bicycle.csv')
df2.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,이용시간
0,Jan-20-2020,3,중랑센터,일일(회원),M,AGE_003,3,61.82,0.52,2230.0,75
1,Jan-20-2020,3,중랑센터,일일(회원),M,AGE_004,1,39.62,0.28,1220.0,15
2,Jan-20-2020,3,중랑센터,정기,M,AGE_005,3,430.85,4.01,17270.0,53
3,Jan-20-2020,5,상암센터 정비실,일일(회원),\N,AGE_005,2,1.79,0.02,90.0,33
4,Jan-20-2020,5,상암센터 정비실,정기,F,AGE_003,1,4501.96,45.47,196010.0,64


대여일자 컬럼에서 **연도, 월, 일, 요일 데이터를 추출**하여 **컬럼을 추가**하세요.
- 상위 5개 행만 출력하세요

In [57]:
# 코드를 입력해 주세요
df2["대여일자"] = pd.to_datetime(df2["대여일자"])
df2["연도"] = df2["대여일자"].dt.year
df2["월"] = df2["대여일자"].dt.month
df2["일"] = df2["대여일자"].dt.day
df2["요일"] = df2["대여일자"].dt.dayofweek
df2.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,이용시간,연도,월,일,요일
0,2020-01-20,3,중랑센터,일일(회원),M,AGE_003,3,61.82,0.52,2230.0,75,2020,1,20,0
1,2020-01-20,3,중랑센터,일일(회원),M,AGE_004,1,39.62,0.28,1220.0,15,2020,1,20,0
2,2020-01-20,3,중랑센터,정기,M,AGE_005,3,430.85,4.01,17270.0,53,2020,1,20,0
3,2020-01-20,5,상암센터 정비실,일일(회원),\N,AGE_005,2,1.79,0.02,90.0,33,2020,1,20,0
4,2020-01-20,5,상암센터 정비실,정기,F,AGE_003,1,4501.96,45.47,196010.0,64,2020,1,20,0


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>대여일자</th>
      <th>대여소번호</th>
      <th>대여소명</th>
      <th>대여구분코드</th>
      <th>성별</th>
      <th>연령대코드</th>
      <th>이용건수</th>
      <th>운동량</th>
      <th>탄소량</th>
      <th>이동거리</th>
      <th>이용시간</th>
      <th>연도</th>
      <th>월</th>
      <th>일</th>
      <th>요일</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>일일(회원)</td>
      <td>M</td>
      <td>AGE_003</td>
      <td>3</td>
      <td>61.82</td>
      <td>0.52</td>
      <td>2230.00</td>
      <td>75</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>일일(회원)</td>
      <td>M</td>
      <td>AGE_004</td>
      <td>1</td>
      <td>39.62</td>
      <td>0.28</td>
      <td>1220.00</td>
      <td>15</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>2</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>정기</td>
      <td>M</td>
      <td>AGE_005</td>
      <td>3</td>
      <td>430.85</td>
      <td>4.01</td>
      <td>17270.00</td>
      <td>53</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>3</th>
      <td>2020-01-20</td>
      <td>5</td>
      <td>상암센터 정비실</td>
      <td>일일(회원)</td>
      <td>\N</td>
      <td>AGE_005</td>
      <td>2</td>
      <td>1.79</td>
      <td>0.02</td>
      <td>90.00</td>
      <td>33</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>4</th>
      <td>2020-01-20</td>
      <td>5</td>
      <td>상암센터 정비실</td>
      <td>정기</td>
      <td>F</td>
      <td>AGE_003</td>
      <td>1</td>
      <td>4501.96</td>
      <td>45.47</td>
      <td>196010.00</td>
      <td>64</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
  </tbody>
</table>
</div>

## pd.cut() - 구간 나누기(binning)

연속된 수치(continuous values)를 **구간으로 나누어 카테고리화** 할 때 사용합니다.

In [58]:
df2.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,이용시간,연도,월,일,요일
0,2020-01-20,3,중랑센터,일일(회원),M,AGE_003,3,61.82,0.52,2230.0,75,2020,1,20,0
1,2020-01-20,3,중랑센터,일일(회원),M,AGE_004,1,39.62,0.28,1220.0,15,2020,1,20,0
2,2020-01-20,3,중랑센터,정기,M,AGE_005,3,430.85,4.01,17270.0,53,2020,1,20,0
3,2020-01-20,5,상암센터 정비실,일일(회원),\N,AGE_005,2,1.79,0.02,90.0,33,2020,1,20,0
4,2020-01-20,5,상암센터 정비실,정기,F,AGE_003,1,4501.96,45.47,196010.0,64,2020,1,20,0


직접 범위 설정을 해줄 수 있습니다.
- `right=False`로 지정시 우측 범위를 포함하지 않습니다.

In [60]:
bins = [0, 6000, 100000, df2['이동거리'].max()]
pd.cut(df2['이동거리'], bins, right=False)

0                   [0.0, 6000.0)
1                   [0.0, 6000.0)
2              [6000.0, 100000.0)
3                   [0.0, 6000.0)
4         [100000.0, 56709052.94)
                   ...           
327226         [6000.0, 100000.0)
327227              [0.0, 6000.0)
327228              [0.0, 6000.0)
327229              [0.0, 6000.0)
327230    [100000.0, 56709052.94)
Name: 이동거리, Length: 327231, dtype: category
Categories (3, interval[float64, left]): [[0.0, 6000.0) < [6000.0, 100000.0) < [100000.0, 56709052.94)]

`labels`를 지정해 줄 수 있으며, 지정한 bins의 개수보다 1 개가 적어야 합니다.

In [61]:
labels = ['적음', '보통', '많음']

In [62]:
pd.cut(df2['이동거리'], bins, labels=labels, right=False)

0         적음
1         적음
2         보통
3         적음
4         많음
          ..
327226    보통
327227    적음
327228    적음
327229    적음
327230    많음
Name: 이동거리, Length: 327231, dtype: category
Categories (3, object): ['적음' < '보통' < '많음']

`pd.cut()`을 활용하여 쉽게 그룹을 나눌 수 있습니다.

In [63]:
df2.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,이용시간,연도,월,일,요일
0,2020-01-20,3,중랑센터,일일(회원),M,AGE_003,3,61.82,0.52,2230.0,75,2020,1,20,0
1,2020-01-20,3,중랑센터,일일(회원),M,AGE_004,1,39.62,0.28,1220.0,15,2020,1,20,0
2,2020-01-20,3,중랑센터,정기,M,AGE_005,3,430.85,4.01,17270.0,53,2020,1,20,0
3,2020-01-20,5,상암센터 정비실,일일(회원),\N,AGE_005,2,1.79,0.02,90.0,33,2020,1,20,0
4,2020-01-20,5,상암센터 정비실,정기,F,AGE_003,1,4501.96,45.47,196010.0,64,2020,1,20,0


`bins` 옵션에 나누고자 하는 **구간의 개수**를 설정합니다.

In [64]:
df2['이동거리_cut'] = pd.cut(df2['이동거리'], bins=3)

In [65]:
df2['이동거리_cut'].value_counts()

(-56709.053, 18903017.647]      327216
(18903017.647, 37806035.293]        12
(37806035.293, 56709052.94]          3
Name: 이동거리_cut, dtype: int64

분포를 보니 첫 구간에 대부분의 데이터가 쏠려 있습니다. 딱봐도 올바르지 않은 방법 같아 보입니다.

`pd.cut()`은 **최소에서 최대 구간을 지정한 bin만큼 동일하게 분할** 하기 때문에 이런 현상이 발생할 수 있습니다.

고르게 분포한 데이터라면 괜찮지만, 튀는 **이상치(outlier)가 있는 경우에는 안 좋은 결과**를 초래 합니다.

## pd.qcut() - 동일한 갯수를 갖도록 구간 분할

`pd.cut()`과 유사하지만, **quantity 즉 데이터의 분포를 최대한 비슷하게 유지**하는 구간을 분할 합니다.

In [66]:
df2['이동거리_qcut'] = pd.qcut(df2['이동거리'], q=3)

In [67]:
df2['이동거리_qcut'].value_counts()

(-0.001, 9030.0]          109095
(60470.0, 56709052.94]    109072
(9030.0, 60470.0]         109064
Name: 이동거리_qcut, dtype: int64

구간도 예쁘게 분할(**균등하게 분할**)이 된 것 처럼 보입니다. 하지만, **간격은 일정하지 않습니다.**

qcut 또한 임의 범위를 조정할 수 있습니다.

In [68]:
qcut_bins = [0, 0.2, 0.8, 1]

In [69]:
pd.qcut(df2['이동거리'], qcut_bins)

0                (-0.001, 3570.0]
1                (-0.001, 3570.0]
2              (3570.0, 125530.0]
3                (-0.001, 3570.0]
4         (125530.0, 56709052.94]
                   ...           
327226         (3570.0, 125530.0]
327227           (-0.001, 3570.0]
327228           (-0.001, 3570.0]
327229           (-0.001, 3570.0]
327230    (125530.0, 56709052.94]
Name: 이동거리, Length: 327231, dtype: category
Categories (3, interval[float64, right]): [(-0.001, 3570.0] < (3570.0, 125530.0] < (125530.0, 56709052.94]]

qcut 역시 label을 지정할 수 있습니다. 마찬가지로 범위 수보다 1개 적게 설정합니다.

In [70]:
qcut_labels = ['적음', '보통', '많음']

In [71]:
pd.qcut(df2['이동거리'], qcut_bins, labels=qcut_labels).value_counts()

보통    196307
적음     65482
많음     65442
Name: 이동거리, dtype: int64

### 연습문제

In [72]:
sample = sns.load_dataset('titanic')
sample.head(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


`age`를 다음과 같은 구간을 가지도록 나누어 주세요

1. 0세 초과 ~ 15세 이하
2. 15세 초과 ~ 30세 이하
3. 30세 초과 ~ 45세 이하
4. 45세 초과 ~ 최대값

나눈 다음 `age_bin` 컬럼을 생성하여 나눈 값을 대입하고 분포를 출력하세요

`cut()` 함수를 활용하세요

In [75]:
# 코드를 입력해 주세요
bins = [0,15,30,45,sample["age"].max()]
pd.cut(sample["age"], bins, right = True).value_counts()

(15.0, 30.0]    326
(30.0, 45.0]    202
(45.0, 80.0]    103
(0.0, 15.0]      83
Name: age, dtype: int64

<p><strong>[출력 결과]</strong></p><pre>(15.0, 30.0]    326
(30.0, 45.0]    202
(45.0, 80.0]    103
(0.0, 15.0]      83
Name: age_bin, dtype: int64</pre>

나이를 **3개의 균등 분할**을 갖도록 구간을 나누고 분포를 출력하세요
- 나이가 어린 그룹부터 차례대로 'young', 'normal', 'old' 라벨을 부여하세요

`qcut()` 함수를 활용하세요

In [78]:
# 코드를 입력해 주세요
labels = ["young", "old","normal"]
pd.qcut(sample["age"],q = 3, labels = labels).value_counts()


young     246
normal    236
old       232
Name: age, dtype: int64

<p><strong>[출력 결과]</strong></p><pre>young     246
old       236
normal    232
Name: age_qbin, dtype: int64</pre>