In [1]:
import numpy as np
import pandas as pd 
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

In [2]:
tips =pd.read_csv('../dataset/tips.csv')
tips.head(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0


### DataFrame - 누락데이타 처리하기

    누락데이타 값 삭제하기 - dropna()
    
    데이터를 보면 값이 없는 경우가 있다. 
    이런 경우 missing value 가 있다고 한다.
    데이타 분석을 본격적으로 하기 전에 Missing value 처리 전략을 세우는 것은
    데이타 전처리 과정에서 매우 중요하다.  
    데이타를 받으면 비어있는 값들이 어떻게 분포되어 있는지를 반드시 확인해야 한다.  
    NaN데이터가 1만개 중 10개정도인 것처럼 거의 없을 경우, NaN데이터를 그냥 Drop시킨다.
    그렇지 않고 어느정도 결측값 비율이 있는데 드랍시킬경우, 성능에 문제가 생긴다.
    
    대표적인 처리전략
    1) 데이터가 거의 없는 feature 는 feature 자체를 DROP
    2) 데이터의 최소 개수를 정해서 DROP
    3) 최빈값, 평균값, 0 등의 값으로 비어있는 데이터를 채우기
    
    판다스는 누락된 데이타를 모두 NaN으로 처리한다.
    판다스 객체의 모든 통계는 누락된 데이타를 배제하고 처리한다
    
    누락데이타와 관련된 기능
    dropna() : na이 하나라도 있는 로우는 모두 DROP
    dropna(how='all') :모든 값이 na인것만 DROP
    dropna(how='any') : 누락 데이터가 한개라도 있으면 DROP 해라 
    fillna() :누락된 데이타 값을 다른 값으로 채움
    isnull() or isna() : 누락되거나 NA인 값을 알려줌
    notnull() :isnull()과 반대

### 1. NaN 값 확인하기

`step1`

In [3]:
'''
누락데이터에 대한 전략을 세우기 앞서서
일단 누락데이터가 얼마정도 있는지 컬럼 확인부터 해보자

누락데이터가 눈에 잘 안들어온다.
직관적이지 않다.
'''

tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  245 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    float64
dtypes: float64(3), object(4)
memory usage: 13.5+ KB


`step2`

In [4]:
'''
누락데이터는 True로 표시되고 이 값들은 비어져있다는 의미이다.
'''
tips.isnull()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
240,False,False,False,False,False,False,False
241,False,False,False,False,False,False,False
242,False,False,False,False,False,False,False
243,False,False,False,False,False,False,False


`step3`

In [5]:
# df.isnull().sum()을 하면 '각 컬럼별'로 누락데이터가 몇개인지 바로 확인
# 이걸 가지고 확인하는 것이 가장 빠름!!
tips.isnull().sum()
tips.isna().sum()

total_bill    0
tip           1
sex           1
smoker        1
day           1
time          1
size          1
dtype: int64

`step4`

In [6]:
x = tips.isna().sum()

In [7]:
# 각 컬럼별 누락데이터 :: tips.isna().sum()
# 전체 누락 데이터의 갯수 :: tips.isna().sum()sum()
sum(x)

6

In [8]:
'''
하다보면, 도대체 해당 데이터프레임의 데이터가 어떻게 비워져 있는지 직접 확인
조건 필터링 사용하면 된다.
tip 컬럼의 누락데이터가 어떻게 들어가있는지 직접 확인
'''
condition = (tips['tip'].isnull())

tips.loc[condition]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,,,,,,


### 2. NaN값 채우기

* fillna(채울값)


In [9]:
tc = tips.copy()
tc.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
240,27.18,2.0,Female,Yes,Sat,Dinner,2.0
241,22.67,2.0,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.0,Female,No,Thur,Dinner,2.0
244,25.34,,,,,,


In [10]:
tc['tip'].fillna(99)

0       1.01
1       1.66
2       3.50
3       3.31
4       3.61
       ...  
240     2.00
241     2.00
242     1.75
243     3.00
244    99.00
Name: tip, Length: 245, dtype: float64

In [11]:
# 원본데이터 적용 안됨.
tc.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
240,27.18,2.0,Female,Yes,Sat,Dinner,2.0
241,22.67,2.0,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.0,Female,No,Thur,Dinner,2.0
244,25.34,,,,,,


In [12]:
tc.fillna(99, inplace = True)
tc.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
240,27.18,2.0,Female,Yes,Sat,Dinner,2.0
241,22.67,2.0,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.0,Female,No,Thur,Dinner,2.0
244,25.34,99.0,99,99,99,99,99.0


fillna 는 위에서 살펴본 것처럼   
재대입 방식과 inplace 옵션 사용하는 방식이 있는데  
판다스 커뮤니티에서는 첫번째를 권장한다  
실수를 할수도 있기 때문이다.  

한번 더 확인하고 넣어주는걸 더 선호한다.

### 3.  NaN값 채우기

* 평균값으로 채워주기
* 중앙값으로 채워주기

In [13]:
tc2 = tips.copy()
tc2.tail(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,,,,,,


In [14]:
mean = tc2['tip'].mean()
mean

2.9982786885245902

In [15]:
# 위의 평균값으로 nan값을 챙누다.

tc2['tip'].fillna(mean, inplace = True)

In [16]:
tc2.tail(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,2.998279,,,,,


In [17]:
tc2['tip'].median()

2.92

In [18]:
tc2['size'].mean()

2.569672131147541

In [19]:
tc2['size'].median()

2.0

### 4.  NaN값 제거하기

* dropna
* how 옵션
> any : 1개라도 NaN값이 존재하면 drop  
> all : 모두 NaN값이 존재하면 drop

* 기본 옵션값은 how=any

In [20]:
tc3 = tips.copy()
tc3.tail(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,,,,,,


In [21]:
# how의 디폴트 값은 any이다.
tc3.dropna()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0
1,10.34,1.66,Male,No,Sun,Dinner,3.0
2,21.01,3.50,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3.0
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0


In [22]:
tc3.tail(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,,,,,,


In [23]:
tc3.dropna(how = 'any')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0
1,10.34,1.66,Male,No,Sun,Dinner,3.0
2,21.01,3.50,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3.0
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0


In [24]:
tc3.tail(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
244,25.34,,,,,,


In [25]:
# 모든 값이이 누락데이터인 행은 없어서 드랍이 되지 않는다.
tc3.dropna(how = 'all')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0
1,10.34,1.66,Male,No,Sun,Dinner,3.0
2,21.01,3.50,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.00,Female,No,Thur,Dinner,2.0


#### 연습문제 1.

아래 조건에 따라서 데이타를 처리합니다. 
1. Sun(일요일) 에 식사한 사람들
2. 그리고 (and) total_bill 이 20달러 이상 지불한 사람}
3. 1,2를 조건 필터링 한 후,
4. vip열을 새롭게 만들어서 True, 그렇지 않은 사람들은 False로 입력합니다.

In [26]:
tc4 = tips.copy()

In [27]:
condition = (tips['day'] == 'Sun') 

In [28]:
condition2 = (tips['total_bill'] >= 20.0) 

In [29]:
tc4.loc[condition & condition2, :]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
2,21.01,3.5,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
5,25.29,4.71,Male,No,Sun,Dinner,4.0
7,26.88,3.12,Male,No,Sun,Dinner,4.0
11,35.26,5.0,Female,No,Sun,Dinner,4.0
15,21.58,3.92,Male,No,Sun,Dinner,2.0
44,30.4,5.6,Male,No,Sun,Dinner,4.0
46,22.23,5.0,Male,No,Sun,Dinner,2.0
47,32.4,6.0,Male,No,Sun,Dinner,4.0


In [30]:
tc4.loc[:,'vip'] = condition & condition2
tc4

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,vip
0,16.99,1.01,Female,No,Sun,Dinner,2.0,False
1,10.34,1.66,Male,No,Sun,Dinner,3.0,False
2,21.01,3.50,Male,No,Sun,Dinner,3.0,True
3,23.68,3.31,Male,No,Sun,Dinner,2.0,True
4,24.59,3.61,Female,No,Sun,Dinner,4.0,True
...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,False
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,False
242,17.82,1.75,Male,No,Sat,Dinner,2.0,False
243,18.78,3.00,Female,No,Thur,Dinner,2.0,False


### 5.  DataFrame - 데이타 삭제하기

삭제는 행(row)삭제와 열(column)삭제로 구분한다

* 행삭제  
> 특정한 index 지정해서 삭제  
> index 범위를 지정해서 삭제

* 열삭제  
> axis=1 옵션을 반드시 지정  
> 다수의 컬럼도 삭제 가능  

삭제된 내용을 바로 적용하려면 inplace옵션 지정



#### 행(row) 삭제하기

In [31]:
tc4.drop(0) #0은 인덱스 행방향 삭제이다. 디폴트가 axis = 0이라는 것을 알 수 있다.

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,vip
1,10.34,1.66,Male,No,Sun,Dinner,3.0,False
2,21.01,3.50,Male,No,Sun,Dinner,3.0,True
3,23.68,3.31,Male,No,Sun,Dinner,2.0,True
4,24.59,3.61,Female,No,Sun,Dinner,4.0,True
5,25.29,4.71,Male,No,Sun,Dinner,4.0,True
...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,False
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,False
242,17.82,1.75,Male,No,Sat,Dinner,2.0,False
243,18.78,3.00,Female,No,Thur,Dinner,2.0,False


In [32]:
# tc4.drop[1 : 6] 에러난다... 행의 슬라이싱의 부적절한 문법

In [33]:

# tc4.drop(labels = range(1, 6))
tc4.drop(tc4.index[1: 6])  # ==> 행 슬라이싱 참고 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,vip
0,16.99,1.01,Female,No,Sun,Dinner,2.0,False
6,8.77,2.00,Male,No,Sun,Dinner,2.0,False
7,26.88,3.12,Male,No,Sun,Dinner,4.0,True
8,15.04,1.96,Male,No,Sun,Dinner,2.0,False
9,14.78,3.23,Male,No,Sun,Dinner,2.0,False
...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,False
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,False
242,17.82,1.75,Male,No,Sat,Dinner,2.0,False
243,18.78,3.00,Female,No,Thur,Dinner,2.0,False


#### 열(column) 삭제하기

In [34]:
tc4['age'] = 0
tc4

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,vip,age
0,16.99,1.01,Female,No,Sun,Dinner,2.0,False,0
1,10.34,1.66,Male,No,Sun,Dinner,3.0,False,0
2,21.01,3.50,Male,No,Sun,Dinner,3.0,True,0
3,23.68,3.31,Male,No,Sun,Dinner,2.0,True,0
4,24.59,3.61,Female,No,Sun,Dinner,4.0,True,0
...,...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,False,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,False,0
242,17.82,1.75,Male,No,Sat,Dinner,2.0,False,0
243,18.78,3.00,Female,No,Thur,Dinner,2.0,False,0


In [35]:
tc4.drop('vip', axis = 1)

# 원본적용 안됨

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,age
0,16.99,1.01,Female,No,Sun,Dinner,2.0,0
1,10.34,1.66,Male,No,Sun,Dinner,3.0,0
2,21.01,3.50,Male,No,Sun,Dinner,3.0,0
3,23.68,3.31,Male,No,Sun,Dinner,2.0,0
4,24.59,3.61,Female,No,Sun,Dinner,4.0,0
...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,0
242,17.82,1.75,Male,No,Sat,Dinner,2.0,0
243,18.78,3.00,Female,No,Thur,Dinner,2.0,0


In [36]:
tc4.drop(['vip', 'age'], axis = 1, inplace = True)

In [37]:
tc4

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0
1,10.34,1.66,Male,No,Sun,Dinner,3.0
2,21.01,3.50,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.00,Female,No,Thur,Dinner,2.0


### 6. 통계 함수
* count
* sum
* skipna
* mean
* describe

In [38]:
tc5 = tips.copy()
tc5.describe()

Unnamed: 0,total_bill,tip,size
count,245.0,244.0,244.0
mean,19.808612,2.998279,2.569672
std,8.891234,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.37,2.0,2.0
50%,17.81,2.9,2.0
75%,24.27,3.5625,3.0
max,50.81,10.0,6.0


In [39]:
# 누락데이터는 건너 뛴다.
tc5.count()

total_bill    245
tip           244
sex           244
smoker        244
day           244
time          244
size          244
dtype: int64

In [40]:
# 모든 손님들이 줬던 팁의 총 합
tc5['tip'].sum()

# 소수점 이하 2번째 자리까지 표시 == 소수점 3번째 자리에서 반올림이 진행된다.
round(tc5['tip'].sum(), 2)

731.58

In [41]:
#여러 열의 통계함수 적용할 때는 2차원으로 만들어줘야 한다.
tc5[['total_bill','tip']].sum()

total_bill    4853.11
tip            731.58
dtype: float64

#### skipna

기술 통계함수에서는 skipna = True 가 기본으로 설정  
skip = False로 설정한다면,  
NaN값이 있는 컬럼은 NaN값으로 그대로 출력된다.

In [42]:
tc5.sum(skipna = True) # 디폴트값

  tc5.sum(skipna = True) # 디폴트값


total_bill    4853.11
tip            731.58
size           627.00
dtype: float64

In [43]:
tc5.sum(skipna = False) 

  tc5.sum(skipna = False)


total_bill    4853.11
tip               NaN
size              NaN
dtype: float64

In [44]:
tc5.mean()

  tc5.mean()


total_bill    19.808612
tip            2.998279
size           2.569672
dtype: float64

In [45]:
tc5.mean(skipna = False)

  tc5.mean(skipna = False)


total_bill    19.808612
tip                 NaN
size                NaN
dtype: float64

In [46]:
tc5['tip'].cumsum()

0        1.01
1        2.67
2        6.17
3        9.48
4       13.09
        ...  
240    724.83
241    726.83
242    728.58
243    731.58
244       NaN
Name: tip, Length: 245, dtype: float64

In [47]:
tc5['tip'].sum()

731.5799999999999

In [48]:
tc5['tip'].var()

1.9144546380624725

In [49]:
tc5['tip'].std()

1.3836381890011826

#### 연습문제 2

Sat(토요일) 방문한 누적 식사 인원(size)의 숫자는?

In [50]:
cond1 = (tc5['day'] == 'Sat')
tc5.loc[cond1, 'size'].cumsum()

19       3.0
20       5.0
21       7.0
22       9.0
23      13.0
       ...  
238    210.0
239    213.0
240    215.0
241    217.0
242    219.0
Name: size, Length: 87, dtype: float64

In [51]:
tc5.loc[cond1, 'size'].sum()

219.0

### 7. 날짜, 시간   datetime

- date_range() 함수 사용으로 생성
> start(시작날짜) | end (끝나는 날짜) | periods(생성할 데이타 갯수) | freq(주기)  

- datetime64라는 데이타 타입으로 지정됨

- datetime 타입은 dt접근자로 아래와 같은 날짜 속성에 쉽게 접근 가능하다. 

**Pandas의 dt(datetime) 날짜 관련 변수**  

* pandas.Series.dt.year: 연도
* pandas.Series.dt.month: 월
* pandas.Series.dt.day: 일
* pandas.Series.dt.dayofweek :요일(월요일 0)
* pandas.Series.dt.hour: 시
* pandas.Series.dt.minute: 분
* pandas.Series.dt.second: 초
* pandas.Series.dt.microsecond: 마이크로초(micro seconds, 백만분의 일초)


In [53]:
tips.shape[0]

245

In [54]:
dates = pd.date_range('20200101', periods=tips.shape[0])
dates

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-08-23', '2020-08-24', '2020-08-25', '2020-08-26',
               '2020-08-27', '2020-08-28', '2020-08-29', '2020-08-30',
               '2020-08-31', '2020-09-01'],
              dtype='datetime64[ns]', length=245, freq='D')

In [55]:
dc = tips.copy()
dc.head(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0


In [58]:
dc['date'] = dates
dc.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date
240,27.18,2.0,Female,Yes,Sat,Dinner,2.0,2020-08-28
241,22.67,2.0,Male,Yes,Sat,Dinner,2.0,2020-08-29
242,17.82,1.75,Male,No,Sat,Dinner,2.0,2020-08-30
243,18.78,3.0,Female,No,Thur,Dinner,2.0,2020-08-31
244,25.34,,,,,,,2020-09-01


In [60]:
dc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   total_bill  245 non-null    float64       
 1   tip         244 non-null    float64       
 2   sex         244 non-null    object        
 3   smoker      244 non-null    object        
 4   day         244 non-null    object        
 5   time        244 non-null    object        
 6   size        244 non-null    float64       
 7   date        245 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 15.4+ KB


In [63]:
#년 월 일로 잘라서 구분하기
dc['date'].dt.year.head()

0    2020
1    2020
2    2020
3    2020
4    2020
Name: date, dtype: int64

In [65]:
dc['date'].dt.month.head()

0    1
1    1
2    1
3    1
4    1
Name: date, dtype: int64

In [66]:
dc['date'].dt.day.head()

0    1
1    2
2    3
3    4
4    5
Name: date, dtype: int64

#### 월요일 0, 일요일 6

In [69]:
dc['date'].dt.dayofweek.head(10)
#0 부터 월요알

0    2
1    3
2    4
3    5
4    6
5    0
6    1
7    2
8    3
9    4
Name: date, dtype: int64

In [70]:
# quarter 분기를 나타냄, 1, 2, 3, 4분기
dc['date'].dt.quarter

0      1
1      1
2      1
3      1
4      1
      ..
240    3
241    3
242    3
243    3
244    3
Name: date, Length: 245, dtype: int64

In [74]:
dc['분기'] = dc['date'].dt.quarter
dc

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date,분기
0,16.99,1.01,Female,No,Sun,Dinner,2.0,2020-01-01,1
1,10.34,1.66,Male,No,Sun,Dinner,3.0,2020-01-02,1
2,21.01,3.50,Male,No,Sun,Dinner,3.0,2020-01-03,1
3,23.68,3.31,Male,No,Sun,Dinner,2.0,2020-01-04,1
4,24.59,3.61,Female,No,Sun,Dinner,4.0,2020-01-05,1
...,...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,2020-08-28,3
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,2020-08-29,3
242,17.82,1.75,Male,No,Sat,Dinner,2.0,2020-08-30,3
243,18.78,3.00,Female,No,Thur,Dinner,2.0,2020-08-31,3


In [76]:
dc['연도'] = dc['date'].dt.year
dc

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date,분기,연도
0,16.99,1.01,Female,No,Sun,Dinner,2.0,2020-01-01,1,2020
1,10.34,1.66,Male,No,Sun,Dinner,3.0,2020-01-02,1,2020
2,21.01,3.50,Male,No,Sun,Dinner,3.0,2020-01-03,1,2020
3,23.68,3.31,Male,No,Sun,Dinner,2.0,2020-01-04,1,2020
4,24.59,3.61,Female,No,Sun,Dinner,4.0,2020-01-05,1,2020
...,...,...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,2020-08-28,3,2020
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,2020-08-29,3,2020
242,17.82,1.75,Male,No,Sat,Dinner,2.0,2020-08-30,3,2020
243,18.78,3.00,Female,No,Thur,Dinner,2.0,2020-08-31,3,2020


In [77]:
dc['월'] = dc['date'].dt.month
dc

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date,분기,연도,월
0,16.99,1.01,Female,No,Sun,Dinner,2.0,2020-01-01,1,2020,1
1,10.34,1.66,Male,No,Sun,Dinner,3.0,2020-01-02,1,2020,1
2,21.01,3.50,Male,No,Sun,Dinner,3.0,2020-01-03,1,2020,1
3,23.68,3.31,Male,No,Sun,Dinner,2.0,2020-01-04,1,2020,1
4,24.59,3.61,Female,No,Sun,Dinner,4.0,2020-01-05,1,2020,1
...,...,...,...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,2020-08-28,3,2020,8
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,2020-08-29,3,2020,8
242,17.82,1.75,Male,No,Sat,Dinner,2.0,2020-08-30,3,2020,8
243,18.78,3.00,Female,No,Thur,Dinner,2.0,2020-08-31,3,2020,8


In [78]:
dc['일'] = dc['date'].dt.day
dc

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date,분기,연도,월,일
0,16.99,1.01,Female,No,Sun,Dinner,2.0,2020-01-01,1,2020,1,1
1,10.34,1.66,Male,No,Sun,Dinner,3.0,2020-01-02,1,2020,1,2
2,21.01,3.50,Male,No,Sun,Dinner,3.0,2020-01-03,1,2020,1,3
3,23.68,3.31,Male,No,Sun,Dinner,2.0,2020-01-04,1,2020,1,4
4,24.59,3.61,Female,No,Sun,Dinner,4.0,2020-01-05,1,2020,1,5
...,...,...,...,...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,2020-08-28,3,2020,8,28
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,2020-08-29,3,2020,8,29
242,17.82,1.75,Male,No,Sat,Dinner,2.0,2020-08-30,3,2020,8,30
243,18.78,3.00,Female,No,Thur,Dinner,2.0,2020-08-31,3,2020,8,31


#### to_datetime()

날짜 관련처럼 보이지만 실제로 object로 인식되는 컬럼들이 많다.  
이런 컬럼들은 다시 날짜 타입으로 변경해야 한는데  
그런 경우to_datetime() 함수로 바꿔준다.

바꾸고 나서 나머지 사용법은 동일하다

In [None]:
dc['date'] = pd.to_datetime(dc['date'])

In [80]:
dc.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,date,분기,연도,월,일
0,16.99,1.01,Female,No,Sun,Dinner,2.0,2020-01-01,1,2020,1,1
1,10.34,1.66,Male,No,Sun,Dinner,3.0,2020-01-02,1,2020,1,2
2,21.01,3.5,Male,No,Sun,Dinner,3.0,2020-01-03,1,2020,1,3
3,23.68,3.31,Male,No,Sun,Dinner,2.0,2020-01-04,1,2020,1,4
4,24.59,3.61,Female,No,Sun,Dinner,4.0,2020-01-05,1,2020,1,5


### 8. apply 함수 사용법

In [82]:
tc6 = tips.copy()
tc6.head(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0


In [89]:
'''
day가 sun,ast일 때는 주말로 구분하고 싶다.
그렇지 않을 때는 평일로 구분하고 싶다.

0 = 월요일
'''

def weekend(x):
    w = ['Sat', 'Sun']
    if (x in w):
        return '주말'
    else :
        return '평일'

`step 1`

In [90]:
# 함수 적용 후 apply
tc6['주말'] = tc6['day'].apply(weekend)
tc6.head

<bound method NDFrame.head of      total_bill   tip     sex smoker   day    time  size  주말
0         16.99  1.01  Female     No   Sun  Dinner   2.0  주말
1         10.34  1.66    Male     No   Sun  Dinner   3.0  주말
2         21.01  3.50    Male     No   Sun  Dinner   3.0  주말
3         23.68  3.31    Male     No   Sun  Dinner   2.0  주말
4         24.59  3.61  Female     No   Sun  Dinner   4.0  주말
..          ...   ...     ...    ...   ...     ...   ...  ..
240       27.18  2.00  Female    Yes   Sat  Dinner   2.0  주말
241       22.67  2.00    Male    Yes   Sat  Dinner   2.0  주말
242       17.82  1.75    Male     No   Sat  Dinner   2.0  주말
243       18.78  3.00  Female     No  Thur  Dinner   2.0  평일
244       25.34   NaN     NaN    NaN   NaN     NaN   NaN  평일

[245 rows x 8 columns]>

`람다 안에서 바로 조건문 사용 --> 결과 리턴`

In [91]:
# apply 함수를 람다기법과 함께 사용
tc6['sex'].apply(lambda x : '남자' if x == 'Male' else '여자')

0      여자
1      남자
2      남자
3      남자
4      여자
       ..
240    여자
241    남자
242    남자
243    여자
244    여자
Name: sex, Length: 245, dtype: object

In [94]:
# 인당 음식 비용

def get_person_bill(x):
    return x['total_bill'] / x['size']

In [102]:
#데이터프레임에 apply 적용

# total_bill과 size를 이용해서 값을 내기 때문에 axis = 1을 해줘야 한다.
tc6.apply(get_person_bill, 1)


0       8.495000
1       3.446667
2       7.003333
3      11.840000
4       6.147500
         ...    
240    13.590000
241    11.335000
242     8.910000
243     9.390000
244          NaN
Length: 245, dtype: float64

### 연습문제 1

total_bill에 VAT(부과세 음식값의 10%) 포함된 값 계산을 apply 함수로 구현하세요  
 
tips copy한 tc7을 만들어서 합니다.  
함수 이름은 applyVAT  
최종적으로 VAT포함 컬럼이 생성되어 해당 로직의 값이 들어갑니다

In [103]:
tc7 = tips.copy()
tc7.head(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0


In [106]:
def applyVAT(x):
    return 1.1 * x['total_bill']
tc7['VAT포함'] = tc7.apply(applyVAT, 1)
tc7

In [108]:
tc7['VAT포함'] = tc7.apply(applyVAT, 1)

In [109]:
tc7

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,VAT포함
0,16.99,1.01,Female,No,Sun,Dinner,2.0,18.689
1,10.34,1.66,Male,No,Sun,Dinner,3.0,11.374
2,21.01,3.50,Male,No,Sun,Dinner,3.0,23.111
3,23.68,3.31,Male,No,Sun,Dinner,2.0,26.048
4,24.59,3.61,Female,No,Sun,Dinner,4.0,27.049
...,...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0,29.898
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0,24.937
242,17.82,1.75,Male,No,Sat,Dinner,2.0,19.602
243,18.78,3.00,Female,No,Thur,Dinner,2.0,20.658
