## section15 내장 함수

In [1]:
import pandas as pd

df = pd.read_csv('./data/cafe4.csv')
df.head(2)

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
0,아메리카노,4500,10,콜롬비아,
1,카페라떼,5000,110,코스타리카,1000.0


### 01. len()

In [2]:
print(len(df))
print(df.shape[0])

8
8


### 02. sum()

In [3]:
cond = df['가격'] > 5000

# sum 으로 조건에 맞는 개수 구하기
print(sum(cond))

# len 으로 조건에 맞는 개수 구하기
print(len(df[cond]))

4
4


In [6]:
df.sum(numeric_only = True)

가격      40900.0
칼로리       990.0
이벤트가     2000.0
dtype: float64

In [7]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7
메뉴,아메리카노,카페라떼,카페모카,카푸치노,에스프레소,밀크티,녹차,딸기라떼
가격,4500,5000,5500,5000,4000,5900,5300,5700
칼로리,10,110,250,110,20,210,0,280
원산지,콜롬비아,코스타리카,과테말라,과테말라,코스타리카,코스타리카,대한민국,코스타리카
이벤트가,,1000.0,1000.0,,,,,


In [9]:
df.sum(axis = 1, numeric_only = True)

0    4510.0
1    6110.0
2    6750.0
3    5110.0
4    4020.0
5    6110.0
6    5300.0
7    5980.0
dtype: float64

### 03. max(), min(), mean(), median(), sum(), std(), var()

In [10]:
print('최대값: ', df['가격'].max())
print('최소값: ', df['가격'].min())
print('평균값: ', df['가격'].mean())
print('중앙값: ', df['가격'].median())
print('합계: ', df['가격'].sum())
print('표준편차: ', df['가격'].std())
print('분산: ', df['가격'].var())

최대값:  5900
최소값:  4000
평균값:  5112.5
중앙값:  5150.0
합계:  40900
표준편차:  631.1836952447815
분산:  398392.85714285716


### 04. quantile()

In [11]:
print('분위수 25% 값 : ', df['가격'].quantile(0.25))
print('분위수 75% 값 : ', df['가격'].quantile(.75))

분위수 25% 값 :  4875.0
분위수 75% 값 :  5550.0


In [12]:
cond = df['가격'].quantile(.25) > df['가격']
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
0,아메리카노,4500,10,콜롬비아,
4,에스프레소,4000,20,코스타리카,


In [13]:
cond = df['가격'].quantile(.75) < df['가격']
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
5,밀크티,5900,210,코스타리카,
7,딸기라떼,5700,280,코스타리카,


### 05. mode()

In [14]:
df['원산지'].mode()[0]

'코스타리카'

### 06. idxmax()와 idxmin()

In [15]:
df['가격'].idxmax()

5

In [17]:
max_ind = df['가격'].idxmax()
df.loc[max_ind]

메뉴        밀크티
가격       5900
칼로리       210
원산지     코스타리카
이벤트가      NaN
Name: 5, dtype: object

In [19]:
print(df.loc[max_ind, '메뉴'])
print(df.loc[max_ind]['메뉴'])

밀크티
밀크티


### 07. nlargest()와 nsmallest()

In [20]:
df.nlargest(3, '가격')

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
5,밀크티,5900,210,코스타리카,
7,딸기라떼,5700,280,코스타리카,
2,카페모카,5500,250,과테말라,1000.0


In [21]:
df.nsmallest(2, '가격')

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
4,에스프레소,4000,20,코스타리카,
0,아메리카노,4500,10,콜롬비아,


### 08. apply()

In [28]:
# 입력값이 100보다 크거나 같으면 No, 작으면 Yes 반환하는 함수
def cal(x) :
    if x >= 100 :
        return 'No'
    else :
        return 'Yes'

# apply(적용할 함수명)으로 '칼로리' 컬럼의 각 데이터를 cal()의 입력값으로 넣고
# 각 결과값을 새로운 컬럼에 대입
df['먹말?'] = df['칼로리'].apply(cal)
df

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가,먹말?
0,아메리카노,4500,10,콜롬비아,,Yes
1,카페라떼,5000,110,코스타리카,1000.0,No
2,카페모카,5500,250,과테말라,1000.0,No
3,카푸치노,5000,110,과테말라,,No
4,에스프레소,4000,20,코스타리카,,Yes
5,밀크티,5900,210,코스타리카,,No
6,녹차,5300,0,대한민국,,Yes
7,딸기라떼,5700,280,코스타리카,,No


### 09. melt()

In [29]:
df = pd.DataFrame({
    'Name' : {0:'최승철', 1:'윤정한', 2:'홍지수'},
    '수학' : {0:90, 1:92, 2:85},
    '영어' : {0:92, 1:84, 2:86},
    '국어' : {0:91, 1:94, 2:83}
})
df

Unnamed: 0,Name,수학,영어,국어
0,최승철,90,92,91
1,윤정한,92,84,94
2,홍지수,85,86,83


In [32]:
pd.melt(df, id_vars=['Name'])

Unnamed: 0,Name,variable,value
0,최승철,수학,90
1,윤정한,수학,92
2,홍지수,수학,85
3,최승철,영어,92
4,윤정한,영어,84
5,홍지수,영어,86
6,최승철,국어,91
7,윤정한,국어,94
8,홍지수,국어,83


In [34]:
pd.melt(df, id_vars=['Name'], value_vars=['수학', '영어'])

Unnamed: 0,Name,variable,value
0,최승철,수학,90
1,윤정한,수학,92
2,홍지수,수학,85
3,최승철,영어,92
4,윤정한,영어,84
5,홍지수,영어,86
