# 데이터 핸들링 2
### 목차
1. 데이터 불러오기/만들기
2. 데이터 삭제
3. 결측치 처리
4. 정렬
5. 자료형 변환
6. 데이터 탐색
7. 내장함수
8. 그룹핑
9. apply함수

### 학습목표
- 결측치를 처리할 수 있다.
- 자료형을 변환할 수 있다.
- apply함수를 통해 새로운 컬럼을 만들 수 있다.

# 1. 데이터 불러오기/만들기

In [42]:
import pandas as pd 
import numpy as np
df = pd.DataFrame({
    'Unnamed: 0': [0,1,2,3,4,5,6,'new',10],
    '메뉴': ['황금후라이드','승일양념치킨','간장치킨','마늘치킨','파닭','닭강정','양념반후라이드반','[인기]아이펠치킨','[베스트]풀잎치킨'],
    '가격': [12000,13000,14000,14000,14000,15000,13000,16000,9900],
    '호수' : ['11호','10호','9호','9호','11호','12호','10호','11호','10호'],
    '칼로리' : [1000.0,1400.0,1600.0,1800.0,1300.0,1500.0,1300.0,1200.0,np.nan],
    '할인율' : [0.2,0.2,0.2,0.2,0.2,0.2,0.2,0.5,np.nan],
    '할인가' : [9600.0,10400.0,11200.0,11200.0,11200.0,12000.0,10400.0,8000.0,np.nan],
    '원산지' : ['국내산',np.nan,np.nan,np.nan,'브라질','브라질',np.nan,'국내산',np.nan]
})
df.to_csv('new_modudak.csv', index=False)
df

Unnamed: 0.1,Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,new,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,10,[베스트]풀잎치킨,9900,10호,,,,


In [43]:
# 데이터 불러오기 (인덱스 값 지정 index_col)
pd.read_csv('new_modudak.csv', index_col = 'Unnamed: 0')

Unnamed: 0_level_0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
new,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
10,[베스트]풀잎치킨,9900,10호,,,,


## 데이터 삭제
### 컬럼 삭제

In [44]:
# [Tip] 데이터 프레임 복사 - 사본 만드는 방법!
# df의 사본을 만들고 이름을 data로 지정하기.
data = df.copy()
data

Unnamed: 0.1,Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,new,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,10,[베스트]풀잎치킨,9900,10호,,,,


In [45]:
# 데이터 삭제 (컬럼(열): Unnamed: 0) drop(axis = 1)
# 열방향(컬럼) 삭제 : axis=1 / 행방향 삭제 : axis=0
data = data.drop('Unnamed: 0', axis=1)
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


In [46]:
# 데이터 삭제 (컬럼(열): Unnamed: 0) drop(columns=[])
# columns에 여러 컬럼 넣으면 여러 개 삭제 가능
data = df.copy()
data = data.drop(columns=['Unnamed: 0'])
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


In [47]:
# 데이터 복사(data -> df)
df = data.copy()
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


### 행 삭제

In [48]:
# 행 삭제 (파닭)
data = data.drop(4, axis=0)
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


In [49]:
# 행 삭제 (양념반후라이드반) inplace=True
# -> 변수에 대입 없이 할 수 있는 방법임.
data.drop(6, axis=0, inplace=True)
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


In [50]:
# 행 삭제 (조건: 가격 >= 14000)
cond = data['가격'] >= 14000
data[cond].index

Index([2, 3, 5, 7], dtype='int64')

In [51]:
# 행 삭제 (해당 인덱스 명)
# 이전에 이미 삭제되었기 때문에 주피터 메뉴에서 cell -> run all above으로 이전 셀들 실행해준 뒤 실행해주기
data.drop(data[cond].index, axis=0, inplace=True)
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
8,[베스트]풀잎치킨,9900,10호,,,,


## 결측치 처리
### 결측치 삭제

In [52]:
# 데이터프레임 복사
data = df.copy()
data

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,
2,간장치킨,14000,9호,1600.0,0.2,11200.0,
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,


In [53]:
# 결측치가 있는 행 모두 삭제
data.dropna(axis=0)

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산


## 결측치 채우기

In [54]:
# 컬럼별 결측치 확인
df.isnull()
df.isnull().sum()

메뉴     0
가격     0
호수     0
칼로리    1
할인율    1
할인가    1
원산지    5
dtype: int64

In [55]:
# 결측값 채우기
# 원산지 -> '알수없음'으로 채우기
df['원산지'].fillna('알수없음')

0     국내산
1    알수없음
2    알수없음
3    알수없음
4     브라질
5     브라질
6    알수없음
7     국내산
8    알수없음
Name: 원산지, dtype: object

In [56]:
# 원산지 최빈값으로 채우기
df['원산지'].fillna('국내산')

0    국내산
1    국내산
2    국내산
3    국내산
4    브라질
5    브라질
6    국내산
7    국내산
8    국내산
Name: 원산지, dtype: object

In [57]:
# 원산지 채우기 실행
df['원산지'] = df['원산지'].fillna('국내산')
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,,,,국내산


In [58]:
# '칼로리'컬럼 결측치는 900으로 결측치 채움
df['칼로리'].fillna(900)

0    1000.0
1    1400.0
2    1600.0
3    1800.0
4    1300.0
5    1500.0
6    1300.0
7    1200.0
8     900.0
Name: 칼로리, dtype: float64

In [59]:
# '칼로리'컬럼 결측치는 최소값 결측치 채움
df['칼로리'].fillna(df['칼로리'].min())

0    1000.0
1    1400.0
2    1600.0
3    1800.0
4    1300.0
5    1500.0
6    1300.0
7    1200.0
8    1000.0
Name: 칼로리, dtype: float64

In [60]:
# 칼로리 채우기 실행
df['칼로리'] = df['칼로리'].fillna(df['칼로리'].min())
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


## 정렬

In [61]:
# 데이터 확인
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


In [62]:
# 인덱스 기준 (기본값 ascending = True)
# ascending = False로 하면 내림차순으로 정렬됨. (True는 오름차순)
df.sort_index()

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


In [63]:
# 값 기준 (기본값 ascendint = True)
# 메뉴 기준 정렬
df.sort_values('가격')

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산


In [64]:
# 가격과 메뉴 기준 정렬
df.sort_values(['가격', '원산지'], ascending=[False, True])

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


In [65]:
# 기존의 인덱스 삭제하기 drop=True
df = df.reset_index(drop=True)
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


## 자료형 변환

In [66]:
# 데이터 확인
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11호,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10호,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9호,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9호,1800.0,0.2,11200.0,국내산
4,파닭,14000,11호,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12호,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10호,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11호,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10호,1000.0,,,국내산


In [67]:
# type 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      9 non-null      object 
 1   가격      9 non-null      int64  
 2   호수      9 non-null      object 
 3   칼로리     9 non-null      float64
 4   할인율     8 non-null      float64
 5   할인가     8 non-null      float64
 6   원산지     9 non-null      object 
dtypes: float64(3), int64(1), object(3)
memory usage: 636.0+ bytes


In [68]:
# 호 단어 삭제(str, replace 활용)
df['호수'] = df['호수'].str.replace('호', ' ')
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9,1800.0,0.2,11200.0,국내산
4,파닭,14000,11,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10,1000.0,,,국내산


In [69]:
# 자료형 변환 / astype / object -> int
df['호수'] = df['호수'].astype(int)
df['호수']

0    11
1    10
2     9
3     9
4    11
5    12
6    10
7    11
8    10
Name: 호수, dtype: int64

In [70]:
# 자료형 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      9 non-null      object 
 1   가격      9 non-null      int64  
 2   호수      9 non-null      int64  
 3   칼로리     9 non-null      float64
 4   할인율     8 non-null      float64
 5   할인가     8 non-null      float64
 6   원산지     9 non-null      object 
dtypes: float64(3), int64(2), object(2)
memory usage: 636.0+ bytes


In [71]:
# 호수 평균 - 산술 연산 

# 평균값 구하기
df['호수'].mean()

# 표준편차 구하기
df['호수'].std()

1.0

## 데이터 탐색

In [72]:
# 데이터 확인
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9,1800.0,0.2,11200.0,국내산
4,파닭,14000,11,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10,1000.0,,,국내산


In [73]:
# 데이터 프레임 크기 (행, 컬럼)
df.shape

(9, 7)

In [74]:
# 데이터 샘플 확인 (head)
df.head()

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9,1800.0,0.2,11200.0,국내산
4,파닭,14000,11,1300.0,0.2,11200.0,브라질


In [75]:
# 컬럼 형태 (type)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      9 non-null      object 
 1   가격      9 non-null      int64  
 2   호수      9 non-null      int64  
 3   칼로리     9 non-null      float64
 4   할인율     8 non-null      float64
 5   할인가     8 non-null      float64
 6   원산지     9 non-null      object 
dtypes: float64(3), int64(2), object(2)
memory usage: 636.0+ bytes


In [76]:
# 기초 통계
df.describe()

# 카운트, 평균값, 표준편차값, 최소값, ..., 최고값 순서
# 숫자 데이터만 나옴 (int, float)

Unnamed: 0,가격,호수,칼로리,할인율,할인가
count,9.0,9.0,9.0,8.0,8.0
mean,13433.333333,10.333333,1344.444444,0.2375,10500.0
std,1764.936259,1.0,265.099562,0.106066,1242.118007
min,9900.0,9.0,1000.0,0.2,8000.0
25%,13000.0,10.0,1200.0,0.2,10200.0
50%,14000.0,10.0,1300.0,0.2,10800.0
75%,14000.0,11.0,1500.0,0.2,11200.0
max,16000.0,12.0,1800.0,0.5,12000.0


In [77]:
# 기초 통계 (object) - include 대문자 O 넣기
df.describe(include='O')

# count는 개수, unique는 유니크한 종류(중복값 제외), top은 여기선 맨 위의 값, freq는 빈도수

Unnamed: 0,메뉴,원산지
count,9,9
unique,9,2
top,황금후라이드,국내산
freq,1,7


In [78]:
# 상관 관계
df.corr()

# 숫자형 데이터 int, float의 상관관계를 알 수 있고,
# -> 숫자만 있는 데이터 베이스에서 활용하면 정상적으로 뜸.

ValueError: could not convert string to float: '황금후라이드'

In [None]:
# 항목 종류 수
df.nunique()

In [None]:
# 항목 종류 확인하기
df['호수'].unique()

In [None]:
# 항목 별 개수
df['호수'].value_counts()

## 내장함수

In [None]:
# 데이터 확인
df

In [None]:
# 카운트 (컬럼)  #기본값 axis=0
df.count()

# 결측치가 있는 값은 처리되지 않아 할인율, 할인가는 8로 뜨는 것.

In [None]:
# 카운트 (행)
df.count(axis=1)

In [None]:
# [Tip] 데이터 수 len, shape

# 행의 개수
len(df)

# 행과 열의 개수 
df.shape

# 행의 개수만 찾을 경우
df.shape[0]

In [None]:
# 최대값
df['가격'].max()

In [None]:
# 최소값
df['가격'].min()

In [None]:
# 평균
df['가격'].mean()

In [None]:
# 중앙값
df['가격'].median()

In [None]:
# 합계
df['가격'].sum()

In [None]:
# 표준편차
df['가격'].std()

# 표준편차 = 분산의 양의 제곱근으로, 분산보다 많이 쓰인다.
# (분산은 수치가 너무 커서 제곱근으로 줄인 것.)

In [None]:
# 분산
df['가격'].var()

# 분산 = 편차의 제곱값의 평균값으로 변량들이 퍼져있는 정도를 의미.
# 분산이 크면 들쭉날쭉 불안정하다는 의미.

In [None]:
# 백분위수
df['가격'].describe()

In [None]:
# 하위 25% 값
df['가격'].quantile(0.25)

# .25만 적어도 됨

In [None]:
# 상위 25% 값
df['가격'].quantile(.75)

In [None]:
# 하위 25% 보다 작은 데이터
cond = df['가격'].quantile(.25) > df['가격']
df[cond]

In [None]:
# 상위 25% 보다 큰 데이터
cond = df['가격'].quantile(.75) < df['가격']
df[cond]

In [None]:
# 특정 컬럼의 최빈값 구하기

df['원산지'].mode()[0]

# df['원산지'].mode() 라고 작성하면
# 0 원산지
# 위와 같이 나옴. 둘 중에 첫 줄 값이 필요한거니까 맨 뒤에 [0]을 붙이면 됨.

In [None]:
# 행과 열 바꾸기 (transpose)
df.T

## 그룹핑

In [79]:
df

Unnamed: 0,메뉴,가격,호수,칼로리,할인율,할인가,원산지
0,황금후라이드,12000,11,1000.0,0.2,9600.0,국내산
1,승일양념치킨,13000,10,1400.0,0.2,10400.0,국내산
2,간장치킨,14000,9,1600.0,0.2,11200.0,국내산
3,마늘치킨,14000,9,1800.0,0.2,11200.0,국내산
4,파닭,14000,11,1300.0,0.2,11200.0,브라질
5,닭강정,15000,12,1500.0,0.2,12000.0,브라질
6,양념반후라이드반,13000,10,1300.0,0.2,10400.0,국내산
7,[인기]아이펠치킨,16000,11,1200.0,0.5,8000.0,국내산
8,[베스트]풀잎치킨,9900,10,1000.0,,,국내산


In [80]:
# 원산지를 기준으로, 평균 값을 확인 numeric_only=True
df.groupby('원산지').mean()


TypeError: Could not convert 황금후라이드승일양념치킨간장치킨마늘치킨양념반후라이드반[인기]아이펠치킨[베스트]풀잎치킨 to numeric

In [None]:
# 원산지와 할인율 기준, 평균

In [None]:
# 원산지와 할인율 기준, 가격 평균 -> 시리즈 형태

In [None]:
# 원산지와 할인율 기준, 가격 평균 -> 데이터프레임 형태1

In [None]:
# 원산지와 할인율 기준, 가격 평균 -> 데이터프레임 형태2

In [None]:
# 원산지와 할인율 기준 최대값

In [None]:
# 1개 인덱스 형태로 리셋

## apply함수