##  그룹핑
- 같은 값을 하나로 묶어 통계 및 집계 결과를 얻는다
- 데이터프레임.groupby(by= )

In [1]:
import pandas as pd

data = {
    'name': ['David', 'Roy', 'Tina', 'Kim', 'Lisa','Mike'],
    'score_1': [88, 64, 70, 62, 90, 50],
    'score_2': [90, 55, 78, 70, 95, 67],
    'grade': ['B', 'D', 'C', 'D','A','D'],
    'male_female':['M','M','F','F','F', 'M'],
    'pass_fail' : [1, 0, 1, 0, 1, 0]
}

In [2]:
#data를 데이터프레임(df)으로 변환
df = pd.DataFrame(data)
df

Unnamed: 0,name,score_1,score_2,grade,male_female,pass_fail
0,David,88,90,B,M,1
1,Roy,64,55,D,M,0
2,Tina,70,78,C,F,1
3,Kim,62,70,D,F,0
4,Lisa,90,95,A,F,1
5,Mike,50,67,D,M,0


In [3]:
#df의 데이터타입 조회
df.dtypes
# df.info() 사용해도 DataFrame 정보와 데이터타입 조회 가능

name           object
score_1         int64
score_2         int64
grade          object
male_female    object
pass_fail       int64
dtype: object

In [4]:
#male_female 으로 그룹핑한 합계 구하기
df.groupby('male_female').sum()

Unnamed: 0_level_0,score_1,score_2,pass_fail
male_female,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,222,243,2
M,202,212,1


In [5]:
#'male_female','grade' 로 그룹핑하고 평균값구하기
df.groupby(['male_female', 'grade']).mean()
# df.groupby(['grade', 'male_female']).mean() # 그룹핑 순서에 따라 출력 방식 상이

Unnamed: 0_level_0,Unnamed: 1_level_0,score_1,score_2,pass_fail
male_female,grade,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,A,90.0,95.0,1.0
F,C,70.0,78.0,1.0
F,D,62.0,70.0,0.0
M,B,88.0,90.0,1.0
M,D,57.0,61.0,0.0


In [6]:
#'male_female','grade' 로 그룹핑하고 'score_1'의 최대,최소구하기
df.groupby(['male_female', 'grade'])['score_1'].agg([max, min])

Unnamed: 0_level_0,Unnamed: 1_level_0,max,min
male_female,grade,Unnamed: 2_level_1,Unnamed: 3_level_1
F,A,90,90
F,C,70,70
F,D,62,62
M,B,88,88
M,D,64,50


In [7]:
#'male_female','grade' 로 그룹핑하고 'score_1'은 최소, score_2는 평균값 구하기
df.groupby(['male_female', 'grade']).agg({'score_1':'min', 'score_2':'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,score_1,score_2
male_female,grade,Unnamed: 2_level_1,Unnamed: 3_level_1
F,A,90,95.0
F,C,70,78.0
F,D,62,70.0
M,B,88,90.0
M,D,50,61.0


## 함수 매핑
##### 다소 복잡한 내용이므로 간단히 이해하고 넘어가기

In [8]:
import pandas as pd

In [9]:
df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B']) # 4, 9 행을 세 번 이어붙인 DataFrame 생성
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [10]:
# 전달된 매개변수를 제곱하여 리턴하는 함수작성
def square(column):
    return column ** 2
# DataFrame df 자체가 함수의 매개변수로 할당

In [11]:
#df의 각 컬럼의 값을 제곱하기(각 데이터에 square함수 적용)
df.apply(square)

Unnamed: 0,A,B
0,16,81
1,16,81
2,16,81


In [12]:
#'A' + 'B' 가 적용된 'ADD' 컬럼 생성
df['ADD'] = df.apply(lambda x: x['A'] + x['B'], axis=1)
# 함수가 간단할 경우 lambda와 매개변수 사용하여 바로 적용 가능
# 위에서는 괄호 안에 함수명을 입력, 이번에는 lambda를 사용해 괄호 안에서 함수를 바로 생성
# 아까와 마찬가지로 df가 매개변수 x에 할당 (df['A'] + df['B']와 같은 의미)
# axis=1 지정하지 않으면 기본값 행 방향이므로 'A' + 'B'가 불가능 (오류 발생)

In [13]:
df

Unnamed: 0,A,B,ADD
0,4,9,13
1,4,9,13
2,4,9,13


In [14]:
# 'A' + 10 이 적용된 'ADD_10' 컬럼 생성
df['ADD_10'] = df.apply(lambda x: x['A'] + 10, axis=1)

In [15]:
df

Unnamed: 0,A,B,ADD,ADD_10
0,4,9,13,14
1,4,9,13,14
2,4,9,13,14


##  파일 읽어오기(csv)

### 실습데이터
- 국내아이돌브래드평판데이터
- 한국기업평판연구소 (http://brikorea.com)



### 웹상의 표데이터 가져오기

In [16]:
import pandas as pd
import numpy as np

In [17]:
url = 'http://brikorea.com/rk/singer2203'

In [18]:
#url주소에 있는 표데이터를 크롤링해서 table에 저장
table = pd.read_html(url)

In [19]:
#table 길이??
len(table)
# 웹 상에서 눈에 보이는 표는 1개이지만, 내부 소스에 2개의 표가 들어있는 것

2

In [20]:
table[0]

Unnamed: 0,순위,브랜드,Link,브랜드평판지수,참여지수,미디어지수,소통지수,커뮤니티지수,추천지수,추천참여
0,1,방탄소년단,,9536463,1812642,2646560,2756496,2320764,387,추천하기
1,2,아이유,,7196000,1060792,1874688,2121895,2138624,221,추천하기
2,3,임영웅,,6975033,2054859,2522122,1242074,1155978,101562,추천하기
3,4,박재범,,5018356,649325,1544384,1009679,1814968,87,추천하기
4,5,이찬원,,4592393,1575878,1084591,975997,955927,47733,추천하기
...,...,...,...,...,...,...,...,...,...,...
95,96,황치열,,239715,42500,103011,47547,46658,970,추천하기
96,97,10CM,,239469,48952,38556,69324,82637,4,추천하기
97,98,NS 윤지,,239338,48898,93121,49083,48237,4,추천하기
98,99,탑현,,238527,56744,85587,47827,48369,4,추천하기


In [21]:
table[1]

Unnamed: 0_level_0,순위,브랜드,브랜드,추천참여
Unnamed: 0_level_1,순위,브랜드평판지수,추천지수,추천참여
0,1,방탄소년단,방탄소년단,추천하기
1,1,9536463,387,추천하기
2,2,아이유,아이유,추천하기
3,2,7196000,221,추천하기
4,3,임영웅,임영웅,추천하기
...,...,...,...,...
195,98,239338,4,추천하기
196,99,탑현,탑현,추천하기
197,99,238527,4,추천하기
198,100,한동근,한동근,추천하기


In [22]:
df_table = table[0] # 두 개의 표를 모두 확인해본 결과, 필요한 데이터는 첫 번째 표
df_table

Unnamed: 0,순위,브랜드,Link,브랜드평판지수,참여지수,미디어지수,소통지수,커뮤니티지수,추천지수,추천참여
0,1,방탄소년단,,9536463,1812642,2646560,2756496,2320764,387,추천하기
1,2,아이유,,7196000,1060792,1874688,2121895,2138624,221,추천하기
2,3,임영웅,,6975033,2054859,2522122,1242074,1155978,101562,추천하기
3,4,박재범,,5018356,649325,1544384,1009679,1814968,87,추천하기
4,5,이찬원,,4592393,1575878,1084591,975997,955927,47733,추천하기
...,...,...,...,...,...,...,...,...,...,...
95,96,황치열,,239715,42500,103011,47547,46658,970,추천하기
96,97,10CM,,239469,48952,38556,69324,82637,4,추천하기
97,98,NS 윤지,,239338,48898,93121,49083,48237,4,추천하기
98,99,탑현,,238527,56744,85587,47827,48369,4,추천하기


In [23]:
#df_table 데이터를  csv파일로 저장하기
df_table.to_csv('아이돌브랜드평판지수_실습.csv', index=False, encoding='euc-kr')
# 순위 column이 존재하므로 index를 굳이 가져오지 않으려고 함
# df_table 왼쪽에 index가 0부터 붙어 있는데, 이를 가져오지 않기 위해 index = False 사용
# encoding = 'euc-kr' 지정해주어야 한글이 깨지지 않고 정상 출력

### 파일데이터 읽어오기

- [참고] 구글코랩에서 데이터 읽어오기
   
```
from google.colab import files
myFile = files.upload()
    
df = pd.read_csv('./파일명')
```
    


In [24]:
filename = '아이돌브랜드평판지수_202105.csv'
filename

'아이돌브랜드평판지수_202105.csv'

In [25]:
#csv파일 읽어서 데이터프레임(df)에 넣기
df = pd.read_csv(filename)
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [26]:
df.index

RangeIndex(start=0, stop=25, step=1)

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   이름       25 non-null     object
 1   그룹       24 non-null     object
 2   소속사      25 non-null     object
 3   생년월일     25 non-null     object
 4   키        25 non-null     int64 
 5   혈액형      25 non-null     object
 6   데뷔년도     25 non-null     int64 
 7   브랜드평판지수  25 non-null     int64 
dtypes: int64(3), object(5)
memory usage: 1.7+ KB


###  통계정보 알아보기(describe)

In [28]:
df.describe() # 평균, 최소, 최대, 4분위 수 등 다양한 정보 확인 가능

Unnamed: 0,키,데뷔년도,브랜드평판지수
count,25.0,25.0,25.0
mean,171.2,2013.84,3050086.0
std,6.940221,4.355839,1648649.0
min,160.0,2001.0,1749826.0
25%,165.0,2013.0,1936670.0
50%,170.0,2014.0,2450135.0
75%,178.0,2016.0,3179527.0
max,183.0,2020.0,7217872.0


### 형태(Shape)알아보기

In [29]:
# (행의 수, 열의 수)
df.shape

(25, 8)

### 인덱스활용

In [30]:
#이름을 인덱스로 설정
df.set_index('이름', inplace = True)

In [31]:
df

Unnamed: 0_level_0,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [32]:
#이름 인덱스 해제
df.reset_index(inplace=True)

In [33]:
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [34]:
#소속사를 인덱스로 설정
df.set_index('소속사', inplace = True)

In [35]:
df

Unnamed: 0_level_0,이름,그룹,생년월일,키,혈액형,데뷔년도,브랜드평판지수
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
빅히트,지민,방탄소년단,1995-01-20,174,A,2013,7217872
커넥트,강다니엘,,1996-03-01,180,A,2017,6899570
판타지오,차은우,아스트로,1997-09-20,183,B,2014,6330046
빅히트,뷔,방탄소년단,1995-11-07,179,AB,2013,5197579
빅히트,정국,방탄소년단,1997-12-13,178,A,2013,4584186
빅히트,진,방탄소년단,1992-02-14,178,O,2013,3271942
브레이브,유정,브레이브걸스,1991-05-03,162,AB,2016,3179527
빅히트,슈가,방탄소년단,1993-07-16,174,O,2013,2793291
브레이브,유나(브),브레이브걸스,1993-12-17,165,A,2016,2723939
브레이브,은지,브레이브걸스,1992-01-16,168,AB,2016,2681253


In [36]:
#소속사 인덱스 해제
df.reset_index(inplace=True)

In [37]:
df # 인덱스를 설정하고 해제하는 과정에서 컬럼의 순서가 바뀜

Unnamed: 0,소속사,이름,그룹,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,빅히트,지민,방탄소년단,1995-01-20,174,A,2013,7217872
1,커넥트,강다니엘,,1996-03-01,180,A,2017,6899570
2,판타지오,차은우,아스트로,1997-09-20,183,B,2014,6330046
3,빅히트,뷔,방탄소년단,1995-11-07,179,AB,2013,5197579
4,빅히트,정국,방탄소년단,1997-12-13,178,A,2013,4584186
5,빅히트,진,방탄소년단,1992-02-14,178,O,2013,3271942
6,브레이브,유정,브레이브걸스,1991-05-03,162,AB,2016,3179527
7,빅히트,슈가,방탄소년단,1993-07-16,174,O,2013,2793291
8,브레이브,유나(브),브레이브걸스,1993-12-17,165,A,2016,2723939
9,브레이브,은지,브레이브걸스,1992-01-16,168,AB,2016,2681253


In [38]:
#컬럼명 조회
df.columns

Index(['소속사', '이름', '그룹', '생년월일', '키', '혈액형', '데뷔년도', '브랜드평판지수'], dtype='object')

In [39]:
# 컬럼 순서 원래대로 변경
df= df[['이름', '그룹', '소속사', '생년월일', '키', '혈액형', '데뷔년도', '브랜드평판지수']]
# 컬럼명을 일일이 적어주면 오타 발생 가능성이 높고 비효율적
# 위에서 컬럼명 조회한 결과 붙여넣은 후 '소속사' 컬럼만 '그룹' 컬럼 뒤로 위치 변경

In [40]:
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


### 컬럼 rename

In [41]:
# df.rename(columns={'원래이름1':'바꿀이름1','원래이름2':'바꿀이름2'})

In [42]:
#이름==>name, 생년월일==>birth로 변경
df = df.rename(columns={'이름':'name', '생년월일':'birth'})

In [43]:
df

Unnamed: 0,name,그룹,소속사,birth,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [44]:
#원래대로 이름, 생년월일
df = df.rename(columns={'name':'이름', 'birth':'생년월일'})

In [45]:
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


### DataFrame 정렬 



In [46]:
df.sort_index()

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [47]:
#내림차순 index 정렬
df.sort_index(ascending=False)

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
24,JR,뉴이스트,플레디스,1995-11-28,178,O,2012,1749826
23,유리,소녀시대,SM,1989-06-05,167,AB,2007,1788114
22,예지,ITZY,JYP,2000-11-20,167,A,2019,1789378
21,태연,소녀시대,SM,1989-05-08,160,A,2007,1841157
20,카리나,에스파,SM,2000-09-11,167,B,2020,1885968
19,윈터,에스파,SM,2001-02-02,164,A,2020,1932019
18,유나(I),ITZY,JYP,2003-04-11,170,A,2019,1936670
17,지호,오마이걸,WM,1997-10-19,165,A,2015,1958038
16,RM,방탄소년단,빅히트,1994-01-15,181,A,2013,2094631
15,윤두준,하이라이트,어라운드어스,1989-06-25,178,A,2009,2157249


In [48]:
df # 원본 데이터 유지

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [49]:
#값이 변경되게 하려면(내림차순 정렬)
df = df.sort_index(ascending=False)

In [50]:
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
24,JR,뉴이스트,플레디스,1995-11-28,178,O,2012,1749826
23,유리,소녀시대,SM,1989-06-05,167,AB,2007,1788114
22,예지,ITZY,JYP,2000-11-20,167,A,2019,1789378
21,태연,소녀시대,SM,1989-05-08,160,A,2007,1841157
20,카리나,에스파,SM,2000-09-11,167,B,2020,1885968
19,윈터,에스파,SM,2001-02-02,164,A,2020,1932019
18,유나(I),ITZY,JYP,2003-04-11,170,A,2019,1936670
17,지호,오마이걸,WM,1997-10-19,165,A,2015,1958038
16,RM,방탄소년단,빅히트,1994-01-15,181,A,2013,2094631
15,윤두준,하이라이트,어라운드어스,1989-06-25,178,A,2009,2157249


In [51]:
#오름차순 정렬
df = df.sort_index()

In [52]:
df

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253


In [53]:
# column index 기준으로 오름차순 정렬
df.sort_index(axis=1)

Unnamed: 0,그룹,데뷔년도,브랜드평판지수,생년월일,소속사,이름,키,혈액형
0,방탄소년단,2013,7217872,1995-01-20,빅히트,지민,174,A
1,,2017,6899570,1996-03-01,커넥트,강다니엘,180,A
2,아스트로,2014,6330046,1997-09-20,판타지오,차은우,183,B
3,방탄소년단,2013,5197579,1995-11-07,빅히트,뷔,179,AB
4,방탄소년단,2013,4584186,1997-12-13,빅히트,정국,178,A
5,방탄소년단,2013,3271942,1992-02-14,빅히트,진,178,O
6,브레이브걸스,2016,3179527,1991-05-03,브레이브,유정,162,AB
7,방탄소년단,2013,2793291,1993-07-16,빅히트,슈가,174,O
8,브레이브걸스,2016,2723939,1993-12-17,브레이브,유나(브),165,A
9,브레이브걸스,2016,2681253,1992-01-16,브레이브,은지,168,AB


- 컬럼별로 정렬(index 정렬에 비해 많이 사용)

In [54]:
#브랜드평판지수 컬럼기준으로 정렬
df.sort_values(by='브랜드평판지수')

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
24,JR,뉴이스트,플레디스,1995-11-28,178,O,2012,1749826
23,유리,소녀시대,SM,1989-06-05,167,AB,2007,1788114
22,예지,ITZY,JYP,2000-11-20,167,A,2019,1789378
21,태연,소녀시대,SM,1989-05-08,160,A,2007,1841157
20,카리나,에스파,SM,2000-09-11,167,B,2020,1885968
19,윈터,에스파,SM,2001-02-02,164,A,2020,1932019
18,유나(I),ITZY,JYP,2003-04-11,170,A,2019,1936670
17,지호,오마이걸,WM,1997-10-19,165,A,2015,1958038
16,RM,방탄소년단,빅히트,1994-01-15,181,A,2013,2094631
15,윤두준,하이라이트,어라운드어스,1989-06-25,178,A,2009,2157249


In [55]:
#생년월일 컬럼 기준으로 정렬
df.sort_values(by='생년월일')

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
10,지드래곤,빅뱅,YG,1988-04-21,172,A,2001,2611306
21,태연,소녀시대,SM,1989-05-08,160,A,2007,1841157
23,유리,소녀시대,SM,1989-06-05,167,AB,2007,1788114
15,윤두준,하이라이트,어라운드어스,1989-06-25,178,A,2009,2157249
13,민영,브레이브걸스,브레이브,1990-09-17,165,AB,2016,2378549
6,유정,브레이브걸스,브레이브,1991-05-03,162,AB,2016,3179527
9,은지,브레이브걸스,브레이브,1992-01-16,168,AB,2016,2681253
5,진,방탄소년단,빅히트,1992-02-14,178,O,2013,3271942
7,슈가,방탄소년단,빅히트,1993-07-16,174,O,2013,2793291
8,유나(브),브레이브걸스,브레이브,1993-12-17,165,A,2016,2723939


In [56]:
#생년월일 기준, 내림차순정렬
df.sort_values(by='생년월일', ascending=False)

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
18,유나(I),ITZY,JYP,2003-04-11,170,A,2019,1936670
19,윈터,에스파,SM,2001-02-02,164,A,2020,1932019
22,예지,ITZY,JYP,2000-11-20,167,A,2019,1789378
20,카리나,에스파,SM,2000-09-11,167,B,2020,1885968
12,아린,오마이걸,WM,1999-08-19,165,O,2015,2450135
4,정국,방탄소년단,빅히트,1997-12-13,178,A,2013,4584186
17,지호,오마이걸,WM,1997-10-19,165,A,2015,1958038
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
14,제니,블랙핑크,YG,1996-03-23,163,B,2016,2310781
1,강다니엘,,커넥트,1996-03-01,180,A,2017,6899570


- 복수정렬

In [57]:
#'그룹','브랜드평판지수'값으로 정렬 (그룹은 내림차순, 브랜드평판지수는 오름차순)
df.sort_values(['그룹', '브랜드평판지수'], ascending=[False, True]) # 'by=' 생략 가능
# 그룹 기준으로 정렬 후 그룹이 동일한 경우 브랜드평판지수 기준으로 정렬

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
15,윤두준,하이라이트,어라운드어스,1989-06-25,178,A,2009,2157249
17,지호,오마이걸,WM,1997-10-19,165,A,2015,1958038
12,아린,오마이걸,WM,1999-08-19,165,O,2015,2450135
20,카리나,에스파,SM,2000-09-11,167,B,2020,1885968
19,윈터,에스파,SM,2001-02-02,164,A,2020,1932019
2,차은우,아스트로,판타지오,1997-09-20,183,B,2014,6330046
23,유리,소녀시대,SM,1989-06-05,167,AB,2007,1788114
21,태연,소녀시대,SM,1989-05-08,160,A,2007,1841157
10,지드래곤,빅뱅,YG,1988-04-21,172,A,2001,2611306
14,제니,블랙핑크,YG,1996-03-23,163,B,2016,2310781


### Series의 Type 변환
- astype()
  - 타입변환시 NaN값이 들어있으면 Error발생
  - fillna로 임의의 값으로 채워준 후 변환

In [58]:
#데이터프레임 요약정보 조회
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25 entries, 0 to 24
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   이름       25 non-null     object
 1   그룹       24 non-null     object
 2   소속사      25 non-null     object
 3   생년월일     25 non-null     object
 4   키        25 non-null     int64 
 5   혈액형      25 non-null     object
 6   데뷔년도     25 non-null     int64 
 7   브랜드평판지수  25 non-null     int64 
dtypes: int64(3), object(5)
memory usage: 1.8+ KB


In [59]:
#int타입의 키를 float타입으로 변환
df['키'] = df['키'].astype(float)

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25 entries, 0 to 24
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       25 non-null     object 
 1   그룹       24 non-null     object 
 2   소속사      25 non-null     object 
 3   생년월일     25 non-null     object 
 4   키        25 non-null     float64
 5   혈액형      25 non-null     object 
 6   데뷔년도     25 non-null     int64  
 7   브랜드평판지수  25 non-null     int64  
dtypes: float64(1), int64(2), object(5)
memory usage: 1.8+ KB


#### 날짜타입으로 변환(datetime)
- to_datatime()사용
- to_numeric() :정수형으로 변환


In [61]:
#생년월일을 datetime으로 변환(object는 str타입을 의미)
# 숫자 정보가 object/str 형태로 되어있는 경우 숫자형으로 변환해주면 분석에 용이
df['생년월일'] = pd.to_datetime(df['생년월일'])

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25 entries, 0 to 24
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   이름       25 non-null     object        
 1   그룹       24 non-null     object        
 2   소속사      25 non-null     object        
 3   생년월일     25 non-null     datetime64[ns]
 4   키        25 non-null     float64       
 5   혈액형      25 non-null     object        
 6   데뷔년도     25 non-null     int64         
 7   브랜드평판지수  25 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(4)
memory usage: 1.8+ KB


In [63]:
df.head() # 기본값 5

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174.0,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180.0,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183.0,B,2014,6330046
3,뷔,방탄소년단,빅히트,1995-11-07,179.0,AB,2013,5197579
4,정국,방탄소년단,빅히트,1997-12-13,178.0,A,2013,4584186


In [64]:
df.head(3)

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
0,지민,방탄소년단,빅히트,1995-01-20,174.0,A,2013,7217872
1,강다니엘,,커넥트,1996-03-01,180.0,A,2017,6899570
2,차은우,아스트로,판타지오,1997-09-20,183.0,B,2014,6330046


In [65]:
df.tail()

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수
20,카리나,에스파,SM,2000-09-11,167.0,B,2020,1885968
21,태연,소녀시대,SM,1989-05-08,160.0,A,2007,1841157
22,예지,ITZY,JYP,2000-11-20,167.0,A,2019,1789378
23,유리,소녀시대,SM,1989-06-05,167.0,AB,2007,1788114
24,JR,뉴이스트,플레디스,1995-11-28,178.0,O,2012,1749826


In [66]:
#연, 월, 일 컬럼 생성 (날짜 타입으로 변환된 상태에서만 가능)
df['출생년도']= df['생년월일'].dt.year
df['생일_월'] = df['생년월일'].dt.month
df['생일_일'] = df['생년월일'].dt.day
# 데이터분석 시 날짜를 연, 월, 일로 나누어 보는 경우가 많음

In [67]:
df.head()

Unnamed: 0,이름,그룹,소속사,생년월일,키,혈액형,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
0,지민,방탄소년단,빅히트,1995-01-20,174.0,A,2013,7217872,1995,1,20
1,강다니엘,,커넥트,1996-03-01,180.0,A,2017,6899570,1996,3,1
2,차은우,아스트로,판타지오,1997-09-20,183.0,B,2014,6330046,1997,9,20
3,뷔,방탄소년단,빅히트,1995-11-07,179.0,AB,2013,5197579,1995,11,7
4,정국,방탄소년단,빅히트,1997-12-13,178.0,A,2013,4584186,1997,12,13


In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25 entries, 0 to 24
Data columns (total 11 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   이름       25 non-null     object        
 1   그룹       24 non-null     object        
 2   소속사      25 non-null     object        
 3   생년월일     25 non-null     datetime64[ns]
 4   키        25 non-null     float64       
 5   혈액형      25 non-null     object        
 6   데뷔년도     25 non-null     int64         
 7   브랜드평판지수  25 non-null     int64         
 8   출생년도     25 non-null     int64         
 9   생일_월     25 non-null     int64         
 10  생일_일     25 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(5), object(4)
memory usage: 2.3+ KB


### 통계값 다루기

In [69]:
df.describe()

Unnamed: 0,키,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
count,25.0,25.0,25.0,25.0,25.0,25.0
mean,171.2,2013.84,3050086.0,1994.6,6.56,14.44
std,6.940221,4.355839,1648649.0,4.092676,3.863073,7.251896
min,160.0,2001.0,1749826.0,1988.0,1.0,1.0
25%,165.0,2013.0,1936670.0,1992.0,3.0,10.0
50%,170.0,2014.0,2450135.0,1995.0,6.0,16.0
75%,178.0,2016.0,3179527.0,1997.0,10.0,20.0
max,183.0,2020.0,7217872.0,2003.0,12.0,28.0


- **min, max, sum, mean(평균)**

In [70]:
#출생년도 최소값
#type here
df['출생년도'].min()

1988

In [71]:
#출생년도 최대값
#type here
df['출생년도'].max()

2003

- **var(variance,분산), std(standard deviation, 표준편차)**
 * 분산과 표준편차는 데이터가 **평균으로부터 얼마나 떨어져 있는지 정도**를 나타냄
 * 분산은 **(데이터 - 평균) ** 2 을 모두 합한 값** / n
 * 표준편차는 **분산의 루트**
 - 분산보다는 표준편차가 많이 사용됨

In [72]:
#출생년도 분산
df['출생년도'].var()

16.750000000000004

In [73]:
#출생년도 표준편차
df['출생년도'].std()

4.092676385936225

- **count**

In [74]:
df['키'].count()

25

- **중앙값(median)**

In [75]:
df['키'].median()

170.0

- **최빈값(mode)**

In [76]:
df['출생년도'].mode()

0    1989
1    1995
2    1997
Name: 출생년도, dtype: int64

- **상관계수**
  - corr()
  - 각 열간의 상관관계를 계산
  - 산술데이터를 갖는 모든 열에 대해서 2개씩 짝을 짓고 상관관계 계산
  - df.corr()  : 모든 열의 상관계수
  - df[열이름 리스트].corr()

In [77]:
df.corr().round(2)
# -1~1의 값을 가지며, 절댓값이 클수록 상관관계가 높음
# 양수일 경우 양의 상관관계
# 음수일 경우 음의 상관관계

Unnamed: 0,키,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
키,1.0,-0.19,0.53,-0.0,0.05,0.15
데뷔년도,-0.19,1.0,0.02,0.75,0.07,-0.21
브랜드평판지수,0.53,0.02,1.0,0.06,-0.1,-0.14
출생년도,-0.0,0.75,0.06,1.0,0.14,-0.07
생일_월,0.05,0.07,-0.1,0.14,1.0,0.18
생일_일,0.15,-0.21,-0.14,-0.07,0.18,1.0


### Group by 적용(과제)






In [78]:
#소속사로 그룹,카운트
df.groupby('소속사').count()

Unnamed: 0_level_0,이름,그룹,생년월일,키,혈액형,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
소속사,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
JYP,2,2,2,2,2,2,2,2,2,2
SM,4,4,4,4,4,4,4,4,4,4
WM,2,2,2,2,2,2,2,2,2,2
YG,2,2,2,2,2,2,2,2,2,2
브레이브,4,4,4,4,4,4,4,4,4,4
빅히트,7,7,7,7,7,7,7,7,7,7
어라운드어스,1,1,1,1,1,1,1,1,1,1
커넥트,1,0,1,1,1,1,1,1,1,1
판타지오,1,1,1,1,1,1,1,1,1,1
플레디스,1,1,1,1,1,1,1,1,1,1


In [79]:
#'그룹'으로 그룹핑하여 '키','브랜드평판지수'컬럼의 평균구하기
df.groupby('그룹')[['키', '브랜드평판지수']].mean()

Unnamed: 0_level_0,키,브랜드평판지수
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1
ITZY,168.5,1863024.0
뉴이스트,178.0,1749826.0
방탄소년단,177.285714,3949803.0
브레이브걸스,165.0,2740817.0
블랙핑크,163.0,2310781.0
빅뱅,172.0,2611306.0
소녀시대,163.5,1814636.0
아스트로,183.0,6330046.0
에스파,165.5,1908994.0
오마이걸,165.0,2204086.0


In [80]:
#'그룹'으로 그룹 만들고 브랜드평판지수의 합계
df.groupby('그룹')[['브랜드평판지수']].sum()

Unnamed: 0_level_0,브랜드평판지수
그룹,Unnamed: 1_level_1
ITZY,3726048
뉴이스트,1749826
방탄소년단,27648618
브레이브걸스,10963268
블랙핑크,2310781
빅뱅,2611306
소녀시대,3629271
아스트로,6330046
에스파,3817987
오마이걸,4408173


In [81]:
df.groupby('그룹').sum()[['브랜드평판지수']]
# 그룹핑 후 모든 열의 합계를 구한 뒤 '브랜드평판지수'를 추출
# 위의 코드와 동일한 결과 반환

Unnamed: 0_level_0,브랜드평판지수
그룹,Unnamed: 1_level_1
ITZY,3726048
뉴이스트,1749826
방탄소년단,27648618
브레이브걸스,10963268
블랙핑크,2310781
빅뱅,2611306
소녀시대,3629271
아스트로,6330046
에스파,3817987
오마이걸,4408173


### 복수의 컬럼으로 grouping(멀티인덱스)


In [82]:
#'소속사','그룹'컬럼으로 그룹 평균
df.groupby(['소속사','그룹']).mean()
# 복수의 컬럼으로 grouping 할 경우 grouping 한 컬럼의 개수 만큼 인덱스가 생김

Unnamed: 0_level_0,Unnamed: 1_level_0,키,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
소속사,그룹,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
JYP,ITZY,168.5,2019.0,1863024.0,2001.5,7.5,15.5
SM,소녀시대,163.5,2007.0,1814636.0,1989.0,5.5,6.5
SM,에스파,165.5,2020.0,1908994.0,2000.5,5.5,6.5
WM,오마이걸,165.0,2015.0,2204086.0,1998.0,9.0,19.0
YG,블랙핑크,163.0,2016.0,2310781.0,1996.0,3.0,23.0
YG,빅뱅,172.0,2001.0,2611306.0,1988.0,4.0,21.0
브레이브,브레이브걸스,165.0,2016.0,2740817.0,1991.5,6.75,13.25
빅히트,방탄소년단,177.285714,2013.0,3949803.0,1994.285714,6.571429,13.571429
어라운드어스,하이라이트,178.0,2009.0,2157249.0,1989.0,6.0,25.0
판타지오,아스트로,183.0,2014.0,6330046.0,1997.0,9.0,20.0


#### 멀티인덱스로 된 데이터프레임을 컬럼 형태로 다시 변환

In [83]:
#'혈액형','그룹'로 그룹만들고 평균을 구해 df2에 저장
df2 = df.groupby(['혈액형', '그룹']).mean()

In [84]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,키,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
혈액형,그룹,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,ITZY,168.5,2019.0,1863024.0,2001.5,7.5,15.5
A,방탄소년단,177.5,2013.0,4096451.5,1995.0,6.5,14.5
A,브레이브걸스,165.0,2016.0,2723939.0,1993.0,12.0,17.0
A,빅뱅,172.0,2001.0,2611306.0,1988.0,4.0,21.0
A,소녀시대,160.0,2007.0,1841157.0,1989.0,5.0,8.0
A,에스파,164.0,2020.0,1932019.0,2001.0,2.0,2.0
A,오마이걸,165.0,2015.0,1958038.0,1997.0,10.0,19.0
A,하이라이트,178.0,2009.0,2157249.0,1989.0,6.0,25.0
AB,방탄소년단,179.0,2013.0,5197579.0,1995.0,11.0,7.0
AB,브레이브걸스,165.0,2016.0,2746443.0,1991.0,5.0,12.0


In [85]:
 #멀티인덱스로 그룹된 자료를 컬럼형으로 다시 만들고 싶을때
df2 = df2.reset_index()

In [86]:
df2

Unnamed: 0,혈액형,그룹,키,데뷔년도,브랜드평판지수,출생년도,생일_월,생일_일
0,A,ITZY,168.5,2019.0,1863024.0,2001.5,7.5,15.5
1,A,방탄소년단,177.5,2013.0,4096451.5,1995.0,6.5,14.5
2,A,브레이브걸스,165.0,2016.0,2723939.0,1993.0,12.0,17.0
3,A,빅뱅,172.0,2001.0,2611306.0,1988.0,4.0,21.0
4,A,소녀시대,160.0,2007.0,1841157.0,1989.0,5.0,8.0
5,A,에스파,164.0,2020.0,1932019.0,2001.0,2.0,2.0
6,A,오마이걸,165.0,2015.0,1958038.0,1997.0,10.0,19.0
7,A,하이라이트,178.0,2009.0,2157249.0,1989.0,6.0,25.0
8,AB,방탄소년단,179.0,2013.0,5197579.0,1995.0,11.0,7.0
9,AB,브레이브걸스,165.0,2016.0,2746443.0,1991.0,5.0,12.0


In [87]:
#Aggregation 함수를 여러 개 적용 시 .agg(func=) 함수 사용
df.groupby(['그룹', '혈액형'])[['키','출생년도']].agg([max, min])
# 그룹, 혈액형으로 그룹 지은 후 키와 출생년도의 최대, 최소 출력

Unnamed: 0_level_0,Unnamed: 1_level_0,키,키,출생년도,출생년도
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,max,min
그룹,혈액형,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
ITZY,A,170.0,167.0,2003,2000
뉴이스트,O,178.0,178.0,1995,1995
방탄소년단,A,181.0,174.0,1997,1994
방탄소년단,AB,179.0,179.0,1995,1995
방탄소년단,O,178.0,174.0,1993,1992
브레이브걸스,A,165.0,165.0,1993,1993
브레이브걸스,AB,168.0,162.0,1992,1990
블랙핑크,B,163.0,163.0,1996,1996
빅뱅,A,172.0,172.0,1988,1988
소녀시대,A,160.0,160.0,1989,1989


In [88]:
# agg(func=) 함수와 딕셔너리를 이용하여 다양한 컬럼에 다양한 Aggregation 함수 사용 가능
#{'출생년도' : 'min', '키': 'mean'}
df.groupby(['그룹', '혈액형']).agg({'출생년도' : 'min', '키': 'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,출생년도,키
그룹,혈액형,Unnamed: 2_level_1,Unnamed: 3_level_1
ITZY,A,2000,168.5
뉴이스트,O,1995,178.0
방탄소년단,A,1994,177.5
방탄소년단,AB,1995,179.0
방탄소년단,O,1992,176.0
브레이브걸스,A,1993,165.0
브레이브걸스,AB,1990,165.0
블랙핑크,B,1996,163.0
빅뱅,A,1988,172.0
소녀시대,A,1989,160.0


### 피벗테이블(pivot table)
- excel의 피벗테이블과 비슷한 기능
- 행인덱스, 열인덱스, 데이터값, 데이터집계함수

- 데이터프레임.pivot_table(index=행인덱스,columns= 열인덱스, values= 데이터값,aggfunc=집계함수)


In [89]:
import seaborn as sns
import pandas as pd

tips = sns.load_dataset("tips")
# seaborn 라이브러리에 만들어진 데이터 tips 활용
# toy 데이터: 실습에 사용할 수 있도록 라이브러리에 포함된 작은 데이터셋

In [90]:
#상위5개 조회
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [91]:
#요약정보조회
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


컬럼설명
- total_bill: 총 합계 요금표
- tip: 팁
- sex: 성별
- smoker: 흡연자 여부
- day: 요일
- time: 식사 시간
- size: 식사 인원

In [92]:
#day컬럼의 유니크한 값 (day 칼럼에 어떤 값들이 존재하는지)
tips['day'].unique()

['Sun', 'Sat', 'Thur', 'Fri']
Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']

In [93]:
#모든 수치형데이터(size, tip, total_bill)에 대해서 피벗테이블
tips.pivot_table(index="time", columns="day")
# 토요일 점심 데이터는 존재하지 않음

Unnamed: 0_level_0,size,size,size,size,tip,tip,tip,tip,total_bill,total_bill,total_bill,total_bill
day,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun,Thur,Fri,Sat,Sun
time,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Lunch,2.459016,2.0,,,2.767705,2.382857,,,17.664754,12.845714,,
Dinner,2.0,2.166667,2.517241,2.842105,3.0,2.94,2.993103,3.255132,18.78,19.663333,20.441379,21.41


In [94]:
#total_bill의 평균값, aggfunc default=mean
tips.pivot_table(index='time', columns='day', values='total_bill') # 기본값 평균 출력

day,Thur,Fri,Sat,Sun
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Lunch,17.664754,12.845714,,
Dinner,18.78,19.663333,20.441379,21.41


In [95]:
#time별 요일별로 total_bill의 카운트를 피벗테이블로
tips.pivot_table(index='time', columns='day', values='total_bill', aggfunc='count')

day,Thur,Fri,Sat,Sun
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Lunch,61,7,0,0
Dinner,1,12,87,76


In [96]:
pv_df = tips.pivot_table(index= ['time','sex'],
                       columns = 'smoker',
                       values = ['tip','total_bill'],
                       aggfunc = ['mean','max'])
pv_df

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,tip,tip,total_bill,total_bill,tip,tip,total_bill,total_bill
Unnamed: 0_level_2,smoker,Yes,No,Yes,No,Yes,No,Yes,No
time,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Lunch,Male,2.790769,2.9415,17.374615,18.4865,5.0,6.7,32.68,41.19
Lunch,Female,2.891,2.4596,17.431,15.9024,5.0,5.17,43.11,34.83
Dinner,Male,3.123191,3.158052,23.642553,20.13013,10.0,9.0,50.81,48.33
Dinner,Female,2.94913,3.044138,18.215652,20.004138,6.5,5.2,44.3,35.83
