merge 함수를 사용한 데이터프레임 병합

In [1]:
import pandas as pd
import numpy as np

In [2]:
df1 = pd.DataFrame({
    '계좌번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['계좌번호', '이름'])
df1

Unnamed: 0,계좌번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [3]:
df2 = pd.DataFrame({
    '계좌번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['계좌번호', '금액'])
df2

Unnamed: 0,계좌번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [4]:
#merge 함수로 위의 두 데이터프레임 df1, df2 를 합치면 공통 열인 계좌번호 열을 기준으로 데이터를 찾아서 합친다.
#이 때 기본적으로는 양쪽 데이터프레임에 모두 키가 '존재하는 데이터'만 보여주는 inner join 방식을 사용한다.
pd.merge(df1, df2) # default = inner join 교집합
#1001이 세개라서 둘리 세개

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [5]:
#outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다. 합집합
pd.merge(df1, df2, how='outer') # 합집합

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [6]:
pd.merge(df1, df2, how='left') #레프트 테이블을 기준으로 합쳐줌
#left, right 방식은 각각 첫번째, 혹은 두번째 데이터프레임의 키 값을 모두 보여준다.

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [7]:
pd.merge(df1, df2, how='right')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [8]:
#만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는
#있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다.
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1
#아이리스데이터

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [9]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2
#병합된 데이터에 0.4가 복제됨

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [10]:
pd.merge(df1, df2)
#전체의 경우의수 조합이 다 나옴.
#SQL full -> 연산량 어마무시

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [11]:
#두 데이터프레임에서 이름이 같은 열은 모두 키가 된다.
#만약 이름이 같아도 키가 되면 안되는 열이 있다면 on 인수로 기준열을 명시해야 한다.
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [12]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [13]:
pd.merge(df1, df2) # 고객명과 데이터칼럼의 &조건으로 교집합
#고객명과 데이터 모두 교집합이여야해ㅓㅅ =>???왜 이렇게 나오는거지 잘 모르겠다.

Unnamed: 0,고객명,날짜,데이터


In [14]:
pd.merge(df1, df2, on='고객명') #on으로 기준열 명시

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


In [15]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [16]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2
#데이터는 갖지만 이름이 다름.

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [17]:
pd.merge(df1, df2, left_on='이름', right_on="성명")

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [18]:
#일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 left_index 또는 right_index 인수를 True 로 설정한다.
#이때까지는 칼럼기준으로 함
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [19]:
df2 = pd.DataFrame(np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [20]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True) #오른쪽은 인덱스를 쓸거야

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [21]:
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
df1

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [22]:
df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
df2

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [23]:
pd.merge(df1, df2, how='outer', left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


join 메서드

merge 명령어 대신 join 메서드를 사용할 수도 있다.

결합 기준이 index, merge는 결합 기준이 칼럼입니다.

In [24]:
df1.join(df2, how='outer')
#결합 기준이 인덱스(행)임.
#머지는 결합 기준이 열

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


연습문제

두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 단 데이터프레임은 다음 조건을 만족해야 한다.

1. 각각 5 x 5 이상의 크기를 가진다.
2. 공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.

In [27]:
df5 = pd.DataFrame({
    '점심' : ['치킨','피자',,'요거트','반반치킨'],
    '저녁' : ['스파게티','김치찌개','햄버거','피자','콜라'],
    '아침' : ['스파게티','피자','요거트','계란','콘프로스트']})
df5

Unnamed: 0,점심,저녁,아침
0,치킨,스파게티,스파게티
1,피자,김치찌개,피자
2,햄버거,햄버거,요거트
3,요거트,피자,계란
4,반반치킨,콜라,콘프로스트


In [28]:
df6 = pd.DataFrame({
    '런치' : ['치킨','김치찌개','요거트'],
    '디너' : ['스파게티', '김치찌개','반반치킨' ],
    '아침' : ['피자', '요거트','햄버거' ]
})
df6

Unnamed: 0,런치,디너,아침
0,치킨,스파게티,피자
1,김치찌개,김치찌개,요거트
2,요거트,반반치킨,햄버거


In [31]:
pd.merge(df5, df6, left_on=['점심', '런치'])

MergeError: Must pass "right_on" OR "right_index".

concat 함수를 사용한 데이터 연결
객체마다 제공하는 메서드가 다름

In [32]:
#`concat` 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다. 
#단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [33]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [34]:
pd.concat([s1, s2])
#행방향으로 위아래 합쳐짐
#디폴트 엑시스 0

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [35]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [36]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [37]:
pd.concat([df1, df2], axis=1)
#없는 인덱스는 난

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [38]:
#merge는 칼럼 기준
#join은 인덱스 기준
#concat은 축 기준

연습문제

어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [47]:
df1 = pd.DataFrame(np.random.randint(0,101,(6,3)), columns=["매출", "비용", "이익" ])
df1.index = ["1월","2월","3월","4월","5월","6월"]
df1

Unnamed: 0,매출,비용,이익
1월,27,99,0
2월,40,24,37
3월,97,30,91
4월,87,1,41
5월,5,69,44
6월,93,97,60


In [48]:
df2 = pd.DataFrame(np.random.randint(0,101,(6,3)), columns=["매출", "비용", "이익" ])
df2.index = ["7월","8월","9월","10월","11월","12월"]
df2

Unnamed: 0,매출,비용,이익
7월,71,32,64
8월,10,17,88
9월,48,9,69
10월,18,67,45
11월,28,3,75
12월,100,37,48


In [54]:
df3 = pd.concat([df1, df2], axis=0)
df3

Unnamed: 0,매출,비용,이익
1월,27,99,0
2월,40,24,37
3월,97,30,91
4월,87,1,41
5월,5,69,44
6월,93,97,60
7월,71,32,64
8월,10,17,88
9월,48,9,69
10월,18,67,45


In [55]:
df3["이익"] = df3["매출"] - df3["비용"]

In [56]:
df3

Unnamed: 0,매출,비용,이익
1월,27,99,-72
2월,40,24,16
3월,97,30,67
4월,87,1,86
5월,5,69,-64
6월,93,97,-4
7월,71,32,39
8월,10,17,-7
9월,48,9,39
10월,18,67,-49


In [57]:
df3["총 실적"] = df3["매출"] + df3["비용"] + df3["이익"], axis=0

SyntaxError: cannot assign to subscript here. Maybe you meant '==' instead of '='? (3619788680.py, line 1)

피봇테이블

In [58]:
#피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.
import pandas as pd

In [59]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [60]:
df2 = df1[["도시", "연도", "인구"]] #복수니까 리스트로 묶어줌
df2

Unnamed: 0,도시,연도,인구
0,서울,2015,9904312
1,서울,2010,9631482
2,서울,2005,9762546
3,부산,2015,3448737
4,부산,2010,3393191
5,부산,2005,3512547
6,인천,2015,2890451
7,인천,2010,263203


In [61]:
df1.pivot?

In [62]:
# df2.pivot("도시", "연도", "인구")
df2.pivot(index="도시", columns="연도", values="인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [63]:
# df2.pivot("도시", "연도", "인구")
df2.pivot(index="연도", columns="도시", values="인구")

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


In [64]:
df2 = df1[["도시", "연도", "인구"]] #복수니까 리스트로 묶어줌
df2

Unnamed: 0,도시,연도,인구
0,서울,2015,9904312
1,서울,2010,9631482
2,서울,2005,9762546
3,부산,2015,3448737
4,부산,2010,3393191
5,부산,2005,3512547
6,인천,2015,2890451
7,인천,2010,263203


In [66]:
df2.set_index("도시")

Unnamed: 0_level_0,연도,인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2015,9904312
서울,2010,9631482
서울,2005,9762546
부산,2015,3448737
부산,2010,3393191
부산,2005,3512547
인천,2015,2890451
인천,2010,263203


In [67]:
#셋인덱스 - 행인덱스, 언스택은 행인덱스를 열 인덱스로 바꿔주는 것
df1.set_index(["도시", "연도"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구,지역
도시,연도,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2015,9904312,수도권
서울,2010,9631482,수도권
서울,2005,9762546,수도권
부산,2015,3448737,경상권
부산,2010,3393191,경상권
부산,2005,3512547,경상권
인천,2015,2890451,수도권
인천,2010,263203,수도권


In [68]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [69]:
#행 인덱스나 열 인덱스를 리스트로 주는 경우에는 다중 인덱스 피봇 테이블을 생성한다.
#인덱스 리스트 주면 행인덱스로 두개 넣을 수 있음
df1.pivot(index= ["지역", "도시"], columns="연도", values="인구")

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


In [70]:
#행 인덱스와 열 인덱스는 데이터를 찾는 키(key)의 역할을 한다. 따라서 키 값으로 데이터가 단 하나만 찾아져야 한다.
#밸류 가 딱 하나여야함
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [71]:
try:
    df1.pivot(index="지역", columns="연도", values="인구")
except ValueError as e:
    print("ValueError:", e)

ValueError: Index contains duplicate entries, cannot reshape


그룹분석

groupby 메서드는 데이터를 그룹 별로 분류하는 역할

In [72]:
#agg 내가 제공되는 연산이 없어. 그럼 내가 만들 수 있음.
#describe 
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [74]:
df2.groupby?

In [73]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000294D3621490>

In [75]:
groups.groups #해당하는 인덱스가 들어감.

{'A': [0, 1, 4], 'B': [2, 3]}

In [76]:
groups.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [77]:
df2.data1.groupby(df2.key1).sum() 
#df2의 data1 칼럼에 대해서 그룹바이 할거야. df2의 key1을 기준으로 그룹바이 하고싶어

key1
A    8
B    7
Name: data1, dtype: int64

In [78]:
df2.data2.groupby(df2.key1).sum() 


key1
A    80
B    70
Name: data2, dtype: int64

In [79]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [80]:
df2.groupby(df2.key1)["data1"].sum()
# `GroupBy` 클래스 객체에서 data1만 선택하여 분석하는 경우

key1
A    8
B    7
Name: data1, dtype: int64

In [81]:
df2.groupby(df2.key1).sum()["data1"]  
# 전체 데이터를 분석한 후 data1만 선택한 경우
#세가지는 연산량 차이. 

key1
A    8
B    7
Name: data1, dtype: int64

연습문제

key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [82]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [87]:
a = pd.DataFrame(df2.data1.groupby(df2.key1).sum())
a

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


이번에는 복합 키 (key1, key2) 값에 따른 data1의 합계를 구하자.
분석하고자 하는 키가 복수이면 리스트를 사용한다.

In [90]:
a = pd.DataFrame(df2.data1.groupby(df2.['key1', 'key2']).sum())
a

SyntaxError: invalid syntax (1636196104.py, line 1)

In [91]:
#그룹분석 기능을 사용하면 위의 인구 데이터로부터 지역별 합계를 구할 수도 있다.
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [92]:
df1["인구"].groupby(df1["지역"]).sum()

지역
경상권    10354475
수도권    32451994
Name: 인구, dtype: int64

In [93]:
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


agg

In [94]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [95]:
iris.info() #아이리스 데이터 한눈에 볼 때 사용하는 메서드.
#어떤 클래스, 길이, 엔트리, 칼럼, 난널이 있는지 없는지, 데이터타입...

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [96]:
def peak_to_peak_ratio(x):
    return x.max() / x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


describe

In [97]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [98]:
#데이터 로드하면 무 조건 맨 먼저 info, describe
#이 정보를 바탕으로 어떻게 데이터를 분석할지 사전탐색

In [99]:
iris.groupby(iris.species).describe() #아이리스 스페시스 기준으로 그룹바이할거야

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [100]:
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


apply

In [None]:
iris.sort_values

In [101]:
def top3_petal_length(df):
    return df.sort_values(by="petal_length", ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length) #전체 클래스에 다 적용

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


transform

In [None]:
pd.qcut(s, 3, labels=["소", "중", "대"]).astype(str)

In [102]:
def q3cut(s):
    return pd.qcut(s, 3, labels=["소", "중", "대"]).astype(str) #s데이터 들어왔을때 큐컷, 3개로 나눠줄꺼야. 라벨을 소중대로, 타입은 스트링


iris["petal_length_class"] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[["petal_length", "petal_length_class"]].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,중
141,5.1,소
142,5.1,소
143,5.9,대
144,5.7,중
145,5.2,소
146,5.0,소
147,5.2,소
148,5.4,중
149,5.1,소


연습문제

붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라.

만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [104]:
iris.groupby(iris.species).mean()

TypeError: Could not convert 소소소중소대소중소중중대소소소중소소대중대중소대대대대중소대대중중소중소소소소중소소소대대소대소중소 to numeric

In [105]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [106]:
iris.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


pivot_table

In [107]:
#피봇만들건데 데이터, 밸류, 행인덱서 칼럼인덱스 일치하는 밸류가 유일하면 그냥 피벗만들어줌
#유일하지 않으면 집계해준 다음 피봇으로 만들어줌.
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [108]:
df1.pivot_table(values="인구", index="도시", columns="연도") # 인자를 안써도 되지만, 헷갈리니 꼭 기입해주자
#피벗테이블만들거야, 인구, 도시, 연도

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [109]:
#aggfunc가 주어지지 않았으면 평균을 계산한다.
df1.pivot_table(values="인구", index="도시", columns="연도", margins=True, margins_name="평균") # aggfunc 디폴트 평균계산
#마진트루 - 디폴트가 평균
#평균값이 추가된것. 마진이 여백.

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
평균,6637546.5,4429292.0,5414500.0,5350809.0


In [110]:
df1["인구"].mean()

5350808.625

In [111]:
df1.pivot_table("인구", index=["연도", "도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [112]:
tips = sns.load_dataset("tips")
tips.tail()
#size는 인원

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [114]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


분석의 목표는 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지지는 찾는 것이다.
우선 식사대금와 팁의 비율을 나타내는 tip_pct를 추가하자.

In [117]:
tips['tip_pct'] = round(tips['tip'] / tips['total_bill'] * 100) #파생변수 tip_pct
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,20.0
240,27.18,2.0,Female,Yes,Sat,Dinner,2,7.0
241,22.67,2.0,Male,Yes,Sat,Dinner,2,9.0
242,17.82,1.75,Male,No,Sat,Dinner,2,10.0
243,18.78,3.0,Female,No,Thur,Dinner,2,16.0


In [118]:
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,16.094262
std,8.902412,1.383638,0.9511,6.102968
min,3.07,1.0,1.0,4.0
25%,13.3475,2.0,2.0,13.0
50%,17.795,2.9,2.0,15.5
75%,24.1275,3.5625,3.0,19.0
max,50.81,10.0,6.0,71.0


In [119]:
tips.groupby("sex").count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [120]:
tips.groupby("sex").size() #nan이 있어도 상관안함 사이즈는

sex
Male      157
Female     87
dtype: int64

In [121]:
tips.groupby(["sex", "smoker"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,day,time,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,Yes,60,60,60,60,60,60
Male,No,97,97,97,97,97,97
Female,Yes,33,33,33,33,33,33
Female,No,54,54,54,54,54,54


In [124]:
tips.groupby(["sex", "smoker"]).count()[['total_bill']]

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill
sex,smoker,Unnamed: 2_level_1
Male,Yes,60
Male,No,97
Female,Yes,33
Female,No,54


In [123]:
tips.groupby(["sex", "smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [125]:
tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)


smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [126]:
tips[['sex', 'tip_pct']]

Unnamed: 0,sex,tip_pct
0,Female,6.0
1,Male,16.0
2,Male,17.0
3,Male,14.0
4,Female,15.0
...,...,...
239,Male,20.0
240,Female,7.0
241,Male,9.0
242,Male,10.0


In [127]:
tips.groupby("sex")['tip_pct'].mean() #그룹바이 성별 넣어주고, tip_pic뽑아서 평균, 순서는 반대여도 됨.

sex
Male      15.783439
Female    16.655172
Name: tip_pct, dtype: float64

In [128]:
tips.groupby("sex")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,15.783439
Female,16.655172


In [129]:
tips.groupby("smoker")[["tip_pct"]].mean()


Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,16.322581
No,15.953642


In [130]:
tips.pivot_table(values="tip_pct", index="sex") # default 평균

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,15.783439
Female,16.655172


In [131]:
tips.pivot_table("tip_pct", ["sex", "smoker"]) #2개도 넣을 수 있음 . 다중인덱스.

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,15.266667
Male,No,16.103093
Female,Yes,18.242424
Female,No,15.685185


In [132]:
tips.pivot_table("tip_pct", "sex", "smoker") # data, index, columns, 지정안하면 자동으로 구분.
#가능하면 인자 써주라 ~

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,15.266667,16.103093
Female,18.242424,15.685185


In [133]:
tips.groupby("sex")[["tip_pct"]].describe()
#성별에따른 팁 비율의 기술통계 볼 수 있음

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,15.783439,6.465211,4.0,12.0,15.0,19.0,71.0
Female,87.0,16.655172,5.37831,6.0,14.0,16.0,19.0,42.0


In [134]:
tips.groupby("smoker")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,16.322581,8.505959,4.0,11.0,15.0,20.0,71.0
No,151.0,15.953642,3.988881,6.0,14.0,16.0,18.5,29.0


In [135]:
tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,15.266667,9.027015,4.0,10.0,14.0,19.0,71.0
Male,No,97.0,16.103093,4.191968,7.0,13.0,16.0,19.0,29.0
Female,Yes,33.0,18.242424,7.202562,6.0,15.0,17.0,20.0,42.0
Female,No,54.0,15.685185,3.617693,6.0,14.0,15.0,18.0,25.0


연습문제

1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다.
2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?

In [136]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,6.0
1,10.34,1.66,Male,No,Sun,Dinner,3,16.0
2,21.01,3.50,Male,No,Sun,Dinner,3,17.0
3,23.68,3.31,Male,No,Sun,Dinner,2,14.0
4,24.59,3.61,Female,No,Sun,Dinner,4,15.0
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,20.0
240,27.18,2.00,Female,Yes,Sat,Dinner,2,7.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2,9.0
242,17.82,1.75,Male,No,Sat,Dinner,2,10.0


In [140]:
tips.groupby("day")[["tip_pct"]].count()

Unnamed: 0_level_0,tip_pct
day,Unnamed: 1_level_1
Thur,62
Fri,19
Sat,87
Sun,76


In [141]:
tips.groupby("time")[["tip_pct"]].count()

Unnamed: 0_level_0,tip_pct
time,Unnamed: 1_level_1
Lunch,68
Dinner,176


In [142]:
tips.groupby("size")[["tip_pct"]].count()

Unnamed: 0_level_0,tip_pct
size,Unnamed: 1_level_1
1,4
2,156
3,38
4,37
5,5
6,4


In [147]:
tips.groupby("tip_pct")[["time", "day","size"]].count()

Unnamed: 0_level_0,time,day,size
tip_pct,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4.0,1,1,1
6.0,3,3,3
7.0,6,6,6
8.0,8,8,8
9.0,4,4,4
10.0,11,11,11
11.0,7,7,7
12.0,17,17,17
13.0,12,12,12
14.0,27,27,27
