# 판다스 패키지의 소개
대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다.

판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

## 판다스 패키지 임포트
판다스 패키지를 사용하기 위해 우선 임포트를 해야 한다.

판다스 패키지는 pd라는 별칭으로 임포트하는 것이 관례이므로 여기에서도 해당 관례를 따르도록 한다.

In [1]:
import pandas as pd

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ['서울', '부산', '인천', '대구'])

s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [4]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [6]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [7]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [8]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
s[1]

3448737

In [10]:
s['부산']

3448737

In [11]:
s['대구']

2466052

In [12]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[[0, 3, 2]]

도시
서울    9904312
대구    2466052
인천    2890451
Name: 인구, dtype: int64

In [14]:
s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

슬라이싱을 해도 부분적인 시리즈를 반환한다.
이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 한다.

In [16]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
s['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [18]:
s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [19]:
s0.a

0

In [20]:
s.부산

3448737

# 시리즈와 딕셔너리 자료형
시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.

따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [21]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [22]:
'서울' in s

True

In [23]:
'대전' in s

False

In [24]:
for k, v in s.items() :
    print('%s = %d' % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [25]:
s2 = pd.Series({'서울' : 9631482, '부산' : 3393191, '인천' : 2632035, '대전' : 1490158}, index = ['부산', '서울', '인천', '대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [26]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [27]:
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [28]:
ds = s - s2

In [29]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [30]:
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [31]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [32]:
rs = ((s - s2) / s2) * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [33]:
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [34]:
rs['부산'] = 1.63

rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [35]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [36]:
del rs['서울']
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [37]:
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

# 데이터프레임 클래스
{margin}
`DataFrame`
{margin}
행 인덱스(row index, index)
{margin}
열 인덱스(cplumn index, columns)

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라
데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.

2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라
각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있다.

## 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.

이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.

이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [38]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"] # 순서 지정
index = ["서울", "부산", "인천", "대구"] # 순서 지정
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [39]:
print(df)

     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [40]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [41]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [42]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [43]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [44]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [45]:
df['2010-2015 증가율'] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [46]:
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [47]:
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [48]:
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [49]:
del df['205-2010 증가율']
df

KeyError: '205-2010 증가율'

In [None]:
df['지역']

In [None]:
df['2010', '2015']

In [None]:
df[['2010', '2015']]

In [None]:
df['2010'], type(df['2010'])

In [None]:
df[['2010']], type(df[['2010']])

In [None]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

In [None]:
df2[2]

In [None]:
df2[[1, 2]]

In [None]:
df2[[2]]

In [None]:
df

In [None]:
df[:1]

In [None]:
df[1:2]

In [None]:
df[1:3]

In [None]:
df['서울':'부산']

In [None]:
df['2015']['서울']

In [None]:
df['서울']['2015']

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

In [None]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

In [None]:
df['수학']

In [None]:
df[['국어', '영어']]

In [None]:
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

# df['평균 점수'] = round(df.mean(axis = 1), 2)

In [None]:
df['영어']['방자'] = 80
df['평균'] = round(( df['국어'] + df['영어'] + df['수학'] ) / 3, 2)
df

In [None]:
df[:1]

In [None]:
df.T['향단']

In [None]:
a = np.arange(1, 10).reshape(3, 3)
a

In [None]:
b = np.arange(1, 7).reshape(2, 3)
b

In [None]:
c = np.vstack((a, b))
c

In [None]:
d = np.hstack((a, b))
d

# 데이터 입출력


In [None]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
import pandas as pd
pd.read_csv('sample1.csv')


In [None]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])


In [None]:
pd.read_csv('sample2.csv')


In [None]:
pd.read_csv('sample1.csv', index_col='c1')


In [None]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

In [None]:
pd.read_table('sample3.txt', sep='\s+')


In [None]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
pd.read_csv('sample4.txt', skiprows=[0, 1])


In [None]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

In [None]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

## CSV 파일 출력

지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드를 사용한다.

In [None]:
df.to_csv('sample6.csv')


In [None]:
!type sample6.csv


In [None]:
df.to_csv('sample7.txt', sep='|')


In [None]:
!type sample7.txt


In [None]:
df


In [None]:
df.to_csv('sample8.csv', na_rep='누락') # unicode encoding 처리 필요


In [None]:
!type sample8.csv


In [None]:
df.index = ["a", "b", "c"]
df

In [None]:
df.to_csv('sample9.csv', index=False, header=False)


In [None]:
!type sample9.csv


## 인터넷 상의 CSV 파일 입력
웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다.

read_csv 명령 사용시 파일 path 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.

다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

In [None]:
df.head()


In [None]:
df.tail(10)


## 인터넷 상의 데이터 베이스 자료 입력
pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다.
pandas_datareader 패키지는 판다스와 별도로 설치해야 한다.
다음은 pandas_datareader 패키지가 제공하는 인터넷 사이트의 예이다. 일부 인터넷 사이트는 유료이므로 별도의 가입절차를 거쳐야 한다.

FRED
Fama/French
World Bank
OECD
Eurostat
EDGAR Index
TSP Fund Data
Oanda currency historical rate
Nasdaq Trader Symbol Definitions
자세한 내용은 다음 웹사이트를 참조한다.

https://pandas-datareader.readthedocs.io/en/latest/index.html
날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [None]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [None]:
pip install pandas_datareader

In [None]:
import pandas_datareader as pdr


In [None]:
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

In [None]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation.tail()

# 4.3 데이터프레임 고급 인덱싱
데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다.
앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인덱싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다.
그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성도 제공한다.

loc : 라벨값 기반의 2차원 인덱싱 # 사람관점의 라벨인덱스 기준
iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 # 컴퓨터관점의 인덱스 기준
loc 인덱서
loc 인덱서는 다음처럼 사용한다.

df.loc[행 인덱싱값]
또는

df.loc[행 인덱싱값, 열 인덱싱값]
이 때 인덱싱 값은 다음 중 하나이다. 행 인덱싱값은 정수 또는 행 인덱스데이터이고 열 인덱싱값은 라벨 문자열이다.

인덱스데이터
인덱스데이터 슬라이스
인덱스데이터 리스트
같은 행 인덱스를 가지는 불리언 시리즈 (행 인덱싱의 경우)
또는 위의 값들을 반환하는 함수
다음과 같은 데이터프레임을 예로 들자.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

In [None]:
df['A']


In [None]:
df.loc["a"]


In [None]:
df.loc["b":"c"]


In [None]:
df["b":"c"]


In [None]:
df[["b", "c"]] # KeyError


In [None]:
df.A > 15


In [None]:
df.loc[df.A > 15]


In [None]:
def select_rows(df):
    return df.A > 15

In [None]:
select_rows(df)


In [None]:
df.loc[select_rows(df)]


In [None]:
df['A']


In [None]:
df.loc["A"]  # KeyError


In [None]:
df[["A", "B"]] 


In [None]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

In [None]:
df2.loc[1:2]

In [None]:
df2[1:3]

# 인덱싱값을 행과 열 모두 받는 경우
인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다.

행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.

In [None]:
df


In [None]:
df.loc["a", "A"]


In [None]:
df.loc["b": , "A"]


In [None]:
df.loc["a", :]


In [None]:
df.loc[["a", "b"], ["B", "D"]]


In [None]:
df.loc[df.A > 10, ["C", "D"]]


## iloc 인덱서
iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

In [None]:
df

In [None]:
df.iloc[0, 1]


In [None]:
df.iloc[:2, 2]


In [None]:
df.iloc[0, -2:]


In [None]:
df.iloc[2:3, 1:3]


In [None]:
df


In [None]:
df.iloc[-1]


In [None]:
df.iloc[-1] = df.iloc[-1] * 2
df

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

In [None]:
s = pd.Series(range(10))
s

In [None]:
s[3] = np.nan
s

In [None]:
s.count()


In [None]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

In [None]:
df.count()


In [None]:
import seaborn as sns


In [None]:
titanic = sns.load_dataset("titanic")
titanic.head()

In [None]:
titanic.count()


In [None]:
len(titanic)

## 카테고리 값 세기
{margin}
`value_counts`
시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [None]:
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

In [None]:
s2.value_counts()


In [None]:
df[0].value_counts()


## 정렬
{margin}
`sort_index`
{margin}
`sort_values`
데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다.
sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 sort_index를 적용한다.

In [None]:
s2.value_counts().sort_index()

In [None]:
s2.value_counts()

In [None]:
s.sort_values()

In [None]:
s.sort_values(ascending = False)

In [None]:
df

In [None]:
df.sort_values(by = 1)

In [None]:
df.sort_values(by = [1, 2])

In [None]:
titanic[['sex', 'age', 'class', 'alive']]


In [None]:
titanic['sex'].sort_values()


In [None]:
titanic['sex'].sort_values().value_counts()


In [None]:
titanic['sex'].value_counts()

In [None]:
list1 = ['sex', 'age', 'class', 'alive']
for l in list1:
    print(titanic[l].value_counts())
    print('='*10)

## 행/열 합계
{margin}
`sum`
행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

In [None]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

In [None]:
df2.sum(axis=1)


In [None]:
df2["RowValSum"] = df2.sum(axis=1)
df2

In [None]:
df2.sum()


In [None]:
df2.loc["ColValTotal"] = df2.sum()
df2

In [None]:
df2.loc["ColTotal", :] = df2.sum()
df2

In [None]:
titanic

In [None]:
titanic['age mean'] = round(titanic['age'].mean(), 2)
titanic.head()

In [None]:
titanic['sex'] == 'female'

In [None]:
titanic[titanic['sex']=='female']['age'].mean()

In [None]:
titanic[titanic['sex']=='female']

In [None]:
titanic[(titanic['sex']=='female') & (titanic['pclass'] == 1)]['age'].mean()

## apply 변환
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [None]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

In [None]:
df3.apply(lambda x: x.max() - x.min(), axis = 0)

In [None]:
df3.apply(lambda x: x.max() - x.min(), axis = 1)

In [None]:
df3

In [None]:
df3.apply(pd.value_counts)

In [None]:
titanic

In [None]:
titanic['adult/child'] = titanic['age'].apply(lambda x: 'adult' if x > 20 else 'child')
titanic.tail(10)

# 12월 20일 시작

In [None]:
titanic['category1'] = titanic.apply(lambda x : x.sex if x.age >= 20 else 'child', axis = 1)

In [None]:
titanic

In [None]:
df3

In [None]:
df3['A']

In [None]:
df3.apply(pd.value_counts)

In [None]:
df3.apply(pd.value_counts).fillna(0.0)

In [None]:
titanic

In [None]:
titanic['age']

In [None]:
round(titanic['age'].mean(), 2)

In [None]:
titanic['age'].fillna(round(titanic['age'].mean()))

In [None]:
titanic['age'] = titanic['age'].fillna(round(titanic['age'].mean(), 2))
# titanic['age'].fillna(rount(titanic['age'].mean()), inplace = True)

In [None]:
titanic['age'].isnull().sum()

## astype 메서드

In [None]:
df3.apply(pd.value_counts).fillna(0).astype(int)

In [None]:
titanic

In [None]:
titanic['sex']

In [None]:
titanic['age']

In [None]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(str)

In [None]:
titanic

In [None]:
titanic.age

In [None]:
titanic['age']

In [None]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]


In [None]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [None]:
cats = pd.cut(ages, bins, labels = labels)
cats

In [None]:
cats = pd.cut(ages, bins)
cats

In [None]:
pd.cut?

In [None]:
type(cats)

In [None]:
cats.categories

In [None]:
cats.codes

In [None]:
df4 = pd.DataFrame(ages, columns = ['ages'])
df4

In [None]:
df4['age_cat'] = pd.cut(df4.ages, bins, labels = labels)
print(bins)
print(labels)
df4

In [None]:
df4['age_cat']

In [None]:
df4.age_cat.astype(str) + df4.ages.astype(str)

In [None]:
import random

In [None]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

In [None]:
pd.value_counts(cats)

In [None]:
pd.qcut?

In [None]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [None]:
titan = pd.cut(titanic['age'], bins, labels = labels)
titan

In [None]:
titan.value_counts()

In [None]:
titan.value_counts()/ len(titan) * 100    

In [None]:
titanic

In [None]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
sexlabel = ['남성', '여성']

In [None]:
pd.cut(titanic['age'], bins, labels = labels)

In [None]:
titanic['category3'] = pd.cut(titanic['age'], bins, labels = labels).astype(str) + titanic['sex'].apply(lambda x : '남성' if x == 'male' else '여성').astype(str)

In [None]:
titanic

# 데이터프레임 인덱스 조작
데이터프레임 인덱스 설정 및 제거
때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다.
이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [57]:
import random 
import pandas as pd
import numpy as np

In [58]:
np.round(np.random.rand(3, 5), 2)

array([[0.79, 0.45, 0.6 , 0.42, 0.57],
       [0.59, 0.27, 0.5 , 0.88, 0.62],
       [0.16, 0.84, 0.72, 0.18, 0.44]])

In [59]:
np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])

array([['A', 'B', 'C', 'D', 'E'],
       ['0.02', '0.24', '0.03', '0.5', '0.1'],
       ['0.7', '0.34', '0.04', '0.91', '0.45'],
       ['0.55', '0.81', '0.58', '0.13', '0.37']], dtype='<U32')

In [60]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)]).T, columns = ['C1', 'C2', 'C3', 'C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [61]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [62]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [63]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [64]:
df2.reset_index(drop = True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


In [65]:
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [66]:
df2.reset_index(drop = False)

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


# 12월 21일

In [73]:
columns = ['국어', '영어', '수학']
df_score1 = pd.DataFrame(np.random.randint(0, 101, size = (5, 3)), columns = columns)
df_score1

Unnamed: 0,국어,영어,수학
0,46,82,91
1,0,14,99
2,53,12,42
3,84,75,68
4,6,68,47


In [75]:
df_score1.index = ['a', 'b', 'c', 'd', 'e']

In [76]:
df_score1

Unnamed: 0,국어,영어,수학
a,46,82,91
b,0,14,99
c,53,12,42
d,84,75,68
e,6,68,47


In [80]:
df_score2 = df_score1.reset_index()

In [81]:
df_score2

Unnamed: 0,index,국어,영어,수학
0,a,46,82,91
1,b,0,14,99
2,c,53,12,42
3,d,84,75,68
4,e,6,68,47


In [83]:
df_score3 = df_score2.set_index('index')
df_score3

Unnamed: 0_level_0,국어,영어,수학
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,46,82,91
b,0,14,99
c,53,12,42
d,84,75,68
e,6,68,47


## 다중 인덱스

{margin}
다중 인덱스(multi-index)
행이나 열에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있다.

데이터프레임을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.

In [86]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2), columns = [['A', 'A', 'B', 'B'], ['C1', 'C2', 'C2', 'C1']])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C2,C1
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [88]:
df3.columns.names = ['Cidx1', 'Cidx2']
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C2,C1
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [89]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2), columns = [['A', 'A', 'B', 'B'], ['C', 'D', 'C', 'D']], index = [['M', 'M', 'M', 'F', 'F', 'F'], ['id_' + str(i + 1) for i in range(3)] * 2])

df4

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,C,D,C,D
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [90]:
df4.columns.names = ['Cidx1', 'Cidx2']
df4.index.names = ['Ridx1', 'Ridx2']
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## 행 인덱스와 열 인덱스 교환
{margin}
`stack`
{margin}
`unstack`
stack 메서드나 unstack 메서드를 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.

stack

열 인덱스 -> 행 인덱스로 변환
unstack

행 인덱스 -> 열 인덱스로 변환
stack 메서드를 실행하면 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.
마찬가지로 unstack 메서드를 실행하면 행 인덱스가 시계 방향으로 90도 회전한 것과 비슷하다.
인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.

In [94]:
df4.stack('Cidx1')

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [93]:
df4.stack(1) # cidx2 == 1

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,1.76,0.98
M,id_1,D,0.4,2.24
M,id_2,C,1.87,0.95
M,id_2,D,-0.98,-0.15
M,id_3,C,-0.1,0.14
M,id_3,D,0.41,1.45
F,id_1,C,0.76,0.44
F,id_1,D,0.12,0.33
F,id_2,C,1.49,0.31
F,id_2,D,-0.21,-0.85


In [95]:
df4.stack(2)

IndexError: Too many levels: Index has only 2 levels, not 3

df4.stack(-1)

In [97]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [98]:
df4.unstack(0) # ridx1 == 0 

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


## 다중 인덱스가 있는 경우의 인덱싱

데이터프레임이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 라벨이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다.
예를 들어 앞에서 만든 df3 데이터프레임의 경우 다음과 같이 인덱싱할 수 있다.

In [99]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C2,C1
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [100]:
df3[('B', 'C1')]

0    2.24
1   -0.15
2    1.45
3    0.33
4   -0.85
Name: (B, C1), dtype: float64

In [102]:
df3.loc[0, ('B', 'C1')]

2.24

In [103]:
df3.loc[0, ('B', 'C1')] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C2,C1
0,1.76,0.4,0.98,100.0
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

In [104]:
df3.iloc[0, 2]

0.98

In [105]:
df3.iloc[1, 2]

0.95

만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 본다.



In [106]:
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [107]:
df3['C1']

KeyError: 'C1'

In [108]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [109]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [111]:
df4.loc[:, ('A', 'C')]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [112]:
df4.loc[('M', 'id_1'), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [115]:
df4.loc[('ALL', 'ALL'), :] =df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28


In [116]:
df4.loc[('ALL'), :] = df4.sum()
df4

ValueError: Must have equal len keys and value when setting with an iterable

In [119]:
df4.loc[('ALL', ' '), :] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
ALL,,6.46,0.78,7.36,4.56
ALL,,12.92,1.56,14.72,9.12


In [118]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [120]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
ALL,,6.46,0.78,7.36,4.56
ALL,,12.92,1.56,14.72,9.12


In [122]:
df4.loc[('M', slice(None)), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [123]:
df4.loc[('M', :), :]

SyntaxError: invalid syntax (2733765994.py, line 1)

In [124]:
df4.loc[(slice(None), 'id_1'), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


## 다중 인덱스의 인덱스 순서 교환
다중 인덱스의 인덱스 순서를 바꾸고 싶으면 swaplevel 명령을 사용한다.

swaplevel(i, j, axis)
i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

In [125]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
ALL,,6.46,0.78,7.36,4.56
ALL,,12.92,1.56,14.72,9.12


In [126]:
df5 = df4.swaplevel('Ridx1', 'Ridx2')

In [127]:
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
,ALL,6.46,0.78,7.36,4.56
,ALL,12.92,1.56,14.72,9.12


In [128]:
df6 = df4.swaplevel('Cidx1', 'Cidx2', 1)

In [129]:
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
ALL,,6.46,0.78,7.36,4.56
ALL,,12.92,1.56,14.72,9.12


In [130]:
df6 = df4.swaplevel('Cidx1', 'Cidx2', 0)

KeyError: 'Level Cidx1 not found'

## 다중 인덱스가 있는 경우의 정렬

다중 인덱스가 있는 데이터프레임을 sort_index로 정렬할 때는 level 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

In [131]:
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28
,ALL,6.46,0.78,7.36,4.56
,ALL,12.92,1.56,14.72,9.12


In [132]:
df5.sort_index?

In [133]:
df5.sort_index(level = 0) # ridx 2 기준

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
,ALL,6.46,0.78,7.36,4.56
,ALL,12.92,1.56,14.72,9.12
ALL,ALL,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [134]:
df5.sort_index(level = 1)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
,ALL,6.46,0.78,7.36,4.56
,ALL,12.92,1.56,14.72,9.12
ALL,ALL,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45


````{admonition} 연습 문제 4.5.2

A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

"반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score3을 만든다.

df_score3을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score4을 만든다.

데이터 프레임 df_score4에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

df_score3을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score5을 만든다.

데이터 프레임 df_score5에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

````

In [181]:
import numpy as np
import pandas as pd

columns = ['반', '번호', '국어', '영어', '수학']
class_ = np.array(['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B']).reshape(10, 1)
num = np.array(['1', '2', '3', '4', '5', '1', '2', '3', '4', '5']).reshape(10, 1)
score = np.random.randint(1, 101, (10, 3))

df_score3 = pd.DataFrame(np.hstack([class_, num, score]), columns = columns)
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,18,80,5
1,A,2,43,59,32
2,A,3,2,66,42
3,A,4,58,36,12
4,A,5,47,83,92
5,B,1,1,15,100
6,B,2,54,13,43
7,B,3,85,76,69
8,B,4,7,69,48
9,B,5,4,77,53


In [182]:
df_score4 = df_score3.set_index(['반', '번호'])

df_score4                         

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,18,80,5
A,2,43,59,32
A,3,2,66,42
A,4,58,36,12
A,5,47,83,92
B,1,1,15,100
B,2,54,13,43
B,3,85,76,69
B,4,7,69,48
B,5,4,77,53


In [184]:
df_score4[['국어','영어','수학']] = df_score4[['국어','영어','수학']].astype(int)

df_score4['평균'] = df_score4.mean(axis=1).round(2)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,18,80,5,34.33
A,2,43,59,32,44.67
A,3,2,66,42,36.67
A,4,58,36,12,35.33
A,5,47,83,92,74.0
B,1,1,15,100,38.67
B,2,54,13,43,36.67
B,3,85,76,69,76.67
B,4,7,69,48,41.33
B,5,4,77,53,44.67


In [186]:
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,18,80,5
1,A,2,43,59,32
2,A,3,2,66,42
3,A,4,58,36,12
4,A,5,47,83,92
5,B,1,1,15,100
6,B,2,54,13,43
7,B,3,85,76,69
8,B,4,7,69,48
9,B,5,4,77,53


In [207]:
df_score5 = df_score3.set_index(['번호', '반']).unstack()
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,18,1,80,15,5,100
2,43,54,59,13,32,43
3,2,85,66,76,42,69
4,58,7,36,69,12,48
5,47,4,83,77,92,53


In [208]:
df_score5.loc['평균'] = df_score5.mean()
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,18.0,1.0,80.0,15.0,5.0,100.0
2,43.0,54.0,59.0,13.0,32.0,43.0
3,2.0,85.0,66.0,76.0,42.0,69.0
4,58.0,7.0,36.0,69.0,12.0,48.0
5,47.0,4.0,83.0,77.0,92.0,53.0
평균,36865169.4,309714.8,1611932736.6,302753395.4,106484258.4,2008738970.6


In [185]:
df_score4.loc[:, '국어']

반  번호
A  1     96
   2     92
   3     84
   4     93
   5     47
B  1     39
   2     99
   3     84
   4     33
   5     45
Name: 국어, dtype: object

In [186]:
df_score4.loc[:, '수학']

반  번호
A  1      6
   2     74
   3     22
   4     44
   5     52
B  1     75
   2     97
   3     79
   4     98
   5     58
Name: 수학, dtype: object

In [187]:
df_score4.loc[:, '영어']

반  번호
A  1      1
   2     31
   3      8
   4      9
   5      1
B  1     90
   2     88
   3     27
   4     71
   5     60
Name: 영어, dtype: object

In [5]:
import numpy as np
import random
import pandas as pd

np.random.seed(0)                            
class1 = np.array(list('AAAAABBBBB')).reshape(10, 1)
number = np.hstack([np.random.choice(range(1,6), 5, replace=False), np.random.choice(range(1,6), 5, replace=False)]).reshape(10,1)
score = np.random.randint(0,101,(10,3))
df_score3 = pd.DataFrame(np.hstack([class1,number, score]), columns=["반","번호","국어","영어","수학"])
df_score3    

# 인덱스 설정
df_score4 = df_score3.set_index(['반', '번호'])
df_score4

# 각 학생의 평균 계산
df_score4[['국어','영어','수학']] = df_score4[['국어','영어','수학']].astype(int)
df_score4['평균'] = df_score4.mean(axis=1).round(1)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,3,21,36,87,48.0
A,1,70,88,88,82.0
A,2,12,58,65,45.0
A,4,39,87,46,57.3
A,5,88,81,37,68.7
B,1,25,77,72,58.0
B,3,9,20,80,36.3
B,2,69,79,47,65.0
B,5,64,82,99,81.7
B,4,88,49,29,55.3


TypeError: can only concatenate str (not "float") to str

# 4.6 데이터프레임 합성
판다스는 두 개 이상의 데이터프레임을 하나로 합치는 데이터 병합(merge)이나 연결(concatenate)을 지원한다.

merge 함수를 사용한 데이터프레임 병합
{margin}
`merge`
merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

In [194]:
df1 = pd.DataFrame({
    '계좌번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['계좌번호', '이름'])
df1

Unnamed: 0,계좌번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [195]:
df2 = pd.DataFrame({
    '계좌번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['계좌번호', '금액'])
df2

Unnamed: 0,계좌번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [197]:
pd.merge(df1, df2) # default = inner join

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [198]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [199]:
pd.merge(df1, df2, how = 'left')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [200]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [201]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [202]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [203]:
pd.merge(df1, df2)


Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [204]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [205]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [206]:
pd.merge(df1, df2) # 고객명과 데이터칼럼의 &조건으로 교집합


Unnamed: 0,고객명,날짜,데이터


In [207]:
pd.merge(df1, df2, on='고객명')


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


In [208]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [209]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [210]:
pd.merge(df1, df2, left_on='이름', right_on="성명")


Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [211]:
pd.merge(df1, df2)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [212]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [213]:
df2 = pd.DataFrame(np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [214]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index = True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [215]:
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
df1

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [216]:
df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
df2

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [217]:
pd.merge(df1, df2, how = 'outer', left_index = True, right_index = True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


## join 메서드
merge 명령어 대신 join 메서드를 사용할 수도 있다. 결합 기준이 index, merge 는 열

In [218]:
df1.join(df2, how='outer')

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [233]:
a = np.random.randint(6, size = (5, 1))
a

array([[1],
       [0],
       [4],
       [1],
       [2]])

In [234]:
b = np.random.randint(10, size = (5, 4))
b

array([[4, 7, 3, 0],
       [5, 4, 0, 2],
       [3, 1, 7, 1],
       [3, 4, 1, 7],
       [4, 0, 2, 7]])

In [235]:
c = np.random.randint(10, size = (5, 4))
c

array([[4, 0, 2, 6],
       [9, 2, 4, 9],
       [9, 5, 4, 4],
       [9, 8, 1, 5],
       [7, 0, 1, 3]])

In [239]:
df1 = pd.DataFrame(np.hstack([a, b]), columns = ['A', 'B', 'C', 'D', 'E'])
df1

Unnamed: 0,A,B,C,D,E
0,1,4,7,3,0
1,0,5,4,0,2
2,4,3,1,7,1
3,1,3,4,1,7
4,2,4,0,2,7


In [241]:
df2 = pd.DataFrame(np.hstack([a, c]), columns = ['가', '나', '다', '라', '마'])
df2

Unnamed: 0,가,나,다,라,마
0,1,4,0,2,6
1,0,9,2,4,9
2,4,9,5,4,4
3,1,9,8,1,5
4,2,7,0,1,3


In [243]:
pd.merge(df1, df2, left_on = 'A', right_on = '가')

Unnamed: 0,A,B,C,D,E,가,나,다,라,마
0,1,4,7,3,0,1,4,0,2,6
1,1,4,7,3,0,1,9,8,1,5
2,1,3,4,1,7,1,4,0,2,6
3,1,3,4,1,7,1,9,8,1,5
4,0,5,4,0,2,0,9,2,4,9
5,4,3,1,7,1,4,9,5,4,4
6,2,4,0,2,7,2,7,0,1,3


## concat 함수를 사용한 데이터 연결
{margin}
`concat`
`concat` 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다. 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [6]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [7]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [8]:
pd.concat([s1, s2])


A    0
B    1
A    2
B    3
C    4
dtype: int64

In [9]:
pd.concat([s1, s2], axis = 1)


Unnamed: 0,0,1
A,0.0,2
B,1.0,3
C,,4


In [10]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [11]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [12]:
pd.concat([df1, df2], axis=1)


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [13]:
pd.concat([df1, df2], axis=0)


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,5.0,6.0
c,,,7.0,8.0


##  연습 문제
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [61]:
index = [1, 2, 3, 4, 5, 6]
columns = ['매출', '비용', '이익']

df1 = pd.DataFrame(np.random.randint(0, 100, (6, 3)), columns = columns, index = index)
df1

Unnamed: 0,매출,비용,이익
1,53,80,62
2,8,61,1
3,81,35,91
4,40,36,48
5,25,67,35
6,30,29,33


In [62]:
index = [7, 8, 9, 10, 11, 12]
columns = ['매출', '비용', '이익']

df2 = pd.DataFrame(np.random.randint(0, 100, (6, 3)), columns = columns, index = index)
df2

Unnamed: 0,매출,비용,이익
7,18,17,93
8,84,2,69
9,12,44,66
10,91,85,39
11,39,75,22
12,30,17,70


In [67]:
df3 = pd.concat([df1, df2], axis = 0)
df3

Unnamed: 0,매출,비용,이익
1,53,80,62
2,8,61,1
3,81,35,91
4,40,36,48
5,25,67,35
6,30,29,33
7,18,17,93
8,84,2,69
9,12,44,66
10,91,85,39


In [68]:
df3['이익'] = df3['매출'] - df3['비용']
df3

Unnamed: 0,매출,비용,이익
1,53,80,-27
2,8,61,-53
3,81,35,46
4,40,36,4
5,25,67,-42
6,30,29,1
7,18,17,1
8,84,2,82
9,12,44,-32
10,91,85,6


In [70]:
df3.loc['총 실적'] = df3.sum(axis = 0)
df3

Unnamed: 0,매출,비용,이익
1,53,80,-27
2,8,61,-53
3,81,35,46
4,40,36,4
5,25,67,-42
6,30,29,1
7,18,17,1
8,84,2,82
9,12,44,-32
10,91,85,6


# 피봇테이블
{margin}
`pivot`
피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.

판다스는 피봇테이블을 만들기 위한 pivot 메서드를 제공한다.
첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣는다.

판다스는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후
행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣는다.
만약 주어진 데이터가 존재하지 않으면 해당 칸에 NaN 값을 넣는다.

다음 데이터는 각 도시의 연도별 인구를 나타낸 것이다.

In [72]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [73]:
df2 = df1[["도시", "연도", "인구"]]
df2

Unnamed: 0,도시,연도,인구
0,서울,2015,9904312
1,서울,2010,9631482
2,서울,2005,9762546
3,부산,2015,3448737
4,부산,2010,3393191
5,부산,2005,3512547
6,인천,2015,2890451
7,인천,2010,263203


In [74]:
df1.pivot?

In [76]:
df2.pivot(index = '도시', columns = '연도', values = '인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [77]:
df2.pivot(index = '연도', columns = '도시', values = '인구')

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


In [78]:
df2

Unnamed: 0,도시,연도,인구
0,서울,2015,9904312
1,서울,2010,9631482
2,서울,2005,9762546
3,부산,2015,3448737
4,부산,2010,3393191
5,부산,2005,3512547
6,인천,2015,2890451
7,인천,2010,263203


In [85]:
df1.set_index(['도시', '연도'])['인구']

도시  연도  
서울  2015    9904312
    2010    9631482
    2005    9762546
부산  2015    3448737
    2010    3393191
    2005    3512547
인천  2015    2890451
    2010     263203
Name: 인구, dtype: int64

In [86]:
df1.set_index(['도시', '연도'])['인구'].unstack()

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [87]:
df1.pivot(index= ["지역", "도시"], columns="연도", values="인구")


Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


In [88]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [89]:
try :
    df1.pivot(index = '지역', columns = '연도', values = '인구')
except ValueError as e :
    print('ValueError :', e)

ValueError : Index contains duplicate entries, cannot reshape


## 그룹분석
만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을 보여주는 그룹분석(group analysis)을 해야 한다.

그룹분석은 피봇테이블과 달리 키에 의해서 결정되는 데이터가 여러개가 있을 경우 미리 지정한 연산을 통해 그 그룹 데이터의 대표값을 계산한다.
판다스에서는 groupby 메서드를 사용하여 다음처럼 그룹분석을 한다.

분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화를 한다.
그룹 객체에 대해 그룹연산을 수행한다.
{margin}
`groupby`

groupby 메서드

groupby 메서드는 데이터를 그룹 별로 분류하는 역할을 한다. groupby 메서드의 인수로는 다음과 같은 값을 사용한다.

열 또는 열의 리스트
행 인덱스
연산 결과로 그룹 데이터를 나타내는 GroupBy 클래스 객체를 반환한다. 이 객체에는 그룹별로 연산을 할 수 있는 그룹연산 메서드가 있다.

그룹연산 메서드
groupby 결과, 즉 GroupBy 클래스 객체의 뒤에 붙일 수 있는 그룹연산 메서드는 다양하다. 다음은 자주 사용되는 그룹연산 메서드들이다.

size, count: 그룹 데이터의 갯수
mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터
이 외에도 많이 사용되는 것으로는 다음과 같은 그룹연산이 있다.

agg, aggregate

만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달한다.
또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 전달한다.
describe

하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구한다.
apply

describe 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹연산이 없는 경우에 사용한다.
transform

그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형한다.
예를 들어 다음과 같은 데이터가 있을 때 key1의 값(A 또는 B)에 따른 data1의 평균은 어떻게 구할까?

In [91]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [92]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000240BDD997D0>

이 GroupBy 클래스 객체에는 각 그룹 데이터의 인덱스를 저장한 groups 속성이 있다.

In [93]:
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [94]:
groups.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [95]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [96]:
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [97]:
df2.groupby(df2.key1)['data1'].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [98]:
df2.groupby(df2.key1).sum()['data1']

key1
A    8
B    7
Name: data1, dtype: int64

연습 문제
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [105]:
a = df2.data1.groupby(df2.key1).sum()
a

key1
A    8
B    7
Name: data1, dtype: int64

In [107]:
df = pd.DataFrame(a)
df

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


In [108]:
b = df2.data1.groupby([df2.key1, df2.key2]).sum()
b

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [109]:
c = b.unstack('key2')
c

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [110]:
d = b.unstack('key1')
d

key1,A,B
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
one,6,3
two,2,4


In [111]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [112]:
df1['인구'].groupby(df1['지역']).sum()

지역
경상권    10354475
수도권    32451994
Name: 인구, dtype: int64

In [114]:
df1['인구'].groupby([df1['지역'], df1['연도']]).sum().unstack('연도')

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [115]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [116]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


agg

In [118]:
def peak_to_peak_ratio(x) :
    return x.max() / x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


describe

In [119]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [120]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [121]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [122]:
iris.groupby(iris.species).describe()

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [123]:
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


apply

In [124]:
iris.sort_values(by='petal_length', ascending = False)[:3]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica


In [125]:
def top3_petal_length(df) :
    return df.sort_values(by='petal_length', ascending = False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


transform

In [126]:
def q3cut(s) :
    return pd.qcut(s, 3, labels = ['소', '중', '대']).astype(str)

iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[['petal_length', 'petal_length_class']].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,중
141,5.1,소
142,5.1,소
143,5.9,대
144,5.7,중
145,5.2,소
146,5.0,소
147,5.2,소
148,5.4,중
149,5.1,소


In [127]:
iris['petal_length_class'] = iris.groupby(iris.species).petal_length.transform(q3cut)

In [128]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,소
146,6.3,2.5,5.0,1.9,virginica,소
147,6.5,3.0,5.2,2.0,virginica,소
148,6.2,3.4,5.4,2.3,virginica,중


In [129]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [135]:
iris.groupby('species')[['sepal_length', 'sepal_width']].mean()


Unnamed: 0_level_0,sepal_length,sepal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,5.006,3.428
versicolor,5.936,2.77
virginica,6.588,2.974


In [136]:
iris.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


## pivot_table
{margin}
`pivot_table`
Pandas는 pivot 명령과 groupby 명령의 중간 성격을 가지는 pivot_table 명령도 제공한다.

pivot_table 명령은 groupby 명령처럼 그룹분석을 하지만 최종적으로는 pivot 명령처럼 피봇테이블을 만든다.
즉 groupby 명령의 결과에 unstack을 자동 적용하여 2차원적인 형태로 변형한다. 사용 방법은 다음과 같다.

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')
data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)
values: 분석할 데이터프레임에서 분석할 열
index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
aggfunc: 분석 메서드
fill_value: NaN 대체 값
margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
margins_name: 마진 열(행)의 이름
만약 조건에 따른 데이터가 유일하게 선택되지 않으면 그룹연산을 하며 이 때 aggfunc 인수로 정의된 함수를 수행하여 대표값을 계산한다.

pivot_table를 메서드로 사용할 때는 객체 자체가 데이터가 되므로 data 인수가 필요하지 않다.

예를 들어 위에서 만들었던 피봇테이블은 pivot_table 명령으로 다음과 같이 만들 수도 있다. 인수의 순서에 주의하라.

In [138]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [137]:
df1.pivot_table(values="인구", index="도시", columns="연도") # 인자를 안써도 되지만, 헷갈리니 꼭 기입해주자


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [139]:
df1.pivot_table(values="인구", index="도시", columns="연도", margins=True, margins_name="평균")

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
평균,6637546.5,4429292.0,5414500.0,5350809.0


In [140]:
df1['인구'].mean()

5350808.625

In [141]:
df1.pivot_table('인구', index = ['연도', '도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [143]:
tips = sns.load_dataset("tips")
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [144]:
tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [145]:
tips.describe()


Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [146]:
tips.groupby('sex').count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [147]:
tips.groupby('sex').size()

sex
Male      157
Female     87
dtype: int64

In [148]:
tips.groupby(['sex', 'smoker']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,day,time,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,Yes,60,60,60,60,60,60
Male,No,97,97,97,97,97,97
Female,Yes,33,33,33,33,33,33
Female,No,54,54,54,54,54,54


In [149]:
tips.groupby(['sex', 'smoker']).count()['total_bill']

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
Name: total_bill, dtype: int64

In [150]:
tips.pivot_table(values = 'tip_pct', index = 'sex', columns = 'smoker', aggfunc = 'count', margins = True)

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [151]:
tips[['sex', 'tip_pct']]

Unnamed: 0,sex,tip_pct
0,Female,0.059447
1,Male,0.160542
2,Male,0.166587
3,Male,0.139780
4,Female,0.146808
...,...,...
239,Male,0.203927
240,Female,0.073584
241,Male,0.088222
242,Male,0.098204


In [152]:
tips.groupby("sex")['tip_pct'].mean()


sex
Male      0.157651
Female    0.166491
Name: tip_pct, dtype: float64

In [161]:
tips[['tip_pct']]

Unnamed: 0,tip_pct
0,0.059447
1,0.160542
2,0.166587
3,0.139780
4,0.146808
...,...
239,0.203927
240,0.073584
241,0.088222
242,0.098204


In [153]:
tips.groupby("sex")[["tip_pct"]].mean()


Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [154]:
tips.groupby("smoker")[["tip_pct"]].mean()


Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [155]:
tips.pivot_table(values="tip_pct", index="sex") # default 평균


Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [156]:
tips.pivot_table("tip_pct", ["sex", "smoker"])


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [157]:
tips.pivot_table("tip_pct", "sex", "smoker") # data, index, columns


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [158]:
tips.groupby("sex")[["tip_pct"]].describe()


Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [159]:
tips.groupby("smoker")[["tip_pct"]].describe()


Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


In [160]:
tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


연습 문제
1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다.
2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?
`

In [162]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [167]:
tips.groupby('time')[['tip_pct']].mean()

Unnamed: 0_level_0,tip_pct
time,Unnamed: 1_level_1
Lunch,0.164128
Dinner,0.159518


In [168]:
tips.groupby('size')[['tip_pct']].mean()

Unnamed: 0_level_0,tip_pct
size,Unnamed: 1_level_1
1,0.217292
2,0.165719
3,0.152157
4,0.145949
5,0.141495
6,0.156229


In [169]:
tips.groupby(['sex', 'size'])[['tip_pct']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,size,Unnamed: 2_level_1
Male,1,0.223776
Male,2,0.162694
Male,3,0.147641
Male,4,0.150197
Male,5,0.133821
Male,6,0.149567
Female,1,0.215131
Female,2,0.17083
Female,3,0.159899
Female,4,0.132734


In [171]:
tips.groupby(['sex', 'smoker'])[['tip_pct']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [172]:
tips.groupby('day')[['tip_pct']].mean()

Unnamed: 0_level_0,tip_pct
day,Unnamed: 1_level_1
Thur,0.161276
Fri,0.169913
Sat,0.153152
Sun,0.166897


In [174]:
tips.pivot_table(values = 'tip', index = ['day', 'time', 'size'], columns = 'sex', aggfunc = 'mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,sex,Male,Female
day,time,size,Unnamed: 3_level_1,Unnamed: 4_level_1
Thur,Lunch,1,,1.83
Thur,Lunch,2,2.647083,2.204783
Thur,Lunch,3,3.09,2.295
Thur,Lunch,4,4.0,4.363333
Thur,Lunch,5,5.0,
Thur,Lunch,6,6.7,4.6
Thur,Dinner,2,,3.0
Fri,Lunch,1,1.92,
Fri,Lunch,2,1.89,2.66
Fri,Lunch,3,,3.0


# 12월 21일 복습

In [19]:
import numpy as np
import pandas as pd
import random

name = pd.DataFrame(['a', 'b', 'c', 'd', 'e', 'f'])
score = np.random.randint(1, 101, (6, 3))
columns = ['이름', '국어', '영어', '수학']
index = [['1', '1', '1', '2', '2', '2'], ['1', '2', '3', '1', '2', '3']]

data = pd.DataFrame(np.hstack((name, score)), columns = columns, index = index)
data

Unnamed: 0,Unnamed: 1,이름,국어,영어,수학
1,1,a,1,89,58
1,2,b,13,92,79
1,3,c,30,51,11
2,1,d,68,80,16
2,2,e,99,77,89
2,3,f,81,57,26


In [22]:
data.index.names = ['학년', '반']
data

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,국어,영어,수학
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,a,1,89,58
1,2,b,13,92,79
1,3,c,30,51,11
2,1,d,68,80,16
2,2,e,99,77,89
2,3,f,81,57,26


In [24]:
np.random.randint(10).reshape(10, 1)

AttributeError: 'int' object has no attribute 'reshape'