# 판다스 패키지의 소개
대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다.
판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

In [1]:
import pandas as pd
import numpy as np

## 시리즈 클래스
{margin}
`Series`
{margin}
인덱스(index)
{margin}
값(value)
시리즈 Series 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.
데이터 자체는 값(value)라고 한다.

시리즈 = 값(value) + 인덱스(index)

### 시리즈 생성
{margin}
인덱스 라벨(index label)
데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다.
이 때 인덱스의 길이는 데이터의 길이와 같아야 한다.
다음 예에서 이 "서울", "부산" 등의 문자열이 인덱스의 값이다.
인덱스의 값을 인덱스 라벨(label)이라고도 한다.
인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

다음 예제는 각 도시의 2015년 인구 데이터를 시리즈로 만든 것이다.

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [3]:
# 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 된다.
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

`Series.index` 속성
`Series.values` 속성
시리즈의 인덱스는 index 속성으로 접근할 수 있다.
시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있다.

In [4]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [5]:
s.values #array로 만들어짐

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

`Series.name` 속성

`Series.index.name` 속성
name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.
index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.

In [6]:
s.name = "인구" #밸류의 이름
s.index.name = "도시" #인덱스의 이름
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산

넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있다.
다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다.
예를 들어 인구 숫자를 백만 단위로 만들기 위해 시리즈 객체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

In [7]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱

시리즈는 넘파이 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다.
배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능하다.

시리즈 데이터를 인덱싱하면 값이 나온다.

In [8]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
s[1] # 부산에 대한 value

3448737

In [10]:
s["부산"]

3448737

In [11]:
s["대구"]

2466052

배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환한다.
자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.

In [12]:
s[ [0, 3, 1] ]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [13]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [14]:
s[ (250e4 < s) & (s < 500e4) ]  # 인구가 250만 초과, 500만 미만인 경우 #e4 '0 '4개가 생략

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

슬라이싱을 해도 부분적인 시리즈를 반환한다.
이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 한다.

In [15]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [16]:
s[1:3]  # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
s["부산":"대구"]  # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

만약 라벨 값이 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있다.

In [18]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [19]:
s0.a

0

In [20]:
s.부산

3448737

### 시리즈와 딕셔너리 자료형

시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.
따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [21]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [22]:
"서울" in s  # 인덱스 라벨 중에 서울이 있는가

True

In [23]:
"대전" in s  # 인덱스 라벨 중에 대전이 있는가

False

In [24]:
for k, v in s.items(): #key, value
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


또 딕셔너리 객체에서 시리즈를 만들 수도 있다.
이번에는 2010년의 인구 자료를 s2라는 이름의 시리즈로 만들어 보자
이 데이터에는 대구의 인구 자료는 없지만 대신 대전의 인구 자료가 포함되어 있다.

In [25]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다.
만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.

In [26]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"]) #index로 출력되는 값 순서 설정
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산

이번에는 2015년도와 2010년의 인구 증가를 계산해 보자. 두 개의 시리즈의 차이를 구하면 된다.
두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구한다.

In [27]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [28]:
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [29]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [30]:
s.values - s2.values #값으로만 뽑은 상태임

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

`Series.notnull`
대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지 않기 때문에 계산이 불가능하므로 NaN(Not a Number)이라는 값을 가지게 된다.
또한 NaN 값이 float 자료형에서만 가능하므로 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의한다.
NaN이 아닌 값을 구하려면 notnull 메서드를 사용한다.

In [31]:
ds.notnull() # null값이 아닌 걸 찾아줘

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [32]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

마찬가지로 인구 증가율(%)은 다음과 같이 구할 수 있다.

In [33]:
# s : 2015,  s2 : 2010
rs = ( (s - s2)/s2 ) * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [34]:
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [35]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [36]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [37]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

## 데이터프레임 클래스

`DataFrame`
행 인덱스(row index, index)
열 인덱스(cplumn index, columns)
시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라
데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.
2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라
각각의 열 데이터의 이름이 되는 열 인덱스(column index)도 붙일 수 있다.

### 데이터프레임 생성

데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같다.

1.우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
2.이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
3.이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다.

In [38]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052], #'2015' = 칼럼명
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"] # 순서 지정
index = ["서울", "부산", "인천", "대구"] # 순서 지정
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만
사실은 공통 인덱스를 가지는 열 시리즈(column series)를 딕셔너리로 묶어놓은 것이라고 보는 것이 더 정확하다.
2차원 (넘파이)배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만
데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문이다.
위 예제에서도 지역과 인구와 증가율은 각각 문자열, 정수, 부동소수점 실수이다.

`DataFrame.values`

`DataFrame.columns`

`DataFrame.index`
시리즈와 마찬가지로 데이터만 접근하려면 values 속성을 사용한다.
열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근한다.

In [39]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [40]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [41]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

시리즈에서 처럼 열방향 인덱스와 행방향 인덱스에 이름을 붙이는 것도 가능하다.

In [42]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


데이터프레임은 전치(transpose)를 포함하여 넘파이 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원한다.

In [43]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제
데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다.

In [44]:
 df["2010-2015 증가율"] * 100

도시
서울    2.83
부산    1.63
인천    9.82
대구    1.41
Name: 2010-2015 증가율, dtype: float64

In [45]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [47]:
# "2005-2010 증가율"이라는 이름의 열 추가
( ( (df["2010"] - df["2005"]) / df["2005"] ) * 100).round(2)

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [48]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df
#열 추가도 바로 가능

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [49]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱

데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 비슷하다고 하였다.
따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다.
인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다.

In [50]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [53]:
df["2010", "2015"]

KeyError: ('2010', '2015')

In [54]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[ ["2010", "2015"] ]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다.

In [55]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df[ "2010" ], type(df["2010"])

(도시
 서울    9631482
 부산    3393191
 인천    2632035
 대구    2431774
 Name: 2010, dtype: int64,
 pandas.core.series.Series)

In [56]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[ ["2010"] ] #하나인데 리스트로 묶어버리면 2차원이 됨 -> 데이터프레임으로 출력

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [57]:
 type(df[["2010"]])

pandas.core.frame.DataFrame

데이터프레임의 열 인덱스가 문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없다.
정수 인덱싱의 슬라이스는 뒤에서 설명하겠지만 행(row)을 인덱싱할 때 사용하므로 열을 인덱싱할 때는 쓸 수 없다.
정수 인덱스를 넣으면 KeyError 오류가 발생하는 것을 볼 수 있다.

df[0]

...(생략)...
Key Error 0
다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 인덱스 값으로 정수를 사용할 수 있다.

In [59]:
import numpy as np

In [60]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [61]:
df2[2] #칼럼명으로 조회됨

0     2
1     6
2    10
Name: 2, dtype: int32

In [62]:
df2[[1, 2]]#칼럼명으로 조회됨

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


### 행 인덱싱

만약 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 한다.
인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능하다.

In [63]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [64]:
df[:1] #숫자 하나만 입력하면 컬럼명으로 출력하고, 행을 출력하고 싶을 때는 슬라이싱으로 뽑자!

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [65]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [66]:
df[1:3]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


In [68]:
df["서울":"인천"] #인덱싱 명으로 요청시에는 끝에도 포함

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


### 개별 데이터 인덱싱

데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 된다.
이 시리즈를 다시 행 라벨로 인덱싱하면 개별 데이터가 나온다.

In [69]:
df["2015"]["서울"]

9904312

연습 문제 4.1.3

다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

In [71]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [72]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [73]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [76]:
df["평균"] = ((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [90]:
df["평균 점수"] = round(df.mean(axis=1), 2)
df

Unnamed: 0,국어,영어,수학,평균,평균 점수
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [84]:
df["영어"]["방자"] = 80
df["평균"] = ((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [85]:
df[0:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [88]:
df.T["향단"]

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [7]:
import seaborn as sns

In [8]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## fillna 메서드
NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [2]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [3]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

In [4]:
df3['A'].value_counts()

A
3    2
4    2
1    1
Name: count, dtype: int64

In [5]:
# 각 열의 고유한 값 수를 파악하는 방법
df3.apply(pd.value_counts) # axis=0 열기준

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [6]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [10]:
# 연습 문제 4.4.5
# 타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.
titanic['age'].value_counts()

age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64

In [11]:
titanic['age'].sort_values()

803    0.42
755    0.67
644    0.75
469    0.75
78     0.83
       ... 
859     NaN
863     NaN
868     NaN
878     NaN
888     NaN
Name: age, Length: 891, dtype: float64

In [12]:
titanic['age'].isnull() #불린인덱싱 쉽게 할 수 있다. null = true = 1

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888     True
889    False
890    False
Name: age, Length: 891, dtype: bool

In [13]:
titanic['age'].isnull().sum() # 177개가 값이 없다.

177

In [15]:
titanic[titanic['age'].isnull()]['age']

5     NaN
17    NaN
19    NaN
26    NaN
28    NaN
       ..
859   NaN
863   NaN
868   NaN
878   NaN
888   NaN
Name: age, Length: 177, dtype: float64

In [16]:
round(titanic['age'].mean())

30

In [17]:
titanic['age'].fillna( round(titanic['age'].mean()) )

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    30.0
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [18]:
titanic['age'].fillna( round(titanic['age'].mean()), inplace=True) # inplace 원본에 적용해줘
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [19]:
# titanic['age'].fillna( round(titanic['age'].mean()), inplace=True)
titanic['age'] = titanic['age'].fillna( round(titanic['age'].mean() ))
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [20]:
titanic['age'].isnull().sum()

0

## astype 메서드
astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [22]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [23]:
df3.apply(pd.value_counts).fillna(0) #int를 넣었지만 float가 유지 = 배열이라서, 가장 큰 속성이 유지됨.

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [24]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라.
category2 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 male 또는 female로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 male27 값이 된다.

In [25]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [26]:
titanic['category2'] = titanic.sex + titanic.age.astype(int).astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26


In [27]:
titanic["category2"] = titanic.apply(lambda x: x.sex + str(int(x.age)), axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26


## 실수 값을 카테고리 값으로 변환
실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

cut: 실수 값의 경계선을 지정하는 경우
qcut: 갯수가 똑같은 구간으로 나누는 경우
예를 들어 다음과 같은 나이 데이터가 있다고 하자.

In [28]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [33]:
bins = [1, 20, 40, 50, 70, 100] #데이터 나누는 기준점
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels) #데이터 ages, 기준은 bins로 쪼개줘, 그 기준의 labels를 달아줘
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '청년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [34]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [35]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [36]:
cats.codes # bins에 해당하지 않으니 -1

array([-1,  0,  0,  1,  1,  1,  1,  3,  0,  2,  1, -1], dtype=int8)

In [37]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [38]:
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
print(bins)
print(labels)
df4

[1, 20, 40, 50, 70, 100]
['미성년자', '청년', '중년', '장년', '노년']


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,청년
6,31,청년
7,61,장년
8,20,미성년자
9,41,중년


따라서 위 데이터프레임의 age_cat 열값은 문자열이 아니다. 이를 문자열로 만들려면 astype 메서드를 사용해야 한다.

In [39]:
df4['age_cat'] #dytpe 범주형 데이터

0      NaN
1     미성년자
2     미성년자
3       청년
4       청년
5       청년
6       청년
7       장년
8     미성년자
9       중년
10      청년
11     NaN
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [40]:
df4.age_cat.astype(str) + df4.ages.astype(str) #문자열로 변경해서 넣어줘야 한다!

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       청년37
6       청년31
7       장년61
8     미성년자20
9       중년41
10      청년32
11    nan101
dtype: object

qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.
예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [41]:
data = np.random.randn(1000) #정규분포에 맞게 랜덤으로 뽑아준다.
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

['Q4', 'Q3', 'Q1', 'Q4', 'Q3', ..., 'Q1', 'Q2', 'Q3', 'Q1', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [42]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

연습 문제 4.4.7

타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.

bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다. ````

In [45]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
sexlabel = ['남성', '여성']

In [49]:
df5 = pd.cut(titanic.age, bins, labels=labels)
df5

0        청년
1        청년
2        청년
3        청년
4        청년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [50]:
df5.value_counts()/len(df5)*100 #비율

age
청년      63.075196
미성년자    18.518519
중년       9.652076
장년       6.621773
노년       0.561167
Name: count, dtype: float64

연습 문제 4.4.8

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.

In [46]:
titanic["category3"] = pd.cut(titanic.age, bins, labels=labels)
titanic["category3"] 

0        청년
1        청년
2        청년
3        청년
4        청년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: category3, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [47]:
titanic["category3"] = titanic.apply(lambda x : '미성년자' if x.age <= 20 else x.category3 + x.sex, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22,청년male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38,청년female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26,청년female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35,청년female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35,청년male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27,청년male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19,미성년자
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30,청년female
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26,청년male


In [48]:
titanic["category3"] = pd.cut(titanic.age, bins, labels=labels)
titanic["category3"] = titanic.apply(lambda x : '미성년자' if x.age <= 20 else 
                                     (x.category3 + '남성' if x.sex == 'male' else x.category3 + '여성'), axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38,청년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35,청년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35,청년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19,미성년자
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26,청년남성


# 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거
때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다.
이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
reset_index : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [51]:
np.round(np.random.rand(3, 5), 2)

array([[0.81, 0.94, 0.91, 0.62, 0.95],
       [0.4 , 0.44, 0.54, 0.1 , 0.82],
       [0.5 , 0.71, 0.98, 0.89, 0.87]])

In [52]:
np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)])

array([['A', 'B', 'C', 'D', 'E'],
       ['0.97', '0.49', '0.15', '0.19', '0.54'],
       ['0.71', '0.27', '0.77', '0.98', '0.53'],
       ['0.05', '0.49', '0.15', '0.79', '0.17']], dtype='<U32')

In [53]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3, 5), 2)]).T, # transpose
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


`set_index`
set_index 메서드로 특정한 열을 인덱스로 설정할 수 있다. 이 때 기존의 인덱스는 없어진다.

In [54]:
df2 = df1.set_index("C1")
df2 #C1이 인덱스로 사용됨, 기존의 인덱스 없어짐

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [55]:
df2.set_index("C2") # 원본 반영 안됨

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [56]:
df2 #위에서 바꿨지만 원본은 그대로!

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


`reset_index`
반대로 reset_index 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다.
이 때 인덱스 열은 자료열의 가장 선두로 삽입된다.
데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [57]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [58]:
df2 #원본 반영 안됨

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


reset_index 메서드를 호출할 때 인수 drop=True 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

In [59]:
df2.reset_index(drop=True)  #기존의 인덱스는 날리고 정수 인덱스로 설정됨

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


연습 문제 4.5.1

5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 df_score1 을 생성한 후,
df_score1.index 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다.
reset_index 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 df_score2을 만든다.
학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 df_score2에 set_index 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다. ````

In [8]:
df_score1 = pd.DataFrame(np.random.randint(0,101, size=(5,3)), columns=['국어','영어','수학'])
df_score1

Unnamed: 0,국어,영어,수학
0,71,94,43
1,44,73,53
2,4,31,64
3,75,6,15
4,23,54,50


In [9]:
df_score1.index=['학생1', '학생2', '학생3', '학생4', '학생5']
df_score1

Unnamed: 0,국어,영어,수학
학생1,71,94,43
학생2,44,73,53
학생3,4,31,64
학생4,75,6,15
학생5,23,54,50


In [15]:
df_score2 = df_score1.reset_index()
df_score2

Unnamed: 0,index,국어,영어,수학
0,학생1,71,94,43
1,학생2,44,73,53
2,학생3,4,31,64
3,학생4,75,6,15
4,학생5,23,54,50


In [17]:
df_score2.set_index('index')

Unnamed: 0_level_0,국어,영어,수학
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
학생1,71,94,43
학생2,44,73,53
학생3,4,31,64
학생4,75,6,15
학생5,23,54,50


## 다중 인덱스

다중 인덱스(multi-index)
행이나 열에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있다.
데이터프레임을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 된다.

In [18]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


`columns.names`
다중 인덱스는 이름을 지정하면 더 편리하게 사용할 수 있다. 열 인덱스들의 이름 지정은 columns 객체의 names 속성에 리스트를 넣어서 지정한다.

In [19]:
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


`index.names`
마찬가지로 데이터프레임을 생성할 때 index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (행) 인덱스를 가진다.
행 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정한다.

In [20]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                   index=[["M", "M", "M", "F", "F", "F"],
                          ["id_" + str(i + 1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## 행 인덱스와 열 인덱스 교환

stack 메서드나 unstack 메서드를 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.

stack
열 인덱스 -> 행 인덱스로 변환

unstack
행 인덱스 -> 열 인덱스로 변환

stack 메서드를 실행하면 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.
마찬가지로 unstack 메서드를 실행하면 행 인덱스가 시계 방향으로 90도 회전한 것과 비슷하다.
인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.

In [21]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [22]:
df4.stack("Cidx1") # 열인덱스->행인덱스

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [25]:
df4.stack(1) # cidx2 == 1

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,1.76,0.98
M,id_1,D,0.4,2.24
M,id_2,C,1.87,0.95
M,id_2,D,-0.98,-0.15
M,id_3,C,-0.1,0.14
M,id_3,D,0.41,1.45
F,id_1,C,0.76,0.44
F,id_1,D,0.12,0.33
F,id_2,C,1.49,0.31
F,id_2,D,-0.21,-0.85


In [27]:
df4.unstack("Ridx2") #행인덱스를 열인덱스로

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


In [28]:
df4.unstack(0) # ridx1 == 0

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


## 다중 인덱스가 있는 경우의 인덱싱
데이터프레임이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 라벨이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다.
예를 들어 앞에서 만든 df3 데이터프레임의 경우 다음과 같이 인덱싱할 수 있다.

In [29]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [30]:
df3[ ("B", "C1") ]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

In [31]:
df3.loc[0, ("B", "C1")] #0행의 B,C1의 값

0.98

In [32]:
df3.loc[0, ("B", "C1")] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

In [33]:
df3.iloc[0, 2]

100.0

In [None]:
만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 본다.

In [34]:
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [35]:
# 당연히 하위 인덱스는 단일 라벨값만 넣으면 인식이 안된다.
df3['C1'] #어디 C1 인데??? A야 B야???

KeyError: 'C1'

In [36]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [37]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [38]:
df4.loc[:, ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [39]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [40]:
df4.loc[("All", "All"), :] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


loc를 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 같다.

In [41]:
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


`slice(None)`
특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 사용한다.
다만 다중 인덱스의 튜플 내에서는 : 슬라이스 기호를 사용할 수 없고 대신 slice(None) 값을 사용해야 한다.

In [42]:
df4.loc[("M", slice(None)), :] # ("M" : ) -> 불가
#M에 해당하는 모두를 가져와줘

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [43]:
df4.loc[(slice(None), "id_1"), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


## 다중 인덱스의 인덱스 순서 교환

다중 인덱스의 인덱스 순서를 바꾸고 싶으면 swaplevel 명령을 사용한다.

swaplevel(i, j, axis)
i와 j는 교환하고자 하는 인덱스 라벨(혹은 인덱스 번호)이고 axis는 0일 때 행 인덱스, 1일 때 열 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

In [44]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [45]:
df5 = df4.swaplevel("Ridx1", "Ridx2") # 디폴트 0
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [46]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1) # axis=1
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


## 다중 인덱스가 있는 경우의 정렬
다중 인덱스가 있는 데이터프레임을 sort_index로 정렬할 때는 level 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

In [47]:
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [48]:
# 디폴트 axis=0 행인덱스, level = 인덱스 수준값 또는 라벨
df5.sort_index(level=0) # ridx2 기준

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [49]:
df5.sort_index(level=1) # ridx1 기준

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45


연습 문제 4.5.2

1. A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

2. "반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score3을 만든다.

3. df_score3을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score4을 만든다.

4. 데이터 프레임 df_score4에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

5. df_score3을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score5을 만든다.

6. 데이터 프레임 df_score5에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

In [73]:
np.random.seed(0)
std = pd.DataFrame(np.round(np.random.randint(0,101, size=(10,3))),
                   columns=["국어", "영어", "수학"],
                  index =[["A", "A", "A", "A", "A", "B", "B", "B","B","B"],
                          ["std_" + str(i + 1) for i in range(5)] * 2])
std

Unnamed: 0,Unnamed: 1,국어,영어,수학
A,std_1,44,47,64
A,std_2,67,67,9
A,std_3,83,21,36
A,std_4,87,70,88
A,std_5,88,12,58
B,std_1,65,39,87
B,std_2,46,88,81
B,std_3,37,25,77
B,std_4,72,9,20
B,std_5,80,69,79


In [97]:
np.random.seed(0)
class1 = np.array(list('AAAAABBBBB')).reshape(10,1)
class1

array([['A'],
       ['A'],
       ['A'],
       ['A'],
       ['A'],
       ['B'],
       ['B'],
       ['B'],
       ['B'],
       ['B']], dtype='<U1')

In [96]:
score = np.random.randint(0,101,(10,3))
score

array([[ 75,  68,   6],
       [ 68,  47,   3],
       [ 76, 100,  52],
       [ 78,  15,  20],
       [ 99,  58,  23],
       [ 79,  13,  85],
       [ 48,  49,  69],
       [ 41,  35,  64],
       [ 95,  69,  94],
       [  0,  50,  36]])

In [98]:
number = np.hstack([np.random.choice(range(1,6), 5, replace=False), np.random.choice(range(1,6), 5, replace=False)]).reshape(10,1)
number

array([[3],
       [1],
       [2],
       [4],
       [5],
       [1],
       [3],
       [2],
       [5],
       [4]])

In [99]:
df_score3 = pd.DataFrame(np.hstack([class1,number, score]), columns=["반","번호","국어","영어","수학"])
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,3,75,68,6
1,A,1,68,47,3
2,A,2,76,100,52
3,A,4,78,15,20
4,A,5,99,58,23
5,B,1,79,13,85
6,B,3,48,49,69
7,B,2,41,35,64
8,B,5,95,69,94
9,B,4,0,50,36


In [100]:
# 인덱스 설정
df_score4 = df_score3.set_index(['반', '번호'])
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,3,75,68,6
A,1,68,47,3
A,2,76,100,52
A,4,78,15,20
A,5,99,58,23
B,1,79,13,85
B,3,48,49,69
B,2,41,35,64
B,5,95,69,94
B,4,0,50,36


In [103]:
# 각 학생의 평균 계산
df_score4['평균'] = round(df_score4.mean(axis=1),1)
df_score4

TypeError: loop of ufunc does not support argument 0 of type float which has no callable rint method

In [104]:
# 4. `df_score3`을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 `df_score5`을 만든다
# 행과 열 인덱스 변경
#  df_score3.set_index('번호').pivot(columns='반')
df_score5 = df_score3.set_index(['번호','반']).unstack()
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,68,79,47,13,3,85
2,76,41,100,35,52,64
3,75,48,68,49,6,69
4,78,0,15,50,20,36
5,99,95,58,69,23,94


In [110]:
# 각 반별 과목 평균 계산
df_score5.loc['평균'] = df_score5.mean(axis=1)
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,68.0,79.0,47.0,13.0,3.0,85.0
2,76.0,41.0,100.0,35.0,52.0,64.0
3,75.0,48.0,68.0,49.0,6.0,69.0
4,78.0,0.0,15.0,50.0,20.0,36.0
5,99.0,95.0,58.0,69.0,23.0,94.0
평균,,,,,,


# 데이터프레임 합성

## merge 함수를 사용한 데이터프레임 병합

`merge`
merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

In [111]:
df1 = pd.DataFrame({
    '계좌번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['계좌번호', '이름'])
df1

Unnamed: 0,계좌번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [112]:
df2 = pd.DataFrame({
    '계좌번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['계좌번호', '금액'])
df2

Unnamed: 0,계좌번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


merge 함수로 위의 두 데이터프레임 df1, df2 를 합치면 공통 열인 계좌번호 열을 기준으로 데이터를 찾아서 합친다.
이 때 기본적으로는 양쪽 데이터프레임에 모두 키가 '존재하는 데이터'만 보여주는 inner join 방식을 사용한다.

In [113]:
pd.merge(df1, df2) # default = inner join 교집합

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.

In [114]:
pd.merge(df1, df2, how='outer') # 합집합

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


left, right 방식은 각각 첫번째, 혹은 두번째 데이터프레임의 키 값을 모두 보여준다.

In [115]:
pd.merge(df1, df2, how='left')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [116]:
pd.merge(df1, df2, how='right')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는
있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다.

In [117]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [118]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


이 데이터에서 키 값 setosa에 대해 왼쪽 데이터프레임(df1)는 1.4와 1.3라는 2개의 데이터,
오른쪽 데이터프레임(df2)에 0.4라는 1개의 데이터가 있으므로 병합된 데이터에는 setosa가 (1.4, 0.4), (1.3, 0.4) 두 개의 데이터가 생긴다.
키 값 virginica의 경우에는 왼쪽 데이터프레임에 1.5와 1.3라는 2개의 데이터,
오른쪽 데이터프레임에 0.3와 0.5라는 2개의 데이터가 있으므로 2개와 2개의 조합에 의해 4가지 값이 생긴다.

In [119]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


두 데이터프레임에서 이름이 같은 열은 모두 키가 된다.
만약 이름이 같아도 키가 되면 안되는 열이 있다면 on 인수로 기준열을 명시해야 한다.
다음 예에서 첫번째 데이터프레임의 "데이터"는 실제로는 금액을 나타내는 데이터이고
두번째 데이터프레임의 "데이터"는 실제로는 성별을 나타내는 데이터이므로 이름이 같아도 다른 데이터이다.
따라서 이 열은 기준열이 되면 안된다.

In [120]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [121]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [122]:
pd.merge(df1, df2) # 고객명과 데이터칼럼의 &조건으로 교집합|

Unnamed: 0,고객명,날짜,데이터


In [123]:
pd.merge(df1, df2, on='고객명')
# 이 때 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙는다.

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


반대로 키가 되는 기준열의 이름이 두 데이터프레임에서 다르다면 left_on, right_on 인수를 사용하여 기준열을 명시해야 한다.

In [124]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [125]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [126]:
pd.merge(df1, df2, left_on='이름', right_on="성명") #left의 기준은 이름이구 right의 기준은 성명이야

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 left_index 또는 right_index 인수를 True 로 설정한다.

In [127]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [128]:
df2 = pd.DataFrame(np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [129]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [130]:
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
df1

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [131]:
df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
df2

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [132]:
pd.merge(df1, df2, how='outer', left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


## join 메서드
merge 명령어 대신 join 메서드를 사용할 수도 있다.

merge와 join의 차이는?
join은 결합 기준이 index
merge는 결합 기준이 열

In [133]:
df1.join(df2, how='outer')

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


연습 문제
두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 단 데이터프레임은 다음 조건을 만족해야 한다.

1. 각각 5 x 5 이상의 크기를 가진다.
2. 공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.

In [135]:
# 공통열 만들기
idx = np.array(list(range(1, 6))).reshape(5,1)
idx

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [136]:
# 벨류 만들기
value = np.random.randint(0, 101, size=(5, 4))
value

array([[21, 36, 87, 70],
       [88, 88, 12, 58],
       [65, 39, 87, 46],
       [88, 81, 37, 25],
       [77, 72,  9, 20]])

In [137]:
# 첫 번째 데이터프레임 생성
df1 = pd.DataFrame( np.hstack([idx, value]),
                   columns=['A', 'B', 'C', 'D', 'E'])
df1

Unnamed: 0,A,B,C,D,E
0,1,21,36,87,70
1,2,88,88,12,58
2,3,65,39,87,46
3,4,88,81,37,25
4,5,77,72,9,20


In [138]:
# 두 번째 데이터프레임 생성
df2 = pd.DataFrame( np.hstack([idx, value]),
                   columns=['A1', 'B1', 'C1', 'D1', 'E1'])
df2

Unnamed: 0,A1,B1,C1,D1,E1
0,1,21,36,87,70
1,2,88,88,12,58
2,3,65,39,87,46
3,4,88,81,37,25
4,5,77,72,9,20


In [139]:
# 두 데이터프레임을 merge 명령으로 합침
df_merged = pd.merge(df1, df2, left_on='A', right_on='A1')
df_merged

Unnamed: 0,A,B,C,D,E,A1,B1,C1,D1,E1
0,1,21,36,87,70,1,21,36,87,70
1,2,88,88,12,58,2,88,88,12,58
2,3,65,39,87,46,3,65,39,87,46
3,4,88,81,37,25,4,88,81,37,25
4,5,77,72,9,20,5,77,72,9,20


## concat 함수를 사용한 데이터 연결
`concat`
`concat` 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다. 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [140]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [141]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [142]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

만약 옆으로 데이터 열을 연결하고 싶으면 axis=1로 인수를 설정한다.

In [143]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [144]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [145]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


연습 문제
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [151]:
df1 = pd.DataFrame(np.random.randint(1,101,(6,2)),
                  columns=["매출", "비용"],
                  index=["1월","2월","3월","4월","5월","6월"])
df1

Unnamed: 0,매출,비용
1월,85,76
2월,69,7
3월,69,48
4월,4,77
5월,53,79
6월,16,21


In [152]:
df2 = pd.DataFrame(np.random.randint(1,101,(6,2)),
                  columns=["매출", "비용"],
                  index=["7월","8월","9월","10월","11월","12월"])
df2

Unnamed: 0,매출,비용
7월,100,59
8월,24,80
9월,14,86
10월,49,50
11월,70,42
12월,36,65


In [159]:
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,매출,비용
1월,85,76
2월,69,7
3월,69,48
4월,4,77
5월,53,79
6월,16,21
7월,100,59
8월,24,80
9월,14,86
10월,49,50


In [169]:
# 전반기 실적 데이터프레임 생성
df1 = pd.DataFrame(np.random.randint(0, 101, size=(6, 3)), columns=['매출', '비용', '이익'])
df1.index = ['1월', '2월', '3월', '4월', '5월', '6월']
df1

Unnamed: 0,매출,비용,이익
1월,58,23,59
2월,2,98,62
3월,35,94,67
4월,82,46,99
5월,20,81,50
6월,27,14,41


In [170]:
# 후반기 실적 데이터프레임 생성
df2 = pd.DataFrame(np.random.randint(0, 101, size=(6, 3)), columns=['매출', '비용', '이익'])
df2.index = ['7월', '8월', '9월', '10월', '11월', '12월']
df2

Unnamed: 0,매출,비용,이익
7월,58,65,36
8월,10,86,43
9월,11,2,51
10월,80,32,54
11월,0,38,19
12월,46,42,56


In [171]:
# 전반기와 후반기 실적을 합친 데이터프레임 생성
df = pd.concat([df1, df2], axis=0)
df

Unnamed: 0,매출,비용,이익
1월,58,23,59
2월,2,98,62
3월,35,94,67
4월,82,46,99
5월,20,81,50
6월,27,14,41
7월,58,65,36
8월,10,86,43
9월,11,2,51
10월,80,32,54


In [172]:
# 이익 계산하여 마지막 열에 추가
df['이익'] = df['매출'] - df['비용']
df

Unnamed: 0,매출,비용,이익
1월,58,23,35
2월,2,98,-96
3월,35,94,-59
4월,82,46,36
5월,20,81,-61
6월,27,14,13
7월,58,65,-7
8월,10,86,-76
9월,11,2,9
10월,80,32,48


In [173]:
# 총 실적 계산하여 마지막 행에 추가
df.loc['총 실적'] = df.sum(axis=0)
df

Unnamed: 0,매출,비용,이익
1월,58,23,35
2월,2,98,-96
3월,35,94,-59
4월,82,46,36
5월,20,81,-61
6월,27,14,13
7월,58,65,-7
8월,10,86,-76
9월,11,2,9
10월,80,32,48


# 피봇테이블과 그룹분석

## 피봇테이블

`pivot`
피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.

판다스는 피봇테이블을 만들기 위한 `pivot` 메서드를 제공한다.
첫번째 인수로는 행 인덱스로 사용할 열 이름, 두번째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을 넣는다.

판다스는 지정된 두 열을 각각 행 인덱스와 열 인덱스로 바꾼 후
행 인덱스의 라벨 값이 첫번째 키의 값과 같고 열 인덱스의 라벨 값이 두번째 키의 값과 같은 데이터를 찾아서 해당 칸에 넣는다.
만약 주어진 데이터가 존재하지 않으면 해당 칸에 `NaN` 값을 넣는다.

다음 데이터는 각 도시의 연도별 인구를 나타낸 것이다.

In [175]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [176]:
df2 = df1[["도시", "연도", "인구"]]
df2

Unnamed: 0,도시,연도,인구
0,서울,2015,9904312
1,서울,2010,9631482
2,서울,2005,9762546
3,부산,2015,3448737
4,부산,2010,3393191
5,부산,2005,3512547
6,인천,2015,2890451
7,인천,2010,263203


이 데이터를 도시 이름이 열 인덱스가 되고 연도가 행 인덱스가 되어
행과 열 인덱스만 보면 어떤 도시의 어떤 시점의 인구를 쉽게 알 수 있도록 피봇테이블로 만들어보자.
`pivot` 명령으로 사용하고 행 인덱스 인수로는 `"도시"`, 열 인덱스 인수로는 `"연도"`, 데이터 이름으로 `"인구"`를 입력하면 된다.

In [177]:
df1.pivot?

In [178]:
# df2.pivot("도시", "연도", "인구")
df2.pivot(index="도시", columns="연도", values="인구")
#이 피봇테이블의 값 3512547은 "도시"가 부산이고 "연도"가 2005년인 데이터를 "인구"열에서 찾은 값이다.
#2005년 인천의 인구는 데이터에 없기 때문에 NaN으로 표시된다.

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


피봇테이블은 다음과 같이 `set_index` 명령과 `unstack` 명령을 사용해서 만들 수도 있다.

In [189]:
df1.set_index(["도시", "연도"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구,지역
도시,연도,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2015,9904312,수도권
서울,2010,9631482,수도권
서울,2005,9762546,수도권
부산,2015,3448737,경상권
부산,2010,3393191,경상권
부산,2005,3512547,경상권
인천,2015,2890451,수도권
인천,2010,263203,수도권


In [190]:
df1.set_index(["도시", "연도"])["인구"] #이건 지금 시리즈

도시  연도  
서울  2015    9904312
    2010    9631482
    2005    9762546
부산  2015    3448737
    2010    3393191
    2005    3512547
인천  2015    2890451
    2010     263203
Name: 인구, dtype: int64

In [191]:
df1.set_index(["도시", "연도"])[["인구"]]#차원하나 올리기

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,연도,Unnamed: 2_level_1
서울,2015,9904312
서울,2010,9631482
서울,2005,9762546
부산,2015,3448737
부산,2010,3393191
부산,2005,3512547
인천,2015,2890451
인천,2010,263203


In [192]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


행 인덱스나 열 인덱스를 리스트로 주는 경우에는 다중 인덱스 피봇 테이블을 생성한다. (주의: 판다스 버전 1.1 미만에서는 버그로 인해 동작하지 않는다.)

In [193]:
df1.pivot(index= ["지역", "도시"], columns="연도", values="인구")

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


행 인덱스와 열 인덱스는 데이터를 찾는 키(key)의 역할을 한다. 따라서 키 값으로 데이터가 단 하나만 찾아져야 한다.
만약 행 인덱스와 열 인덱스 조건을 만족하는 데이터가 2개 이상인 경우에는 에러가 발생한다.
예를 들어 위 데이터프레임에서 ("지역", "연도")를 키로 하면 ("수도권", "2015")에 해당하는 값이 두 개 이상이므로 다음과 같이 에러가 발생한다.

In [194]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [195]:
try:
    df1.pivot(index="지역", columns="연도", values="인구")
except ValueError as e:

    print("ValueError:", e)

ValueError: Index contains duplicate entries, cannot reshape


## 그룹분석
만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을 보여주는 그룹분석(group analysis)을 해야 한다.

그룹분석은 피봇테이블과 달리 키에 의해서 결정되는 데이터가 여러개가 있을 경우 미리 지정한 연산을 통해 그 그룹 데이터의 대표값을 계산한다.
판다스에서는 groupby 메서드를 사용하여 다음처럼 그룹분석을 한다.

1. 분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화를 한다.
2. 그룹 객체에 대해 그룹연산을 수행한다.

### groupby 메서드

### 그룹연산 메서드
groupby 결과, 즉 GroupBy 클래스 객체의 뒤에 붙일 수 있는 그룹연산 메서드는 다양하다. 다음은 자주 사용되는 그룹연산 메서드들이다.

- size, count: 그룹 데이터의 갯수
- mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
- sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터
- 이 외에도 많이 사용되는 것으로는 다음과 같은 그룹연산이 있다.

예를 들어 다음과 같은 데이터가 있을 때 key1의 값(A 또는 B)에 따른 data1의 평균은 어떻게 구할까?

In [197]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


`groupby` 명령을 사용하여 그룹 A와 그룹 B로 구분한 그룹 데이터를 만든다.

In [198]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000210CCCAC390>

이 `GroupBy` 클래스 객체에는 각 그룹 데이터의 인덱스를 저장한 `groups` 속성이 있다.

In [199]:
groups.groups #A에 해당하는 인덱스값 출력, B에 해당하는 index값 출력

{'A': [0, 1, 4], 'B': [2, 3]}

In [200]:
groups.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


GroupBy 클래스 객체를 명시적으로 얻을 필요가 없다면 groupby 메서드와 그룹연산 메서드를 연속으로 호출한다.

다음 예제는 열 data1에 대해서만 그룹연산을 하는 코드이다.

In [201]:
df2.data1.groupby(df2.key1).sum() #아래것보다 더 좋은 방식, 아래는 연산량이 많아짐

key1
A    8
B    7
Name: data1, dtype: int64

In [202]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [203]:
df2.groupby(df2.key1)["data1"].sum()   # `GroupBy` 클래스 객체에서 data1만 선택하여 분석하는 경우

key1
A    8
B    7
Name: data1, dtype: int64

In [204]:
df2.groupby(df2.key1).sum()["data1"]  # 전체 데이터를 분석한 후 data1만 선택한 경우

key1
A    8
B    7
Name: data1, dtype: int64

연습 문제
key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [205]:
df2.groupby(df2.key1).sum()[["data1"]]

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


이번에는 복합 키 (key1, key2) 값에 따른 data1의 합계를 구하자.
분석하고자 하는 키가 복수이면 리스트를 사용한다.

In [206]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [207]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

이 결과를 `unstack` 명령으로 피봇 데이블 형태로 만들수도 있다.

In [208]:
df2.data1.groupby([df2["key1"], df2["key2"]]).sum().unstack("key2")

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


그룹분석 기능을 사용하면 위의 인구 데이터로부터 지역별 합계를 구할 수도 있다.

In [209]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [210]:
df1["인구"].groupby(df1["지역"]).sum()

지역
경상권    10354475
수도권    32451994
Name: 인구, dtype: int64

In [211]:
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


## `agg`

In [212]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율을 구해보자.
이러한 계산을 하는 그룹연산 메서드는 없으므로 직접 만든 후 `agg` 메서드를 적용한다.

In [213]:
def peak_to_peak_ratio(x):
    return x.max() / x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


## `describe`
describe 메서드를 사용하면 다양한 기술 통계(descriptive statistics)값을 한 번에 구한다.
그룹별로 하나의 스칼라 값이 아니라 하나의 데이터프레임이 생성된다는 점에 주의하라.

In [215]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [216]:
iris.groupby(iris.species).describe()

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


In [217]:
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


## `apply`
apply 메서드를 사용하면 describe 메서드처럼 하나의 그룹에 대해 하나의 대표값(스칼라 값)을 구하는 게 아니라 데이터프레임을 만들 수 있다.
예를 들어 다음처럼 각 붓꽃 종별로 가장 꽃잎 길이(petal length)가 큰 3개의 데이터를 뽑아낼 수도 있다.

In [218]:
def top3_petal_length(df):
    return df.sort_values(by="petal_length", ascending=False)[:3]

iris.groupby(iris.species).apply(top3_petal_length)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


## `transform`
transform 메서드는 그룹별 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터프레임 자체를 변화시킨다.
따라서 만들어진 데이터프레임의 크기는 원래 데이터프레임과 같다.
예를 들어 다음처럼 각 붓꽃 꽃잎길이가 해당 종 내에서 대/중/소 어느 것에 해당되는지에 대한 데이터프레임을 만들 수도 있다.

In [219]:
def q3cut(s):
    return pd.qcut(s, 3, labels=["소", "중", "대"]).astype(str)


iris["petal_length_class"] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[["petal_length", "petal_length_class"]].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,중
141,5.1,소
142,5.1,소
143,5.9,대
144,5.7,중
145,5.2,소
146,5.0,소
147,5.2,소
148,5.4,중
149,5.1,소


### 연습 문제
```
붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라.
만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.
```

In [224]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [225]:
iris.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


## `pivot_table`
```
`pivot_table`
Pandas는 pivot 명령과 groupby 명령의 중간 성격을 가지는 pivot_table 명령도 제공한다.

pivot_table 명령은 groupby 명령처럼 그룹분석을 하지만 최종적으로는 pivot 명령처럼 피봇테이블을 만든다.
즉 groupby 명령의 결과에 unstack을 자동 적용하여 2차원적인 형태로 변형한다. 사용 방법은 다음과 같다.

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')
data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)
values: 분석할 데이터프레임에서 분석할 열
index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
aggfunc: 분석 메서드
fill_value: NaN 대체 값
margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
margins_name: 마진 열(행)의 이름
만약 조건에 따른 데이터가 유일하게 선택되지 않으면 그룹연산을 하며 이 때 aggfunc 인수로 정의된 함수를 수행하여 대표값을 계산한다.

pivot_table를 메서드로 사용할 때는 객체 자체가 데이터가 되므로 data 인수가 필요하지 않다.

예를 들어 위에서 만들었던 피봇테이블은 pivot_table 명령으로 다음과 같이 만들 수도 있다. 인수의 순서에 주의하라.
```

In [227]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [228]:
df1.pivot_table(values="인구", index="도시", columns="연도") # 인자를 안써도 되지만, 헷갈리니 꼭 기입해주자

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


`margins=True` 인수를 주면 `aggfunc`로 주어진 분석 방법을 해당 열의 모든 데이터, 해당 행의 모든 데이터 그리고 전체 데이터에 대해 적용한 결과를 같이 보여준다.
`aggfunc`가 주어지지 않았으면 평균을 계산한다.

In [229]:
df1.pivot_table(values="인구", index="도시", columns="연도", margins=True, margins_name="평균") # aggfunc 디폴트 평균계산

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
평균,6637546.5,4429292.0,5414500.0,5350809.0


```
이 결과에서 가장 오른쪽 합계 열의 첫번째 값 3451492은 모든 부산 인구 데이터의 평균,
두번째 값 9766113은 모든 서울 인구 데이터의 평균이다.
가장 아래의 합계 행의 첫번째 값은 2005년 데이터의 평균값,
두번째 값은 2010년 데이터의 평균값이다.
가장 오른쪽 아래의 값 5350809는 전체 데이터의 평균값이다. 다음 계산을 통해 이를 확인할 수 있다.
```

In [230]:
df1["인구"].mean()

5350808.625

행 인덱스나 열 인덱스에 리스트를 넣으면 다중 인덱스 테이블을 만든다.

In [231]:
df1.pivot_table("인구", index=["연도", "도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


```
식당에서 식사 후 내는 팁(tip)과 관련된 데이터를 이용하여 좀더 구체적으로 그룹분석 방법을 살펴본다.
우선 Seaborn 패키지에 설치된 샘플 데이터를 로드한다. 이 데이터프레임에서 각각의 컬럼은 다음을 뜻한다.

- total_bill: 식사대금
- tip: 팁
- sex: 성별
- smoker: 흡연/금연 여부
- day: 요일
- time: 시간
- size: 인원
```

In [232]:
tips = sns.load_dataset("tips")
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


분석의 목표는 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지지는 찾는 것이다.
우선 식사대금와 팁의 비율을 나타내는 tip_pct를 추가하자.

In [10]:
tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [234]:
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [235]:
tips.groupby("sex").count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


데이터 갯수의 경우 NaN 데이터가 없다면 모두 같은 값이 나올 것이다.
이 때는 size 명령을 사용하면 더 간단히 표시된다. size 명령은 NaN이 있어도 상관하지 않는다.

In [236]:
tips.groupby("sex").size()

sex
Male      157
Female     87
dtype: int64

이번에는 성별과 흡연유무로 나누어 데이터의 갯수를 알아본다.

In [237]:
tips.groupby(["sex", "smoker"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,day,time,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,Yes,60,60,60,60,60,60
Male,No,97,97,97,97,97,97
Female,Yes,33,33,33,33,33,33
Female,No,54,54,54,54,54,54


In [238]:
tips.groupby(["sex", "smoker"]).count()['total_bill']

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
Name: total_bill, dtype: int64

In [239]:
tips.groupby(["sex", "smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

좀 더 보기 좋도록 피봇 데이블 형태로 바꿀 수도 있다.

In [240]:
tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


이제 성별과 흡연 여부에 따른 평균 팁 비율을 살펴본다.

In [241]:
tips[['sex', 'tip_pct']]

Unnamed: 0,sex,tip_pct
0,Female,0.059447
1,Male,0.160542
2,Male,0.166587
3,Male,0.139780
4,Female,0.146808
...,...,...
239,Male,0.203927
240,Female,0.073584
241,Male,0.088222
242,Male,0.098204


In [242]:
tips.groupby("sex")['tip_pct'].mean()

sex
Male      0.157651
Female    0.166491
Name: tip_pct, dtype: float64

In [243]:
tips.groupby("sex")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [244]:
tips.groupby("smoker")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


`pivot_table` 명령을 사용할 수도 있다.

In [245]:
tips.pivot_table(values="tip_pct", index="sex") # default 평균

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [246]:
tips.pivot_table("tip_pct", ["sex", "smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [247]:
tips.pivot_table("tip_pct", "sex", "smoker") # data, index, columns

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


여성 혹은 흡연자의 팁 비율이 높은 것을 볼 수 있다.
하지만 이 데이터에는 평균을 제외한 분산(variance) 등의 다른 통계값이 없으므로 describe 명령으로 여러가지 통계값을 한 번에 알아본다.

In [248]:
tips.groupby("sex")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [249]:
tips.groupby("smoker")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


In [250]:
tips.groupby(["sex", "smoker"])[["tip_pct"]].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


```
연습 문제
1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다.
2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?
```

In [252]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [255]:
tips.pivot_table("tip_pct", ["day", "time", "size"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [259]:
tips.pivot_table("tip_pct", ["day", "time", "size"]).max()

tip_pct    0.231832
dtype: float64

In [2]:
import seaborn as sns
tips = sns.load_dataset("tips")
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [3]:
# 1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다
# 요일, 점심/저녁 여부, 인원수에 따른 평균 팁을 계산
tip_pct_by_day_time_size = tips.pivot_table(values='tip', index=['day', 'time', 'size'], columns='sex', aggfunc='mean')

print(tip_pct_by_day_time_size)

sex                   Male    Female
day  time   size                    
Thur Lunch  1          NaN  1.830000
            2     2.647083  2.204783
            3     3.090000  2.295000
            4     4.000000  4.363333
            5     5.000000       NaN
            6     6.700000  4.600000
     Dinner 2          NaN  3.000000
Fri  Lunch  1     1.920000       NaN
            2     1.890000  2.660000
            3          NaN  3.000000
     Dinner 2     2.750000  2.810000
            4     4.730000       NaN
Sat  Dinner 1          NaN  1.000000
            2     2.419412  2.693158
            3     3.740000  3.948000
            4     4.370000  2.770000
            5     3.000000       NaN
Sun  Dinner 2     2.816250  2.820000
            3     3.182222  3.028333
            4     4.001429  4.390000
            5     3.500000  5.140000
            6     5.000000       NaN


In [16]:
# 2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?
# 가장 큰 팁을 가진 조합 찾기
tip_pct_by_day_time_size.idxmax() # 데이터프레임에서 가장 큰 값을 가진 조합의 인덱스를 반환

sex
Male      (Thur, Lunch, 6)
Female    (Sun, Dinner, 5)
dtype: object

이번에는 각 그룹에서 가장 많은 팁과 가장 적은 팁의 차이를 알아보자.
이 계산을 해 줄 수 있는 그룹연산 함수가 없으므로 함수를 직접 만들고 `agg` 메서드를 사용한다.

In [5]:
def peak_to_peak(x):
    return x.max() - x.min()


tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


만약 여러가지 그룹연산을 동시에 하고 싶다면 다음과 같이 리스트를 이용한다.

In [6]:
tips.groupby(["sex", "smoker"])[["total_bill"]].agg(["mean", peak_to_peak])

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,peak_to_peak
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,Yes,22.2845,43.56
Male,No,19.791237,40.82
Female,Yes,17.977879,41.23
Female,No,18.105185,28.58


만약 데이터 열마다 다른 연산을 하고 싶다면 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다.

In [12]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [13]:
tips.groupby(["sex", "smoker"]).agg({'tip_pct': 'mean' , 'total_bill': peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


다음은 `pivot_table` 명령으로 더 복잡한 분석을 한 예이다.

In [14]:
tips.pivot_table(values = ['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [15]:
tips.pivot_table('size', ['time', 'sex', 'smoker'], 'day',
                 aggfunc='sum', fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Lunch,Male,Yes,23,5,0,0
Lunch,Male,No,50,0,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Female,No,60,3,0,0
Dinner,Male,Yes,0,12,71,39
Dinner,Male,No,0,4,85,124
Dinner,Female,Yes,0,8,33,10
Dinner,Female,No,2,2,30,43


```
연습 문제
타이타닉 승객 데이터를 이용하여 다음 분석을 실시하라. 데이터는 다음과 같이 받을 수 있다.
titanic = sns.load_dataset("titanic")


1. `qcut` 명령으로 세 개의 나이 그룹을 만든다.
2. 성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다. 
행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 열에는 선실 인덱스를 사용한다.
생존률은 해당 그룹의 생존 인원수를 전체 인원수로 나눈 값이다.
3. 성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.
```

In [17]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [24]:
# 1. `qcut` 명령으로 세 개의 나이 그룹을 만든다.
titanic["연령구간"] = pd.qcut(titanic.age, 3, labels= ["젊은", "중년", "노인"]).astype(str)
titanic["연령구간"]

0       젊은
1       노인
2       중년
3       노인
4       노인
      ... 
886     중년
887     젊은
888    nan
889     중년
890     중년
Name: 연령구간, Length: 891, dtype: object

In [30]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,연령구간
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,젊은
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,노인
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,중년
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,노인
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,노인
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,중년
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,젊은
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,중년


In [31]:
# 성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다. 
# 행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 열에는 선실 인덱스를 사용한다.
# 생존률은 해당 그룹의 생존 인원수를 전체 인원수로 나눈 값이다.
titanic.pivot_table(values = ['survived'], index=['sex', '연령구간'], columns=['class'])

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,class,First,Second,Third
sex,연령구간,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,,1.0,1.0,0.595238
female,노인,0.977273,0.857143,0.25
female,젊은,0.954545,1.0,0.508475
female,중년,0.947368,0.909091,0.481481
male,,0.238095,0.222222,0.095745
male,노인,0.347826,0.0625,0.055556
male,젊은,0.5,0.357143,0.158879
male,중년,0.5,0.076923,0.195652


In [32]:
def pct_alive(x):
    return x.sum() / len(titanic)

titanic.groupby(["sex", "연령구간", "class"])[["survived"]].agg(pct_alive).unstack("class")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,class,First,Second,Third
sex,연령구간,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,,0.010101,0.002245,0.028058
female,노인,0.04826,0.020202,0.004489
female,젊은,0.023569,0.022447,0.03367
female,중년,0.020202,0.03367,0.01459
male,,0.005612,0.002245,0.010101
male,노인,0.026936,0.002245,0.003367
male,젊은,0.005612,0.011223,0.01908
male,중년,0.012346,0.003367,0.020202


In [35]:
# 성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.
titanic.groupby(["sex", "class"])[["survived"]].agg(pct_alive) # 그룹별 집계 및 평균으로 인해 전체 값의 합이 1이 되지 않음

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,class,Unnamed: 2_level_1
female,First,0.102132
female,Second,0.078563
female,Third,0.080808
male,First,0.050505
male,Second,0.01908
male,Third,0.05275


In [34]:
titanic.pivot_table("survived", ["sex", "연령구간"], "class", pct_alive)

Unnamed: 0_level_0,class,First,Second,Third
sex,연령구간,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,,0.010101,0.002245,0.028058
female,노인,0.04826,0.020202,0.004489
female,젊은,0.023569,0.022447,0.03367
female,중년,0.020202,0.03367,0.01459
male,,0.005612,0.002245,0.010101
male,노인,0.026936,0.002245,0.003367
male,젊은,0.005612,0.011223,0.01908
male,중년,0.012346,0.003367,0.020202
