> 참고자료
- 파이썬 라이브러리를 활용한 데이터 분석 - 3rd edition by 웨스 맥키니

# 1. 판다스 기초

> 판다스(pandas)란?
- 판다스는 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 제공함.
- 다른 산술 계산 도구인 넘파이나 사이파이, 분석 라이브러리인 statsmodels와 사이킷런, 시각화 도구인 맷플롯립과 함께 사용하는 경우가 많음.
- 판다스는 for 문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 넘파이의 배열 기반의 계산 스타일을 많이 차용함.
- 판다스가 넘파이의 스타일을 많이 차용했지만 가장 큰 차이점은 판다스는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했음.
- 반면에 넘파이는 단일 산술 배열 데이터를 다루는 데 특화되어 있음.
- 판다스는 2010년 오픈 소스로 공개된 이후, 여러 실전 환경에서 사용할 수 있는 매우 큰 라이브러리로 성장함.

## 1.1. Series
> 판다스에는 두 가지 자료구조, Series와 DataFrame이 있음.

> Series
- 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조임.
- 색인(index)이라고 하는 배열의 데이터와 연관된 이름을 갖음.

### 1.2.1. Series 생성

In [27]:
# pandas 설치

!pip install pandas



In [28]:
from pandas import Series, DataFrame

In [29]:
# 일반적 import 컨벤션

import numpy as np
import pandas as pd

In [30]:
# import numpy as np
# np.random.seed(12345)
# import matplotlib.pyplot as plt
# plt.rc("figure", figsize=(10, 6))
# PREVIOUS_MAX_ROWS = pd.options.display.max_rows
# pd.options.display.max_rows = 20
# pd.options.display.max_columns = 20
# pd.options.display.max_colwidth = 80
# np.set_printoptions(precision=4, suppress=True)

In [31]:
def line():
    print('-'*50)

In [32]:
# 리스트를 이용한 시리즈 생성
# 왼쪽에는 색인(index), 오른쪽은 해당 색인의 값(배열)을 보여줌.

obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [33]:
# Series의 색인 객체는 index 속성으로 얻을 수 있음.
# Series의 베얄 객체는 array 속성으로 얻을 수 있음.
# array 속성의 타입은 PandasArray임.

print(obj.index)
line()
print(obj.array)


RangeIndex(start=0, stop=4, step=1)
--------------------------------------------------
<PandasArray>
[4, 7, -5, 3]
Length: 4, dtype: int64


In [34]:
# 임의로 인덱스를 지정해 줄 수 있음.
# Series에서 index 키워드를 사용함.

obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])

print(obj2)
line()
obj2.index

d    4
b    7
a   -5
c    3
dtype: int64
--------------------------------------------------


Index(['d', 'b', 'a', 'c'], dtype='object')

In [35]:
# Series의 단일 값을 선택하거나 여러 개의 값을 선택할 때 색인으로 레이블을 사용할 수 있음.
# 여러개를 선택할 때는 리스트로 인덱스를 묶음.

print(obj2)
line()
print(obj2["a"])
line()
obj2["d"] = 6
print(obj2)

d    4
b    7
a   -5
c    3
dtype: int64
--------------------------------------------------
-5
--------------------------------------------------
d    6
b    7
a   -5
c    3
dtype: int64


In [36]:
# 멀티 Indexing 인 경우, 인덱싱 순서대로 재정렬 효과가 나타남.

obj2[["c", "a", "d"]] # boolean indexing, fancy indexing

c    3
a   -5
d    6
dtype: int64

In [37]:
# numpy의 boolean indexing을 적용하여 mask 기능을 수행
# 브로드 캐스팅을 통해 스칼라 곱셈 수행
# 넘파이 배열 연산의 인자로 사용되며, 이때도 색인과 값은 연결됨.

print(obj2 > 0)
line()
print(obj2[obj2 > 0])
line()
print(obj2)
line()
print(obj2 * 2)
line()


d     True
b     True
a    False
c     True
dtype: bool
--------------------------------------------------
d    6
b    7
c    3
dtype: int64
--------------------------------------------------
d    6
b    7
a   -5
c    3
dtype: int64
--------------------------------------------------
d    12
b    14
a   -10
c     6
dtype: int64
--------------------------------------------------


In [38]:
# Series는 numpy 소속 함수의 인자로 활용됨.
# pandas의 Series 생성 시, ndarray가 인자로 활용됨.

import numpy as np

print(np.exp(obj2))
line()

series_dummy = pd.Series(np.ones(5))
series_dummy

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64
--------------------------------------------------


0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [39]:
# Series를 고정 길이의 정렬된 딕셔너리라고 생각해 보자.
# Series는 색인값에 데이터 값을 매핑하고 있으므로 파이썬의 딕셔너리와 비슷함.
# 파이썬의 딕셔너리가 필요한 곳에 Series 객체를 사용할 수 있음.

# 딕셔너리 예시
dict1 = {1:'one', 2:'two'}
print( 1 in dict1)
print( 10 in dict1)
line()

# pandas 예시
print(obj2)
print("b" in obj2)
print("e" in obj2)

True
False
--------------------------------------------------
d    6
b    7
a   -5
c    3
dtype: int64
True
False


In [40]:
# Series를 dictionary 개념으로 이해한다면, Series를 만들 때, dictionary를 활용할 수 있지 않을까?
# 딕셔너리를 데이터로 제공하여 Series 객체 만들기
# 딕셔너리의 key -> 판다스의 index
# 딕셔너리의 value -> 판다스의 array
# 딕셔너리로 Series 만들기 예시

sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [41]:
# 리스트로 만든 Series, 딕셔너리로 만든 Series의 차이

sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
ll = [35000, 71000, 16000, 5000]

obj3_dummy = pd.Series(sdata, index=['state1', 'state2', 'state3', 'state4'])
print(obj3_dummy)
line()

obj3_dummy2 = pd.Series(ll, index=['state1', 'state2', 'state3', 'state4'])
print(obj3_dummy2)

state1   NaN
state2   NaN
state3   NaN
state4   NaN
dtype: float64
--------------------------------------------------
state1    35000
state2    71000
state3    16000
state4     5000
dtype: int64


In [42]:
# Series를 dictionary로 바꾸는 메서드 to_dict()

print(type(obj3))

dict2 = obj3.to_dict()
print(type(dict2))
print(dict2)

<class 'pandas.core.series.Series'>
<class 'dict'>
{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}


In [43]:
# dictionary로 Series를 만들 때, index 키워드를 이용하여 index를 새로 지정해 줄 수 있음.
# index 순서에 맞게 key를 찾아서 Series에서 재배열 됨.
# 만약 dictionary에 없는 index가 들어오면, array에 NaN이 들어감.

print(sdata)

states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}


California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [44]:
# pd.isna() 함수 - 판다스에서 누락된('NA', 'null') 데이터를 찾아 True로 반환하는 함수
# DataFrame에도 적용됨.
print(obj4)
line()
pd.isna(obj4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
--------------------------------------------------


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [45]:
# Series 메서드로도 동일하게 적용함.

obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [46]:
# pd.notna() 함수 - 판다스에서 누락되지 않은 데이터를 찾아 True로 반환하는 함수
# DataFrame에도 적용됨.

pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [47]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [48]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [49]:
# Series 산술 연산에서 색인과 레이블로 자동 정렬하는 기능이 있음.
# 데이터베이스의 join 연산과 비슷함.
# 색인 같은 것은 더하는데, 더하기 연산을 하였을 때, 어느 하나에만 해당되면 계산 결과가 NaN이 됨.

obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [50]:
# Series 객체와 색인의 속성에는 name이 있어, Series 객체와 색인에 이름을 명명함.

print(obj4)
line()
obj4.name = "population"
obj4.index.name = "state"
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
--------------------------------------------------


state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [51]:
# Series를 만들면서 색인을 index 키워드를 이용하여 부여할 수 있지만,
# Series 객체의 index를 변경할 수 있음.

print(obj)
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

0    4
1    7
2   -5
3    3
dtype: int64


Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [52]:
# ndarray, Series 객체로도 대체 가능함.

obj.index = np.array(["aa", "bb", "cc", "dd"])
print(obj.index)
line()

obj.index = pd.Series(["a", "b", "c", "d"])
obj.index

Index(['aa', 'bb', 'cc', 'dd'], dtype='object')
--------------------------------------------------


Index(['a', 'b', 'c', 'd'], dtype='object')

### 1.1.2. Series 연습문제

> series 생성
- 문제1) 주어진 리스트 data_list를 사용하여 Pandas Series를 생성하세요.
    - list = [1,2,3,4,5]
- 문제2) 주어진 딕셔너리 data_dict를 사용하여 Pandas Series를 생성하세요. 딕셔너리의 키가 Series의 인덱스가 되고, 값이 Series의 데이터가 되어야 합니다.
    - data_dict = {'A': 10, 'B': 20, 'C': 30, 'D': 40}
- 문제3) 1부터 10까지의 정수로 구성된 Pandas Series를 생성하세요.
- 문제4) NumPy의 랜덤 함수를 사용하여 5개의 랜덤 실수로 구성된 Pandas Series를 생성하세요.
- 문제5) (도전문제. datetime 모듈 사용)2023년 9월 1일부터 5일간의 날짜를 인덱스로 갖는 Pandas Series를 생성하세요.

> series 인덱싱
- 문제6) 주어진 리스트를 가지고 Series 데이터 s를 만들고, s에서 3번째 원소를 인덱싱하세요.
    - list = [10, 20, 30, 40, 50]
- 문제7) 위 Series s에서 값이 30보다 큰 원소들만 선택하세요.
- 문제8) 위 Series s의 인덱스를 A, B, C, D, E로 변경하세요.
- 문제9) 위 Series s에서 인덱스가 'B'부터 'D'까지 범위로 슬라이싱하세요.
- 문제10) 위 Series s에서 값이 30보다 큰 원소들을 선택하고, 이 원소들의 인덱스를 1, 2, 3으로 변경하세요.


## 1.2. DataFrame
- 스프레드시트 형식의 자료구조
- 여러 개의 열이 있고 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음.
- DataFrame은 행과 열에 대한 색인을 가지며, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 딕셔너리로 생각하면 됨.
- 물리적으로 DataFrmae은 2차원이지만 계층적(hierarchical) 색인을 이용해 고차원의 데이터를 표현할 수 있음.
- 대표적인 DataFrame 객체를 생성하는 법
    - 동일한 길이의 리스트에 담긴 딕셔너리 이용
    - 넘파이 배열(ndarray)
- 기본적으로 DataFrame의 색인을 이용해서 얻은 열은 내부 데이터에 대한 뷰이며 복사가 이루어지지 않음. 복사가 필요하면 메서드 copy()를 이용하여 명시적으로 진행해야 함.

> DataFrame 생성을 위한 입력 데이터 종류

- 2차원 ndarray: 데이터를 담고 있는 행렬. 선택적으로 행과 열의 이름을 전달할 수 있음.
- 배열, 리스트, 튜플의 딕셔너리: 딕셔너리의 모든 항목은 길이가 동일해야 하며, 각 항목의 내용은 DataFrame의 열이 됨.
- 넘파이의 구조화 배열: 배열의 딕셔너리와 동일한 방식으로 취급됨.
- Series의 딕셔너리: Series의 각 값이 열이 됨. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 행의 색인이 됨.
- 딕셔너리의 딕셔너리: 외부 딕셔너리의 키가 열이름, 내부 딕셔너리의 key와 value가 index명, value가 됨.
- 딕셔너리나 Series의 리스트: 리스트의 각 항목이 DataFrame의 행이 됨. 합쳐진 딕셔너리의 키 값이나 Series의 색인이 DataFrame의 열 이름이 됨.
- 리스트나 튜플의 리스트: '2차원 ndarray'의 경우와 동일한 방식으로 취급됨.
- 다른 DataFrame: 색인을 따로 지정하지 않으면 DataFrame의 색인이 그대로 사용됨.
- 넘파이 MaskedArray: '2차원 ndarray'의 경우와 동일한 방식으로 취급되지만 마스크 값은 반환되는 DataFrame에서 NA 값이 됨.

### 1.2.1. DataFrame 생성

In [53]:
# DataFrame 만들기1 - 동일한 길이의 리스트에 담긴 딕셔너리 이용

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

print(frame)
type(frame)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [54]:
# DataFrame의 구성 요소
# index, columns, value

print(frame.index)
line()
print(frame.columns)
line()
print(frame.values)

RangeIndex(start=0, stop=6, step=1)
--------------------------------------------------
Index(['state', 'year', 'pop'], dtype='object')
--------------------------------------------------
[['Ohio' 2000 1.5]
 ['Ohio' 2001 1.7]
 ['Ohio' 2002 3.6]
 ['Nevada' 2001 2.4]
 ['Nevada' 2002 2.9]
 ['Nevada' 2003 3.2]]


In [55]:
# DataFrame의 앞부분을 볼 때
# number 인자를 넣어주면 처음부터 number까지의 내용을 보여줌.

frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [56]:
# DataFrame의 앞부분을 볼 때
# number 인자를 넣어주면 마지막에서부터 뒤에서 number까지의 내용을 보여줌.

frame.tail(3)

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [57]:
# data 안에는 이미 column names이 있는데, columns 키워드를 굳이 사용했다는 것은,
# 정렬 순서를 의미함.
# data는 원래 'state', 'year', 'pop' 순이었는데,
# 다음 명령어를 통해, 'year', 'state', 'pop' 순으로 재배열됨.

print(frame)
line()
pd.DataFrame(data, columns=["year", "state", "pop"])

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
--------------------------------------------------


Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [58]:
# 만약, data 안에 'debt'라는 column이 없었다면, 재정렬할 내용이 없으니,
# NaN으로 채움.

frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

print(frame2)
print(frame2.columns)

   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN
Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [59]:
# DataFrame 만들기2 - numpy ndarray를 이용
# columns 키워드를 사용하지 않았을 때,
# column이나 index에 숫자 인덱스를 부여함.

data = np.array([["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        [2000, 2001, 2002, 2001, 2002, 2003],
        [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]])

frame = pd.DataFrame(data)
print(frame)
line()
frame = pd.DataFrame(data.T, columns=['state', 'year', 'pop'])
print(frame)

      0     1     2       3       4       5
0  Ohio  Ohio  Ohio  Nevada  Nevada  Nevada
1  2000  2001  2002    2001    2002    2003
2   1.5   1.7   3.6     2.4     2.9     3.2
--------------------------------------------------
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [60]:
# DataFrame의 열을 Series와 마찬가지로 딕셔너리 형식의 표기법이나 점 표기법으로 접급할 수 있음.
# 딕셔너리 형식 표기법
# 하나의 열을 부르면 Series로 반환됨.
# name 속성이 열 이름으로 적절히 설정됨.

print(frame2)
line()
print(frame2["state"])
line()
print(frame2[["state", 'pop']])
line()
print(frame2[["pop", 'state']])

   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN
--------------------------------------------------
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
--------------------------------------------------
    state  pop
0    Ohio  1.5
1    Ohio  1.7
2    Ohio  3.6
3  Nevada  2.4
4  Nevada  2.9
5  Nevada  3.2
--------------------------------------------------
   pop   state
0  1.5    Ohio
1  1.7    Ohio
2  3.6    Ohio
3  2.4  Nevada
4  2.9  Nevada
5  3.2  Nevada


In [61]:
# DataFrame의 열을 Series와 마찬가지로 딕셔너리 형식의 표기법이나 점 표기법으로 접급할 수 있음.
# 딕셔너리 형식 표기법
# 리스트로 묶어 여러 개의 열을 호출할 수도 있음.

frame2[["state", 'year']]


Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002
5,Nevada,2003


In [62]:
# DataFrame의 열을 Series와 마찬가지로 딕셔너리 형식의 표기법이나 점 표기법으로 접급할 수 있음.
# 점 표기법
# 주의사항: 객체의 다른 메서드나 속성의 이름과 같지 않을 때만 사용 가능

print(frame2)
line()
frame2.year

   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN
--------------------------------------------------


0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [63]:
# 대입을 통해 열을 수정할 수 있음.
# 비어 있는 debt 열에 스칼라 값, 배열, Series의 값을 대입할 수 있음.
# 스칼라 대입 예시


frame2["debt"] = 0
print(frame2)
line()
frame2["debt"] = 16
print(frame2)


   year   state  pop  debt
0  2000    Ohio  1.5     0
1  2001    Ohio  1.7     0
2  2002    Ohio  3.6     0
3  2001  Nevada  2.4     0
4  2002  Nevada  2.9     0
5  2003  Nevada  3.2     0
--------------------------------------------------
   year   state  pop  debt
0  2000    Ohio  1.5    16
1  2001    Ohio  1.7    16
2  2002    Ohio  3.6    16
3  2001  Nevada  2.4    16
4  2002  Nevada  2.9    16
5  2003  Nevada  3.2    16


In [64]:
# 배열 대입 예시
# 배열을 대입할 때는 DataFrame의 길이와 배열의 길이가 같아야 함.
# 아니면 에러가 발생

frame2["debt"] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [None]:
# 배열과 DataFrame의 길이가 다를 시 발생하는 에러 예시

frame2["debt"] = np.arange(7.)
frame2

ValueError: ignored

In [66]:
# DataFrame에 Series 대입 예시1
# Series의 경우 길이보다는 index가 DataFrame의 index와 같은지가 더 중요함.
# 길이와 인덱스가 같은 경우 -> 완벽하게 대입됨

val = pd.Series([-1.2, -1.5, -1.7, -0.9, -1.5, -2.0])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,-1.2
1,2001,Ohio,1.7,-1.5
2,2002,Ohio,3.6,-1.7
3,2001,Nevada,2.4,-0.9
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-2.0


In [68]:
# DataFrame에 Series 대입 예시2
# Series의 길이가 DataFrame과 같고, index가 다른 경우는 모두 NaN값으로 표기됨.

val = pd.Series([-1.2, -1.5, -1.7, -0.9, -1.5, -2.0], index=['zero', 'one', 'two', 'three', 4, 'five'])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,


In [69]:
# DataFrame에 Series 대입 예시3
# Series의 길이가 DataFrame과 다르고, 부분적으로 index가 같은 경우
# index가 같은 부분만 제대로 대입되고, 나머지는 NaN으로 입력됨.

val = pd.Series([-1.2, -1.5, -1.7])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,-1.2
1,2001,Ohio,1.7,-1.5
2,2002,Ohio,3.6,-1.7
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [70]:
# DataFrame에 Series 대입 예시4
# index가 달라서 nan 값으로 대입됨

import pandas as pd
import numpy as np

val = pd.Series([-1.2, -1.5, -1.7, -2.0], index=["two", "four", "five", 'six'])
print(val)
line()

frame2["debt"] = val
frame2

two    -1.2
four   -1.5
five   -1.7
six    -2.0
dtype: float64
--------------------------------------------------


Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [72]:
# DataFrame에 Series 대입 예시5
# 열 이름을 다르게 설정하면, 새로운 열을 생성함.

print(frame2)
line()

val = pd.Series([-1.2, -1.5, -1.7, -0.9, -1.5, -2.0])
frame2["new"] = val
frame2

   year   state  pop  debt  new
0  2000    Ohio  1.5   NaN -1.2
1  2001    Ohio  1.7   NaN -1.5
2  2002    Ohio  3.6   NaN -1.7
3  2001  Nevada  2.4   NaN -0.9
4  2002  Nevada  2.9   NaN -1.5
5  2003  Nevada  3.2   NaN -2.0
--------------------------------------------------


Unnamed: 0,year,state,pop,debt,new
0,2000,Ohio,1.5,,-1.2
1,2001,Ohio,1.7,,-1.5
2,2002,Ohio,3.6,,-1.7
3,2001,Nevada,2.4,,-0.9
4,2002,Nevada,2.9,,-1.5
5,2003,Nevada,3.2,,-2.0


In [73]:
# state 값이 "Ohio"인 경우에 True, 아닌 경우는 False를 하는 불린 Series를 만들고, 'eastern' 열에 대입함.

frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,new,eastern
0,2000,Ohio,1.5,,-1.2,True
1,2001,Ohio,1.7,,-1.5,True
2,2002,Ohio,3.6,,-1.7,True
3,2001,Nevada,2.4,,-0.9,False
4,2002,Nevada,2.9,,-1.5,False
5,2003,Nevada,3.2,,-2.0,False


In [None]:
# del 예약어를 이용하여 열 삭제 - 딕셔너리 사용법과 동일함.

print(frame2)
line()

del frame2["eastern"]

print(frame2)
line()
print(frame2.columns)
print(frame2.values)


   year   state  pop  debt  new  eastern
0  2000    Ohio  1.5   NaN -1.2     True
1  2001    Ohio  1.7   NaN -1.5     True
2  2002    Ohio  3.6   NaN -1.7     True
3  2001  Nevada  2.4   NaN -0.9    False
4  2002  Nevada  2.9   NaN -1.5    False
5  2003  Nevada  3.2   NaN -2.0    False
--------------------------------------------------
   year   state  pop  debt  new
0  2000    Ohio  1.5   NaN -1.2
1  2001    Ohio  1.7   NaN -1.5
2  2002    Ohio  3.6   NaN -1.7
3  2001  Nevada  2.4   NaN -0.9
4  2002  Nevada  2.9   NaN -1.5
5  2003  Nevada  3.2   NaN -2.0
--------------------------------------------------
Index(['year', 'state', 'pop', 'debt', 'new'], dtype='object')
[[2000 'Ohio' 1.5 nan -1.2]
 [2001 'Ohio' 1.7 nan -1.5]
 [2002 'Ohio' 3.6 nan -1.7]
 [2001 'Nevada' 2.4 nan -0.9]
 [2002 'Nevada' 2.9 nan -1.5]
 [2003 'Nevada' 3.2 nan -2.0]]


In [6]:
# 중첩 딕셔너리를 이용하여 DataFrame 만들기
# 외부 딕셔너리의 키는 열이름이고, 내부 딕셔너리의 키는 index, 값은 value가 되는 구조임.
# 내부 딕셔너리의 키를 누락시키면, 그에 해당하는 값은 NaN으로 입력됨.
# 열이름과 index 모두를 직접 설정하는 방법임.

populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}

# populations = {"Ohio": [2000, 1.5, 2001, 1.7, 2002, 3.6],
#                "Nevada": [2001, 2.4, 2002, 2.]}

In [7]:
frame3 = pd.DataFrame(populations)

frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [8]:
# DataFrame의 전치 - numpy와 비슷함.

frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [9]:
# 2중 딕셔너리 방식으로 DataFrame을 만들 때, index를 직접 설정하면 지정된 색인으로 DataFrame을 생성함.
# 해당 index가 없는 경우 NaN으로 채움.
# 딕셔너리를 이용해서 DataFrame을 만드는 경우, 이미 columns나 index가 있기 때문에
# columns, index 키워드를 사용하는 경우에는 정렬의 의미가 강함.
# 그리고 해당 index와 column이 없어도 에러가 뜨지 않고, NaN으로 채운다는 특징이 있음.

print(populations)
line()
pd.DataFrame(populations, index=[2001, 2002, 2003])

{'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}, 'Nevada': {2001: 2.4, 2002: 2.9}}
--------------------------------------------------


Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [10]:
# 재정렬 예시

pd.DataFrame(populations, index=[2001, 2003, 2002])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2003,,
2002,3.6,2.9


In [11]:
# 정수형 인덱스가 아니면 마지막을 의미하는 -1 문법을 사용할 수 없음.
# 대신 슬라이싱은 상관없음.

print(frame3)
line()
frame3["Ohio"][:-1]
# frame3["Ohio"][-1] # 비교해보기

      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4
2002   3.6     2.9
--------------------------------------------------


2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [12]:
# Series 객체를 이용한 DataFrame 만들기
# Series 객체에는 이미 가지고 있는 index가 있기 때문에 join 병합이 일어난다고 생각하면 됨.
# 내게 없는 index는 NaN으로 채움.

print(frame3)
line()
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][1:]}
pd.DataFrame(pdata)

      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4
2002   3.6     2.9
--------------------------------------------------


Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,,2.9


In [13]:
# DataFrame에는 index.name, columns.name 속성은 있음.
# 그러나 DataFrame.name 속성은 없음.(Series에는 있음)

frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [14]:
# DataFrame에 포함된 데이터를 2차원 형태로 반환함.

print(type(frame3.to_numpy()))
frame3.to_numpy()


<class 'numpy.ndarray'>


array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [15]:
# 각 열의 데이터 형이 다른 경우, 모든 열의 데이터 타입을 수용하면서 object 타입으로 반환됨.

frame2.to_numpy()

NameError: name 'frame2' is not defined

### 1.2.2. DataFrame 연습문제

- 문제1) 주어진 리스트 data_list를 사용하여 3x3 크기의 DataFrame을 생성하세요.
    - data_list = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

- 문제2) 위 data_list에서 요소별로 'A', 'B', 'C' 키를 갖는 data_dict를 만들고, DataFrame을 생성하세요.
    - data_dict = {'A': data_list(0번 요소), 'B': data_list(1번 요소), 'C': data_list(2번 요소)

- 문제3) 주어진 data_list를 ndarray로 만들고, 이를 사용하여 4x4 크기의 DataFrame을 생성하세요.
    - data_list = [[10, 20, 30, 40], [50, 60, 70, 80], [90, 100, 110, 120], [130, 140, 150, 160]]

## 1.3. 색인 객체
- 판다스의 색인 객체는 축 레이블(DataFrame의 열 이름 포함)과 다른 메타데이터(축의 이름 등)을 저장하는 객체임.
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 다른 순차적인 레이블은 내부적으로 색인으로 변환됨.

In [16]:
def line():
    print('-'*50)

In [17]:
# Series의 색인 객체
import numpy as np
import pandas as pd

obj = pd.Series(np.arange(3), index=["a", "b", "c"])
print(obj)

index = obj.index
print(index)

index[1:]

a    0
b    1
c    2
dtype: int64
Index(['a', 'b', 'c'], dtype='object')


Index(['b', 'c'], dtype='object')

In [18]:
# 색인 객체는 변경이 불가능함.
# TypeError가 발생함.

# index[1] = 'z'

In [19]:
# index의 불변성으로 인해 자료구조 사이에서 색인을 안전하게 공유할 수 있음.

labels = pd.Index(np.arange(3))
print(labels)
line()

obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2)
line()

obj2.index is labels

Index([0, 1, 2], dtype='int64')
--------------------------------------------------
0    1.5
1   -2.5
2    0.0
dtype: float64
--------------------------------------------------


True

In [20]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [22]:
# 배열과 유사하게 Index 객체도 고정된 크기로 작동함.

print(frame3.columns)
print(frame3.index)
print(type(frame3.columns))
print(type(frame3.index))

print("Ohio" in frame3.columns)
print(2002 in frame3.index)
print(2003 in frame3.index)

Index(['Ohio', 'Nevada'], dtype='object', name='state')
Index([2000, 2001, 2002], dtype='int64', name='year')
<class 'pandas.core.indexes.base.Index'>
<class 'pandas.core.indexes.base.Index'>
True
True
False


In [23]:
# index 객체는 집합과 다르게 중복을 허용함.
# 중복 index를 사용하여 인덱싱을 하면 해당 데이터를 모두 가져옴.

dummy_index = pd.Index(["foo", "foo", "bar", "bar"])

dummy_df = pd.DataFrame(np.arange(4), index=dummy_index, columns=['num'])

print(dummy_df)
line()

dummy_df.loc['foo']

# dummy_df['num'] # DataFrame에서 key로 작동하는 것은 'num'이기 때문임.

     num
foo    0
foo    1
bar    2
bar    3
--------------------------------------------------


Unnamed: 0,num
foo,0
foo,1


In [24]:
# 중복되는 색인을 선택하면, 해당 색인을 갖는 모든 값을 반환함.

s_index = pd.Series([1,2,3,4,5], index=["foo", "foo", "bar", "bar", "ho"])

print(s_index["foo"])
line()
print(s_index[["foo", "ho"]])

foo    1
foo    2
dtype: int64
--------------------------------------------------
foo    1
foo    2
ho     5
dtype: int64


> 색인 메서드와 속성



### 1.3.1. 색인 객체와 색인 연습문제

- 문제1: 다음 데이터를 이용하여 데이터프레임을 만들고, 특정 열을 새로운 인덱스로 설정하세요.
    - data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
        '나이': [25, 30, 35, 40]}

- 문제2: 다음 데이터를 이용하여 데이터프레임을 만들고, 특정 범위(1~2 행)의 행을 선택하세요.
    - data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
        '나이': [25, 30, 35, 40]}

- 문제3: 다음 데이터를 이용하여 데이터프레임을 만들고, 행인덱스를 'X', 'Y', 'Z'로 바꾸고, 열인덱스를 'Column1', 'Column2'로 바꾸세요.
    - data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}


## 1.4. 재색인(reindex)

- 데이터 정렬로 활용할 수 있음.
- 부분 데이터를 가져오는 용도로 활용할 수 있음.

In [25]:
import pandas as pd

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [26]:
# 색인에 따라 재배열 하되, 해당 색인이 없으면 NaN 값으로 채움.

obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [27]:
# 시계열 같은 순차 데이터의 재배열의 경우, 값을 보간하거나 채워 넣어야 하는 경우가 있음.
# 그때 method 키워드를 활용함. ffill, bfill 등
# 메서드 reindex는 index를 재정의하는 것 뿐 아니라, value 값이 없는 곳을 채워주는 기능도 함.

import numpy as np

obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
print(obj3)
line()
print(obj3.reindex(np.arange(6)))
line()
print(obj3.reindex(np.arange(6), method="ffill"))
line()
obj3.reindex(np.arange(6), method="bfill")


0      blue
2    purple
4    yellow
dtype: object
--------------------------------------------------
0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object
--------------------------------------------------
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object
--------------------------------------------------


0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [28]:
# DataFrame에 대한 reindex는 행(색인), 열 또는 둘 다 변경 가능함.
# 단순히 순서만 전달하면 행이 재색인됨.

frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
print(frame)
line()
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
--------------------------------------------------


Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [29]:
# 열 재색인
# 재색인을 하면서 새로운 열을 만들어 내기도 함.
# 재색인으로 인해 생기는 정렬

states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [30]:
# axis='columns' 키워드 사용

frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [31]:
# axis=1 키워드 사용
# 위 결과와 동일함.

frame.reindex(states, axis=1)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


> reindex 함수 인수

- labels: 색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 파이썬 자료구조를 사용할 수 있다. Index는 복사가 이루어지지 않고 그대로 사용된다.
- index: 전달된 시퀀스를 새로운 행(index) 레이블로 지정함.
- columns: 전달된 시퀀스를 새로운 열 레이블로 지정함.
- axis: 색인으로 사용할 축(행 또는 열)을 지정함. 기본값은 행(index)이다. reindex(index=new_labels) 또는 reindex(columns=new_labels)와 같이 사용할 수 있다. axis=1와 axis="columns"은 동일함.
- method: 채움 메서드. ffill은 직전 값을 채워 넣고 bfill은 다음 값을 채워 넣음.
- fill_value: 재색인 과정 중에 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값. 빈 곳의 결과에 null을 채워 넣으려면 fill_value="missing"을 이용함.
- limit: 전/후 보간 시에 사용할 최대 갭 크기(채워 넣을 원소의 수)
- tolerance: 전/후 보간 시에 사용할 최대 갭 크기(값의 차이)
- level: MulriIndex의 단계(level)에 단순 색인을 맞춤. 그렇지 않으면 MultiIndex의 하위집합에 맞춤.
- copy: True인 경우 새로운 색인이 이전 색인과 동일하더라도 기본 데이터를 복사함. False인 경우 새로운 색인이 이전 색인과 동일할 경우 복사하지 않음.

In [None]:
# loc 함수를 이용한 색인은 모든 새로운 색인 레이블이 DataFrame에 존재하는 경우에만 작동함.
# reindex 함수는 새로운 레이블에 대해 결측치를 삽입한다는 게 loc 함수와 다름.

print(frame)
line()
frame.loc[["a", "d", "c"], ["California", "Texas"]]

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
--------------------------------------------------


Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


## 1.5. 하나의 행이나 열 삭제하기(drop)

- 삭제하려는 축이 제외된 리스트를 이미 가지고 있는 경우, reindex나, loc 함수를 이용하여 행과 열을 쉽게 삭제할 수 있음.
- 그러나 이 방법은 데이터의 모양을 변경하는 작업이 필요함.
- 반면 drop 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있음.

In [32]:
def line():
    print('-'*30)

In [36]:

# Series Drop 예시

import pandas as pd
import numpy as np

obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
print(obj)
line()

new_obj = obj.drop(index="c")
print(new_obj)
line()

print(obj.drop(["d", "c"]))
line()

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
------------------------------
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
------------------------------
a    0.0
b    1.0
e    4.0
dtype: float64
------------------------------


In [37]:
# DataFrame drop 예시

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [38]:
# DataFrame index drop 예시

data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [39]:
# DataFrame columns drop 예시

data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [40]:
# axis 키워드를 사용하여 삭제 대상 방향을 설정할 수 있음.
# 삭제할 대상이 여러 개인 경우, 리스트로 묶음.

data.drop("two", axis=1) # 제거할 column이 하나일 경우

data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 1.5.1. 행이나 열 삭제하기 연습문제

- 문제1: 주어진 데이터를 이용하여 데이터프레임을 만들고, 이름이 'Bob'인 행을 삭제하세요.
    data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
        '나이': [25, 30, 35, 40]}
- 문제2: 주어진 데이터를 이용하여 데이터프레임을 만들고, 이름이 '나이' 열을 삭제하세요.
    - data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
        '나이': [25, 30, 35, 40]}

- 문제3: 주어진 데이터프레임에서 이름이 'Bob'이거나 나이가 30 이하인 경우의 데이터를 삭제하세요.
    - data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
        '나이': [25, 30, 35, 40]}

## 1.6. 색인하기, 선택하기, 거르기

In [41]:
def line():
    print('-'*50)

In [42]:
# Series의 색인은 numpy와 비슷하지만, 정수가 아니어도 된다는 점이 다름.
# 심지어 index를 재설정해도, 기본적으로 정수 인덱스가 제공됨.

import numpy as np
import pandas as pd

obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
print(obj)
line()
print(obj["b"])
line()
obj[1]

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
--------------------------------------------------
1.0
--------------------------------------------------


1.0

In [43]:
# 정수 인덱스 확인
# 슬라이싱

print(obj[1])
line()
obj[2:]

1.0
--------------------------------------------------


c    2.0
d    3.0
dtype: float64

In [45]:
# 다중 레이블 인덱싱
# 불리언 인덱싱은 레이블 인덱스에만 적용됨.

print(obj)
line()
print(obj[["b", "a", "d"]])
line()
print(obj[[1, 3]]) # fancy indexing
line()
obj[obj < 2] # bool indexing

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
--------------------------------------------------
b    1.0
a    0.0
d    3.0
dtype: float64
--------------------------------------------------
b    1.0
d    3.0
dtype: float64
--------------------------------------------------


a    0.0
b    1.0
dtype: float64

In [46]:
# 그러나 위의 인덱싱 방법보다, loc 함수를 이용한 인덱싱이 선호됨.
# loc 함수는 실제 index를 사용해야 함.
# iloc 함수는 암묵적인 정수 index를 사용함.

obj.loc[["b", "a", "d"]]
# obj.loc[[1, 0, 3]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [47]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

print(obj1)
print(obj2)

2    1
0    2
1    3
dtype: int64
a    1
b    2
c    3
dtype: int64


In [48]:
# 결과가 달라짐.
# obj1: 인덱스가 정수 인덱스로 정의되어 있는 경우, 표현된 정수 인덱스대로 재정렬 함.
# obj2: 인덱스가 이미 정의되어 있기 때문에, 표현된 정수 인덱스는 암묵적 순서라고 생각함.
# 이런 경우 때문에 [] 식의 인덱싱보다 loc 함수를 이용한 인덱싱을 선호함.

print(obj1[[0, 1, 2]])
print(obj2[[0, 1, 2]])

0    2
1    3
2    1
dtype: int64
a    1
b    2
c    3
dtype: int64


In [49]:
# 암묵적 정수 인덱싱을 한다고 하면, iloc을 이용함.
# iloc은 index 설정을 무시하고, 암묵적 정수 인덱스만 따름.
# loc은 label index를 따르기 때문에, 명시적 정수 인덱스를 활용할 수 있음.
# loc과 iloc의 차이는 명시적 인덱스이냐, 암묵적 인덱스냐의 차이임.

print(obj1)
line()
print(obj1.iloc[[0, 1, 2]])
line()
print(obj1.loc[[0, 1, 2]])
line()
obj2.iloc[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64
--------------------------------------------------
2    1
0    2
1    3
dtype: int64
--------------------------------------------------
0    2
1    3
2    1
dtype: int64
--------------------------------------------------


a    1
b    2
c    3
dtype: int64

In [50]:
# loc 함수는 인덱스 설정을 철저히 따름. 즉, 레이블로만 색인을 취함.
# 인덱스가 숫자면 숫자로, 문자열이면 문자열로 인덱싱에 들어가야 함.
# obj1인 경우, 인덱스가 숫자지만 정렬되어 있지 않기 때문에,
# obj1.loc[0:]일 때, 0번째부터 인덱싱을 하는 게 아니라 인덱스가 0인 지점부터 끝까지 간다는 의미임.

print(obj1)
line()
print(obj1.loc[0:])
line()
print(obj2)
line()
print(obj2.loc["b":"c"])

2    1
0    2
1    3
dtype: int64
--------------------------------------------------
0    2
1    3
dtype: int64
--------------------------------------------------
a    1
b    2
c    3
dtype: int64
--------------------------------------------------
b    2
c    3
dtype: int64


In [51]:
# loc 연산자는 레이블만 취급하기 때문에 리스트의 슬라이싱과 조금 다름.
# 다음 예시에서도 loc["b":"c"]에서 리스트라면 "c"를 포함하지 않을 것이지만, "c"를 포함한 것을 볼 수 있음.

print(obj2)
line()
obj2.loc["b":"c"] = 5
obj2

a    1
b    2
c    3
dtype: int64
--------------------------------------------------


a    1
b    5
c    5
dtype: int64

In [52]:
# DataFrame에서 여러 개의 열을 가져오는 색인
# 하나의 열을 가져오면 Series로 반환됨.

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
print(data)
line()
print(data["two"])
line()
data[["three", "one"]]

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------
Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64
--------------------------------------------------


Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [53]:
# DataFrame에서 슬라이싱으로 데이터를 가져올 수 있음.
# 명시적 인덱스가 숫자가 아니어도 가능함.
# boolean indexing으로 DataFrame의 행을 인덱싱 할 수 있음.

print(data[:2]) # 이 방법은 연속적인 행을 가져올 때 사용함.
line()
print(data)
line()
print(data["three"] > 5)  # boolean indexing
line()
data[data["three"] > 5]

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
--------------------------------------------------
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------
Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool
--------------------------------------------------


Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [54]:
# DataFrame 각 요소에 boolean indexing을 적용할 수 있음.

print(data.shape)
line()
print(data < 5)
(data < 5).shape

(4, 4)
--------------------------------------------------
            one    two  three   four
Ohio       True   True   True   True
Colorado   True  False  False  False
Utah      False  False  False  False
New York  False  False  False  False


(4, 4)

In [55]:
# 굳이 map() 함수를 사용하지 않아도 DataFrame 전체 요소에 대해 조건을 적용시킬 수 있음.
# boolean indexing을 잘 사용하면 매우 유익함.

print(data)
line()
data[data < 5] = 0
data

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------


Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
# DataFrame indexing from label

data.loc["Colorado"]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [57]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [58]:
# DataFrame index, columns indexing
# 여러 개 columns. 이렇게 되면, columns를 index로 하는 새로운 Series가 나옴.
# 결과는 Series로 return 됨.

data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [59]:
# value가 scalar로 return 됨.

print(type(data.loc["Colorado", "two"]))
data.loc["Colorado", "two"]


<class 'numpy.int64'>


5

In [60]:
# 재배열 효과, 암묵적 정수 인덱싱, 리스트로 묶어 multi-indexing
# return type이 Series인지, DataFrame인지 확인할 것.

print(data)
line()
print(data.iloc[2])
line()
print(data.iloc[[2, 1]])
line()
print(data.iloc[2, [3, 0, 1]])
line()
print(data.iloc[[1, 2], [3, 0, 1]])

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------
one       8
two       9
three    10
four     11
Name: Utah, dtype: int64
--------------------------------------------------
          one  two  three  four
Utah        8    9     10    11
Colorado    0    5      6     7
--------------------------------------------------
four    11
one      8
two      9
Name: Utah, dtype: int64
--------------------------------------------------
          four  one  two
Colorado     7    0    5
Utah        11    8    9


In [61]:
# 레이블 색인(loc), 암묵적 정수 색인(iloc) 모두 슬라이스 지원
# loc에는 불리언 색인을 적용할 수 있지만, iloc에는 불가능함.

print(data)
line()
print(data.loc[:"Utah", "two"])
line()
data.iloc[:, :3][data.three > 5]

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------
Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64
--------------------------------------------------


Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [62]:
# 위 예시와 완전히 동일한 결과를 얻음.
# 가능하면 이중 인덱싱을 적용하지 말 것.

data.loc[data.three > 5, :"three"]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [63]:
# loc은 불리언 색인 가능함.

data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [64]:
# 정수 색인의 함정
# 리스트나 튜플 같은 파아썬 내장 자료구조와는 다른 정수 색인의 특징으로 생기는 오해
# 이 경우 -1 인덱스는 사용할 수 없음.
# 레이블 색인이 0, 1, 2를 포함하는 경우, 사용자가 레이블 색인으로 선택하려는지 정수 색인으로 선택하려는지 예측이 어려움.
# pandas에는 기본적으로 숫자 인덱스를 사용하는 경우, 레이블 색인을 먼저 찾도록 구현되어 있음.
# 이 예시에서는 -1 레이블 인덱스를 찾으나 없기 때문에 에러가 발생하는 것임.

ser = pd.Series(np.arange(3.))
print(ser)
ser[-1]

0    0.0
1    1.0
2    2.0
dtype: float64


KeyError: -1

In [68]:
# 반면, 이 경우는 정수 색인으로 받아들임.
# 왜냐하면 레이블 색인이 "a", "b", "c"라고 박혀 있기 때문임.
# 즉, Series나 DataFrame도 헷갈린다는 것.
# 따라서 명시적으로 정수 색인은 loc, 레이블 색인은 iloc을 사용하자.

ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
print(ser2)
line()
print(ser2[-1])

a    0.0
b    1.0
c    2.0
dtype: float64
--------------------------------------------------
2.0


In [69]:
# iloc을 사용하여 정수 인덱싱을 명시적으로 밝힘.
# prefered

ser.iloc[-1]

2.0

In [70]:
# 정수 기반 슬라이싱은 우선적으로 정수를 찾도록 구현되어 있음.
# 모호함을 피하고자 loc이나 iloc을 사용하는 것을 추천함.

print(ser[:2])
line()
print(ser.iloc[:2])

0    0.0
1    1.0
dtype: float64
--------------------------------------------------
0    0.0
1    1.0
dtype: float64


In [71]:
# 하나의 행이나 열의 레이블, 또는 정수 위치에 값을 대입할 수 있음.
import numpy as np
import pandas as pd

def line():
    print('-'*50)

data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
print(data)
line()
data.loc[:, "one"] = 1
data


          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
--------------------------------------------------


Unnamed: 0,one,two,three,four
Ohio,1,1,2,3
Colorado,1,5,6,7
Utah,1,9,10,11
New York,1,13,14,15


In [72]:
data.iloc[2] = 5
data


Unnamed: 0,one,two,three,four
Ohio,1,1,2,3
Colorado,1,5,6,7
Utah,5,5,5,5
New York,1,13,14,15


In [73]:
print(data)
line()
data.loc[data["four"] > 5] = 3
data

          one  two  three  four
Ohio        1    1      2     3
Colorado    1    5      6     7
Utah        5    5      5     5
New York    1   13     14    15
--------------------------------------------------


Unnamed: 0,one,two,three,four
Ohio,1,1,2,3
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [74]:
# 값을 할당할 때 색인을 연결해서 연쇄 색인(chained indexing) 사용하게 되면 문제가 발생함.
# SettingWithCopyWarning 경고 발생
# 의도한 대로 원본 DataFrame에 값을 대입하는 것이 아니라 임싯값(비어 있지 않은 data.loc[data.three == 5]의 결과)을 변경하려고 한다는 경고임.
# 의도대로 data의 값은 변경되지 않음.
# 값을 할당할 때는 연쇄 색인은 피하도록 하자.

print(data)
line()
data.loc[data.three == 5]["three"] = 6

print(data)

          one  two  three  four
Ohio        1    1      2     3
Colorado    3    3      3     3
Utah        5    5      5     5
New York    3    3      3     3
--------------------------------------------------
          one  two  three  four
Ohio        1    1      2     3
Colorado    3    3      3     3
Utah        5    5      5     5
New York    3    3      3     3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data.three == 5]["three"] = 6


In [75]:
# 위 문제를 해결하기 위해서는 연쇄 색인을 피해야 하며, 단일 loc 연산을 사용해야 함.
# loc은 불리언 색인이 가능한 점을 이용함.

print(data)
line()
data.loc[data.three == 5, "three"] = 6
data

          one  two  three  four
Ohio        1    1      2     3
Colorado    3    3      3     3
Utah        5    5      5     5
New York    3    3      3     3
--------------------------------------------------


Unnamed: 0,one,two,three,four
Ohio,1,1,2,3
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


### 1.6.1. 색인, 선택, 거르기 연습문제

- 문제1: 주어진 데이터로 DataFrame을 생성하고, 'Age' 열을 사용하여 30 이상 연령대의 데이터를 선택하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40]}

- 문제2: 주어진 데이터로 DataFrame을 생성하고, 'Score' 열을 사용하여 90점 이상인 데이터를 선택하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Score': [85, 92, 78, 95]}

- 문제3: 주어진 데이터로 DataFrame을 생성하고, 여러 조건을 결합하여 나이가 30 이상이고 점수가 90 이상인 행을 선택하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'Score': [85, 92, 78, 95]}

- 문제4: 주어진 데이터로 DataFrame을 생성하고, 'Name' 열을 인덱스로 설정한 다음 'Bob' 행 선택하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40]}

## 1.7. 산술 연산

In [76]:
# 산술 연산

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])
print(s1)
line()
s2

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
--------------------------------------------------


a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [77]:
# 판다스는 서로 다른 색인을 가지고 있는 객체 간의 산술 연산을 간단하게 처리할 수 있음.
# 객체를 더할 때 짝이 맞지 않는 색인 있다면 결과에 두 색인 통합됨.
# 같은 색인을 찾아 있으면 연산을 하고, 색인이 혼자 존재하면 NaN 값을 반환함.

s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [78]:
# DataFrame의 산술 연산의 경우, 행과 열 모두에 정렬이 적용됨.

df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
print(df1)
line()
df2

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0
--------------------------------------------------


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [79]:
# 두 DataFrame을 더하면, 각 DF에 있는 색인과 열이 하나로 합쳐짐.
# 더하기 연산 후, 행과 열 모두 정렬됨.

df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [80]:
# 행과 열의 인덱스가 동일해야만 연산이 가능
# 행과 열 중 인덱스가 하나라도 안맞으면 NaN 값 반환
# DF을 이어 붙이는 것 하고는 완전히 다른 개념임.
# + 연산자는 산술 연산자임.

df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
print(df1)
line()
print(df2)
line()
df1 + df2

   A
0  1
1  2
--------------------------------------------------
   B
0  3
1  4
--------------------------------------------------


Unnamed: 0,A,B
0,,
1,,


In [81]:
# 산술 연산 메서드에 채워 넣을 값 지정하기

df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
print(df1)
line()
print(df2)
line()
df2.loc[1, "b"] = np.nan
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
--------------------------------------------------
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0
--------------------------------------------------
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [82]:
# 두 결과를 더하면 겹치지 않는 부분은 NaN으로 입력됨.

df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [87]:
# DF 객체에서 메소더 add를 사용하여 DF 산술연산을 진행함.
# add 메소드에서 NaN값이 존재하는 요소에는 fill_value 키워드를 이용하여 채울 값을 지정함.

df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [90]:
df1.add(df2, fill_value=100)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,104.0
1,9.0,105.0,13.0,15.0,109.0
2,18.0,20.0,22.0,24.0,114.0
3,115.0,116.0,117.0,118.0,119.0


> 산술 연산 메서드

**밑의 r은 분모와 분자를 뒤집은 거라고 생각하면 됨**

- add, radd: 덧셈을 위한 연산
- sub, rsub: 뺄셈을 위한 연산
- div, rdiv: 나눔셈
- floordiv, rfloordiv: 소수점 내림 연산(//)
- mul, rmul: 곱셈 연산
- pow, rpow: 거듭제곱을 위한 연산

In [91]:
print(df1)
line()
print(1 / df1)
line()
print(df1.rdiv(1))
line()
print(df1.div(1))

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
--------------------------------------------------
       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909
--------------------------------------------------
       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909
--------------------------------------------------
     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


In [92]:
print(df1)
line()
print(df1.radd(10))
line()
print(df1.add(10))

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
--------------------------------------------------
      a     b     c     d
0  10.0  11.0  12.0  13.0
1  14.0  15.0  16.0  17.0
2  18.0  19.0  20.0  21.0
--------------------------------------------------
      a     b     c     d
0  10.0  11.0  12.0  13.0
1  14.0  15.0  16.0  17.0
2  18.0  19.0  20.0  21.0


In [93]:
# series나 dataframe을 재색인 할 때 사용할 수 있음.

print(df1)
line()
print(df2.columns)
line()
df1.reindex(columns=df2.columns, fill_value=0)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
--------------------------------------------------
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
--------------------------------------------------


Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [94]:
# series와 dataframe 간의 연산
# 2차원 배열과 해당 배열 중 한 행의 차이 계산 예시
# broadcasting이 적용됨.

arr = np.arange(12.).reshape((3, 4))
print(arr)
line()
print(arr[0])
arr - arr[0]

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
--------------------------------------------------
[0. 1. 2. 3.]


array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [95]:
# DF와 S의 연산
# np와 비슷함.

frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
print(frame)
line()
print(series)

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
--------------------------------------------------
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64


In [96]:
# DF와 S의 연산

frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [97]:
# 색인값을 찾지 못하면 그 객체는 형식을 맞추기 위해 재색인 됨.

series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
print(frame)
line()
print(series2)
frame + series2

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
--------------------------------------------------
b    0
e    1
f    2
dtype: int64


Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [98]:
# 색인이 일치하도록 조치해야 에러가 나지 않음.
# axis="index"는 index 축을 따라서 인덱스를 찾아 연산을 수행하라는 의미임.
# 연산을 원하는 축의 인덱스를 맞추는 게 중요함.

series3 = frame["d"]
print(frame)
line()
print(series3)
line()
print(frame.sub(series3, axis="index"))
line()
frame.sub(series3, axis="columns")

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
--------------------------------------------------
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64
--------------------------------------------------
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0
--------------------------------------------------


Unnamed: 0,Ohio,Oregon,Texas,Utah,b,d,e
Utah,,,,,,,
Ohio,,,,,,,
Texas,,,,,,,
Oregon,,,,,,,


## 1.8. 함수 적용과 매핑

In [99]:
def line():
    print('-'*50)

In [100]:
# 유니버셜 함수 적용과 매핑
# 판다스 객체에도 넘파이의 유니버설 함수를 적용할 수 있음.

import pandas as pd
import numpy as np

frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
print(frame)
line()
np.abs(frame)

               b         d         e
Utah   -0.845392  0.810590  0.379530
Ohio    0.161662 -0.139194 -0.795062
Texas   0.611156  0.487313 -1.414458
Oregon  1.224201 -0.844996  1.836073
--------------------------------------------------


Unnamed: 0,b,d,e
Utah,0.845392,0.81059,0.37953
Ohio,0.161662,0.139194,0.795062
Texas,0.611156,0.487313,1.414458
Oregon,1.224201,0.844996,1.836073


In [101]:
# DataFrame의 apply 함수는 각 열이나 행의 1차원 배열에 함수를 적용함.

def f1(x):
    return x.max() - x.min()

print(frame)
line()
print(frame.apply(f1)) # axis default 값은 0, 또는 'index'임.
line()
print(frame.apply(f1, axis='index'))
line()
print(frame.apply(f1, axis=0))
line()
print(frame.apply(f1, axis=1))

               b         d         e
Utah   -0.845392  0.810590  0.379530
Ohio    0.161662 -0.139194 -0.795062
Texas   0.611156  0.487313 -1.414458
Oregon  1.224201 -0.844996  1.836073
--------------------------------------------------
b    2.069593
d    1.655585
e    3.250531
dtype: float64
--------------------------------------------------
b    2.069593
d    1.655585
e    3.250531
dtype: float64
--------------------------------------------------
b    2.069593
d    1.655585
e    3.250531
dtype: float64
--------------------------------------------------
Utah      1.655981
Ohio      0.956724
Texas     2.025613
Oregon    2.681068
dtype: float64


In [102]:
# axis='columns' 또는 axis=1

print(frame.apply(f1, axis="columns"))
line()
frame.apply(f1, axis=1)

Utah      1.655981
Ohio      0.956724
Texas     2.025613
Oregon    2.681068
dtype: float64
--------------------------------------------------


Utah      1.655981
Ohio      0.956724
Texas     2.025613
Oregon    2.681068
dtype: float64

In [104]:
# 데이터 프레임에서 열 벡터를 직접 뽑아서(series에서) 적용할 수 있음.
# 주의할 것은 각 요소가 인자로 들어와서 mapping이 된다는 것이 dataframe.apply와 다름
# Series 형태로 반환

print(frame)
line()

print(frame.loc[:, 'b'].apply(lambda x: np.abs(x)))
line()
print(frame.iloc[0].apply(lambda x: np.abs(x)))

               b         d         e
Utah   -0.845392  0.810590  0.379530
Ohio    0.161662 -0.139194 -0.795062
Texas   0.611156  0.487313 -1.414458
Oregon  1.224201 -0.844996  1.836073
--------------------------------------------------
Utah      0.845392
Ohio      0.161662
Texas     0.611156
Oregon    1.224201
Name: b, dtype: float64
--------------------------------------------------
b    0.845392
d    0.810590
e    0.379530
Name: Utah, dtype: float64


In [105]:
# apply의 반환값이 반드시 스칼라일 필요는 없음.
# series 반환 예시
# 함수에서 Series를 만들어서 반환하도록 함.

def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

print(frame)
line()
print(frame.apply(f2))

               b         d         e
Utah   -0.845392  0.810590  0.379530
Ohio    0.161662 -0.139194 -0.795062
Texas   0.611156  0.487313 -1.414458
Oregon  1.224201 -0.844996  1.836073
--------------------------------------------------
            b         d         e
min -0.845392 -0.844996 -1.414458
max  1.224201  0.810590  1.836073


In [107]:
# DataFrame에서 배열의 각 원소에 적용되는 파이썬 함수 사용 가능
# DataFrame은 applymap 함수를 활용함.
# Series에서는 map 메서드를 가짐.

def my_format(x):
    return np.float64(f"{x:.2f}")

print(frame)
line()
frame.applymap(my_format)

               b         d         e
Utah   -0.845392  0.810590  0.379530
Ohio    0.161662 -0.139194 -0.795062
Texas   0.611156  0.487313 -1.414458
Oregon  1.224201 -0.844996  1.836073
--------------------------------------------------


Unnamed: 0,b,d,e
Utah,-0.85,0.81,0.38
Ohio,0.16,-0.14,-0.8
Texas,0.61,0.49,-1.41
Oregon,1.22,-0.84,1.84


In [109]:
# Series에서 map 메서드을 이용한 각 원소에 함수 적용
# Series에서의 apply와 map은 동일한 기능을 함.

print(frame["e"].map(my_format))
line()
print(frame["e"].apply(my_format))


Utah      0.38
Ohio     -0.80
Texas    -1.41
Oregon    1.84
Name: e, dtype: float64
--------------------------------------------------
Utah      0.38
Ohio     -0.80
Texas    -1.41
Oregon    1.84
Name: e, dtype: float64


---
<h4>* DataFrame과 Series에서의 Mapping 함수 정리</h4>

> DataFrame에서의 매핑 함수
1. apply 함수
 - df에서 열 벡터나 행 벡터 단위로 함수를 적용할 때 사용
 - default axis=0
2. applymap 함수
 - df에서 각 요소별로 함수를 적용할 때 사용

> Series에서의 매핑 함수
 - map 함수 사용
 - Series의 각 요소별로 함수에 적용할 때 사용
---


### 1.8.1. 함수 적용과 매핑 연습문제

- 문제1: 주어진 데이터를 이용하여 데이터 프레임을 만들고, 'Salary' 열의 값에 10% 인상을 적용하여 'Updated Salary' 열을 새롭게 추가하세요.
    - data = {'Age': [25, 30, 35, 40], 'Salary': [50000, 60000, 75000, 90000]}

- 문제2: 주어진 데이터를 이용하여 데이터 프레임을 만들고, 'Age' 열의 값을 기반으로 성인 여부를 판별하여 'Adult' 열을 새롭게 추가하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 30, 35, 40]}
            
- 문제3: 주어진 데이터를 이용하여 데이터 프레임을 만들고, 모든 원소에 10을 더한 값으로 수정하세요.
    -data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
- 문제4: 주어진 데이터를 이용하여 데이터 프레임을 만들고, 모든 원소에 'X' 문자열을 추가하세요.
    - data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
- 문제5: 주어진 데이터를 이용하여 Series를 만들고, 각 원소에 문자열 길이를 적용하여 길이 정보로 수정하세요.
    - data = ['apple', 'banana', 'cherry']
- 문제6: 주어진 데이터를 이용하여 Series를 만들고, 각 원소에 다음 딕셔너리를 사용하여 원소값을 수정하세요.
    - data = ['A', 'B', 'C']
    - dictionary = {'A': 1, 'B': 2, 'C': 3}

## 1.9 정렬과 순위

In [110]:

# 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용해 행과 열의 색인을 알파벳순으로 정렬함.

obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
print(obj)
line()
obj.sort_index()

d    0
a    1
b    2
c    3
dtype: int64
--------------------------------------------------


a    1
b    2
c    3
d    0
dtype: int64

In [111]:
# DataFrame은 행과 열 중 하나의 인덱스를 기준으로 정렬할 수 있음.

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
print(frame)
line()
print(frame.sort_index())
line()
frame.sort_index(axis="columns")

       d  a  b  c
three  0  1  2  3
one    4  5  6  7
--------------------------------------------------
       d  a  b  c
one    4  5  6  7
three  0  1  2  3
--------------------------------------------------


Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [112]:
# ascending 키워드를 이용하여 오름차순, 내림차순을 설정함.
# 기본 설정은 오름차순임.
# ascending=False이면, 내림차순을 설정함.

print(frame)
line()
frame.sort_index(axis="columns", ascending=False)
line()
frame.sort_index(axis="columns", ascending=True)

       d  a  b  c
three  0  1  2  3
one    4  5  6  7
--------------------------------------------------
--------------------------------------------------


Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [117]:
# Series 객체에서도 sort_index 메서드 사용 가능
# Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 활용함.

obj = pd.Series([4, 7, -3, 2])

print(obj)
line()
print(obj.sort_index(ascending=False))
line()
obj.sort_values()

0    4
1    7
2   -3
3    2
dtype: int64
--------------------------------------------------
3    2
2   -3
1    7
0    4
dtype: int64
--------------------------------------------------


2   -3
3    2
0    4
1    7
dtype: int64

In [118]:
# 결측치가 포함되어 있으면 정렬 상에서 가장 마지막에 위치하게 됨.
# default는 NaN이 가장 마지막에 위치하는 것으로 설정되어 있음.

obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

print(obj)
line()
obj.sort_values()

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64
--------------------------------------------------


4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [119]:
# na_position 옵션을 사용하여 결측값을 가장 상위에 나타낼 수도 있음.

print(obj.sort_values(na_position="first"))
line()
print(obj.sort_values(na_position="last"))

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64
--------------------------------------------------
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64


In [126]:
# 정렬 대상이 데이터프레임일 때, 특정 열을 기준으로 정렬을 하고 싶으면
# 해당 열을 인자를 넘기면 됨.
# 인자 설정이 안되면 에러가 발생함.

frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
print(frame)
line()
print(frame.sort_values('b'))
line()
frame.sort_values(by='a')

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
--------------------------------------------------
   b  a
2 -3  0
3  2  1
0  4  0
1  7  1
--------------------------------------------------


Unnamed: 0,b,a
0,4,0
2,-3,0
1,7,1
3,2,1


In [127]:
# 여러 개의 열을 정렬하려면 리스트에 순차적으로 넘기면 됨.
# 리스트의 순서대로 열의 정렬 우선 순위가 결정됨.

print(frame)
line()
print(frame.sort_values(["a", "b"]))
line()
frame.sort_values(by=["b", "a"])


   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
--------------------------------------------------
   b  a
2 -3  0
0  4  0
3  2  1
1  7  1
--------------------------------------------------


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [129]:
# by, axis를 설정하여 인덱스를 기준으로 값 정렬을 할 수 있음.
# axis의 default는 0임.

print(frame)
line()
print(frame.sort_values(by=[0, 3], axis=1))


   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
--------------------------------------------------
   a  b
0  0  4
1  1  7
2  0 -3
3  1  2


In [130]:
# 메서드 rank()는 가장 낮은 값부터 시작해 배열의 유효한 데이터 개수까지의 순서를 매김.
# series와 df의 rank()는 기본적으로 동점인 항목에 대해서는 평균 순위를 매겨 책정함.
# rank()는 index에 따라 value의 ranking을 매기는 메서드임.

obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

print(obj)
line()
obj.rank()

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64
--------------------------------------------------


0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [141]:
# 중복되는 경우, 인덱스 순서에 따라 순위를 매기는 method 키워드
# method: average, min, max, first, dense

print(obj.rank(method="first"))

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64


In [132]:
# 내림차순으로 순서 매기기
# 1순위가 가장 높은 value를 가짐

print(obj)
line()
print(obj.rank(ascending=False))
line()
obj.rank(ascending=True)

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64
--------------------------------------------------
0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64
--------------------------------------------------


0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [133]:
obj.rank(ascending=False, method='first')

0    1.0
1    7.0
2    2.0
3    3.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [142]:
# DataFrame에서도 rank() 가능함.

frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
print(frame)
line()
print(frame.rank(axis="columns"))
line()
print(frame.rank(axis="index"))
line()
frame.rank() # axis 설정을 하지 않으면 기본 설정인 axis=0이 들어감.


     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5
--------------------------------------------------
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0
--------------------------------------------------
     b    a    c
0  3.0  1.5  2.0
1  4.0  3.5  3.0
2  1.0  1.5  4.0
3  2.0  3.5  1.0
--------------------------------------------------


Unnamed: 0,b,a,c
0,3.0,1.5,2.0
1,4.0,3.5,3.0
2,1.0,1.5,4.0
3,2.0,3.5,1.0


> 순위의 동률을 처리하는 메서드

- average: 기본값. 평균값으로 순위를 세움.
- min: 같은 값을 갖는 그룹을 낮은 순위로 매김
- max: 같은 값을 갖는 그룹을 높은 순위로 매김
- first: 데이터 내의 위치에 따라 순위를 매김
- dense: method='min'과 같지만, 같은 그룹 내의 요소를 같은 순위로 적용하지 않고 1씩 증가시킴.


## 1.10. 중복 색인

- 기본적으로 색인값은 유일해야 하지만(그래야 활용도가 높음), 그렇다고 의무 사항은 아님.
- 가끔 중복된 색인 값을 갖는 데이터가 있을 수 있음.


In [143]:

obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [145]:
# index의 is_unique 속성은 인덱스가 유일한지 확인하는 기능을 가짐
# True, False 중 하나로 반환함.

obj.index.is_unique

False

In [146]:
# Series value의 값이 유일한지 확인하는 기능이 별도로 없어 만들어 봄.
# np.unique의 return_counts 인자를 사용하여 중복되는 수를 파악하고, 이를 논리 연산자를 이용해 개수 비교함.
# 개수가 같다면 유일한 값만 있는 것이고, 개수가 다르다면 중복되는 요소가 있다는 것.

_, counts = np.unique(obj.values, return_counts=True)
len(counts) == np.sum(counts)


True

In [147]:
# 색인이 유일하면 하나의 scalar 값을 반환하지만,
# 중복 색인이 있다면, series로 반환함.

print(obj)
line()
print(obj["a"])
line()
obj["c"]

a    0
a    1
b    2
b    3
c    4
dtype: int64
--------------------------------------------------
a    0
a    1
dtype: int64
--------------------------------------------------


4

In [148]:
# 데이터프레임에서의 중복 색인
# 중복 색인이 있다면 df로 반환됨.
# 중복 색인이 없다면, series로 반환됨.

df = pd.DataFrame(np.random.standard_normal((5, 3)),
                  index=["a", "a", "b", "b", "c"])

print(df)
line()
print(df.loc["b"])
line()
df.loc["c"]

          0         1         2
a  0.252630 -0.566287 -1.814486
a  0.457677  0.589629  0.947947
b  0.706003 -0.162152  1.045529
b -0.783346  0.421798 -1.168404
c -1.021420  0.191439  1.012893
--------------------------------------------------
          0         1         2
b  0.706003 -0.162152  1.045529
b -0.783346  0.421798 -1.168404
--------------------------------------------------


0   -1.021420
1    0.191439
2    1.012893
Name: c, dtype: float64

## 1.11. 기술 통계 계산과 요약

In [149]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [150]:
# numpy의 기술통계 함수와 비슷하게 사용 가능함.
# numpy이와 한가지 차이점은 결측치에 대해서는 자동으로 계산에서 빼도록 설계되어 있음.
# 대부분 하나의 series나 dataframe의 행과 열에서 단일 값을 구하는 축소 혹은 요약 통계 범주에 속함.

df.sum() # 기본 설정. axis=0

one    9.25
two   -5.80
dtype: float64

In [151]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [152]:
# skipna 옵션에서 False를 하면, np.nan도 sum에 합류하기 때문에 np.nan을 포함한 연산에서는 np.nan이 return 됨.
# 숫자로 표시된 결과는 sum 연산에서 np.nan이 포함되어 있지 않았기 때문임.
# default는 skipna=True

print(df)
line()
print(df.sum(axis="index", skipna=False))
line()
df.sum(axis="columns", skipna=False)

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
--------------------------------------------------
one   NaN
two   NaN
dtype: float64
--------------------------------------------------


a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [155]:
# 평균 같은 일부 집계에는 결과값을 생성하기 위해 최소 하나 이상의 NA가 아닌 값이 필요함.
# 그러나 이 요건을 충족하지 못하면 np.nan 반환

df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

> 축소 연산 메소드의 옵션
- axis : 축소할 축.
- skipna: 결측치, 누락값을 제외 유무 옵션. 기본값은 True.
- level: 계산하려는 축이 계층적 색인(MultiIndex)라면 레벨에 따라 묶어서 계산함.

In [157]:
# 최소 혹은 최대값을 가진 색인값을 반환함.
# idxmax, idxmin을 계산할 때, np.nan은 min, max 계산에서 무시됨.
# 다만 모든 요소가 np.nan이면, np.nan으로 return 됨.

print(df)
line()
print(df.idxmax())
line()
print(df.idxmax(axis=1))
line()
df.idxmin()

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
--------------------------------------------------
one    b
two    d
dtype: object
--------------------------------------------------
a    one
b    one
c    NaN
d    one
dtype: object
--------------------------------------------------


one    d
two    b
dtype: object

In [159]:
# 누적썸
# 특이한 건 np.nan을 더하면 np.nan이 생기는데,
# 그 이후의 값을 더하면 마치 np.nan을 더하기 이전 값을 기억을 하고 있듯 연산이 수행됨.
# cumsum() 사용 시 데이터에 NaN이 있으면 주의를 기울여야 함.

print(df)
line()
print(df.cumsum()) #skipna=True 설정이 default로 작용함. sum(skipna=True)에서는 Nan를 0으로 인식함.
line()
df.cumsum(skipna=False)

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
--------------------------------------------------
    one  two
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8
--------------------------------------------------


Unnamed: 0,one,two
a,1.4,
b,8.5,
c,,
d,,


In [160]:
# 여러 개의 요약 통계를 한번에 표현함.

df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [161]:
# 수치 데이터가 아닌 경우 요약 통계는 다르게 표현함.

obj = pd.Series(["a", "a", "b", "c"] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

> 요약 통계 관련 메서드
- count: NA 값을 제외한 값의 수를 반환함.
- describe: Series나 DataFrame의 각 열에 대한 요약 통계를 계산함.
- min, max: 최솟값과 최댓값을 계산함.
- argmin, argmax: 각각 최솟값과 최댓값을 담고 있는 색인의 위치(정수)를 반환함.
- idxmin, idxmax: 각각 최솟값과 최댓값을 담고 있는 색인의 값을 반환함.
- quantile: 0부터 1까지의 사분위수를 계산함.
- sum: 합을 계산함.
- mean: 평균을 계산함.
- median: 중앙값(50% 사분위수)을 반환함.
- mad: 평균값에서 평균 절대 편차를 계산함.
- prod: 모든 값의 곱함.
- var: 표본 분산의 값을 계산함.
- std: 표본 표준편차의 값을 계산함.
- skew: 표본 비대칭도(3차 적률)의 값을 계산함.
- kurt: 표본 첨도(4차 적률)의 값을 계산함.


In [162]:
# Series에서 중복되는 값을 제거하고 유일한 값만 반환

print(obj)
line()
uniques = obj.unique()
print(uniques)

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object
--------------------------------------------------
['a' 'b' 'c']


In [163]:
# 동일한 value를 가진 요소들의 개수를 셈.
# 담고 있는 값을 내림차순으로 정리함.

print(obj)
line()
obj.value_counts()

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object
--------------------------------------------------


a    8
b    4
c    4
Name: count, dtype: int64

In [164]:
# value_counts 메서드는 판다스의 최상위 메서드이며 어떤 배열이나 순차 자료구조에서 사용할 수 있음.

print(pd.value_counts(obj.to_numpy(), sort=False))
line()
print(pd.value_counts(obj.to_numpy()))

a    8
b    4
c    4
Name: count, dtype: int64
--------------------------------------------------
a    8
b    4
c    4
Name: count, dtype: int64


In [165]:
# 최상위 메서드인 pd.value_counts()는 인자로 리스트, ndarray, Series를 모두 받음.
# sort 파마미터를 적절히 이용할 것.
# pd.value_counts()가 series로 return이 되기 때문에, sort_index(), sort_values()를 이용해서 정렬할 수 있음.

ll = ['a', 'a', 'b', 'b', 'b', 'c', 'd', 'd','d','d']

print(pd.value_counts(ll, sort=False))
line()
print(pd.value_counts(ll)) # default는 sort=True

a    2
b    3
c    1
d    4
Name: count, dtype: int64
--------------------------------------------------
d    4
b    3
a    2
c    1
Name: count, dtype: int64


In [166]:
# isin 메서드는 어떤 값이 series에 존재하는지 나타내는 불리언 벡터를 반환함.
# indexing: 선택하려는 값의 인덱스를 알 때 사용함.
# 마스킹: 선택하려는 값의 인덱스를 모를 때 isin() 메서드를 이용하여 선택하려는 값만 마스킹해서 뽑아올 수 있음.
# indexing과 마스킹 두 가지를 잘 알고 있어야 함.

print(obj)
line()
mask = obj.isin(["b", "c"])
print(mask)
line()
obj[mask]

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object
--------------------------------------------------
0     False
1     False
2      True
3      True
4     False
5     False
6      True
7      True
8     False
9     False
10     True
11     True
12    False
13    False
14     True
15     True
dtype: bool
--------------------------------------------------


2     b
3     c
6     b
7     c
10    b
11    c
14    b
15    c
dtype: object

In [167]:
# Index.get_indexer 메서드는 여러 값이 들어 있는 배열에서 유일한 값의 색인 배열을 구할 수 있음.
# 색인 데이터형에 색인을 쥐어주고, 이를 기반으로 배열에서 가지는 색인의 index를 부여하는 구조
# 기준 indexer에 포함되어 있지 않은 값을 가지고 있으면, -1로 표기됨.

to_match = pd.Series(["c", "a", "b", "b", "c", "a", "x", "z"])
unique_vals = pd.Series(["c", "b", "a"])
indices = pd.Index(unique_vals).get_indexer(to_match)

print(to_match)
line()
print(pd.Index(unique_vals))
line()
print(unique_vals)
line()
indices

0    c
1    a
2    b
3    b
4    c
5    a
6    x
7    z
dtype: object
--------------------------------------------------
Index(['c', 'b', 'a'], dtype='object')
--------------------------------------------------
0    c
1    b
2    a
dtype: object
--------------------------------------------------


array([ 0,  2,  1,  1,  0,  2, -1, -1])

### 1.11.1. 기술 통계 및 요약 연습문제

- 문제1) 다음 데이터를 이용하여 데이터프레임을 만들고, 'Salary' 열의 평균과 표준편차를 소수점 둘째 자리까지 출력하고, 'Age' 열의 중앙값과 25번째 백분위수(1사분위수)를 계산하여 출력하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'Salary': [50000, 60000, 75000, 90000]}

- 문제2) 다음 데이터를 이용하여 데이터프레임을 만들고, 'Score' 열에서 상위 10%에 해당하는 데이터만 선택하여 새로운 데이터프레임을 생성하고, 생성한 새로운 데이터프레임에서 'Name' 열의 고유값의 개수를 계산하여 출력하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace'],
        'Score': [85, 92, 78, 95, 89, 91, 88]}

- 문제3) 다음 데이터를 이용하여 데이터프레임을 만들고, 'Age' 열의 중앙값과 범위(최댓값 - 최솟값)를 계산하여 출력하고, 'Salary' 열에서 50번째 백분위수(2사분위수)와 75번째 백분위수(3사분위수)를 계산하여 출력하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'Salary': [50000, 60000, 75000, 90000]}

- 문제4) 다음 데이터를 이용하여 데이터프레임을 만들고, 'Score' 열에서 평균 점수보다 높은 값을 가진 데이터의 개수를 출력하고,
'Age' 열의 값에 5를 곱한 결과를 새로운 열 'Age_x5'로 추가한 후, 'Age_x5' 열의 평균을 계산하여 출력하세요.
    - data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Age': [25, 30, 35, 40, 45],
        'Score': [85, 92, 78, 95, 89]}

- 문제5) 다음 데이터를 이용하여 시리즈를 만들고, 고유값을 오름차순으로 정렬하여 출력하고,
가장 빈번하게 등장하는 값을 찾고, 해당 값의 빈도를 출력하세요.
    - data = ['A', 'B', 'A', 'C', 'B', 'A', 'D', 'D', 'E', 'E']

## 1.12. 데이터 합치기(merge)
- pandas.merge():
 - 하나 이상의 키를 기준으로 DataFrame의 row를 합침.
 - SQL이나 다른 관계형 데이터베이스의 join과 유사함.
- pandas.concat():
 - 하나의 축을 따라 객체를 이어붙임.

### 1.12.1. pd.merge의 on, how 사용하기

In [176]:
import pandas as pd

df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Product': ['Apple', 'Banana', 'Cherry', 'Date']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Price': [15, 20, 25, 30]
})


In [177]:
df1

Unnamed: 0,ID,Product
0,1,Apple
1,2,Banana
2,3,Cherry
3,4,Date


In [178]:
df2

Unnamed: 0,ID,Price
0,3,15
1,4,20
2,5,25
3,6,30


In [181]:
# Inner Merge
inner_merged = pd.merge(df1, df2, on='ID', how='inner')
print("Inner Merge:\n", inner_merged)
line()


Inner Merge:
    ID Product  Price
0   3  Cherry     15
1   4    Date     20
--------------------------------------------------


In [182]:
# Left Merge
left_merged = pd.merge(df1, df2, on='ID', how='left')
print("\nLeft Merge:\n", left_merged)
line()



Left Merge:
    ID Product  Price
0   1   Apple    NaN
1   2  Banana    NaN
2   3  Cherry   15.0
3   4    Date   20.0
--------------------------------------------------


In [183]:
# Right Merge
right_merged = pd.merge(df1, df2, on='ID', how='right')
print("\nRight Merge:\n", right_merged)
line()


Right Merge:
    ID Product  Price
0   3  Cherry     15
1   4    Date     20
2   5     NaN     25
3   6     NaN     30
--------------------------------------------------


In [184]:
# Outer Merge
outer_merged = pd.merge(df1, df2, on='ID', how='outer')
print("\nOuter Merge:\n", outer_merged)
line()



Outer Merge:
    ID Product  Price
0   1   Apple    NaN
1   2  Banana    NaN
2   3  Cherry   15.0
3   4    Date   20.0
4   5     NaN   25.0
5   6     NaN   30.0
--------------------------------------------------


### 1.12.2. pd.merge의 left_on, right_on 사용하기
- 결합하고자 하는 두 데이터 프레임의 비교 열의 이름이 다른 경우 유용함.
- left_on='컬럼명', right_on='컬럼명' 모두 설정해 줘야 함.
- return 될 때, 사용한 비교 컬럼 모두가 포함됨.

In [2]:
import pandas as pd

df1 = pd.DataFrame({
    'Product_ID': [1, 2, 3, 4],
    'Product': ['Apple', 'Banana', 'Cherry', 'Date']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Price': [15, 20, 25, 30]
})

In [3]:
# Inner Join에서 사용
inner_join_diff = pd.merge(df1, df2, left_on='Product_ID', right_on='ID', how='inner')
print(inner_join_diff)

   Product_ID Product  ID  Price
0           3  Cherry   3     15
1           4    Date   4     20


In [5]:
# Outer Join에서 사용
outer_join_diff = pd.merge(df1, df2, left_on='Product_ID', right_on='ID', how='outer')
print(outer_join_diff)


   Product_ID Product   ID  Price
0         1.0   Apple  NaN    NaN
1         2.0  Banana  NaN    NaN
2         3.0  Cherry  3.0   15.0
3         4.0    Date  4.0   20.0
4         NaN     NaN  5.0   25.0
5         NaN     NaN  6.0   30.0


### 1.12.3. pd.merge의 left_index, right_index 사용하기
- 결합하고자 하는 두 데이터 프레임의 색인으로 병합하기
- left_index=True, right_index=True를 하나 또는 두 개 모두 사용

In [10]:
def line():
    print('-'*50)

In [12]:
import pandas as pd

# 예시 데이터프레임 생성
df1 = pd.DataFrame({
    'key': list('abcd'),
    'Product': ['Apple', 'Banana', 'Cherry', 'Date']
})

df2 = pd.DataFrame({
    'Price': [15, 20, 25, 30]
}, index=list('abce'))

print(df1)
line()
print(df2)

  key Product
0   a   Apple
1   b  Banana
2   c  Cherry
3   d    Date
--------------------------------------------------
   Price
a     15
b     20
c     25
e     30


In [13]:
# left_on, right_index 사용

pd.merge(df1, df2, left_on='key', right_index=True, how='inner')

Unnamed: 0,key,Product,Price
0,a,Apple,15
1,b,Banana,20
2,c,Cherry,25


In [18]:
# left_on, right_index 사용

print(pd.merge(df1, df2, left_on='key', right_index=True, how='outer'))
line()
pd.merge(df1, df2, left_on='key', right_index=True, how='outer').reset_index(drop=True)

    key Product  Price
0.0   a   Apple   15.0
1.0   b  Banana   20.0
2.0   c  Cherry   25.0
3.0   d    Date    NaN
NaN   e     NaN   30.0
--------------------------------------------------


Unnamed: 0,key,Product,Price
0,a,Apple,15.0
1,b,Banana,20.0
2,c,Cherry,25.0
3,d,Date,
4,e,,30.0


In [19]:
import pandas as pd

# 예시 데이터프레임 생성
df1 = pd.DataFrame({
    'key': list('abcd'),
    'Product': ['Apple', 'Banana', 'Cherry', 'Date']
})

df2 = pd.DataFrame({
    'Price': [15, 20, 25, 30, 40, 50]
})

print(df1)
line()
print(df2)

  key Product
0   a   Apple
1   b  Banana
2   c  Cherry
3   d    Date
--------------------------------------------------
   Price
0     15
1     20
2     25
3     30
4     40
5     50


In [21]:
# index로만 inner join하기
pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

Unnamed: 0,key,Product,Price
0,a,Apple,15
1,b,Banana,20
2,c,Cherry,25
3,d,Date,30


In [22]:
# # index로만 outer join하기
pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

Unnamed: 0,key,Product,Price
0,a,Apple,15
1,b,Banana,20
2,c,Cherry,25
3,d,Date,30
4,,,40
5,,,50


### 1.12.4. 연습문제

- 문제1) 다음 자료를 이용하여 두 개의 데이터프레임을 생성하고, 특정 키를 기준으로 Left Join과 Outer Join을 수행하세요.
    - data1: {'Student_ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'David']}
    - data2: {'Student_ID': [1, 2, 4],
    'Grade': ['A', 'B', 'A-']}

- 문제2) 다음 자료를 이용하여 두 개의 데이터프레임을 생성하고, 특정 키를 기준으로 Right Join과 Inner Merge을 수행하세요.
    - data1: {'Product_ID': [101, 102, 103, 105],
    'Product_Name': ['Pen', 'Pencil', 'Eraser', 'Marker']}
    - data2: {'Product_ID': [102, 103, 104],
    'Sales': [150, 100, 50]}


## 1.13. 데이터 합치기(concat)
- pandas.concat():
 - 하나의 축을 따라 객체를 이어붙임.

In [25]:
# numpy의 concatenate()와 비슷함.
import numpy as np

arr = np.arange(12).reshape(3,4)
print(arr)
line()
print(np.concatenate([arr, arr], axis=1))
line()
print(np.concatenate([arr, arr], axis=0))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
--------------------------------------------------
[[ 0  1  2  3  0  1  2  3]
 [ 4  5  6  7  4  5  6  7]
 [ 8  9 10 11  8  9 10 11]]
--------------------------------------------------
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [36]:
s1 = pd.Series([0,1], index=['a', 'b'])
s2 = pd.Series([2,3,4], index=['c', 'd', 'e'])
s3 = pd.Series([5,6], index=['f', 'g'])
s4 = pd.Series([10,11,12,13], index=['a', 'b', 'c', 'd'])


print(s1)
line()
print(s2)
line()
print(s3)
line()
print(s4)


a    0
b    1
dtype: int64
--------------------------------------------------
c    2
d    3
e    4
dtype: int64
--------------------------------------------------
f    5
g    6
dtype: int64
--------------------------------------------------
a    10
b    11
c    12
d    13
dtype: int64


In [33]:
# axis=0 default
# axis=1으로 설정한 경우, 결과는 dataframe 형식이 됨.
# join='outer' default

print(pd.concat([s1, s2, s3]))
line()
pd.concat([s1, s2, s3], axis=1)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64
--------------------------------------------------


Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [41]:
# join 방식 inner로 설정하기

print(s1)
line()
print(s4)
line()
pd.concat([s1, s4], axis=1, join='inner')


a    0
b    1
dtype: int64
--------------------------------------------------
a    10
b    11
c    12
d    13
dtype: int64
--------------------------------------------------


Unnamed: 0,0,1
a,0,10
b,1,11


In [43]:
# 계층적 색인을 이용하여 데이터 식별하기

result = pd.concat([s1, s1, s3], keys=['first', 'second', 'third'])
print(result)
line()
print(result.unstack())

first   a    0
        b    1
second  a    0
        b    1
third   f    5
        g    6
dtype: int64
--------------------------------------------------
          a    b    f    g
first   0.0  1.0  NaN  NaN
second  0.0  1.0  NaN  NaN
third   NaN  NaN  5.0  6.0


In [46]:
# 계층적 색인을 이용하여 데이터 식별하기
# 결과를 전치시키면 위의 axis=0의 결과와 동일함.

result = pd.concat([s1, s1, s3], keys=['first', 'second', 'third'], axis=1)
print(result)
line()
print(result.transpose())

   first  second  third
a    0.0     0.0    NaN
b    1.0     1.0    NaN
f    NaN     NaN    5.0
g    NaN     NaN    6.0
--------------------------------------------------
          a    b    f    g
first   0.0  1.0  NaN  NaN
second  0.0  1.0  NaN  NaN
third   NaN  NaN  5.0  6.0


## 1.14. 재형성과 피벗
- 표 형식의 데이터를 재배치하는 다양한 기본 연산이 존재함.
- 이런 연산을 재형성 또는 피벗 연산이라고 함.
    - stack(): 데이터의 컬럼을 로우로 피벗(또는 회전) 시킴.
    - unstack(): 데이터의 로우를 컬럼으로 피벗 시킴.

In [49]:
data = pd.DataFrame(np.arange(6).reshape(2,3),
                    index=pd.Index(['Ohio', 'Colorado'],name='state'),
                    columns=pd.Index(['one', 'two', 'three'], name='number')
                    )
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [51]:
# stack을 이용하여 컬럼을 로우로 피벗

data.stack()

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

In [67]:
# melt 함수와 같이 만들 수 있음.

data.stack().reset_index()

Unnamed: 0,state,number,0
0,Ohio,one,0
1,Ohio,two,1
2,Ohio,three,2
3,Colorado,one,3
4,Colorado,two,4
5,Colorado,three,5


In [52]:
# unstack()을 이용하여 로우를 컬럼으로 피벗

data.unstack()

number  state   
one     Ohio        0
        Colorado    3
two     Ohio        1
        Colorado    4
three   Ohio        2
        Colorado    5
dtype: int64

In [73]:
data.unstack().reset_index()

Unnamed: 0,number,state,0
0,one,Ohio,0
1,one,Colorado,3
2,two,Ohio,1
3,two,Colorado,4
4,three,Ohio,2
5,three,Colorado,5


In [74]:
import pandas as pd

# 예시 데이터프레임 생성
df = pd.DataFrame({
    'Date': ['2021-01-01', '2021-01-02'],
    'Temperature': [22, 23],
    'Humidity': [88, 90]
})

# 데이터프레임 구조 변환
melted_df = pd.melt(df, id_vars=['Date'], value_vars=['Temperature', 'Humidity'],
                    var_name='Measurement', value_name='Value')

print(df)
line()
print(melted_df)


         Date  Temperature  Humidity
0  2021-01-01           22        88
1  2021-01-02           23        90
--------------------------------------------------
         Date  Measurement  Value
0  2021-01-01  Temperature     22
1  2021-01-02  Temperature     23
2  2021-01-01     Humidity     88
3  2021-01-02     Humidity     90


## 1.15. Groupby() 함수
- 데이터를 그룹으로 분류하고, 각 그룹에 대해 집계, 변환, 필터링 등의 연산을 수행할 수 있게 해주는 기능
- SQL의 GROUPBY와 유사함.
- 복잡한 데이터 분석에서 데이터를 세분화하여 분석하고자 할 때 주로 사용함.
- groupby()의 주요 기능
    - splitting: 데이터를 특정 기준에 따라 분리함.
    - Applying: 각 그룹에 대해 함수를 적용함(합계, 평균 등)
    - Combining: 결과를 하나의 데이터 구조로 결합함.

In [14]:
# 도시별 기온과 습도 데이터

import pandas as pd

import pandas as pd

# 날짜 범위 설정
dates = pd.date_range(start='2021-01-01', periods=15, freq='D')

# 수정된 데이터 프레임 생성
data = {
    'Date': [date for date in dates for _ in range(2)],  # 각 날짜를 두 번씩 반복
    'City': ['New York', 'Los Angeles'] * 15,  # 각 날짜에 두 도시 반복
    'Temperature': [21, 19, 24, 26, 28, 22, 20, 27, 25, 23, 30, 18, 22, 24, 29] * 2,  # 온도 데이터 반복
    'Humidity': [65, 56, 58, 59, 57, 61, 54, 60, 62, 55, 63, 52, 59, 58, 64] * 2  # 습도 데이터 반복
}

# 데이터프레임 생성
df = pd.DataFrame(data)

# 데이터프레임 출력
df.head()



Unnamed: 0,Date,City,Temperature,Humidity
0,2021-01-01,New York,21,65
1,2021-01-01,Los Angeles,19,56
2,2021-01-02,New York,24,58
3,2021-01-02,Los Angeles,26,59
4,2021-01-03,New York,28,57


In [15]:
# 도시별로 그룹화
grouped = df.groupby('City')

# 각 도시별 최대 온도
max_temperature = grouped['Temperature'].max()
print(max_temperature)
line()

# 각 도시별 평균 습도
mean_humidity = grouped['Humidity'].mean()
print(mean_humidity)


City
Los Angeles    30
New York       30
Name: Temperature, dtype: int64


NameError: name 'line' is not defined

In [16]:
df

Unnamed: 0,Date,City,Temperature,Humidity
0,2021-01-01,New York,21,65
1,2021-01-01,Los Angeles,19,56
2,2021-01-02,New York,24,58
3,2021-01-02,Los Angeles,26,59
4,2021-01-03,New York,28,57
5,2021-01-03,Los Angeles,22,61
6,2021-01-04,New York,20,54
7,2021-01-04,Los Angeles,27,60
8,2021-01-05,New York,25,62
9,2021-01-05,Los Angeles,23,55


In [20]:
def line():
    print('-'*50)

In [21]:
# 날짜별로 그룹화
grouped = df.groupby(['Date'])

# # 날짜별 도시 평균 온도
# max_temperature = grouped['Temperature'].max()
# print(max_temperature)
# line()

# # 각 도시별 평균 습도
# mean_humidity = grouped['Humidity'].mean()
# print(mean_humidity)
# line()

# 열마다 다른 집약 함수 적용1
minmax = grouped[['Humidity', 'Temperature']].agg([min, max]).head()
print(minmax)
line()

# 열마다 다른 집약 함수 적용2
minmax = grouped.agg({'Humidity':min, 'Temperature':max}).head()
print(minmax)

           Humidity     Temperature    
                min max         min max
Date                                   
2021-01-01       56  65          19  21
2021-01-02       58  59          24  26
2021-01-03       57  61          22  28
2021-01-04       54  60          20  27
2021-01-05       55  62          23  25
--------------------------------------------------
            Humidity  Temperature
Date                             
2021-01-01        56           21
2021-01-02        58           26
2021-01-03        57           28
2021-01-04        54           27
2021-01-05        55           25


In [22]:
# groupby와 동일한 결과를 주는 pivot_table

print(df.pivot_table(index='Date', values=['Humidity', 'Temperature'], 
               aggfunc={'Humidity':[min, max], 'Temperature':[min, max]}).head())
line()

df.pivot_table(index='Date', values=['Humidity', 'Temperature'], 
               aggfunc={'Humidity':min, 'Temperature':max}).head()

           Humidity     Temperature    
                max min         max min
Date                                   
2021-01-01       65  56          21  19
2021-01-02       59  58          26  24
2021-01-03       61  57          28  22
2021-01-04       60  54          27  20
2021-01-05       62  55          25  23
--------------------------------------------------


Unnamed: 0_level_0,Humidity,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-01-01,56,21
2021-01-02,58,26
2021-01-03,57,28
2021-01-04,54,27
2021-01-05,55,25


In [23]:
# transform() 함수를 이용하여 그룹별로 데이터에 함수를 적용함.
# 중요한 점은 원본 데이터프레임과 같은 크기의 변형된 데이터를 반환함.
# 총 상품 판매량 대비 상품별 판매량 비율 게산

sales_df = pd.DataFrame({
    'Transaction_ID': [1, 2, 3, 4, 5, 6],
    'Product': ['Apple', 'Banana', 'Apple', 'Banana', 'Apple', 'Banana'],
    'Quantity': [10, 15, 5, 20, 15, 25]
})

sales_df['Quantity Ratio'] = sales_df.groupby('Product')['Quantity'].transform(lambda x: x / x.sum())

print(sales_df)


   Transaction_ID Product  Quantity  Quantity Ratio
0               1   Apple        10        0.333333
1               2  Banana        15        0.250000
2               3   Apple         5        0.166667
3               4  Banana        20        0.333333
4               5   Apple        15        0.500000
5               6  Banana        25        0.416667


### 1.15.1. 연습문제

- 문제1) 다음 데이터를 이용하여 데이터프레임을 만들고, 고객 이름별로 주문 금액의 합계를 계산하세요.
    - data: {
    'Order_ID': [1, 2, 3, 4, 5],
    'Customer': ['Alice', 'Bob', 'Alice', 'David', 'Bob'],
    'Amount': [250, 150, 200, 400, 300]}

- 문제2) 다음 데이터를 이용하여 데이터프레임을 만들고, 각 부서별로 연봉을 부서 평균 연봉으로 정규화 하세요. 정규화된 연봉 = (개인 연봉 - 부서 평균 연봉) / 부서 평균 연봉
    - data: {
    'Employee_ID': [101, 102, 103, 104, 105],
    'Department': ['Sales', 'Tech', 'Sales', 'Tech', 'Tech'],
    'Salary': [70000, 80000, 60000, 90000, 85000]}