<a href="https://colab.research.google.com/github/JunHyeong-data/python-data-analysis-book-study/blob/main/ch05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚 판다스 시작하기
- 판다스는 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 제공
- 다른 산술 계산 도구인 넘파이나 사이파이, 분석 라이브러리인 statsmodels와 사이킷런, 시각화 도구인 맷플롯립과 함께 사용
- 판다스는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계


In [2]:
# 넘파이와 판다스의 import 컨벤션
import numpy as np
import pandas as pd

from pandas import Series, DataFrame

import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
pd.options.display.max_columns = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

## 판다스 자료구조 소개
- 판다스를 알아보려면 자료구조 Series와 DataFrame에 익숙해질 필요
---
### Series
- Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조
- 그리고 색인(index)라 하는 배열의데이터와 연관된 이름을 갖는다.
- Series 왼쪽에는 색인을, 오른쪽에는 해당 색인의 값을 보여준다.

In [3]:
obj = pd.Series([4, 7, -5, 3])
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [6]:
obj.array

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

Unnamed: 0,0
d,4
b,7
a,-5
c,3


In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
print(obj2["a"])
obj2["d"] = 6
obj2[["c", "a", "d"]]

-5


Unnamed: 0,0
c,3
a,-5
d,6


In [12]:
print(obj2[obj2 > 0])
print(obj2 * 2)
import numpy as np
np.exp(obj2)

d    6
b    7
c    3
dtype: int64
d    12
b    14
a   -10
c     6
dtype: int64


Unnamed: 0,0
d,403.428793
b,1096.633158
a,0.006738
c,20.085537


In [13]:
"b" in obj2
"e" in obj2

False

In [14]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3
# 파이썬 딕셔너리에 데이터를 저장해야 한다면 파이썬 딕셔너리 객체로부터 Series 객체를 생성 가능

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [18]:
obj3.to_dict()
# to_dict 메서드를 사용해 Series를 다시 딕셔너리로 변환할 수도 있다.

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [19]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4
# California에 대한 값을 찾을 수 없기에 NaN(not a number)로 표시되고 Utah는 states에 포함되어 있지 않으므로, 실행결과에서는 빠지게 된다

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [23]:
print(pd.isna(obj4))
pd.notna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


Unnamed: 0,0
California,False
Ohio,True
Oregon,True
Texas,True


In [27]:
print(obj4.isna().sum())

1


In [28]:
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [29]:
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [31]:
obj3 + obj4
# Utah obj3에 없으므로 NaN

Unnamed: 0,0
California,
Ohio,70000.0
Oregon,32000.0
Texas,142000.0
Utah,


In [32]:
obj4.name = "population"
obj4.index.name = "state"
obj4

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [38]:
obj
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj.name = "location"
obj.index.name = "name"
obj


Unnamed: 0_level_0,location
name,Unnamed: 1_level_1
Bob,4
Steve,7
Jeff,-5
Ryan,3


## DataFrame
- DataFrame은 표 같은 스프레드시트 형식의 자료구조
- 여러 개의 열이 있고 서로 다른 종류의 값을 담을 수 있다.
- DataFrame은 행과 열에 대한 색인을 가진다.

In [1]:
import pandas as pd
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [2]:
series = pd.Series(data)
series

Unnamed: 0,0
state,"[Ohio, Ohio, Ohio, Nevada, Nevada, Nevada]"
year,"[2000, 2001, 2002, 2001, 2002, 2003]"
pop,"[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]"


In [3]:
frame.head()
# head 메서드를 이용하면 처음 5개의 행만 출력 가능

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [4]:
frame.tail()
# tail 메서드는 마지막 5개의 행을 출력

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [7]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [8]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [9]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [10]:
print(frame2["state"])
frame2.year
# 딕셔너리 형식의 표기법이나 점 표기법으로 접근할 수 있다.

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object


Unnamed: 0,year
0,2000
1,2001
2,2002
3,2001
4,2002
5,2003


- loc: 레이블 기반 인덱싱

  - 인덱스와 컬럼의 이름을 사용하여 데이터를 선택합니다.

  - 슬라이싱 시 끝 값도 포함됩니다.

  - 예시: df.loc[2, 'column_name']은 인덱스가 2인 행과 'column_name' 열을 선택합니다.

- iloc: 위치 기반 인덱싱

  - 행과 열의 정수 위치(0부터 시작하는 인덱스)를 사용하여 데이터를 선택합니다.

  - 슬라이싱 시 끝 값은 포함되지 않습니다.

  - 예시: df.iloc[2, 3]은 3번째 행과 4번째 열의 값을 선택합니다.

In [11]:
frame2.loc[1]

Unnamed: 0,1
year,2001
state,Ohio
pop,1.7
debt,


In [12]:
frame2.iloc[2]

Unnamed: 0,2
year,2002
state,Ohio
pop,3.6
debt,


In [13]:
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [16]:
import numpy as np
frame2["debt"] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [18]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [19]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2
# state 열의 값이 "Ohio"인지 검사한 결과를 불리언 값으로 나타내는 새로운 열

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [20]:
del frame2["eastern"]
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [21]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}

In [22]:
frame3 = pd.DataFrame(populations)
frame3
# 중첩된 딕셔너리를 DataFrame에 넘기면 바깥에 있는 딕셔너리의 키가 열이 되고 안에 있는 키는 행이 된다

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [23]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [24]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [26]:
print(frame3)
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][:2]}
pd.DataFrame(pdata)

      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4
2002   3.6     2.9


Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [27]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [28]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [29]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### 색인 객체
- 판다스의 색인 객체는 축 레이블과 다른 메타데이터를 저장하는 객체
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 다른 순차적인 레이블은 내부적으로 색인으로 변환된다.

In [32]:
obj = pd.Series(np.arange(3), index=['a','b','c'])
index = obj.index
print(index)
index[1:]

Index(['a', 'b', 'c'], dtype='object')


Index(['b', 'c'], dtype='object')

In [33]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [34]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

Unnamed: 0,0
0,1.5
1,-2.5
2,0.0


In [35]:
obj2.index is labels

True

In [37]:
print(frame3)
print(frame3.columns)
"Ohio" in frame3.columns
2003 in frame3.index

state  Ohio  Nevada
year               
2000    1.5     NaN
2001    1.7     2.4
2002    3.6     2.9
Index(['Ohio', 'Nevada'], dtype='object', name='state')


False

In [38]:
pd.Index(["foo", "foo", "bar", "bar"])
# 파이썬의 집합과는 달리 판다스의 색인은 중복되는 값을 허용한다.

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## 핵심 기능

### 재색인
- 새로운 색인에 적합하도록 객체를 새로 생성하는 기능

In [39]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

Unnamed: 0,0
d,4.5
b,7.2
a,-5.3
c,3.6


In [40]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2
# reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열

Unnamed: 0,0
a,-5.3
b,7.2
c,3.6
d,4.5
e,


In [41]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3
obj3.reindex(np.arange(6), method="ffill")
# DataFrame에 대한 reindex는 행, 열 또는 둘 다 변경 가능

Unnamed: 0,0
0,blue
1,blue
2,purple
3,purple
4,yellow
5,yellow


In [42]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [43]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [44]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [45]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [46]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


### 하나의 행이나 열 삭제하기
- 삭제하려는 축이 제외된 리스트르 이미 갖거나, 색인 배열을 갖고 있다면 reindex메서드나 .loc 기반의 색인을 이용할 수 있으므로 행이나 열을 쉽게 삭제할 수 있다.
- drop 메서드를 사용하면 선택한 값들이 삭제된 새로운 객체를 얻을 수 있다.

In [47]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

Unnamed: 0,0
a,0.0
b,1.0
c,2.0
d,3.0
e,4.0


In [48]:
new_obj = obj.drop("c")
new_obj

Unnamed: 0,0
a,0.0
b,1.0
d,3.0
e,4.0


In [49]:
obj.drop(["d", "c"])

Unnamed: 0,0
a,0.0
b,1.0
e,4.0


In [50]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [51]:
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [52]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [53]:
print(data.drop("two", axis=1))
data.drop(["two", "four"], axis="columns")

          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15


Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 색인하기, 선택하기, 거르기

In [55]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj
print(obj["b"])
print(obj[1])
print(obj[2:4])
print(obj[["b", "a", "d"]])
print(obj[[1, 3]])
obj[obj < 2]

1.0
1.0
c    2.0
d    3.0
dtype: float64
b    1.0
a    0.0
d    3.0
dtype: float64
b    1.0
d    3.0
dtype: float64


  print(obj[1])
  print(obj[[1, 3]])


Unnamed: 0,0
a,0.0
b,1.0


In [56]:
obj.loc[["b", "a", "d"]]

Unnamed: 0,0
b,1.0
a,0.0
d,3.0


In [58]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])
print(obj1)
print(obj2)
print(obj1[[0, 1, 2]])
obj2[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64
a    1
b    2
c    3
dtype: int64
0    2
1    3
2    1
dtype: int64


  obj2[[0, 1, 2]]


Unnamed: 0,0
a,1
b,2
c,3


In [60]:
print(obj1.iloc[[0, 1, 2]])
obj2.iloc[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64


Unnamed: 0,0
a,1
b,2
c,3


In [61]:
obj2.loc["b":"c"]

Unnamed: 0,0
b,2
c,3


In [62]:
obj2.loc["b":"c"] = 5
obj2

Unnamed: 0,0
a,1
b,5
c,5


In [63]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [65]:
print(data["two"])
data[["three", "one"]]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64


Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [66]:
data[:2]
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [67]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [68]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### loc와 iloc 선택하기
- DataFrame은 2차원이므로 축 레이블(loc)또는 정수 색인(iloc)를 이용해 행렬의 부분집합을 선택할 수 있다.

In [69]:
data
data.loc["Colorado"]

Unnamed: 0,Colorado
one,0
two,5
three,6
four,7


In [70]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [71]:
data.loc["Colorado", ["two", "three"]]

Unnamed: 0,Colorado
two,5
three,6


In [72]:
data.iloc[2]
data.iloc[[2, 1]]
data.iloc[2, [3, 0, 1]]
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [74]:
print(data)
data.loc[:"Utah", "two"]

          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


Unnamed: 0,two
Ohio,0
Colorado,5
Utah,9


In [75]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [76]:
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 산술 연산과 데이터 정렬
- 판다스는 서로 다른 색인을 가지고 있는 객체 간의 산술 연산을 간단하게 처리

In [77]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])
print(s1)
s2

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64


Unnamed: 0,0
a,-2.1
c,3.6
e,-1.5
f,4.0
g,3.1


In [78]:
s1 + s2

Unnamed: 0,0
a,5.2
c,1.1
d,
e,0.0
f,
g,


In [79]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [80]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [81]:
df1 + df2
# 두 DataFrame을 더하면 각 DataFrame에 있는 색인과 열이 하나로 합쳐진다.

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [83]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1
df2
df1 + df2
# 공통 열이나 행 레이블이 없는 DataFrame을 더하면 결과는 아무것도 나타나지 않는다.

Unnamed: 0,A,B
0,,
1,,


In [85]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
df2.loc[1, "b"] = np.nan
print(df1)
df2

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [86]:
df1 + df2
# 두 결과를 더하면 겹치지 않는 부분은 NaN이다

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [87]:
df1.add(df2, fill_value=0)
# 연산에서 누락된 값은 fill_value 값으로 대체된다.

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [89]:
print(1 / df1)
df1.rdiv(1)

       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909


Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [90]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### DataFrame과 Series 간의 연산
- 다른 차원의 넘파이 배열과의 연산처럼 DataFrame과 Series간의 연산도 가능

In [92]:
arr = np.arange(12.).reshape((3, 4))
print(arr)
print(arr[0])
arr - arr[0]

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
[0. 1. 2. 3.]


array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [94]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
print(frame)
series

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0


Unnamed: 0,Utah
b,0.0
d,1.0
e,2.0


In [95]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [96]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2

Unnamed: 0,0
b,0
e,1
f,2


In [99]:
series3 = frame["d"]
print(frame)
print(series3)
frame.sub(series3, axis="index")
# axis="index"는 DataFrame의 열을 따라 연산을 수행하라는 의미

          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64


Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 함수 적용과 매핑

In [102]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
print(frame)
np.abs(frame)

               b         d         e
Utah    2.341505  0.577770  2.460852
Ohio   -0.125637 -0.112219  0.749591
Texas   1.037329  0.354829 -0.663245
Oregon -0.225521 -1.934128  0.190570


Unnamed: 0,b,d,e
Utah,2.341505,0.57777,2.460852
Ohio,0.125637,0.112219,0.749591
Texas,1.037329,0.354829,0.663245
Oregon,0.225521,1.934128,0.19057


In [103]:
def f1(x):
    return x.max() - x.min()

frame.apply(f1)

Unnamed: 0,0
b,2.567026
d,2.511897
e,3.124097


In [104]:
frame.apply(f1, axis="columns")

Unnamed: 0,0
Utah,1.883082
Ohio,0.875228
Texas,1.700574
Oregon,2.124698


In [105]:
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.225521,-1.934128,-0.663245
max,2.341505,0.57777,2.460852


In [106]:
def my_format(x):
    return f"{x:.2f}"

frame.applymap(my_format)

  frame.applymap(my_format)


Unnamed: 0,b,d,e
Utah,2.34,0.58,2.46
Ohio,-0.13,-0.11,0.75
Texas,1.04,0.35,-0.66
Oregon,-0.23,-1.93,0.19


In [107]:
frame["e"].map(my_format)

Unnamed: 0,e
Utah,2.46
Ohio,0.75
Texas,-0.66
Oregon,0.19


In [109]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj
obj.sort_index()

Unnamed: 0,0
a,1
b,2
c,3
d,0


In [112]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
print(frame)
frame.sort_index()

       d  a  b  c
three  0  1  2  3
one    4  5  6  7


Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [113]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [114]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [115]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

Unnamed: 0,0
2,-3
3,2
0,4
1,7


In [116]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

Unnamed: 0,0
4,-3.0
5,2.0
0,4.0
2,7.0
1,
3,


In [117]:
obj.sort_values(na_position="first")

Unnamed: 0,0
1,
3,
4,-3.0
5,2.0
0,4.0
2,7.0


In [119]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
print(frame)
frame.sort_values("b")

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [120]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [123]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

Unnamed: 0,0
0,6.5
1,1.0
2,6.5
3,4.5
4,3.0
5,2.0
6,4.5


In [124]:
obj.rank(method="first")

Unnamed: 0,0
0,6.0
1,1.0
2,7.0
3,4.0
4,3.0
5,2.0
6,5.0


### 중복 색인

In [126]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

Unnamed: 0,0
a,0
a,1
b,2
b,3
c,4


In [122]:
obj.index.is_unique

False

In [128]:
print(obj["a"])
obj["c"]

a    0
a    1
dtype: int64


np.int64(4)

In [129]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                  index=["a", "a", "b", "b", "c"])
df

Unnamed: 0,0,1,2
a,0.429274,-0.877653,-0.987719
a,-0.014833,-0.042085,-0.060964
b,-1.288373,-0.227801,0.601236
b,-0.593937,-0.012041,-0.546742
c,-1.386435,0.183528,-0.423704


In [131]:
print(df.loc["b"])
df.loc["c"]

          0         1         2
b -1.288373 -0.227801  0.601236
b -0.593937 -0.012041 -0.546742


Unnamed: 0,c
0,-1.386435
1,0.183528
2,-0.423704


## 기술 통계 계산과 요약
- 판다스 객체는 일반적인 수학 메서드와 통계 메서드를 가진다.

In [132]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [133]:
df.sum()

Unnamed: 0,0
one,9.25
two,-5.8


In [134]:
df.sum(axis="columns")

Unnamed: 0,0
a,1.4
b,2.6
c,0.0
d,-0.55


In [136]:
print(df.sum(axis="index", skipna=False))
df.sum(axis="columns", skipna=False)

one   NaN
two   NaN
dtype: float64


Unnamed: 0,0
a,
b,2.6
c,
d,-0.55


In [137]:
df.mean(axis="columns")

Unnamed: 0,0
a,1.4
b,1.3
c,
d,-0.275


In [138]:
df.idxmax()

Unnamed: 0,0
one,b
two,d


In [139]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [140]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [141]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj.describe()

Unnamed: 0,0
count,16
unique,3
top,a
freq,8


### 유일값, 값 세기, 멤버십

In [143]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])
obj

Unnamed: 0,0
0,c
1,a
2,d
3,a
4,a
5,b
6,b
7,c
8,c


In [144]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [145]:
obj.value_counts()

Unnamed: 0,count
c,3
a,3
b,2
d,1


In [146]:
pd.value_counts(obj.to_numpy(), sort=False)

  pd.value_counts(obj.to_numpy(), sort=False)


Unnamed: 0,count
c,3
a,3
d,1
b,2


In [148]:
obj
mask = obj.isin(["b", "c"])
print(mask)
obj[mask]

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool


Unnamed: 0,0
0,c
5,b
6,b
7,c
8,c


In [149]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a"])
unique_vals = pd.Series(["c", "b", "a"])
indices = pd.Index(unique_vals).get_indexer(to_match)
indices

array([0, 2, 1, 1, 0, 2])

In [150]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [151]:
data["Qu1"].value_counts().sort_index()

Unnamed: 0_level_0,count
Qu1,Unnamed: 1_level_1
1,1
3,2
4,2


In [152]:
result = data.apply(pd.value_counts).fillna(0)
result

  result = data.apply(pd.value_counts).fillna(0)


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [153]:
data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data
data.value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
a,b,Unnamed: 2_level_1
1,0,2
2,0,2
1,1,1


### 마치며
- 다음 장에서는 판다스를 이용해 데이터셋을 읽고 쓰는 도구에 대해 설명한다.