In [4]:
import pandas as pd
import numpy as np

## Series 객체 다루기

In [7]:
# Series: 판다스의 1차원 배열 객체를 의미함
# Series의 생성
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [16]:
# Series의 인덱스를 원하는 데이터로 넣을 수 있음
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [18]:
# Series를 생성하면서 인덱스 넣기
obj2 = pd.Series([4, 7, -5, 3], index=["d", "a", "b", "c"])
obj2

d    4
a    7
b   -5
c    3
dtype: int64

In [19]:
# 시리즈의 인덱싱: 인덱스를 통해서 할 수 있음
obj2["a"]

7

In [20]:
# 여러개의 원소를 같이 인덱싱 할 수 있음
obj2[["c", "a", "d"]]

c    3
a    7
d    4
dtype: int64

In [21]:
# boolean 연산을 통해 인덱싱 할 수 있음
obj2[obj2 > 0]

d    4
a    7
c    3
dtype: int64

In [22]:
# numpy를 통해 인덱싱 할 수 있음
np.exp(obj2)

d      54.598150
a    1096.633158
b       0.006738
c      20.085537
dtype: float64

In [24]:
# Series는 Python의 Dictionary자료형과 매우 유사함
# 딕셔너리를 통한 시리즈 객체 생성
sdata = {
    'Ohio': 35000,
    'Texas': 70000,
    'Oregon': 16000,
    'Utah': 5000
}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     70000
Oregon    16000
Utah       5000
dtype: int64

In [26]:
#딕셔너리 형태의 데이터에 다른 인덱스를 넣어서 시리즈를 생성할 수 있다.
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
# California는 인덱스에 있지 않기 때문에 NaN이 나타남
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
dtype: float64

In [28]:
# isnull과 notnull을 사용하여 누락된 값을 찾을 수 있다.
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [30]:
pd.notnull(obj4)
# 인덱스에 따라 값을 더하거나 빼는 연산을 수행할 수 있다.
# 이 때 인덱스에 없는 값이 포함될 경우 연산이 불가하여 NaN이 출력된다.
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         140000.0
Utah               NaN
dtype: float64

In [32]:
# 시리즈 객체의 이름을 정할 수 있음
obj4.name = 'population'
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
Name: population, dtype: float64

In [33]:
# 시리즈 객체 내 인덱스의 이름을 정할 수 있음
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         70000.0
Name: population, dtype: float64

## DataFrame 객체 다루기

In [36]:
# DataFrame: 직사각형의 테이블에 여러 컬럼이 존재하며 각 컬럼에는 서로 다른 종류의 데이터를 담을 수 있다.
data = {
    "state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
    "year": [2000, 2001, 2002, 2001, 2002, 2003],
    "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [37]:
# DF의 처음 5개의 row를 출력하기
frame.head(5)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [38]:
# 컬럼의 순서를 임의로 정할 수 있다.
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [39]:
# 딕셔너리 컬럼에 없는 컬럼명을 출력할 경우 해당 데이터의 모든 값이 NaN으로 출력된다.
frame2 = pd.DataFrame(
    data,
    columns=['year', 'state', 'pop', 'debt'],
    index=['one', 'two', 'three', 'four', 'five', 'six']
)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [40]:
# 컬럼의 정보 가져오기
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [41]:
# DF의 컬럼은 딕셔너리처럼 컬럼명으로 접근하거나 attribute로 접근 가능하다.
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [42]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [45]:
# row로의 접근은 loc[인덱스명]으로 접근 가능하다.
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [47]:
# numpy처럼 동일 컬럼에 있는 값을 한꺼번에 적용할 수 있다.
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [52]:
# debt컬럼을 0~5까지의 값으로 순서대로 대입
# numpy.arange()함수를 이용
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [53]:
# Series 객체를 DF 컬럼에 대입할 경우 인덱스에 따라 값이 대입되며, 인덱스가 없는 경우 NaN이 대입된다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


### 컬럼 삭제

In [58]:
# 불필요한 컬럼 생성
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [59]:
# eastern 컬럼 삭제
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [62]:
# 딕셔너리의 요소가 딕셔너리라도 DF로 만들 수 있다.
pop = {
    'Nevada': {2001: 2.4, 2002: 2.9},
    'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [63]:
# Numpy와 같이 Transpose를 할 수 있음
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [64]:
# 인덱스를 새로 명시하여 생성할 수도 있음
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [65]:
# Series 객체를 담아서 처리해도 DF를 생성할 수 있다.
pdata = {
    'Ohio': frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [67]:
# DF는 인덱스와 컬럼 이름을 바꿀 수 있다.
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [68]:
# DF에 저장될 값을 2차원 배열로 반환
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [69]:
# 배열의 자료형이 다른 경우에는 배열의 자료형을 일치시키기 위해 dtype이 object로 생성된다.
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

## 인덱스 객체
> 각 Row와 Column에 대한 인덱스 명이나 메타데이터를 저장하는 객체

In [73]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [74]:
# 인덱스의 값은 변경할 수 없음
index[1] = 'd'

TypeError: Index does not support mutable operations

In [81]:
# 배열과 유사하게 인덱스 객체도 고정된 크기로 동작한다.
'Ohio' in frame3.columns

True

In [80]:
2003 in frame3.index

False

In [84]:
# Python Set자료형과 다르게 Pandas의 인덱스는 중복을 허용한다.
# 중복되는 인ㄷ게스 값을 선택할 시 해당하는 모든 값이 선택된다.
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## ReIndexing

In [87]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [88]:
# 새로 생성한 인덱스에 맞게 데이터를 재배열 시킬 수 있다. 'e'는 값이 존재하지 않기 때문에 NaN으로 출력된다.
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [90]:
# 값을 보강하거나 채워넣어야 할 때 method 옵션을 사용할 수 있다.
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [92]:
# ffill: 값이 존재하지 않는 1, 3, 5번 인덱스에 가장 직전에 입력되어 있는 값으로 누락된 값을 채움
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [93]:
# DF에도 reindex를 할 수 있다.
frame = pd.DataFrame(
    np.arange(9).reshape((3, 3)),
    index=['a', 'c', 'd'],
    columns=['Ohio', 'Texas', 'California']
)
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [109]:
frame = frame.reindex(['a', 'b', 'c', 'd'])
frame

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [110]:
# Column의 인덱스를 reindexing하고 싶을 때 columns 키워드를 사용한다.
states = ['Texas', 'Utah', 'California']
frame = frame.reindex(columns=states)
frame

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [113]:
# DF를 한꺼번에 인덱싱 할수 있다.
frame.loc[['a', 'b', 'c', 'd'], states]

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


## drop: 특정 row나 column을 삭제하고 싶을 때 사용

In [127]:
# series에서 특정 인덱스에 해당하는 요소 삭제하기
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [119]:
# row 삭제
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [120]:
# 여러 개의 row 삭제
new_obj = obj.drop(['c', 'd'])
new_obj

a    0.0
b    1.0
e    4.0
dtype: float64

In [122]:
# DF에서 row 삭제하기
data = pd.DataFrame(
    np.arange(16).reshape((4, 4)),
    index=['Ohio','Colorado','Utah','New York'],
    columns=['one','two','three','four']
)
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [123]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [124]:
# DF에서 Column 삭제하기
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [128]:
# 실행하는 결과가 실제 데이터에 반영되도록 설정하기
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64