# Pandas 시작하기

In [19]:
import pandas as pd
import numpy as np

In [2]:
from pandas import Series, DataFrame

# Series

일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조.(어떤 Numpy 자료형도 담을 수 있음)               
index(색인)라고 하는 배열과 연관된 이름을 가지고 있음.

In [3]:
obj = pd.Series([4, 7, -5 , 3])

In [4]:
obj # 좌측 색인, 우측 ,값(value)

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index #  range(4)와 같음 

RangeIndex(start=0, stop=4, step=1)

### 색인 인덱스

In [7]:
obj2 = pd.Series([4, 7, -5 , 3], index = ['d', 'b', 'a', 'c'])

In [8]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [10]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [12]:
obj2['a']

-5

In [14]:
obj2['d'] = 6

In [15]:
obj2[['c','a','d']]  # 색인의 배열로 해석됨

c    3
a   -5
d    6
dtype: int64

In [16]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [17]:
obj2 * 2 

d    12
b    14
a   -10
c     6
dtype: int64

In [20]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

## 의외로 dict, 사전형이라고 생각해도됨. Series는 Dict을 받아야하는 함수에서 대체 가능

In [22]:
'b' in obj2

True

In [23]:
'e' in obj2

False

In [24]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [26]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)    #index는 states에서, values느 sdata에서 가져옴, index에 없는 값은 빠져버림
obj4 #NaN

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

> NaN (Not a number) 판다스에서는 누락된 값, 혹은 NA값으로 취급 

In [27]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [30]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [31]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [32]:
obj3 + obj4 #obj4에는 Utah가 없어서 NaN로 바뀜

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [33]:
obj4.name = 'population'
obj4.index.name = 'state'

In [34]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [35]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

#### index 값 대입을 통해 변경

In [37]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# DataFrame

DataFrame은 표 같은 스프레드 시트 형식의 자료 구조 

여러 개의 컬럼이 있는데 각 컬럼은 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음.

row(로우, 행)과 컬럼에 대한 색인을 가지고 있는데

색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편함.

내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 

하나 이상의 2차원 배열에 저장됨. 

> 물리적으로 DataFrame은 2차원이지만 계층적 색인은 이용해서 좀 더 고차원의 데이터를 표현할 수 있으며            
이를 포함하여 pandas에서 데이터를 다루는 고급 기법을 8장에서 더 설명하겠다.

In [41]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

Series에서 같은 방식으로 자동으로 대입되면 컬럼은 정렬되서 저장됨 

> 근데 안되네요 뭐죠

In [44]:
frame #주피터 노트북은 DataFrame은 브라우저에서 보기 편하도록 HTML표 형식으로 출력됨

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [45]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [46]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [48]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [49]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

### DataFrame도 dict 형식으로 접근하거나 attriubte(속성 .attriube)으로 접근 가능

In [50]:
frame2['state'] # Name이 state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [51]:
frame2.year  # Name이 year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [75]:
type(frame2.year) # Series인 것에 유의하기

pandas.core.series.Series

반환된 Series 객체가 DataFrmae과 같은 색인을 가지면 알맞은 값으로 name 속성이 채워진다.

> Note             
.attribute로 접근하는것은 파이썬에서 사용가능한 변수 이름 형식일때만 가능함(숫자로 시작하는것 불가, 띄워쓰기 불가 등등)

> 반대로 frame2[column]형태로 접근하는 것은 제한이 없으니 활용해보자

## Note 예시 

In [61]:
fram  = pd.DataFrame(data, columns=['2year', 'st ate'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
fram 

Unnamed: 0,2year,st ate
one,,
two,,
three,,
four,,
five,,
six,,


In [62]:
fram.2year

SyntaxError: invalid syntax (<ipython-input-62-81868104cb2a>, line 1)

In [63]:
fram.st ate

SyntaxError: invalid syntax (<ipython-input-63-78c46c9fac49>, line 1)

In [64]:
fram['2year']

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
six      NaN
Name: 2year, dtype: object

In [66]:
fram['st ate']

one      NaN
two      NaN
three    NaN
four     NaN
five     NaN
six      NaN
Name: st ate, dtype: object

raw는 위치나 loc을 이용해서 name을 통해 접근 가능

In [69]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

칼럼에 값 대입 가능

In [71]:
frame2['debt'] = 16.5

In [72]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [73]:
frame2['debt'] = np.arange(6.)

In [74]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


리스트나 배열을 컬럼에 대입할때는 대입값의 길이가 DataFrame의 크기와 동일해야함.               
Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 존재하지 않는 색인에는 결측치 대입       

In [76]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


존재하지지않는 칼럼 을 대입하면 새로운 칼럼 생성하는 것임.

아래와 같이 == 을 통해서 불리언값을 대입하는 것도 가능

In [77]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


-> frame2.eastren 형태로는 대입으로 새로운 칼럼 생성이 안됨

In [79]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

> 주의 
>
> 색인을 이용해서 얻은 칼럼은 내부 데이터에 대한 View이며 복사가 이루어지지 않음.          
> 즉 칼럼으로 받은 Serires 객체를 변경하면 실제 DataFrame도 변경되버림.                    
> 복사본이 필요할떄는 Series의 copy 메서드를 이용하면됨                 

## 중첩된 사전 만들기
중첩된 사전을 이용해서 데이터를 생성할 수 있음. 다음과 같은 중첩된 사전이 있다고 하자.

In [90]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [83]:
frame3 = pd.DataFrame(pop) #바깥의 사전의 키는 컬럼. 안의 키는 로우가 됨
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


## T로 뒤집기

In [87]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [None]:
중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전값은 키값별로 조합되어 결과의 색인이 되지만        
색인을 직접 지정하면 지정된 색인으로 DataFrame을 생성한다. 

In [96]:
pd.DataFrame(pop, index = [2001, 2002, 2003] ) # 왜 안되지?

AttributeError: 'list' object has no attribute 'astype'

In [95]:
pd.DataFrame(pop, index = ['2001', '2002', '2003'] ) # 왜 안되지?

AttributeError: 'list' object has no attribute 'astype'

In [97]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [102]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3 #인덱스 이름 year, dataframe 이름 year

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


values는 DataFrame에 저장된 데이터를 2차원 배열로 반환함

In [100]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

컬럼들이 서로 다른 dtype을 가지고 있으면

모든 컬럼을 수용하기 위해 그 컬럼의 배열의 dtype이 선택됨 

In [101]:
frame2.values #종류가 다양해서 object

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

In [118]:
many_kind_number = {'int': [1.0,2.0,3.0], 'float' : [1.2323,232.3432,324.3434]}

In [119]:
fram2 = pd.DataFrame(many_kind_number)

In [120]:
fram2

Unnamed: 0,int,float
0,1.0,1.2323
1,2.0,232.3432
2,3.0,324.3434


In [121]:
fram2.values

array([[  1.    ,   1.2323],
       [  2.    , 232.3432],
       [  3.    , 324.3434]])

In [122]:
fram2.int

0    1.0
1    2.0
2    3.0
Name: int, dtype: float64

In [117]:
fram2.values.dtype

dtype('float64')

DataFrame 생성자에 넘길 수 있는 자료형의 목록

|형태|설명|
|::--|::--|
|2차원 ndarray, 리스트나 튜플의 리스트|데이터를 담고 있는 행렬. 선택적으로 행(로우)와 열(컬럼)의 이름을 전달할 수 있다.|
|배열, 리스트, 튜플의 사전|사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 컬럼이 된다.|
|NumPy의 구조화 배열|배열의 사전과 같은 방식으로 취급된다.|
|Series의 사전|Series의 각 값이 컬럼이 됨. 명시적으로 index를 넘겨주지않으면 각 Series의 색인이 하나로 합쳐져서 raw의 색인이 됨|
|사전의 사전| 내부에 있는 사전이 칼럼. 키값은 'Series의 사전'과 마찬가지로 합쳐져서 로우의 색인이 됨|
|사전이나 Series의 리스트|리스트의 각 항목이 DataFrame의 로우가 됨. 합쳐진 사전의 키값이나 Series의 색인이 DataFrame의 컬럼의 이름이 된다.|
|다른 DataFrame|색인을 따로 지정하지 않으면 DataFrame의 색인이 그대로 사용됨|
|NumPy MaskedArray| '2차원 ndarray'의 경우와 같은 방식으로 취급되지만 마스크값은 반환되는 DataFrame에서 NA값이 됨.

## 2차원 ndarray

In [126]:
Df_2n = DataFrame(np.arange(12).reshape(3,4))
Df_2n

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [128]:
Df_list = DataFrame(list(range(12)))
Df_list

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


## index(색인) 객체

색인객체는 표 형식의 데이터에서 각 raw와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을        
저장하는다. Series나 DataFrame 객체를 생성할 때 사용되는 배열이나         
다른 순차적인 이름은 내부적으로 색인으로 변환된다.

In [130]:
obj = pd.Series(range(3), index = ['a', 'b', 'c'])
index = obj.index

In [131]:
index

Index(['a', 'b', 'c'], dtype='object')

In [132]:
index[1:]

Index(['b', 'c'], dtype='object')

## index 객체는 imutable함

In [133]:
index[1] = 'd' # Type 에러

TypeError: Index does not support mutable operations

자료 구조 사이에서 안전하게 자료 공유 가능함

In [137]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [138]:
obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [139]:
obj2.index is labels

True

일부 연산의 경우 인덱스를 반환하기도 하기 때문에 어떻게 동작하는지 이해하는게 중요함

In [140]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


배열처럼 고정크기로 동작함

In [141]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [142]:
'Ohio' in frame3.columns

True

In [143]:
2003 in frame3.index

False

## index는 중복되는 값을 허용함

중복되는 값 선택하면 해당 값을 가진 모든 항목이 선택됨


In [146]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

색인 메서드와 속성

|메서드|설명|
|-|-|
|append|추가적인 색인 객체를 덧붙여 새로운 색인 반환|
|difference|색인의 차집합 반환|
|intersection|색인의 교집합 반환|
|union|색인의 합집합 반환|
|isin|색인이 넘겨받은 색인에 존재하는지 알려주는 불리언 배열 반환|
|delete|i 위치의 색인이 삭제된 새로운 색인 반환|
|drop|넘겨받은 값이 삭제된 새로운 색인 반환|
|insert|i 위치에 색인이 추가된 새로운 색인을 반환|
|is_monotonic|색인이 단조적이면 True 반환|
|is_unique|중복되는 색인이 없다면 True 반환|
|unique|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|

## is_monotonic

인덱스가 한방향으로 계속 커지는 방향이거나 줄어드는 방향으로만  monotonic하다고 한다.(값은 크기 가지는건 괜찮음)

In [148]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [149]:
labels.is_monotonic #

True

In [150]:
labels.is_monotonic_decreasing #

False

In [152]:
unmonotonic_labels = pd.Index([1,3,2])
unmonotonic_labels.is_monotonic 

False

In [153]:
unmonotonic_labels = pd.Index([1,2,2,3])
unmonotonic_labels.is_monotonic 

True

# 핵심 기능

## 재색인

새로운 색인에 맞도록 객체를 새로 생성함

In [154]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [155]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고,          
존재하지 않는 색인값이 있다면 NaN을 추가함

In [156]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

시계열 같은 순차적인 순서가 있는 데이터를 재색인할떄는 값을 보간(없었던 값 채우기)하거나 채워 넣어야 할 경우가 있다.     
method 옵션을 통해서 해결가능하고. ffill은 누락된 값을 직전의 값으로 채워 넣는 것임

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reindex.html


method{None, ‘backfill’/’bfill’, ‘pad’/’ffill’, ‘nearest’}
Method to use for filling holes in reindexed DataFrame. Please note: this is only applicable to DataFrames/Series with a monotonically increasing/decreasing index.

None (default): don’t fill gaps ->대체 하지 않음

pad / ffill: Propagate last valid observation forward to next valid. -> 마지막 값으로 대체 

backfill / bfill: Use next valid observation to fill gap. -> 다음에 나올 값으로 대체 

nearest: Use nearest valid observations to fill gap. -> 가장 가까운 값으로 대체

In [158]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


DataFrame에 대한 reindex는 로우(색인), 컬럼 둘다 변경 가능함. 디폴트는 raw가 reindex됨 

In [157]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [159]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [163]:
states = ['Texas', 'Utah', 'California']  # 디폴트는 raw가 reindex됨 
frame.reindex(states)

Unnamed: 0,Ohio,Texas,California
Texas,,,
Utah,,,
California,,,


loc를 통해서 라벨로 색인하는게 더 편하다.

In [160]:
frame.loc[['a', 'b', 'c', 'd'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  """Entry point for launching an IPython kernel.


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


reindex 함수 인자 설명

|인자|설명|
|--|--|
|index|색인으로 사용할 새로운 순서.index 인스턴스나 다른 순차적인 자료구조가 사용 가능함. index는 복사가 이루어지징낳고 그대로 사용됨|
|method|채움 메서드. ffil 앞의 값으로 , bfill 다음 값으로 , nearest 가장 가까운 값으로 , None 채우기 없음|
|fill_value|비어있는 데이터를 채울 값|
|limit|전/후 보간 시에 최대 채워넣을 원소의 수|
|telerance|전/후 보간 시에 사용할 최대 갭의 크기(값의 차이)|
|level|Multiindex의 단계(level)에 단순 색인을 맞춤. 그렇지않으면 Multiindex의 하위 집합에 맞춤|
|copy|True인 경우 새로운 색인이 이전 색인이랑 동일하더라도 데이터를 복사. False일 경우 새로운 색인이 이전색인과 동일할 경우 복사 x|

## drop으로 행(로우)이나 열(칼럼) 삭제

In [166]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [167]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [168]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [170]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


drop에 argument로 raw 이름을 넘기면 해당 raw(axis 0)의 값을 모두 삭제함 

In [171]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


칼럼의 값을 삭제하고 싶으면 axis = 1또는 axis ='columns'로 넘겨주기

In [172]:
data.drop('two', axis=1)
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


drop처럼 Series나 DataFrame의 크기나 형태를 변경하는 함수는 새로운 객체를 반환하는 대신        
원본 객체를 변경함.  inplace를 쓰면 버려지는 값을 모두 삭제하므로 주의해서 사용해야함.

In [173]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

## 인덱싱, 선택하기 , 필터링 

넘어가도 되는 내용 눈으로 봐도 충분

In [188]:
obj = pd.Series(np.arange(start = 3, stop = 7), index = ['a', 'b', 'c', 'd'])
obj

a    3
b    4
c    5
d    6
dtype: int32

In [189]:
obj['b']

4

In [190]:
obj[1]

4

In [191]:
obj[2:4]

c    5
d    6
dtype: int32

In [192]:
obj[['b', 'a', 'd']]

b    4
a    3
d    6
dtype: int32

In [193]:
obj[[3, 1]]

d    6
b    4
dtype: int32

In [196]:
obj[obj < 5]

a    3
b    4
dtype: int32

In [197]:
obj['b':'c']

b    4
c    5
dtype: int32

In [198]:
obj['b':'c'] = 5 #대입
obj

a    3
b    5
c    5
d    6
dtype: int32

In [200]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [201]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [202]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


슬라이싱으로 raw(행)을 선택하거나 불리언 배열로 raw(행)을 선택할 수 있음

In [203]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [204]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


[] 연산자에 단일 값을 넘기거나 리스트를 넘겨서 여러 컬럼을 선택할 수 있음.

In [205]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [207]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## loc 와 iloc

축 이름으로 선택할때는 loc       
정수 index로 선택할때는 iloc                

In [208]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [210]:
data.iloc[2, [3, 0, 1]] # raw 2  col 3, 0 ,1

four    11
one      8
two      9
Name: Utah, dtype: int32

In [211]:
data.iloc[2] # index가 2인 행 

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [209]:
data.iloc[[1, 2], [3, 0, 1]] # 1,2 raw  3,0,1 col

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [212]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [213]:
data.iloc[:, :3][data.three > 5] # 선택한거에다 다시 조건 걸기

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


계층적 색인을 이용하면 좀 더 다양한 방법을 사용할 수 있음.

표 5-4 

DataFrame의 값 선택하기

|방식|설명|
|:----|:---:|
|df[val]|DataFrame에서 하나의 컬럼 또는 여러 컬럼을 선택한다. 편의를 위해 불리언 배열, 슬라이스, 불리언 Dataframe(어떤 조건에 근거해서 값 대입)을 사용할 수 있다.|
|df.loc[val]| 라벨 값으로 raw의 부분집합을 선택|
|df.loc[:,val]|라벨 값으로 열(칼럼)의 부분집합을 선택|
|df.loc[val1, val2]| 라벨 값으로 로우와 컬럼의 부분집합을 선택|
|df.iloc[where]| 정수 인덱스로 로우의 부분집합 선택|
|df.iloc[:,where]|정수 인덱스로 컬럼의 부분집합 선택| 
|df.at[label_i, label_j]| 행(raw)와 열(colum)의 라벨로 단일 값을 선택한다.|
|df.iat[i, j]  | 행(raw)와 열(칼럼)의 정수 색인으로 단일 값을 선택한다|
|reindex 메서드| 하나 이상의 축을 새로운 색인으로 맞춘다.|
|get_value, set_value 메서드| raw와 column 이름으로 DataFrame의 값을 선택한다|

## 정수 인덱싱

리스트나 튜플같은 파이썬 내장 자료 구조와 차이점이 있어서 실수가 있을수가 있음

In [215]:
ser = pd.Series(np.arange(3.))

In [216]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [218]:
ser[-1]  # 에러 발생

KeyError: -1

In [219]:
ser #라벨 색인이 0,1,2를 포함하기 때문에 라벨색인인지 정수색인인지 추측하기 쉽지않음

0    0.0
1    1.0
2    2.0
dtype: float64

In [221]:
ser2 = pd.Series(np.arange(3.), index = ['a','b','c'])
ser2[-1]

2.0

일관성을 유지하기 위해 정숫값을 담고 있는 축 색인이 있다면 우선적으로 라벨을 먼저 찾아보도록 구현.            
좀 더 세밀하게 사용하고 싶다면 라벨에 대해서 loc을 사용. 정수색인에는 iloc 사용

In [222]:
ser[:1]

0    0.0
dtype: float64

In [223]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [224]:
ser.iloc[:1]

0    0.0
dtype: float64

## 산술 연산과 데이터 정렬

다른 색인을 가진 객체 간의 산술 연산은 판다스에서 가장 중요한 기능

객체를 더할때 짝이 맞지 않는 색인이 있다면 결과에 두 색인이 통합됨.

데이터 베이스에서  outerjoin과 비슷한 동작임

In [227]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [228]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [229]:
s1 + s2 # 서로 겹치는 색인이 없으면 NA가 됨. 누락된 값은 전파됨.

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

DataFrame 경우에는 정렬은 행과 열 모두에 적용됨

In [232]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [233]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [234]:
df1 + df2 # 색인과 칼럼이 하나로 합쳐짐 양측에 모두 존재하지않음 없는 값으로 나옴 

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [235]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [236]:
df2

Unnamed: 0,B
0,3
1,4


In [237]:
df1 - df2 # 공통되는 컬럼이나 로우 라벨이 없는것을 연산하니깐 결과가 모두 NaN

Unnamed: 0,A,B
0,,
1,,


## 산술 연산 메서드에 채워 넣을 값 지정하기

서로 다른 색인을 가지는 객체 간의 산술 연산에서 존재하지 않는 축의 값을 특수한 값(like 0)
으로 지정하고 싶을 때는 다음과 같이 할 수 있음.

In [238]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))

In [240]:
df2.loc[1, 'b'] = np.nan
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [241]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [242]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [243]:
df1.add(df2, fill_value=0) # NaN대신 0으로 채우기 

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [245]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [246]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909
