## Data Manipulation with Pandas
Numpy와 ndarray객체는 Python list보다 효율적으로 데이터를 저장하고 빠르게 처리하도록 설계되어있음 

Pandas는 numpy를 기반으로 구축된 데이터 분석을 도와주는 패키지, DataFrame이라는 객체를 구현해 둠, DataFrame은 기본적으로 행과 열이 있고, 각각 레이블과 인덱스가 있는 다차원 배열임. 다양한 객체를 그 안에 동시에 담을 수 있음. 

Numpy의 ndarray는 일반적으로 수치분석에 쓰기 편하게 데이터를 효율적으로 가공하는 다양한 기능을 제공함. 수치계산이 아닌 데이터 분석을 위해 사용하려 할 떄는 몇몇가지 어려움이 있음.
예를들어, 데이터에 라벨을 붙이고 싶거나, 결측 데이터 처리하고 싶거나 유사한 유형의 데이터를 그룹으로 만들어 작업하거나 하는 일이 비효율적임

### Installing and Using Pandas

시스템에 pandas를 설치하려면 Numpy가 설치되어 있어야 함. 소스에서 직접 라이브러리를 빌드할 수 있음

In [4]:
import numpy as np
import pandas as pd
pandas.__version__

'1.3.4'

## Introducing Pandas Objects
매우 기본적인 수준에서 Pandas의 Object 두 가지 (Series, DataFrame)은 정수 인덱스가 아닌 레이블로 행과 열을 식별하는 Numpy 배열의 Wrapper 혹은 Syntactic sugar로 생각 할 수 있음

### The Pandas Series Objcet
인덱스를 가진 1차원 배열, list또는 np.array를 통해서 만들 수 있음

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series 값을 가진 values, 인덱스를 가진 index 두가지로 구성됨

In [8]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [9]:
data.index

RangeIndex(start=0, stop=4, step=1)

Numpy 배열과 마찬가지로 Python braket을 통해 인덱스로 데이터 조회가 가능

In [13]:
data[1]

0.5

In [12]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Series as generalized NumPy array
1차원 Numpy 배열과 거의 같은 것 처럼 보이지만 인덱스가 존재함. Numpy 배열에는 값에 엑세스하는데 사용되는 순서 기반의 정수 인덱스가 있지만 pandas 시리즈에는 값과 관련된 명시적으로 정의된 인덱스가 있음

인덱스는 정수일 필요없이 원하는 유형의 값으로 구성될 수 있음

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [15]:
data['b']

0.5

비 연속적이거나 비 순차적 인덱스를 사용할 수 있음

In [17]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,5,3,7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [18]:
data[5]

0.5

### Series as specialized dictionary

Series는 Array와 유사한 개념, 다른 관점에서 보면 Series는 Python Dictionary의 어떤 특수한 케이스이기도 함. key값을 value값으로 mapping하는 것, Series는 이러한 map을 index-value pair가 수행함

Series는 Dict의 다른 표현처럼 쓸수도 있음

In [19]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

기본적으로 키를 정렬해서 인덱스 만드는 Series가 생성됨, Series는 dict처럼 access할 수 있음

In [21]:
population['California']

38332521

dict와 달리 Series는 슬라이싱과 같은 배열 스타일 작업도 지원함

In [22]:
population['California' : 'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Constructing Series objects
모든 경우 아래의 형태를 약간씩 변형한 것

index는 optional argument, data는 필수 argument

data는 list, Numpy array등을 받을 수 있음, integer sequence가 기본 index가 됨

In [23]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

data는 한 개의 scalar값을 가질 수 있음. 이 경우 index를 명시하면 Index의 수 만큼 반복해서 채워짐

In [24]:
pd.Series(5, index=[100,200,300])

100    5
200    5
300    5
dtype: int64

data는 dict일 수 있음. 이 경우 index는 자동적으로 dict key가 됨

모든 경우에 index를 명시적으로 정의해서 리턴되는 시리즈의 형태로 바꿀 수 있음
-> 명시된 인덱스만 시리즈로 만들어짐

In [26]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3,2])

3    c
2    a
dtype: object

## The Pandas DataFrame Object
DataFrame은 Numpy 배열의 일반화된 경우 또는 Python 사전의 특수한 경우

### DataFrame as a generalized NumPy array
Series가 인덱스가 있는 1d array처럼 생각할 수 있다면, Dataframe은 행 인덱스와 열 이름이 모두 있는 2차원 배열임. 2차원 배열을 1차원 배열의 배열로 볼 수 있는 것처럼, DataFrame은 같은 index를 공유하는 Series들의 모음으로 생각할 수 있음

In [27]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [29]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


DataFrame에는 인덱스 레이블을 조회하는 index attribute가 있음

In [30]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [31]:
states.columns

Index(['population', 'area'], dtype='object')

### DataFrames as specialized dictonary
사전이 키를 값에 매핑하듯 DataFrame은 열 이름을 Series 매핑함

In [32]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### Constructing DataFrame object
Pandas DataFrame은 다양한 방법으로 만들 수 있음

#### From a single Series object
DataFrame은 Series의 모임이므로, 열이 1개인 DataFrame은 한 개의 Series로 만들 수 있음

In [33]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### From a list of dicts

In [36]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
print(data)
pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


key가 없으면 NaN을 채워줌

In [38]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


### From a dictionary of Series objects

In [39]:
pd.DataFrame({'population':population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### From a two-dimensional NumPy array
2차원 데이터 배열이 주어지면 지정된 열 및 인덱스 이름으로 DataFrame을 만들 수 있음, 생략하면 정수 인덱스가 사용됨

In [41]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.159756,0.518581
b,0.858084,0.059321
c,0.733047,0.324709


#### From a NumPy structured array
Numpy는 structured array라는 것이 있음 <br>
Pandas DataFrame은 structured aarray와 매우 유사하게 작동함

In [42]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
# A : integer, B : Float
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [43]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## The Pandas Index Object
DataFrame과 Series 모두 Index를 통해 데이터를 조회하고 변경할 수 있는 것을 확인. 이 Index는 pd.Index라는 자료형을 가지며 그 자체로 재미있는 성질이 많음

In [90]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Index as immutable array
인덱스는 주로 배열처럼 작동함, Python의 [] 표기법을 사용히여 하나의 값 혹은 일부 값을 조회할 수 있음

In [91]:
ind[2]

5

In [93]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index 객체와 Numpy 배열의 가장 큰 차이점 : 인덱스는 일반적인 방법으로 수정이 불가

In [94]:
ind[1] = 0

TypeError: Index does not support mutable operations

불변성은 의도하지 않은 인덱스 수정으로 인한 DataFrame의 에러를 막아줌. 인덱스를 통해 DataFrame 연산을 하는 것을 안전하게 만들어 줌

#### Index as ordered set
Pandas 자료형들은 데이터베이스와 유사하게 데이터 간의 조인과 같은 작업을 용이하게 하도록 설계됨. Index 객체는 Python의 내장 set 데이터 구조에서 사용되는 많은 규칙을 따름
- union
- intersection
- difference 혹은 기타 조합 등의 집합 연산 수행이 가능

In [95]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

In [96]:
indA & indB

  indA & indB


Int64Index([3, 5, 7], dtype='int64')

In [97]:
indA | indB

  indA | indB


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [98]:
indA ^ indB

  indA ^ indB


Int64Index([1, 2, 9, 11], dtype='int64')

## Data Indexing and Slection
인덱싱, 슬라이싱, 마스킹, 팬시 인덱싱 및 이들의 조합.


### Series as dictionary
dict와 마찬가지로 Series 객체는 key, value 간을 mapping 해줌, dict와 같은 Python 표현식과 함수를 사용하여 key/index 값의 연산을 할 수 있음

In [101]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [102]:
'a' in data

True

In [103]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [104]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Series 객체는 사전과 유사한 구문으로 수정이 가능함, 기존 값을 수정할 수도 잇고 새키를 입력하면 새 키로 사전을 확장할 수 있음

In [105]:
data['e'] = 1.25

In [106]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Pandas 내부적으로 메모리를 관리하고 데이터 복사를 관리하며 사용자는 일반적인 경우에는 실제 복잡한 내용을 고민할 필요가 없음

### Series as one-dimensional array
시리즈는 이 dict와 같은 형태의 인터페이스를 기반으로 넘파이 배열과 동일한 기본 메커니즘으로 Array와 같은 인터페이스를 쓸 수 있음

In [107]:
data['a':'c']
# 최종 인덱스는 슬라이스에 포함

a    0.25
b    0.50
c    0.75
dtype: float64

In [108]:
data[0:2]
# 최종 인덱스 불포함

a    0.25
b    0.50
dtype: float64

In [110]:
data[(data>0.3) & (data<0.8)]

b    0.50
c    0.75
dtype: float64

In [112]:
data[['a','e']]

a    0.25
e    1.25
dtype: float64

#### Indexers : loc, iloc
이러한 슬라이싱 및 인덱싱 규칙은 조금 혼란스러움, Series 정수 인덱스가 있는 경우 data[1]과 같은 인덱싱 작업은 explict 인덱스를 사용하고 data[1:3]과 같은 슬라이싱 작업은 implict index를 사용

In [113]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [114]:
data[1]

'a'

In [116]:
data[1:3]
# 인덱스 1이 아닌 순서 1임

3    b
5    c
dtype: object

정수 인덱스를 사용하면 이러한 이유로 오류가 생길 수 있음. Pandas는 특정 인덱스 방식을 명시적으로 사용하는 특수 indexer method를 제공

1. loc은 항상 명시적 인덱스를 참조하는 인덱싱 및 슬라이싱을 사용
2. iloc은 암시적 Python 스타일 인덱스를 사용함

In [117]:
data.loc[1]

'a'

In [118]:
data.iloc[1]

'b'

In [120]:
data.iloc[1:3]

3    b
5    c
dtype: object

거의 항상 explict한 선언이 implict한 선언 더 명확하고 코드 가독성을 높혀줘서 좋음

## Data Selection in DataFrame
DataFrame은 2d array 혹은 index를 공유하는 Series의 dict로 이해할 수 있음 DataFrame에서 데이터 선택과 탐색하는 방법을 이해하는데 도움이 됨

### DataFrame as a dictionary
dict of Series로 DataFrame에 대해 접근

In [121]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


DataFrame의 column을 구성하는 개별 Series는 column 이름을 통해 dict처럼 엑세스할 수 있음

In [122]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

유사하게 attribute-style로 string column name을 사용해 조회가 가능함

In [123]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [124]:
data.area is data['area']

True

유용한 방법이지만 모든 경우에 적용되는 것은 아님, 열 이름이 문자열이 아니거나 열 이름이 DataFrame method와 충돌하는 경우에 attribute 스타일로 조회가 불가능함

In [126]:
data.pop is data['pop']
# DataFrame에는 pop()메서드가 있음

False

attribute 형태를 통해 column을 바꾸려는 것은 피해야 함, dictionary 형태는 언제나 잡혀가지만 attribute는 그렇지 못한 경우가 많음 <br>
Series와 마찬가지로 dict-style을 사용하여 객체 연산도 가능

In [127]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### DataFrame as two-dimensional array
DataFrame은 2차원 배열로도 볼 수 있음 values 속성을 사용하여 np.array형태의 배열을 확인할 수 있음

numpy array와 유사한 많은 연산이 가능함. 예를들어, Matrix transpose같은 일을 할 수 있음

In [128]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [129]:
data.values[0]
# index를 입력하면 row 반환

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [130]:
data['area']
# index를 입력하면 column 반환

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Array style indexing을 사용하기 위해서는 dictionary 형태의 indexing이 아니라 다른 방식을 써야 함 -> loc, iloc, ix

iloc indexer를 사용하면 단순한 NumPy Array처럼 인덱싱 할 수 있지만 DataFrame인덱스 및 column 레이블이 유지되면서 반환됨 <br>
loc 인덱서를 사용하면 배열과 유사한 스타일로 기본 데이터를 인덱싱 할 수 있음 -> explict index와 column name을 사용함

In [133]:
data.iloc[:3, :2]
# [행, 열]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [135]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


익숙한 Numpy 스타일의 데이터 조화 방식으로 이러한 indexer를 사용할 수 있음, loc 인덱서로 마스킹과 인덱싱을 결합할 수 있음

In [137]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


인덱싱 규칙을 사용하여 값을 설정하거나 수정할 수 있음

In [139]:
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density,"(0, 2)"
California,423967,38332521,90.0,90
Texas,695662,26448193,38.01874,90
New York,141297,19651127,139.076746,90
Florida,170312,19552860,114.806121,90
Illinois,149995,12882135,85.883763,90


## Additional indexing conventions
indexing은 열을 나타내고 slicin은 행을 나타냄

In [142]:
data['Florida':'Illinois']


Unnamed: 0,area,pop,density,"(0, 2)"
Florida,170312,19552860,114.806121,90
Illinois,149995,12882135,85.883763,90


In [143]:
data[1:3]

Unnamed: 0,area,pop,density,"(0, 2)"
Texas,695662,26448193,38.01874,90
New York,141297,19651127,139.076746,90


Masking도 row 필터링

In [145]:
data[data.density > 100]

Unnamed: 0,area,pop,density,"(0, 2)"
New York,141297,19651127,139.076746,90
Florida,170312,19552860,114.806121,90


두 가지 경우는 Pandas의 기본 관점 (column을 조회)와는 다르지만 실제로 사용할 떄는 매우 자주 쓰이고 유용함

### Operating on Data in Pandas
한 가지의 인덱스를 사용하는 단순 연산 ufunc의 경우는 index와 column label을 보전함. 다수의 값을 동시에 사용해야 하는 경우 pandas는 인덱스 기주으로 정렬해서 ufunc의 인자로 사용함

#### Ufuncs : Index Preservation
Pandas는 Numpy와 함께 작동하도록 설계 되었기 때문에 모든 Numpy ufunc은 Pandas Series 및 DataFrame 객체에서 작동함

In [146]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [147]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


객체 중 하나에 NumPy ufunc을 적용하면 인덱스가 유지된 결과 객체를 반환

In [148]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

### UFuncs: Index Alignment
두 개의 Series 또는 DataFrame 객체에 대한 연산의 경우 Pandas는 연산을 수행하는 과정에서 인덱스를 정렬함. 불완전한 데이터로 작업하는 경우 장점으로 작동

#### Index alignment in Series
예를들어 두 개의 서로 다른 데이터 소스를 결합해야 할 때, 데이터가 불완전해서 면적으로 상위 3개, 인구로 상위 3개의 주만 데이터를 찾을 수 있다고 가정

In [149]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [150]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

결과 배열의 인덱스는 두 입력 배열의 인덱스의 union이 됨, Python 집합 union을 사용하면 확인할 수 있음

In [151]:
area.index | population.index

  area.index | population.index


Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

하나 또는 다른 항복이 없는 항목은 Pandas가 누락 된 데이터를 표시하는 NaN(Not a Number)로 표시됨

Python의 내장 산술 표현식에 대해 이러한 여한산은 모두 동일하게 작동함

In [152]:
A = pd.Series([2,4,5], index = [0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])
A+B

0    NaN
1    5.0
2    8.0
3    NaN
dtype: float64

NaN 값을 사용하는 것이 바람직한 동작이 아닌 경우 연산자 대신 적절한 개체 메서드를 사용하여 기본적으로 채워 넣을 값을 설정할 수 있음

예를들어 A.add(B)를 호출하는 것은 A+B를 호출하는 것과 동일하지만 모든 요소에 대해 누락된 경우의 기본 값을 미리 설정해 줄 수 있음

In [153]:
A.add(B, fill_value=0)
# 없는 값에는 0으로 채움

0    2.0
1    5.0
2    8.0
3    5.0
dtype: float64

#### Index alignment in DataFrame

In [154]:
A = pd.DataFrame(rng.randint(0,20, (2,2)), columns = list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [156]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns = list('BAC'))
B

Unnamed: 0,B,A,C
0,3,8,2
1,4,2,6
2,4,8,6


In [157]:
A + B

Unnamed: 0,A,B,C
0,9.0,14.0,
1,7.0,5.0,
2,,,


인덱스는 두 개체의 순서에 관계없이 올바르게 다시 정렬됨
 
Series의 경우와 마찬가지로 누락 된 항목 대신 사용할 원하는 fill_value를 지정할 수 있음

In [158]:
fill = A.stack().mean()
A.add(B, fill_value = fill)

Unnamed: 0,A,B,C
0,9.0,14.0,6.5
1,7.0,5.0,10.5
2,12.5,8.5,10.5


### Ufuncs : Operations Between DataFrame and Series
DataFrame과 Series 사이에서 연산을 수행할 때 인덱스 및 열 정렬은 최대한 유사하게 유지가 됨. 이러한 연산은 2차원 및 1차원 Numpy 배열 사이에서 작동하는 연산가 유사, 2차원 배열과 하나의 행 값의 차이를 찾는 작업을 생각해 봄

In [159]:
A = rng.randint(10, size=(3,4))
A

array([[1, 3, 8, 1],
       [9, 8, 9, 4],
       [1, 3, 6, 7]])

In [160]:
A - A[0]

array([[ 0,  0,  0,  0],
       [ 8,  5,  1,  3],
       [ 0,  0, -2,  6]])

2d array와 1d array 사이의 빼기는 row마다 반복적으로 이루어 짐

In [162]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,8,5,1,3
2,0,0,-2,6


열에 대해 반복적으로 수행하려면 객체 형태로 연산을 하며 axis라는 키워드를 사용

In [163]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-2,0,5,-2
1,1,0,1,-4
2,-2,0,3,4


In [164]:
halfrow = df.iloc[0, ::2]
halfrow

Q    1
S    8
Name: 0, dtype: int64

In [165]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,8.0,,1.0,
2,0.0,,-2.0,


이러한 인덱스와 column의 처리방식(보존 및 정렬)은 다루는 데이터의 속성을 일정하게 유지해서 Numpy 배열에서 발생할 수 있는 자잘한 오류를 방지함

### Handling Missing Data
다루는 데이터는 일정 수준의 데이터가 누락된 데이터임, 또한 데이터소수에 따라 누락된 데이터가 다른 방식으로 표시될 수 있음 

누락 데이터
- null, NaN, NA 등

### Trade-Offs in Missing Data Convetions
테이블 또는 DataFram에 결측 데이터가 있음을 나타내기 위해 개발된 방법
1. 결측값을 전체적으로 나타내는 mask를 사용
- 완전히 별개의 boolean 배열을 사용하거나 자료형의 한 비트 정도를 할애해서 값의 null 상태를 나타내게 하는 식으로 접근
- 스토리지와 계산시에 오버헤드가 추가됨
2. 결측값을 나타내는 sentinel value를 지정
- -9999같은 잘 나타나지 않는 비트 패턴으로 정수 값이 비어있음을 표시할 수 있는 관계를 따르기도 하고, IEEE float에 이미 정의된 NaN 같은 형태로 표시
- 몇가지 값을 미리 할당해 두어야 하므로 유효한 값의 범위를 줄이기도 하고, 결측치인지 확이니하기 위해서 추가적인 논리 연산이 필요

### Missing Data in Pandas
Pandas가 결측값을 처리하는 방식은 Numpy 패키지에 의존하기 때문에 제약을 받음
- NumPy 패키지는 float이 아닌 경우 NA가 별도로 정의되지 않음
- NumPy의 경우 boolean array를 지원함 
- 결측지를 False에 데이터가 있는 부분에 True를 할당하는 형태로 처리함.
- 추가적인 저장용량과 메모리가 필요해지고 코드가 복잡해짐
- Pandas는 누락된 데이터에 대해서 Sentinel value를 사용함
- 먼저 Python에는 이미 null값이 두 가지 정의되어 있음
- np.float의 NaN과 파이썬의 "None" object
- 이러한 방식의 규현은 일부 부작용을 가지고 있지만 대부분의 경우 올바르게 작동함
- 특히 추가적인 논리 연산이나 메모리의 오버헤드가 없다는 점이 매우 큰 장점임

#### None : Pythonic missing data
Pandas에서 사용하는 첫 번째 센티넬 값은 파이썬 코드에서 누락된 데이터에 자주 사용되는 파이썬 객체인 "None"임. python 오브젝트이기 때문에 None은 임의의 Numpy/pandas 배열에서 사용할 수 없고, 데이터 타입이 object(즉, Python 오브젝트의 배열)인 배열에서만 사용할 수 있음. 그래서 None값이 들어가면 기본적으로 객체 데이터 배열이 됨

In [166]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

None 값을 가진 Array는 sum() 또는 min()과 같은 연산에서 일반적으로 오류가 남

In [167]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

#### NaN : Missing numerical data
"NaN(Not a Number)" : 표준 IEEE float 구현을 사용하는 모든 시스템에서 인식하는 특별한 float값

In [168]:
vals2 = np.array([1,np.nan, 3, 4])
vals2.dtype

dtype('float64')

NumPy가 array를 native float으로 인식한다는 것이 중요함. 즉 이 array는 Numpy에서 작동하므로 blas 연산을 사용해서 빠르게 작동함

또한 NaN은 접촉하는 모든 다른 변수에 영향을 주어, NaN과 연산을 하면 무조건 NaN이 return

In [169]:
1 + np.NaN

nan

In [170]:
vals2.sum()

nan

NumPy는 결측값을 무시하는 몇 가지 특수 연산을 구현해둠

In [172]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

"NaN"은 특히 부동 소수점 값이며 정수, 문자열 또는 기타 형식에 NaN값이 없음

### NaN and None in Pandas
Pandas는 "NaN"과 "None" 둘 다 사용하고 있으며 두 가지는 경우에 따라 적절히 상호 변환됨

In [173]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

사용 가능한 Sentinel 값이 없는 유형의 경우 Panda는 NA값이 있을 때 자동으로 변수를 typecast함. 예를 들어 정수 배열의 값을 np.nan으로 설정하면 부동 소수점 유형으로 upcast됨

In [176]:
x = pd.Series(range(2), dtype = int)
x

0    0
1    1
dtype: int64

In [177]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

### Operating on Null Values
None과 NaN을 본질적으로 같은 것으로 간주하고 상황에 따라 서로 변환하여 사용함, Pandas 데이터 구조들은 null값을 탐지하고 제거하거나 교체하는 몇 가지 유용한 methods를 구현해 둠
- isnull() : 결측값을 나타내는 boolean 마스크 생성
- notnull() : 위와 반대
- dropna() : na가 필터링되어서 제거된 데이터를 반환
- fillna() : 결측값을 규칙에 따라 채운 데이터를 반환

### Detecting null values
Pandas에는 결측 데이터를 탐지하는 isnull()과 notnull() 두 가지 유용한 Methods가 있음. 두가지 모두 Boolean 마스크를 반환

In [178]:
data = pd.Series([1, np.nan, "hello", None])

In [179]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Boolean 마스크는 "Series"또는 "DataFrame" 인덱스로 직접 사용할 수 있음

In [180]:
data[data.notnull()]

0        1
2    hello
dtype: object

### Dropping null values
마스킹 외에도 결측치를 모두 지우는 dropna() method와 결측치를 다른 값으로 채우는 fillna() method가 있음

In [181]:
data.dropna()

0        1
2    hello
dtype: object

In [182]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


DataFrame에서는 단일 값을 삭제할 수 없으며, 결측치가 있는 전체 행 또는 전체 열만 삭제할 수 있음 

필요에 따라서 원하는 방식이 다르므로 dropna()는 DataFrame의 어떤 부분을 삭제할지 여러 옵션을 줌

기본적으로 dropna()는 결측치가 있는 모든 row를 삭제함

In [183]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


axis = 1 혹은 axis="columns"를 추가하면 column이 삭제됨

In [184]:
df.dropna(axis=1)

Unnamed: 0,2
0,2
1,5
2,6


사용할 수 있는 데이터도 모두 제거된다는 단점이 있음. 
- how 혹은 tresh parameter를 바꾸면 어떤 형태로 결측치를 처리할지 결정할 수 있음
- 기본 값은 how="any" : 지정된 axis에 따라 결측치가 있는 모든 row나 column을 지우는 것
- thresh parameter : 지우지 않기 위해서는 최하 몇 개 이상의 결측치가 아닌 데이터가 필요한지를 지정

In [185]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [186]:
df.dropna(axis=1, how='all')
# all : 전체가 다 결측치인 경우 지움

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [187]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### Filling null values
때때로 결측값을 삭제하는 대신 유효한 값으로 바꾸는 것이 좋음. 이 값은 0과 같은 기본 숫자이거나 위아래의 값을 통해서 대치하거나 추정하는 방식으로 구현

isnull()을 마스크로 사용하여 이러한 작업을 수행할 수 있지만 간단하게 Pandas는 fillna() method를 사용할 수 있음

In [189]:
data = pd.Series([1, np.nan, 2, None, 3], index = list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [190]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

forward-fill을 통해 바로 앞의 값으로 대치 가능 <br>
back-fill을 통해 바로 뒤의 값으로 대치 가능

In [191]:
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [192]:
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

DataFrame의 경우 옵션은 비슷하지만 fill을 수행하는 axis를 지정할 수 있음

In [193]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [195]:
df.fillna(method='ffill', axis=1)
# 앞의 값이 없는 경우 NaN이 그대로 유지됨

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


## Hierarchical Indexing
더 높은 차원의 데이터, 즉 하나 또는 두 개 이상의 키에 의해 인덱싱 된 데이터를 쓰는 것이 필요할 때가 있음

### A Multiply Indexed Series
1차원 Series에서 2차원 데이터를 표현하는 방법, 각 포인트에 문자와 숫자 키가 하나씩 있는 데이터를 생각해봄

### The bad way
서로 다른 두 해 동안 미국 각 주의 데이터를 추적한다고 가정함, python tuple도 key가 될 수 있으므로 python tuple을 index로 사용하는 방식을 생각할 수 있음

In [196]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [197]:
pop[('California', 2010): ('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

2010년의 모든 값을 선택해야 하는 경우

In [198]:
pop[[i for i in pop.index if i[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

#### The Better Way : Pandas MultiIndex
MultiIndex라는 자료형의 인덱스를 만들 수 있고, 원하는 작업을 수행할 수 있음

In [199]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

"MultiIndex"에는 여러가지 Level의 인덱싱을 동시에 가짐. 또한 이러한 각 레벨의 이름을 지정할 수 있음

In [200]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Sereis의 처음 두 열은 여러 인덱스 값을 보여주고 세 번째 열은 데이터를 보여줌. 첫 번째 열에서 일부 항목은 표기되어있지 않음, 위의 값과 같은 값임을 의미함

In [201]:
pop[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

## MultiIndex as extra dimension
인덱스 및 열 레이블이 있는 단순한 "DataFrame"을 사용하여 동일한 데이터를 쉽게 저장할 수 있음

In [202]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [203]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [204]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


모든 ufunc 및 기타 기능은 멀티인덱스에서도 작동

In [205]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


#### Methods of MultiIndex Creation
다중 인덱스 Series 또는 DataFrame을 생성하는 가장 간단한 방법은 단숞히 두 개 이상의 인덱스 list를 생성자의 파라미터로 쓰는 것

In [206]:
fdf = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
fdf

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.74216,0.228771
a,2,0.886931,0.771305
b,1,0.520852,0.129633
b,2,0.089938,0.829045


tuple을 키로 쓰는 사전을 parameter로 입력하면 Pandas는 이를 자동으로 인식하고 기본적으로 MultiIndex를 사용함

In [207]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

#### Explicit MultiIndex constructors
pd.MultiIndex에서 사용 가능한 class method 생성자를 대신 사용할 수 있음

In [208]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

list of tuple을 통해 생성할 수 있음

In [209]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Cartesian product로 생성

In [210]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

levels(각 레벨에서 사용 가능한 인덱스 값을 포함하는 list of list)와 labels (실제로 어떤 라벨을 사용할지 정해주는 list of list)를 parameter로 사용

In [211]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]]) # 구버전에는 labels

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

### MultiIndex level names
MultiIndex의 레벨 이름을 지정하는 것이 필요할떄가 있음. 생성자 중 하나에 names인수를 전달하거나 index.names attribute를 직접 수정 가능

In [212]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### MultiIndex for columns
DataFrame에서 행과 열은 완전히 대칭이고, 행이 여러 레벨의 인덱스를 가질 수있는 것처럼 열도 여러 레벨을 가질 수 있음

In [213]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,37.0,15.0,37.7,40.0,37.9
2013,2,33.0,39.2,38.0,35.7,34.0,36.3
2014,1,33.0,37.2,46.0,37.1,33.0,37.6
2014,2,44.0,37.5,63.0,39.2,25.0,37.7


In [214]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,15.0,37.7
2013,2,38.0,35.7
2014,1,46.0,37.1
2014,2,63.0,39.2


### Indexing and Slicing a MultiIndex
MultiIndex에 대한 인덱싱 및 슬라이싱은 직관적으로 설계되었으며 인덱스를 np.array의 추가 차원처럼 생각하면 도움

#### Multiply indexed Series
앞서 본 주 인구의 다중 인덱스 Series를 다시 사용

In [215]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [216]:
pop['California', 2000]

33871648

정렬되어 있으면 부분 슬라이싱도 가능함

In [217]:
pop.loc['California' : 'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [218]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [220]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [221]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

In [222]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,37.0,15.0,37.7,40.0,37.9
2013,2,33.0,39.2,38.0,35.7,34.0,36.3
2014,1,33.0,37.2,46.0,37.1,33.0,37.6
2014,2,44.0,37.5,63.0,39.2,25.0,37.7


In [223]:
health_data['Guido', 'HR']

year  visit
2013  1        15.0
      2        38.0
2014  1        46.0
      2        63.0
Name: (Guido, HR), dtype: float64

In [224]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,37.0,37.0
2013,2,33.0,39.2


이러한 인덱서는 기본 2차원 데이터의 배열과 비슷하게 쓸 수 있지만, loc 또는 iloc은 인덱스의 튜플또한 사용 할 수 있음

In [225]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        37.0
      2        33.0
2014  1        33.0
      2        44.0
Name: (Bob, HR), dtype: float64