### Pandas 소개
Pandas 객체는 행과 열이 단순 정수형 인덱스가 아닌 레이블로 식별되는 Numpy의 구조화된 배열을 보강한 버전이다.

### Pandas Series 객체
판다스의 시리즈는 인덱싱된 데이터의 1차원 배열이다. 다음과 같이 리스트나 배열로 만들 수 있다.

In [1]:
import numpy as np
import pandas as pd

data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

시리즈는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각 values와 index 속성으로 접근 할 수 있다. values는 친숙한 Numpy 배열이다.

In [2]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data[0]

0.25

### Series : 일반화된 Numpy배열
Sereis와 1차원 Numpy의 차이점은 인ㄷ게스 존재 여부에 있다. Numpy는 값에 접근하기 위해서 암무적으로 정의된 정수형 인덱스가 있고 시리즈는 값에 연결된 명시적으로 정의된 인덱스가 있다. 인덱스는 꼭 정수일 필요가 없고 문자열이나 다른 것으로 사용할 수 있다.

In [5]:
data = pd.Series([0.25,0.5,0.75,1.0], index=['a','b','c','d'])
#인접하지 않거나 연속적이지 않은 인덱스도 가능하다
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### Series : 특수한 딕셔너리
딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조고 시리즈는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조라고 생각하면 Pandas Seires를 파이썬 딕셔너리의 특수한 버전 정도로 여길 수 있다. 판다스 시리즈의 타입 정보는 특정 연산에서 파이썬 딕셔너리보다 더 효율적으로 움직이게 만들어준다.

In [6]:
population_dict = {'California':38332521,'Texax':26448193,'New York':19651127,'Florida':19552860,'Illinois':12882135}
population = pd.Series(population_dict)
population

California    38332521
Texax         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [7]:
population['California']

38332521

In [8]:
population['California':'Illinois']

California    38332521
Texax         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

data는 리스트나 Numpy배열일 수도 있고 이때 index는 정수가 기본이다. data는 지정된 인덱스를 채우기 위해 반복되는 스칼라 값일 수 있다. data는 딕셔너리일 수도 있는데 이때 index는 딕셔너리 키를 정렬해서 취한다.

### Pandas DataFrame 객체
판다스의 기본 구조체는 데이터프레임이다. 시리즈객체와 마찬가지로 데이터프레임 또한 넘파이 배열의 일반화된 버전이나 파이썬 딕셔너리의 특수한 버전으로 생각할 수 있다.

### DataFrame 일반화된 Numpy 배열
데이터프레임은 유연한 행 인덱스와 유일한 열이름을 가진 2차원 배열이라고 볼 수 있다. 21차원 배열을 정렬된 1차원 열의 연속으로 볼 수 있듯이 데이터프레임은 정렬된 시리즈 객체의 연속으로 볼 수 있다. 여기서 정렬은 같은 인덱스를 공유한다.

In [9]:
area_dict = {'California':423967,'Texax':695662,'New York':141297,'Florida':170312,'Illinois':149995}
area = pd.Series(area_dict)
area

California    423967
Texax         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [10]:
states = pd.DataFrame({'population':population,'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texax,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [11]:
print(states.index)
print(states.columns)

Index(['California', 'Texax', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


In [12]:
states['area']

California    423967
Texax         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### DataFrame 객체 구성하기
단일 시리즈 객체에서 구성하기, 딕셔너리 리스트에서 구성하기, 2차원 NumPy배열에서 구성하기

In [13]:
data = [{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [14]:
pd.DataFrame([{'a':1,'b':2}, {'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [15]:
pd.DataFrame({'population':population, 'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texax,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [16]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.850265,0.356552
b,0.078152,0.467026
c,0.8171,0.960873


In [17]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.738864,0.800039
b,0.250809,0.629511
c,0.42646,0.823766


In [18]:
A = np.zeros(3, dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [19]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Pandas Index 객체
시리즈와 데이터프레임 객체가 데이터를 참조하고 수정하게 해주는 명시적인 인덱스를 포함한다는 것을 알았다. 인덱스 객체는그 자체로 흥미로운 구조체이며 불변의 배열이나 정렬된 집합(Index 객체가 중복되는 값을 포함할 수 있으므로 기술적으로 중복 집합)으로 볼 수 있다. 이 관점은 Index객체에서 사용할 수 있는 연산에 몇 가지 흥미로운 결과를 가져온다. 간단한 예로, 정수 리스트로부터 index를 구성한다.

In [20]:
ind = pd.Index([2,3,4,7,11])
ind

Int64Index([2, 3, 4, 7, 11], dtype='int64')

### index:불변의 배열
Index 객체는 여러 면에서 배열처럼 동작한다. 예를 들어, 표준 파이썬 인덱싱 표기법을 사용해 값이나 슬라이스를 가져올 수 있다

In [21]:
print(ind[1])
print(ind[::2])

3
Int64Index([2, 4, 11], dtype='int64')


In [22]:
print(ind.size, ind.shape ,ind.ndim, ind.dtype)

5 (5,) 1 int64


### Index: 정렬된 집합
판다스 객체는 집합 연산의 여러 측면에 의존하는 데이터세트 간의 조인과 같은 연산을 할 수 있게 한다. 인덱스 객체는 대체로 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따르기 때문에 합집합, 교집합, 차집합을 비롯해 그 밖의 조합들이 익숙한 방식으로 계산될 수 있다.

In [23]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
print(indA & indB) #교집합
print(indA | indB) #합집합
print(indA ^ indB) #차집합

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


  print(indA & indB) #교집합
  print(indA | indB) #합집합
  print(indA ^ indB) #차집합


### 데이터 인덱싱과 선택
Numpy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구에 대해서 알아 봤다.  
인덱싱, 슬라이싱. 마스킹, 팬시 인덱싱, 그것들의 조합이 포함된다.

### Series에서 데이터 선택
시리즈 객체는 여러 면에서 1차원 NumPy 배열과 표준 파이썬 딕셔너리처럼 동작한다. 이 둘의 유사점을 기억하고 있으면 배열에서 데이터를 인덱싱하고 선택하는 패턴을 이해하는데 도움이 될 것이다.

In [24]:
import pandas as pd
data = pd.Series([0.25,0.5,0.75,1.0],
                index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [25]:
print('a' in data)
print(data.keys())
print(list(data.items()))

True
Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


In [26]:
data['e']=1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### Series 1차원 배열

In [27]:
data['a':'c'] # 명시적 인덱스는 마지막 포함

a    0.25
b    0.50
c    0.75
dtype: float64

In [28]:
data[0:2] #슬라이싱은 마지막이 제외

a    0.25
b    0.50
dtype: float64

In [29]:
data[(data>0.3)&(data<0.6)]

b    0.5
dtype: float64

In [30]:
data[['a','e']]

a    0.25
e    1.25
dtype: float64

### 인덱서 : loc, iloc, ix
슬라이싱과 인덱싱의 관례적 표기법은 혼동을 불러일으킬수 있다. 가령 시리즈가 명시적인 정수 인덱스를 가지고 있다면 data[1]과 같은 인덱싱 연산은 명시적인 인덱스를 사용하겠지만 data[1:3]같은 슬라이싱 연산은 파이썬 스타일의 암묵적 인덱스를 사용할 것이다

In [31]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [32]:
#인덱싱 할 때 명시적인 인덱스 사용
print(data[1])
print('------')
#슬라이싱 할때 암묵적 인덱스 사용
print(data[1:3])

a
------
3    b
5    c
dtype: object


In [33]:
#loc 속성은 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 한다
print(data.loc[1])
print('-----')
print(data.loc[1:3])

a
-----
1    a
3    b
dtype: object


In [34]:
#ㅑloc 속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일의 인덱스를 참조하게 해준다.
print(data.iloc[1])
print('-----')
print(data.iloc[1:3])

b
-----
3    b
5    c
dtype: object


세 번째 인덱싱 속성인 ix는 앞에서 설명한 두 속성의 하이브리으 형태로, Series 객체에 대해서는 표준 [] 기반의 인덱싱과 동일하다 ix인덱서의 목적은 DataFrame객체에서 더 분명하게 알 수 있다.  

파이썬의 한가지 원칙은 명시적인 것이 암묵적인 것보다 낫다.

### DataFrame에서 데이터 선택
데이터프레임은 여러 면에서 2차원의 배열이나 구조화된 배열과 비슷하고, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷하다. 이 유사성을 기억하고 있으면 이런 구조체에서 데이터를 선택하는 법을 살펴볼때 도움이 된다.

### DataFrame: 딕셔너리
첫 번째 유사점은 데이터프레임이 관련 시리즈 객체의 딕셔너리다

In [35]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


데이터프레임의 열을 이루는 각 시리즈는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근 할 수 있다.

In [36]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [37]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [38]:
data.area is data['area']

True

In [39]:
data.pop is data['pop']

False

In [40]:
data['density'] = data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrame 2차원 배열
Dataframe을 2차원 배열의 보강된 버전으로 볼 수도 있다. values속성을 이용해 원시 기반 데이터 배열을 확인할 수 있다.

In [41]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [42]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [43]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [44]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

배열 스타일 인덱싱의 경우 다른 표기법이 필요하다. 이때 Pandas는 다시 앞에서 언급한 loc, iloc, ix 인덱서를 사용한다. iloc인덱서를 사용하면 DataFrame 객체가 단순 Numpy 배열인 것처럼(암묵적 파이썬 스타일의 인덱스 사용) 기반 배열을 인덱싱 할 수 있지만, DataFrame인덱스와 열 레이블은 결과에 그대로 유지된다.

In [45]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [46]:
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [47]:
data.ix[:3, :'pop']

AttributeError: 'DataFrame' object has no attribute 'ix'

ix 기능 삭제됨

In [None]:
data.loc[data.density>100, ['pop','density']]

In [None]:
data.iloc[0,2]= 90
data

#### 추가적인 인덱싱 규칙
인덱싱은 열을 참조하는 반면, 슬라이싱은 행을 참조한다.  
슬라이스는 인덱스 대신 숫자로 행을 참조할 수 있다.  
마스킹 연산은 열 단위가 아닌 행 단위로 해석된다  

### Pandas에서 데이터 연산하기
#### 유니버셜함수: 인덱스 보존
Pandas는 Numpy와 함께 작업하도록 설계됐기 때문에 Numpy의 유니버셜 함수가 Pandas Series와 DataFrame객체에 동작한다.  
먼저 이를 보여줄 간단한 Series와 DataFrame을 정의한다.

In [None]:
import pandas as pd
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                 columns=['A','B','C','D'])
df

In [None]:
np.exp(ser)

In [None]:
np.sin(df*np.pi/4)

### 유니버셜 함수 : 인덱스 정렬
두 개의 시리즈 또는 데이터프레임 객체에 이항 연사을 적용하는 경우, 판다스는 연산을 수행하는 과정에서 인덱스를 정렬한다. 이는 불완전한 데이터로 작업할 때 매우 편리하다
### Series에서 인덱스 정렬
두 개의 다른 데이터 소스를 결합해 미국 주에서 면적 기준 상위세 개의 주와 인구 기준 상위 세 개의 주를 찾는다고 보자

In [None]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [None]:
population / area

결과 배열은 두 입력 배열의 인덱스의 합집합을 담고 있으며, 그 합집합은 이 인덱스에 표준 파이썬 집합 연산을 사용해 결정된다.

In [None]:
area.index | population.index

둘 중 하나라도 값이 없는 항목은 Pandas가 누락된 데이터를 표시하는 방식(누락 데이터에 대한 더 자세한 내용은 137쪽 누락된 데이터 처리하기 참고)에 따라 NaN(결측값) 이 인덱스 매칭은 파이썬에 내장된 산술 표현식에 대해서도 같은 방식으로 구현돼 있다.

In [None]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])
A+B

NaN 값 사용을 원치 않는 경우, 연산자 대신에 적절한 객체 매서드를 사용해 채우기 값을 수정할 수 있다. 예를 들어 A.add(B)를 호출하면 A+B를 호출하는 것과 같지만, A나 B에서 누락된 요소의 채우기 값을 선택해 명시적으로 저장할 수 있다.

In [None]:
A.add(B,fill_value=0)

### DataFrame에서 인덱스 정렬
DataFrame에서 연산을 수행할 때 열과 인덱스 모두에서 비슷한 유형의 정렬이 발생한다. 

In [None]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))
A

In [None]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))
B

In [None]:
A+B

두 객체의 순서와 상관없이 인덱스가 올바르게 정렬되고 결과 인덱스가 나온다. 시리즈와 마찬가지로 관련 객체의 산술 연산 메서드를 사용해 누락된 값 대신 원하는 fill_value를 전달 할 수 있다. 여기서는 A에 있는 모든 값(먼저 A의 행을 쌓아서 계산한)의 평균값으로 채운다.

The following table lists Python operators and their equivalent Pandas object methods:

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

### 유니버셜 함수 : DataFrame과 Series간의 연산
데이터프레임과 시리즈사이에서 연산할 때 인덱스와 열의 순서는 비슷하게 유지된다. DataFrame과 시리즈 사이의 연산은 2차원 NumPy배열과 1차원 Numpy배열 사이의 연산과 비슷하다. 2차원 배열과 그 배열의 행 하나와의 차이를 알아내는 일반적인 연산을 생각해보자

In [None]:
A = rng.randint(10, size=(3,4))
A

In [None]:
A - A[0]

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

In [None]:
#열 방향으로 연산하고자하면 앞에서 언급한 객체 메서드를 사용하면서 axis 키워드를 지정하면 된다.
df.subtract(df['R'], axis=0)

데이터프레임/시리즈 연산은 앞에서 언급했던 연산과 마찬가지로 두 요소 간의 인덱스를 자동으로 맞춘다.

In [None]:
halfrow = df.iloc[0,::2]
halfrow

In [None]:
df - halfrow

### 누락된 데이터 처리하기
### 누락된 데이터 처리 방식의 트레이드 오프
일반적으로 누락된 값을 전체적으로 가리키는 마스크를 사용하거나 누락된 항목 하나를 가리키는 센티널 값을 선택하는두 전략 중 하나를 중심으로 한다. 마스킹 방식에서 마스크는 완전히 별개의 부울 배열일 수도 있고 지역적으로 값의 널 상태를 가리키기 위해 데이터 표현에서 1비트를 전용으로 사용할 수도 있다.  

센티널 방식에서 센티널 값은 누락된 정숫값을 -9999나 보기 드문 비트 패턴으로 표시하는 등 데이터에 특화된 표시법일 수도 있고 누락된 부동 소수점 값을 IEEE 부동 소수점 표준을 따르는 특수 값인 NaN(Not a Number)으로 표시하는 것과 같은 좀 더 일반적인 표시법일 수도 있다.  

모두 장단점이 있다. 별도의 마스크 배열을 사용하면 추가적인 부울 배열 할당이 필요한데 이는 스토리지와 연산에 오버헤드를 일으킨다. 센티널 값은 표시할 수 있는 유횻값의 범위를 중리고 CPU와 GPU산술 연산에 별도의 (최적화가 안된) 로직이 필요할 수 있다. NaN과 같은 보편적인 특수 값은 모든 데이터 타입에서 사용할 수 있는 것은 아니다.

### None: 파이썬의 누락된 데이터
Pandas가 사용한 첫 번째 센티널 값은 None이다. 이는 파이썬의 싱글턴 객체로 파이썬 코드에서 누락된 데이터를 위해 사용된다. None 자체로 파이썬 객체이므로 임의의 Numpy/Pandas배열에서 사용할 수 없고 데이터 타입이 object인 배열(즉 파이썬 객체의 배열)에서만 사용할 수 있다.

In [48]:
import numpy as np
import pandas as pd
vals1 = np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

이러한 객체 배열이 몇가지 목적에서는 유용하지만 데이터에 대한 연산은 파이썬 수준에서 이뤄지며 기본 데이터 타입의 배열에서 볼 수 있는 전형적으로 빠른 연산보다 훨씬더 많은 오버헤드가 발생한다.

In [49]:
for dtype in ['object','int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
79.4 ms ± 42.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
4.3 ms ± 313 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



배열에서 파이썬 객체를 사용한다는 것은 None값을 가진 배열에서 sum()이나 min()같은 집계 연산을 하면 일반적으로 오류가 발생할 것이라는 뜻이기도 하다.

In [50]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

이렇게 정수와 none은 더할 수 없다

### NaN: 누락된 숫자 데이터
다른 누락된 데이터 표현인 NaN은 다르다. 이것은 표준 IEEE 부동 소숫점 표시를 사용하는 모든 시스템이 인식하는 특수 부동 소수점 값이다.

In [51]:
vals2 = np.array([1,np.nan,3,4])
vals2.dtype

dtype('float64')

In [54]:
print(1 + np.nan)
print(0*np.nan)
print(vals2.sum())

nan
nan
nan


오류가 뜨지 않더라도 nan은 모든 반환값이 nan이 된다.

In [57]:
print(np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2))

8.0 1.0 4.0


이렇게 Nan을 무시하고 연산하는 특별한 집계연산이 있다.
### Pandas에서 NaN과 None
NaN과 None은 각자가 맡은 역할이 있으며 Pandas는 이 둘을 거의 호환성 있게 처리하고 적절한 경우에는 서로 변환할 수 있게 했다.  

In [59]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

사용할 수 있는 센티널 값이 없는 타입의 경우, NA 값이 있으면 Pandas가 자동으로 타입을 변환한다. 가령 정수 배열의 값을 np.nan으로 설정하면 NA를 수용할 수 있도록 부동 소수점 타입으로 자동 상향 변환한다.

In [61]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [62]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### 널 값 연산하기
isnull() : 누락된 값을 가리키는 부울 마스크를 생성  
notnull() : isnull()의 역  
dropna() : 데이터에 필터를 적용한 버전을 반환  
fillna() : 누락값을 채우거나 전가된 데이터 사본을 반환 
### 널 값 탐지

In [63]:
data = pd.Series([1,np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [65]:
data[data.notnull()]
#부울 마스크이기 때문에 인덱스로도 사용할 수 있다

0        1
2    hello
dtype: object

### 널 값 제거하기

In [66]:
data.dropna()

0        1
2    hello
dtype: object

데이터 프레임에서는 더 다양한 방식이 있다.

In [68]:
df = pd.DataFrame([[1,np.nan,2],
                  [2,3,5],
                  [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [69]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [71]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


이 방식은 유효한 데이터도 전부 삭제한다. 모두 NaN값으로 채워져있거나 NaN값이 대부분인 행이나 열을 삭제하고 싶을 것이다. 이것은 how나 thresh매개변수를 통해 지정할 수 있는데, 이 매개변수가 통과할 수 있는 널 값의 개수를 세밀하게 조절한다.  
how = 'any'로 nan값이 하나라도 있으면 삭제를 하지만 이를 all로 바꾸면 전체가 NaN인 것만 삭제한다.

In [72]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [73]:
df.dropna(axis='columns',how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


좀더 세부적으로 제어하기 위해 thresh매개변수로 행이나 열에서 널이 아닌 값이 최소 몇개가 있어야 하는지 지정할 수 있다.

In [74]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


### 널 값 채우기

In [75]:
data = pd.Series([1,np.nan,2,None,3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [78]:
data.fillna(0)
#이전값으로 채우기
data.fillna(method='ffill')
#이후값으로 채우기
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [79]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [82]:
df.fillna(method='ffill', axis=1)
#어느 축을 기준으로 채울지도 정할 수 있다.
#이전이나 이후값으로 채울때 해당인덱스가 없다면 그대로 NaN으로 남을 수도 있다

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


### 계층적 인덱싱
데이터는 때때로 한두개 보다 많은 키를 인덱스로 가지는 고차원 데이터를 저장하는 것이 유용할 때가 있다. Pandas는 기본적으로 3차원과 4차원 데이터를 처리할 수 있는 Panel과 Panel4D객체를 제공하지만 실제로 더 일반적으로 사용되는 패턴은 단일 인덱스 내에 여러 인덱스 레벨을 포함하는 계층적 인덱싱, 다중 인덱싱이다. 이 반식으로 고차원 데이터를 익숙한 1차원 시리즈와 2차원 데이터프레임 객체로 간단하게 표현할 수 있다.  
이번 절에서는 MultiIndex객체를 직접 생성하고 다중 인덱스 데이터에서 인덱싱, 슬라이싱, 통계 연산을 수행하는 것과 함께 데이터에 대한 단순 인덱스 표현과 계층적 인덱스 표현 간 전환을 위해 사용하는 루틴을 보자

### 다중 인덱스된 Series
#### 나쁜 방식

In [83]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [84]:
pop[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

인덱싱 방식을 사용하면 간단하게 이 다중 인덱스를 기반으로 시리즈를 인덱싱하거나 슬라이싱 할 수 있다. 그러나 편리함은 거기까지다. 가령 2010년의 모든 값을 선택해야 한다면 지저분하고 느린 for문을 돌려야 한다.

### 더 나은 방식 Pandas MultiIndex
튜플을 기반으로 한 인덱싱은 근본적으로 가장 기초적인 다중 인덱스고, Pandas의 MultiIndex타입이 원하는 유형의 연산을 제공한다. 다음과 같이 튜플로 부터 다중 인덱스를 생성할 수 있다.

In [85]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [86]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

시리즈 표현의 첫 두 열은 다중 인덱스 값을 보여주고, 세 번째 열은 그 데이터를 보여준다. 첫번째 열의 항목 몇 개가 누락돼 있다는 점을 보자. 이 다중 인덱스 표현에서 빈 항목은 윗줄과 같은 값을 가리킨다. 두번 째 인덱스가 2010인 모든 데이터에 접근하려면 간단히 Pandas슬라이싱 표기법을 사용하면 된다.

In [87]:
pop[:,2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

### MultiIndex: 추가지원
인덱스와 열 레이블을 가진 간단한 데이터프레임을 사용해 동일한 데이터를 저장할 수 있다는 점이다 실제로 판다스는 이런 유사성을 염두에 두고 만들어졌다. unstack() 메서드는 다중 인덱스를 가진 Series를 전형적인 인덱스를 가진 DataFrame으로 빠르게 변환해준다.

In [88]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [89]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

계층적 인덱싱을 알아야 하는 이유는 2차원 데이터를 1차원 시리즈에 표현하기 위해 다중 인덱싱을 사용할 수 있는 것 처럼 3차원이나 4차원 데이터를 시리즈나 데이터프레임에 표현할 때도 사용할 수 있다. 다중 인덱스에서 각 추가 레벨은 데이터의 추가 적인 차원을 표현한다. 이 속성을 활용하면 표현할 수 있는 데이터 유형에 훨씬 더 많은 유연성을 제공한다. 구체적으로 연도별 각 주의 인구 통계 데이터를 별도의 열로 추가하고 싶을 수도 있다.

In [90]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [91]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


### MultiIndex 생성 매서드
다중 인덱스를 가진 시리즈나 데이터프레임에서 가장 간단한 방식은 생성자에 2개 이상의 인덱스 배열 리스틀르 전달한다

In [92]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.101282,0.693336
a,2,0.965683,0.704635
b,1,0.290941,0.797425
b,2,0.662242,0.852326


In [93]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

### 명시적 MultiIndex 생성자
pd.MultiIndex의 클래스 메서드 생성자를 사용할 수 있다. 각 레벨 내에 인덱스 값을 제공하는 간단한 배열 리스트로부터 MultiIndex를 생성할 수 있다.

In [94]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [95]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [96]:
# 데카르트 곱으로부터 MultiIndex를 생성할 수 있다
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

비슷한 방법으로 levels(각 레벨에서 사용할 수 있는 인덱스 값을 담고 있는 리스트의 리스트와 label(이 레이블을 참조하는 리스트의 리스트)를 전달함으로써 그 내부 인코딩을 사용해 직접 MultiIndex를 생성할 수도 있다

In [99]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

### MultiIndex 레벨 이름
위의 MultiIndex 생성자에 names인수를 전달하거나 생성 후에 인덱스의 names속성을 설정해 이름을 지정 할 수 있다

In [100]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### 열의 MultiIndex
데이터프레임에서 행과 열은 완전히 대칭적이며 행이 인덱스의 여러 레벨을 가질 수 있듯이 열도 여러 레벨을 가질 수 있다.

In [101]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,19.0,37.0,24.0,37.9,44.0,37.4
2013,2,42.0,36.6,51.0,37.6,32.0,37.9
2014,1,57.0,37.9,33.0,38.3,40.0,38.2
2014,2,38.0,38.5,47.0,37.7,46.0,37.2


이것은 기본적으로 4차원 데이터로 여기서 차원은 대상(subject), 측정유형(type), 연도(year), 방문(visit)다. 이것을 가지고 예를 들어 사람 이름으로 최상위 열의 인덱스를 지정하고 그 사람의 정보를 포함하는 전체 데이터프레임을 가져올 수 있다.

In [102]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,24.0,37.9
2013,2,51.0,37.6
2014,1,33.0,38.3
2014,2,47.0,37.7


### MultiIndex 인덱싱 및 슬라이싱
### 다중 인덱스를 가진 데이터프레임

In [104]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,19.0,37.0,24.0,37.9,44.0,37.4
2013,2,42.0,36.6,51.0,37.6,32.0,37.9
2014,1,57.0,37.9,33.0,38.3,40.0,38.2
2014,2,38.0,38.5,47.0,37.7,46.0,37.2


In [105]:
health_data['Guido', 'HR']

year  visit
2013  1        24.0
      2        51.0
2014  1        33.0
      2        47.0
Name: (Guido, HR), dtype: float64

In [106]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,19.0,37.0
2013,2,42.0,36.6


파이썬 기본 함수인 slice()를 사용해 원하는 슬라이스를 명시적으로 만들면 이러한 에러를 피할 수 있지만 Pandas가 정확히 이런 사황을 고려해 제공하는 IndexSlice 객체를 사용하는 것이 더 낫다.

In [107]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,19.0,24.0,44.0
2014,1,57.0,33.0,40.0


### 다중 인덱스 재정렬하기
### 정렬된 인덱스와 정렬되지 않은 인덱스
대부분의 MultiIndex 슬라이싱 연산은 인덱스가 정렬돼 있지 않으면 실패한다.

In [108]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.047020
      2      0.547609
c     1      0.788927
      2      0.487216
b     1      0.699406
      2      0.896285
dtype: float64

In [109]:
#이 인덱스를 부분 슬라이싱 하려고 하면 오류가 발생한다.
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


이는 MultiIndex가 정렬되지 않아서 나타나는 결과다. 여러 가지 이유로 부분 슬라이스와 그와 유사한 다른 연산을 수행하려면 MultiIndex의 레벨이 정렬된 순서를 가져야 한다. Pandas는 이러한 유형의 정렬을 수행하는 다수의 편리한 루틴을 제공한다.

In [110]:
data = data.sort_index()
data

char  int
a     1      0.047020
      2      0.547609
b     1      0.699406
      2      0.896285
c     1      0.788927
      2      0.487216
dtype: float64

In [111]:
#이 방식으로 정렬된 인덱스를 사용하면 부분 슬라이싱은 예상대로 동작한다.
data['a':'b']

char  int
a     1      0.047020
      2      0.547609
b     1      0.699406
      2      0.896285
dtype: float64

### 인덱스 스태킹 및 언스태킹
정렬된 다중 인덱스에서 간단한 2차원 표현으로 변경할 수 있으며, 이때 선택적으로 사용할 레벨을 지정할 수 있다.

In [112]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [113]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


unstack()의 역은 stack()으로, 원래 시리즈로 회복하는 데 사용할 수 있다.

In [114]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### 인덱스 설정 및 재설정
계층적 데이터를 재정렬하는 또 다른 방법은 인덱스 레이블을 열로 바꾸는 것으로 rest_index메서드로 수행할 수 있다. 인구 딕셔너리 pop에서 이 메서드를 호출하면 전에 인덱스에 있던 정보를 그대로 유지하는 state와 year열을 가진 DataFrame을 얻게 된다. 명확성을 위해 선택적으로 열에 표현할 데이터의 이름을 지정할 수 있다.

In [115]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


실제 데이터로 작업하다 보면 원시 입력 데이터를 만나기도 하는데 이때 열값으로 부터 MultiIndex를 만드는 것이 유용하다. 이 작업은 다중 인덱스를 갖는 DataFrame을 반환하는 DataFrame의 set_index 메서드로 할 수 있다.

In [116]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


### 다중 인덱스에서 데이터 집계
앞에서 Pandas가 기본적으로 mean(), sum(), max()와 같은 데이터 집계 메서드를 제공하는 것을 봤다. 계층적 인덱스를 가진 데이터의 경우, 데이터의 어느 부분 집합에 대해 집계 연산을 수행할 것인지 제어하는 level 매개변수를 집계 매서드에 전달할 수 있다.

In [117]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,19.0,37.0,24.0,37.9,44.0,37.4
2013,2,42.0,36.6,51.0,37.6,32.0,37.9
2014,1,57.0,37.9,33.0,38.3,40.0,38.2
2014,2,38.0,38.5,47.0,37.7,46.0,37.2


In [118]:
data_mean = health_data.mean(level='year')
data_mean

  data_mean = health_data.mean(level='year')


subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,30.5,36.8,37.5,37.75,38.0,37.65
2014,47.5,38.2,40.0,38.0,43.0,37.7


axis키워드를 사용해 열의 레벨간 평균을 취할 수도 있다.

In [119]:
data_mean.mean(axis=1, level='type')

  data_mean.mean(axis=1, level='type')


type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,35.333333,37.4
2014,43.5,37.966667
