### Pandas 소개
Pandas 객체는 행과 열이 단순 정수형 인덱스가 아닌 레이블로 식별되는 Numpy의 구조화된 배열을 보강한 버전이다.

### Pandas Series 객체
판다스의 시리즈는 인덱싱된 데이터의 1차원 배열이다. 다음과 같이 리스트나 배열로 만들 수 있다.

In [18]:
import numpy as np
import pandas as pd

data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

시리즈는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각 values와 index 속성으로 접근 할 수 있다. values는 친숙한 Numpy 배열이다.

In [19]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [20]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [21]:
data[0]

0.25

### Series : 일반화된 Numpy배열
Sereis와 1차원 Numpy의 차이점은 인ㄷ게스 존재 여부에 있다. Numpy는 값에 접근하기 위해서 암무적으로 정의된 정수형 인덱스가 있고 시리즈는 값에 연결된 명시적으로 정의된 인덱스가 있다. 인덱스는 꼭 정수일 필요가 없고 문자열이나 다른 것으로 사용할 수 있다.

In [22]:
data = pd.Series([0.25,0.5,0.75,1.0], index=['a','b','c','d'])
#인접하지 않거나 연속적이지 않은 인덱스도 가능하다
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### Series : 특수한 딕셔너리
딕셔너리는 일련의 임의의 값에 임의의 키를 매핑하는 구조고 시리즈는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조라고 생각하면 Pandas Seires를 파이썬 딕셔너리의 특수한 버전 정도로 여길 수 있다. 판다스 시리즈의 타입 정보는 특정 연산에서 파이썬 딕셔너리보다 더 효율적으로 움직이게 만들어준다.

In [23]:
population_dict = {'California':38332521,'Texax':26448193,'New York':19651127,'Florida':19552860,'Illinois':12882135}
population = pd.Series(population_dict)
population

California    38332521
Texax         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [24]:
population['California']

38332521

In [25]:
population['California':'Illinois']

California    38332521
Texax         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

data는 리스트나 Numpy배열일 수도 있고 이때 index는 정수가 기본이다. data는 지정된 인덱스를 채우기 위해 반복되는 스칼라 값일 수 있다. data는 딕셔너리일 수도 있는데 이때 index는 딕셔너리 키를 정렬해서 취한다.

### Pandas DataFrame 객체
판다스의 기본 구조체는 데이터프레임이다. 시리즈객체와 마찬가지로 데이터프레임 또한 넘파이 배열의 일반화된 버전이나 파이썬 딕셔너리의 특수한 버전으로 생각할 수 있다.

### DataFrame 일반화된 Numpy 배열
데이터프레임은 유연한 행 인덱스와 유일한 열이름을 가진 2차원 배열이라고 볼 수 있다. 21차원 배열을 정렬된 1차원 열의 연속으로 볼 수 있듯이 데이터프레임은 정렬된 시리즈 객체의 연속으로 볼 수 있다. 여기서 정렬은 같은 인덱스를 공유한다.

In [26]:
area_dict = {'California':423967,'Texax':695662,'New York':141297,'Florida':170312,'Illinois':149995}
area = pd.Series(area_dict)
area

California    423967
Texax         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [27]:
states = pd.DataFrame({'population':population,'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texax,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [28]:
print(states.index)
print(states.columns)

Index(['California', 'Texax', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


In [29]:
states['area']

California    423967
Texax         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### DataFrame 객체 구성하기
단일 시리즈 객체에서 구성하기, 딕셔너리 리스트에서 구성하기, 2차원 NumPy배열에서 구성하기

In [32]:
data = [{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [33]:
pd.DataFrame([{'a':1,'b':2}, {'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [34]:
pd.DataFrame({'population':population, 'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texax,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [35]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.787397,0.865873
b,0.451782,0.39046
c,0.769404,0.965321


In [38]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.228389,0.536711
b,0.371506,0.545886
c,0.1913,0.538582


In [39]:
A = np.zeros(3, dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [42]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Pandas Index 객체
시리즈와 데이터프레임 객체가 데이터를 참조하고 수정하게 해주는 명시적인 인덱스를 포함한다는 것을 알았다. 인덱스 객체는그 자체로 흥미로운 구조체이며 불변의 배열이나 정렬된 집합(Index 객체가 중복되는 값을 포함할 수 있으므로 기술적으로 중복 집합)으로 볼 수 있다. 이 관점은 Index객체에서 사용할 수 있는 연산에 몇 가지 흥미로운 결과를 가져온다. 간단한 예로, 정수 리스트로부터 index를 구성한다.

In [43]:
ind = pd.Index([2,3,4,7,11])
ind

Int64Index([2, 3, 4, 7, 11], dtype='int64')

### index:불변의 배열
Index 객체는 여러 면에서 배열처럼 동작한다. 예를 들어, 표준 파이썬 인덱싱 표기법을 사용해 값이나 슬라이스를 가져올 수 있다

In [47]:
print(ind[1])
print(ind[::2])

3
Int64Index([2, 4, 11], dtype='int64')


In [49]:
print(ind.size, ind.shape ,ind.ndim, ind.dtype)

5 (5,) 1 int64


### Index: 정렬된 집합
판다스 객체는 집합 연산의 여러 측면에 의존하는 데이터세트 간의 조인과 같은 연산을 할 수 있게 한다. 인덱스 객체는 대체로 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따르기 때문에 합집합, 교집합, 차집합을 비롯해 그 밖의 조합들이 익숙한 방식으로 계산될 수 있다.

In [51]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
print(indA & indB) #교집합
print(indA | indB) #합집합
print(indA ^ indB) #차집합

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


  print(indA & indB) #교집합
  print(indA | indB) #합집합
  print(indA ^ indB) #차집합


### 데이터 인덱싱과 선택
Numpy 배열의 값에 접근하고 그 값을 설정하고 수정하는 메서드와 도구에 대해서 알아 봤다.  
인덱싱, 슬라이싱. 마스킹, 팬시 인덱싱, 그것들의 조합이 포함된다.

### Series에서 데이터 선택
시리즈 객체는 여러 면에서 1차원 NumPy 배열과 표준 파이썬 딕셔너리처럼 동작한다. 이 둘의 유사점을 기억하고 있으면 배열에서 데이터를 인덱싱하고 선택하는 패턴을 이해하는데 도움이 될 것이다.

In [52]:
import pandas as pd
data = pd.Series([0.25,0.5,0.75,1.0],
                index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [58]:
print('a' in data)
print(data.keys())
print(list(data.items()))

True
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0), ('e', 1.25)]


In [57]:
data['e']=1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### Series 1차원 배열

In [59]:
data['a':'c'] # 명시적 인덱스는 마지막 포함

a    0.25
b    0.50
c    0.75
dtype: float64

In [61]:
data[0:2] #슬라이싱은 마지막이 제외

a    0.25
b    0.50
dtype: float64

In [62]:
data[(data>0.3)&(data<0.6)]

b    0.5
dtype: float64

In [63]:
data[['a','e']]

a    0.25
e    1.25
dtype: float64

### 인덱서 : loc, iloc, ix
슬라이싱과 인덱싱의 관례적 표기법은 혼동을 불러일으킬수 있다. 가령 시리즈가 명시적인 정수 인덱스를 가지고 있다면 data[1]과 같은 인덱싱 연산은 명시적인 인덱스를 사용하겠지만 data[1:3]같은 슬라이싱 연산은 파이썬 스타일의 암묵적 인덱스를 사용할 것이다

In [64]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [66]:
#인덱싱 할 때 명시적인 인덱스 사용
print(data[1])
print('------')
#슬라이싱 할때 암묵적 인덱스 사용
print(data[1:3])

a
------
3    b
5    c
dtype: object


In [70]:
#loc 속성은 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 한다
print(data.loc[1])
print('-----')
print(data.loc[1:3])

a
-----
1    a
3    b
dtype: object


In [71]:
#ㅑloc 속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일의 인덱스를 참조하게 해준다.
print(data.iloc[1])
print('-----')
print(data.iloc[1:3])

b
-----
3    b
5    c
dtype: object


세 번째 인덱싱 속성인 ix는 앞에서 설명한 두 속성의 하이브리으 형태로, Series 객체에 대해서는 표준 [] 기반의 인덱싱과 동일하다 ix인덱서의 목적은 DataFrame객체에서 더 분명하게 알 수 있다.  

파이썬의 한가지 원칙은 명시적인 것이 암묵적인 것보다 낫다.

### DataFrame에서 데이터 선택
데이터프레임은 여러 면에서 2차원의 배열이나 구조화된 배열과 비슷하고, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷하다. 이 유사성을 기억하고 있으면 이런 구조체에서 데이터를 선택하는 법을 살펴볼때 도움이 된다.

### DataFrame: 딕셔너리
첫 번째 유사점은 데이터프레임이 관련 시리즈 객체의 딕셔너리다

In [72]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


데이터프레임의 열을 이루는 각 시리즈는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근 할 수 있다.

In [73]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [74]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [75]:
data.area is data['area']

True

In [76]:
data.pop is data['pop']

False

In [78]:
data['density'] = data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrame 2차원 배열
Dataframe을 2차원 배열의 보강된 버전으로 볼 수도 있다. values속성을 이용해 원시 기반 데이터 배열을 확인할 수 있다.

In [79]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [80]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [81]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [82]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

배열 스타일 인덱싱의 경우 다른 표기법이 필요하다. 이때 Pandas는 다시 앞에서 언급한 loc, iloc, ix 인덱서를 사용한다. iloc인덱서를 사용하면 DataFrame 객체가 단순 Numpy 배열인 것처럼(암묵적 파이썬 스타일의 인덱스 사용) 기반 배열을 인덱싱 할 수 있지만, DataFrame인덱스와 열 레이블은 결과에 그대로 유지된다.

In [83]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [85]:
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [87]:
data.ix[:3, :'pop']

AttributeError: 'DataFrame' object has no attribute 'ix'

ix 기능 삭제됨

In [88]:
data.loc[data.density>100, ['pop','density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [91]:
data.iloc[0,2]= 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### 추가적인 인덱싱 규칙
인덱싱은 열을 참조하는 반면, 슬라이싱은 행을 참조한다.  
슬라이스는 인덱스 대신 숫자로 행을 참조할 수 있다.  
마스킹 연산은 열 단위가 아닌 행 단위로 해석된다  

### Pandas에서 데이터 연산하기
#### 유니버셜함수: 인덱스 보존
Pandas는 Numpy와 함께 작업하도록 설계됐기 때문에 Numpy의 유니버셜 함수가 Pandas Series와 DataFrame객체에 동작한다.  
먼저 이를 보여줄 간단한 Series와 DataFrame을 정의한다.

In [92]:
import pandas as pd
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [93]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                 columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [94]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [95]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### 유니버셜 함수 : 인덱스 정렬
두 개의 시리즈 또는 데이터프레임 객체에 이항 연사을 적용하는 경우, 판다스는 연산을 수행하는 과정에서 인덱스를 정렬한다. 이는 불완전한 데이터로 작업할 때 매우 편리하다
### Series에서 인덱스 정렬
두 개의 다른 데이터 소스를 결합해 미국 주에서 면적 기준 상위세 개의 주와 인구 기준 상위 세 개의 주를 찾는다고 보자

In [96]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [97]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

결과 배열은 두 입력 배열의 인덱스의 합집합을 담고 있으며, 그 합집합은 이 인덱스에 표준 파이썬 집합 연산을 사용해 결정된다.

In [98]:
area.index | population.index

  area.index | population.index


Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object')

둘 중 하나라도 값이 없는 항목은 Pandas가 누락된 데이터를 표시하는 방식(누락 데이터에 대한 더 자세한 내용은 137쪽 누락된 데이터 처리하기 참고)에 따라 NaN(결측값) 이 인덱스 매칭은 파이썬에 내장된 산술 표현식에 대해서도 같은 방식으로 구현돼 있다.

In [99]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])
A+B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

NaN 값 사용을 원치 않는 경우, 연산자 대신에 적절한 객체 매서드를 사용해 채우기 값을 수정할 수 있다. 예를 들어 A.add(B)를 호출하면 A+B를 호출하는 것과 같지만, A나 B에서 누락된 요소의 채우기 값을 선택해 명시적으로 저장할 수 있다.

In [100]:
A.add(B,fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### DataFrame에서 인덱스 정렬
DataFrame에서 연산을 수행할 때 열과 인덱스 모두에서 비슷한 유형의 정렬이 발생한다. 

In [102]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,0,11
1,11,16


In [103]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,9,2,6
1,3,8,2
2,4,2,6


In [104]:
A+B

Unnamed: 0,A,B,C
0,2.0,20.0,
1,19.0,19.0,
2,,,


두 객체의 순서와 상관없이 인덱스가 올바르게 정렬되고 결과 인덱스가 나온다. 시리즈와 마찬가지로 관련 객체의 산술 연산 메서드를 사용해 누락된 값 대신 원하는 fill_value를 전달 할 수 있다. 여기서는 A에 있는 모든 값(먼저 A의 행을 쌓아서 계산한)의 평균값으로 채운다.

The following table lists Python operators and their equivalent Pandas object methods:

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

### 유니버셜 함수 : DataFrame과 Series간의 연산
데이터프레임과 시리즈사이에서 연산할 때 인덱스와 열의 순서는 비슷하게 유지된다. DataFrame과 시리즈 사이의 연산은 2차원 NumPy배열과 1차원 Numpy배열 사이의 연산과 비슷하다. 2차원 배열과 그 배열의 행 하나와의 차이를 알아내는 일반적인 연산을 생각해보자

In [106]:
A = rng.randint(10, size=(3,4))
A

array([[4, 8, 6, 1],
       [3, 8, 1, 9],
       [8, 9, 4, 1]])

In [107]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1,  0, -5,  8],
       [ 4,  1, -2,  0]])

In [108]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,0,-5,8
2,4,1,-2,0


In [109]:
#열 방향으로 연산하고자하면 앞에서 언급한 객체 메서드를 사용하면서 axis 키워드를 지정하면 된다.
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-4,0,-2,-7
1,-5,0,-7,1
2,-1,0,-5,-8


데이터프레임/시리즈 연산은 앞에서 언급했던 연산과 마찬가지로 두 요소 간의 인덱스를 자동으로 맞춘다.

In [110]:
halfrow = df.iloc[0,::2]
halfrow

Q    4
S    6
Name: 0, dtype: int32

In [112]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,-5.0,
2,4.0,,-2.0,


### 누락된 데이터 처리하기 137p