# 5장 판다스 1편

## 주요 내용

판다스가 제공하는 시리즈(Series)와 데이터프레임(DataFrame)은 
넘파이 어레이와 유사한 기능과 함께 데이터를 조작하고 다루기 위한 다양한 기능을 추가로 제공한다.
판다스(pandas)가 앞으로 가장 많이 다룰 라이브러리이며, 데이터 분석에 사용되는 많은 다른 라이브러리와 함께
자주 사용된다.

넘파이 어레이는 수치형 데이터를 처리하는 데에 특화된 반면에 
판다스의 데이터프레임은 표(table) 형식의 데이터 또는 다양한 형태의 데이터를 다룰 수 있다.

이번 장에서 소개하는 내용은 다음과 같다.

* `Series`와 `DataFrame` 객체 소개
* `Series`와 `DataFrame`의 주요 도구: 인덱싱, 연산, 정렬
* 기초 통계 활용

## 기본 설정

`pandas` 라이브러리는 보통 `pd` 라는 별칭으로 사용된다.

In [1]:
import pandas as pd
import numpy as np

랜덤 시드, 어레이 내부에 사용되는 부동소수점 정확도, 도표 크기 지정 옵션 등은 이전과 동일하다.

In [2]:
np.random.seed(12345)
np.set_printoptions(precision=4, suppress=True)

import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))

`Series`와 `DataFrame`을 표로 보여줄 때 사용되는 행의 수를 20으로 지정한다. 
기본 값은 60이다.

In [3]:
PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 원래 60이 기본.
pd.options.display.max_rows = 20

## 판다스 자료구조 소개

두 개의 자료구조를 소개한다.

* 시리즈(`Series`)
* 데이터프레임(`DataFrame`)

### 시리즈(`Series`)

1차원 어레이와 동일한 구조를 갖는다. 
다만 인덱스(index)를 0, 1, 2 등이 아닌 임의의 값으로 지정할 수 있으며
항상 함께 고려해야 한다.

1차원 리스트 또는 어레이를 이용하여 간단하게 시리즈를 생성할 수 있다.
그러면 지정된 순서대로 0, 1, 2, 등의 인덱스가 자동 생성되어 함께 보여진다.

* 인덱스: 지정하지 않으면 리스트, 넘파이 어레이 등에서 사용된 인덱스가 기본으로 사용됨.
* `dtype`: 사용된 항목의 자료형을 가리키며 모든 항목은 동일한 자료형을 가져야 함. 

#### 시리스 생성

아래 코드는 리스트를 이용하여 시리즈를 생성한다.

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

1차원 어레이도 이용할 수 있다.

In [5]:
obj = pd.Series(np.array([4, 7, -5, 3]))
obj

0    4
1    7
2   -5
3    3
dtype: int32

항목으로 사용된 값은 `values` 속성이 넘파이 어레이로 갖고 있다.

In [6]:
obj.values

array([ 4,  7, -5,  3])

사용된 인덱스는 `index` 속성이 갖고 있다.
자동으로 생성된 경우 인덱스는 `range`와 유사한 `RangeIndex` 자료형이다.

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

#### 인덱스 지정

인덱스를 지정하면서 시리즈를 생성할 수 있다.

* `index` 키워드 인자: 항목의 수와 동일한 길이를 갖는 리스트. 
    리스트에 포함된 항목 순서대로 인덱스 지정.
    
인덱스가 지정된 순서대로 사용됨에 주의하라.

In [8]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

특정 인덱스를 지정하면 인덱스의 자료형은 `Index` 객체가 된다.

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

#### 인덱스 변경

기존에 사용된 인덱스를 완전히 새로운 인덱스로 대체할 수도 있다.

In [10]:
obj

0    4
1    7
2   -5
3    3
dtype: int32

In [11]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int32

#### 인덱싱

숫자가 아닌 인덱스에 대해서도 인덱싱이 기존과 동일하게 작동한다.

In [12]:
obj2['a']

-5

인덱스가 가리키는 값을 변경할 수도 있다.

In [13]:
obj2['d'] = 6

obj2

d    6
b    7
a   -5
c    3
dtype: int64

인덱스의 리스트를 이용한 인덱싱의 결과는 지정된 인덱스가 사용되는 시리즈다.

In [14]:
obj2_1 = obj2[['c', 'a', 'd']]
obj2_1

c    3
a   -5
d    6
dtype: int64

#### 필터링: 부울 인덱싱

부울 인덱싱은 넘파이 어레이의 경우와 동일하게 작동한다.
아래 코드는 양수 항목들로만 구성된 시리느가 생성된다.

In [15]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

#### 연산 및 유니버설 함수 적용

연산 및 유니버설 함수 적용 방식도 기본적으로 넘파이 어레이의 경우처럼 항목별로 작동한다.

In [16]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [17]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

#### 사전(`dict`)과 시리즈(`Series`) 비교

시리즈는 길이가 고정되었으며 순서가 중요한 사전이라고 생각할 수 있다.

| 사전 | 시리즈 |
| :---: | :---:  |
| 키(key) | 인덱스 |
| 값 | 값    |
| 순서 없음 | 순서 중요 |
| 중복 없음 | 중복 허용 |

`in` 함수는 인덱스 사용 여부를 사전 자료형의 키(key) 사용 여부와 동일한 방식으로 판단한다.

In [18]:
'b' in obj2

True

In [19]:
'e' in obj2

False

사전을 이용하여 시리즈를 생성할 수 있다.

* 키 => 인덱스
* 값 => 값

In [20]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

사전을 이용하더라도 인덱스를 따로 지정할 수 있다.
그러면 사전에 키로 사용되지 않은 인덱스는 누락되었다는 의미로 `NaN`이 표시된다.
또한 인덱스 리스트에 포함되지 않는 (사전의) 키는 포함되지 않는다.

* `California`: `sdata` 사전에 키로 사용되지 않았기에 `Nan`으로 지정
* `Utah`: `states` 리스트에 포함되지 않았기에 생성된 시리즈에 사용되지 않음.

In [21]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 누락치 사용 여부 확인

`pd.isnull()` 함수는 누락된 항목은 `True`, 아니면 `False`로 지정하여 단번에 누락치가 포함되었는지 
여부를 보여준다.

In [22]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

`pd.notnull()` 함수는 누락된 항목은 `True`, 아니면 `False`로 지정하여 단번에 누락치가 포함되었는지 
여부를 보여준다.

In [23]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

사실 시리즈 객체의 메서드인 `isnull()`과 `notnull()`이 내부에서 호출된다.

In [24]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [25]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

`any()` 또는 `all()` 메서드를 활용하면 누락치 사용 여부를 단번에 알 수 있다.
예를 들어, `pd.isnull()` 과 `any()` 메서드의 활용 경과가 `True` 이면 누락치가 있다는 의미이다.

In [26]:
obj4.isnull().any()

True

반면에 `pd.notnull()` 과 `all()` 메서드의 활용 경과가 `False` 이면 역시 누락치가 있다는 의미이다.

In [27]:
obj4.notnull().all()

False

넘파이의 `any()`, `all()` 를 활용해도 동일한 결과를 얻는다.

In [28]:
np.any(obj4.isnull())

True

In [29]:
np.all(obj4.notnull())

False

#### 시리즈 연산과 인덱스

사용되는 시리즈가 공동으로 사용하는 항목에 대해서만 연산이 이루어지며
다른 인덱스에 대해서는 `NaN`으로 값이 지정된다.

In [30]:
obj3
obj4
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

#### `name` 속성

`Series` 객체와 시리즈의 `Index` 객체 모두 `name` 속성을 이용하여
사용되는 값들에 대한 정보를 저장한다.
아래 코드는 시리즈에 대해선 `name='population'`(인구)을, 
시리즈의 인덱스에 대해선 `Index='state'`(주 이름)를 지정한다.

__참고:__ 정보는 저장된 데이터와 관련된 추가 내용에 불과하며 시리즈를 활용하는 것과는 무관하다.

In [31]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [None]:
frame

In [None]:
frame.head()

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

In [None]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2
frame2.columns

In [None]:
frame2['state']
frame2.year

In [None]:
frame2.loc['three']

In [None]:
frame2['debt'] = 16.5
frame2
frame2['debt'] = np.arange(6.)
frame2

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

In [None]:
del frame2['eastern']
frame2.columns

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = pd.DataFrame(pop)
frame3

In [None]:
frame3.T

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

In [None]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

In [None]:
frame3.values

In [None]:
frame2.values

### Index Objects

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
index[1:]

index[1] = 'd'  # TypeError

In [None]:
labels = pd.Index(np.arange(3))
labels
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2
obj2.index is labels

In [None]:
frame3
frame3.columns
'Ohio' in frame3.columns
2003 in frame3.index

In [None]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

## Essential Functionality

### Reindexing

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3
obj3.reindex(range(6), method='ffill')

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

In [None]:
frame.loc[['a', 'b', 'c', 'd'], states]

### Dropping Entries from an Axis

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj
new_obj = obj.drop('c')
new_obj
obj.drop(['d', 'c'])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two', axis=1)
data.drop(['two', 'four'], axis='columns')

In [None]:
obj.drop('c', inplace=True)
obj

### Indexing, Selection, and Filtering

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj
obj['b']
obj[1]
obj[2:4]
obj[['b', 'a', 'd']]
obj[[1, 3]]
obj[obj < 2]

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5
obj

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data
data['two']
data[['three', 'one']]

In [None]:
data[:2]
data[data['three'] > 5]

In [None]:
data < 5
data[data < 5] = 0
data

#### Selection with loc and iloc

In [None]:
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]
data.iloc[2]
data.iloc[[1, 2], [3, 0, 1]]

In [None]:
data.loc[:'Utah', 'two']
data.iloc[:, :3][data.three > 5]

### Integer Indexes

ser = pd.Series(np.arange(3.))
ser
ser[-1]

In [None]:
ser = pd.Series(np.arange(3.))

In [None]:
ser

In [None]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

In [None]:
ser[:1]
ser.loc[:1]
ser.iloc[:1]

### Arithmetic and Data Alignment

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s1
s2

In [None]:
s1 + s2

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1
df2

In [None]:
df1 + df2

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1
df2
df1 - df2

#### Arithmetic methods with fill values

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df1
df2

In [None]:
df1 + df2

In [None]:
df1.add(df2, fill_value=0)

In [None]:
1 / df1
df1.rdiv(1)

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

#### Operations between DataFrame and Series

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr
arr[0]
arr - arr[0]

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
frame
series

In [None]:
frame - series

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

In [None]:
series3 = frame['d']
frame
series3
frame.sub(series3, axis='index')

### Function Application and Mapping

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame
np.abs(frame)

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

In [None]:
frame.apply(f, axis='columns')

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

In [None]:
format = lambda x: '%.2f' % x
frame.applymap(format)

In [None]:
frame['e'].map(format)

### Sorting and Ranking

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()
frame.sort_index(axis=1)

In [None]:
frame.sort_index(axis=1, ascending=False)

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame
frame.sort_values(by='b')

In [None]:
frame.sort_values(by=['a', 'b'])

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

In [None]:
obj.rank(method='first')

In [None]:
# Assign tie values the maximum rank in the group
obj.rank(ascending=False, method='max')

In [None]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame
frame.rank(axis='columns')

### Axis Indexes with Duplicate Labels

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

In [None]:
obj.index.is_unique

In [None]:
obj['a']
obj['c']

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df
df.loc['b']

## Summarizing and Computing Descriptive Statistics

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

In [None]:
df.sum()

In [None]:
df.sum(axis='columns')

In [None]:
df.mean(axis='columns', skipna=False)

In [None]:
df.idxmax()

In [None]:
df.cumsum()

In [None]:
df.describe()

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

### Correlation and Covariance

conda install pandas-datareader

In [None]:
price = pd.read_pickle('examples/yahoo_price.pkl')
volume = pd.read_pickle('examples/yahoo_volume.pkl')

import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

In [None]:
returns = price.pct_change()
returns.tail()

In [None]:
returns['MSFT'].corr(returns['IBM'])
returns['MSFT'].cov(returns['IBM'])

In [None]:
returns.MSFT.corr(returns.IBM)

In [None]:
returns.corr()
returns.cov()

In [None]:
returns.corrwith(returns.IBM)

In [None]:
returns.corrwith(volume)

### Unique Values, Value Counts, and Membership

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

In [None]:
obj.value_counts()

In [None]:
pd.value_counts(obj.values, sort=False)

In [None]:
obj
mask = obj.isin(['b', 'c'])
mask
obj[mask]

In [None]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

In [None]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

In [None]:
result = data.apply(pd.value_counts).fillna(0)
result

## Conclusion

In [None]:
pd.options.display.max_rows = PREVIOUS_MAX_ROWS