# Pandas 시작하기
- 고수준의 자료구조
- 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 제공
- NumPy 기반에서 개발

- 참고문헌
    - Python for Data Analysis (Ch.5), Wes Mckinney, O'Reily, 2nd Edi., 2017.
    - pandas: powerful Python data analysis toolkit, Release 0.23.4, 2016

In [None]:
from pandas import Series, DataFrame    # Series : 1차원, DataFrame : 2차원
import pandas as pd

In [None]:
dir(pd)

In [None]:
from __future__ import division      # python 버전 상호 호환
from numpy.random import randn
import numpy as np
import os
import matplotlib.pyplot as plt
np.random.seed(12345)
plt.rc('figure', figsize=(10, 6))
from pandas import Series, DataFrame
import pandas as pd
np.set_printoptions(precision=4)     # 소수점 넷째 자리에서 반올림
plt.show()

# 1. Introduction to pandas data structures

## 1.1 Series
- data 배열을 담을 수 있는 1차원 배열과 같은 객체 (NumPy 자료형도 담을 수 있음)
- index : 데이터를 지정하는 이름, 사용자가 지정할 수 있음 (별도로 지정하지않으면 0 ~ N-1으로 지정됨)
- values


In [None]:
obj = Series([4, 7, -5, 3])
obj

In [None]:
obj.values

In [None]:
obj.index

In [None]:
# index 이름 변경 가능 (default: 0 ~ N-1)
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

In [None]:
# index 지정하여 Series 객체 생성
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [None]:
obj2.index

In [None]:
# index를 통하여 Series 요소 접근
obj2['a']

In [None]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]           # 원하는 순서로 출력도 가능

- boolean 배열: 조건에 맞는 데이터만 추출하여 보여줌
- 전체 데이터를 대상으로 하는 NumPy 연산도 가능

In [None]:
obj2[obj2 > 0]

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

In [None]:
'b' in obj2          # 존재 여부

In [None]:
'e' in obj2

- series: 고정길이의 정렬된 dictionary 형태로도 선언할 수 있음

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

- dictionary 객체만 가지고 series 객체를 생성하면 생성된 객체의 index는 dictionary의 key 값이 정렬되어 들어 감

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)   # index에 해당되지 않은 항목은 버려짐, 반대로 data가 없는 항목은 NaN으로 표시됨
obj4

- **NaN**(Not a Number): 누락된 값 혹은 NA
- isnull/notnull 함수
- NaN 데이터 처리 방법

In [None]:
pd.isnull(obj4)

In [None]:
pd.notnull(obj4)

In [None]:
obj4.isnull()

In [None]:
dir(obj4)

In [None]:
obj3

In [None]:
obj4

In [None]:
# 두 Series 산술연산: 다른 index data fmf 자동으로 align (outer형식의 연산이기에 NaN이 포함되어 있다면 연산처리할 수 없기에 NaN 처리함)
obj3 + obj4

- name 속성: column 이름, index 전체 이름

In [None]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

In [None]:
obj4.index           # index를 변경하려면 전체 index를 다시 지정해주어야한다. 각각의 key를 별도로 수정할수는 없다.

## 1.2 DataFrame
- 표 형식의 자료구조, column(field)는 각기 다른 종류의 data
- row, column 각각 index를 가짐. Series의 dictionary

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

In [None]:
# column 순서 지정하면 지정된 순서의 DataFrame 생성
DataFrame(data, columns=['year', 'state', 'pop'])

In [None]:
# index 명칭 지정
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

In [None]:
frame2.columns

- DataFrame의 column: dictionary 형식['column이름']으로 혹은 속성 형식(df.column)으로 접근

In [None]:
frame2['state']

In [None]:
frame2.year

In [None]:
# 행의 모든 데이터
frame2.loc['three']    # 즉, row에 대한 데이터로 가져올떄는 .loc[]활용, col은 []활용

In [None]:
# 특정 column 전체에 scalar 값 대입
frame2['debt'] = 16.5
frame2

- 리스트/배열을 column에 대입할 경우: 리스트/배열의 길이가 DataFrame의 크기와 같아야 함.

In [None]:
# 특정 column 전체에 배열 값 대입
frame2['debt'] = np.arange(5.)
frame2

- Series 대입할 경우 같은 색임에만 대입 (리스트/배열을 대입할 경우와는 다르게 길이가 같지 않아도 된다)

In [None]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

- 없는 column을 대입하면 새로운 column 생성

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

- del 함수: 특정 column 만 삭제
- drop method: axis 미지정 -> 각 column, row 삭제, axis 지정 => 0은 row, 1은 col을 삭제

In [None]:
del frame2['eastern']
frame2

In [None]:
frame3 = frame2.drop('five')
frame3

In [None]:
frame4 = frame2.drop('debt', axis=1)
frame4

- 이중 dictionary를 이용한 DataFrame 생성
- 이중 dictionary는 바깥쪽 dictionary key를 column index로 안쪽  dictionary key를 row index로 사용

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
# 안쪽  dictionary keys는 union 되어 색인됨 => 2000, 2001, 2002
frame3 = DataFrame(pop)
frame3

In [None]:
# data transpose (col과 row를 뒤집음)
frame3.T

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
DataFrame(pdata)

In [None]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

In [None]:
# index를 지정하여서도 만들수있음
DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
frame3.values

In [None]:
print(frame2)
frame2.values

![표5-1](img/table5-1.png)

## 1.3 Index objects
- index 객체: 표 형식의 데이터에서 각 row와 column에 대한 이름(name)과 다른 meta data를 저장하는 객체

In [None]:
obj = Series(range(3), index=['a', 'b', 'c'])
print(obj)
index = obj.index
index

In [None]:
index[1:]

- **index 객체는 변경할 수 없다! (index 객체는 mmutable data (상호배제)로 구분되어있기때문)**

In [None]:
# Error
# index[1] = 'd'

In [None]:
labels = pd.Index(np.arange(3))
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

In [None]:
index = pd.Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index=index)
obj2

In [None]:
obj2.index is index

In [None]:
frame3

In [None]:
frame3.columns

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

- Pandas index는 중복 label을 포함해도 됨(Python set은 불가능)
- 중복 label의 선택시 중복 label의 모든 data 선택

In [None]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])

In [None]:
dup_labels

![표5-2](img/table5-2.png)

In [None]:
a_obj={'Nevada':3.0, 'Ohio':4.0}
frame4 = frame3.append(a_obj, ignore_index=True)       # col name을 무시하고 default indexing 적용
frame4

# 2. 핵심 기능(Essential Functionality)

## 2.1 재색인(reindexing)
- 데이터를 새로운 색인에 맞게 row, colummn 재배열
- 없는 색인값은 NaN 혹은 fill_value option

In [None]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

In [None]:
# 없는 색인 => 0
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)  # NaN 항목에 대해 0으로 채워줌

In [None]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
obj3.reindex(range(6), method='ffill')  # ffill : 비워져있는 index에 대해 interpolation 적용하여 값 채워줌

In [None]:
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])
frame

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

In [None]:
frame.reindex(index=['a', 'b', 'c', 'd']).ffill()       # ffill method를 옵션이 아닌 method로서 적용

- reindexing 함수의 arguments

![표5-3](img/table5-3.png)

## 2.2 Dropping Entries from an Axis
- 특정 column, row 삭제
- del 함수: 특정 column 만 삭제
- drop method: axis 지정, 새로운 object 반환

In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
new_obj

In [None]:
obj.drop(['d', 'c'])

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

In [None]:
data.drop(['Colorado', 'Ohio'])        # axis=0 옵션이 default로 적용되어있음

In [None]:
data.drop('two', axis=1)

In [None]:
data.drop(['two'], axis=1)          # drop되는 col의 형태를 list로 

In [None]:
data.drop(['two', 'four'], axis='columns')

In [None]:
# inplace 조작(복사본을 만들지 않고 객체 내부 변경)
print(obj)
obj.drop('c', inplace=True)
obj

## 2.3 Indexing, selection, and filtering

In [None]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj)
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]           # 조건을 부합하는 요소들만 가져옴

- 라벨 이름으로 slicing할 경우는 끝점 포함

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5
obj

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

In [None]:
# column 값 하나 선택
data['two']

In [None]:
data[['three', 'one']]

In [None]:
# sliceing으로 row 선택
data[:2]

In [None]:
# boolean 배열로 column 선택
data[data['three'] > 5]

In [None]:
data < 5

In [None]:
data[data < 5] = 0
data

### Selection wit _ioc_ and _iloc_
- row에 대한 label-indexing
- _loc_ : axis labels (value 기준)
- _iloc_: integer label (index 기준)

In [None]:
data.loc['Colorado', ['two', 'three']]

In [None]:
data.iloc[2, [3, 0, 1]]  # 'Utah' 행의 열 [3, 0, 1]

In [None]:
data.iloc[2]

In [None]:
data.iloc[[1,2], [3,0,1]]

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:,:3][data.three > 5]

* DataFrame에서의 indexing option

![표5-4](img/table5-4-1.png)
![표5-4](img/table5-4-2.png)

## 2.4 Integer Indexes

In [None]:
ser = pd.Series(np.arange(3.))
ser

In [None]:
# ser[-1]    # index가 정수일 때는 음수를 통한 접근 불가능

In [None]:
ser2 = pd.Series(np.arange(3.), index=['a','b','c'])
ser2

In [None]:
ser2[-1]           # index가 별도로 있기때문에 음수를 통한 indexing 가능

In [None]:
ser[:1]

In [None]:
ser.loc[:1]    # label이 '1'인 row까지 선택

In [None]:
ser.iloc[:1]   # 위치가 1 인 row 전까지 선택

## 2.5 Arithmetic and data alignment
- index가 다른 객체간의 산술연산 => index가 통합(union)됨
- 같은 index, column가 없는 데이터는 NaN

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

In [None]:
s2

In [None]:
s1 + s2

- DataFrame에서는 row, column 모두 union됨
- 공통된 row나 column이 없으면 모두 통합(NaN 값)

In [None]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

In [None]:
df2

In [None]:
df1 + df2

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print(df2)
df1 - df2

### 2.5.1 Arithmetic methods with fill values

- index가 다른 객체 간의 산술연산시 특정 값으로 채워 넣음

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df1

In [None]:
df2

In [None]:
df1 + df2

In [None]:
df1.add(df2)

In [None]:
df1.add(df2, fill_value=0)          # 둘 중 하나라도 NaN이라면 NaN이 되기 때문에 0으로 fill하고 add

In [None]:
1 / df1

In [None]:
df1.rdiv(1) # reverse div, = 1 / df1 

In [None]:
# 재색인시에도 fill_value 지정할 수 있음.
df1.reindex(columns=df2.columns, fill_value=0)

![표5-5](img/table5-5.png)

### 2.5.2 Operations between DataFrame and Series
- NumPy에서의 broadcasting과 같이 DataFrame과 Series에 적용

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
arr[0]

- Series의 index를 DataFrame의 column에 맞추고 broadcasting

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
series = frame.iloc[0]
series

In [None]:
frame - series

- index 값을 DataFrame의 column이나 Series의 index에서 찾을 수 없으면 형식을 맞추기 위해 재색인됨

In [None]:
series2 = Series(range(3), index=['b', 'e', 'f'])
frame + series2

In [None]:
series3 = frame['d']
series3

In [None]:
frame.sub(series3, axis=0)

## 2.6 Function application and mapping
- Pandas 객체에도 NumPy의 ufunc(user function, 배열의 각 원소에 순차적으로 모두 적용되는 method)를 적용할 수 있다

In [None]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
np.abs(frame)

- apply method: 각 row, column의 1차원 배열에 함수를 적용
- apply에 전달된 함수는 scalar 값을 return 할 필요없으며, 여러 값을 반환해도 됨

In [None]:
f = lambda x: x.max() - x.min()

In [None]:
# column에 적용
frame.apply(f)

In [None]:
# row에 적용
frame.apply(f, axis=1)

In [None]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

- element-wise Python functions
- applymap: DataFrame에 함수 적용
- map: Series에 함수 적용

In [None]:
format = lambda x: '%.2f' % x
frame.applymap(format)

In [None]:
frame['e'].map(format)

## 2.7 Sorting and ranking
- sort_index: row(axis=0), column(axis=1)의 색인을 알파벳순으로 정렬하고 새로운 객체를 반환
- 내림차순: ascending=False 옵션

In [None]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
print(obj)
obj.sort_index()

In [None]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

In [None]:
frame.sort_index(axis=1, ascending=False)

- sort_values: value를 기준으로 sort
- NaN 은 value의 마지막으로 정렬됨
- by option: 하나 이상의 column 이름 전달

In [None]:
obj = Series([4, 7, -3, 2])
obj.sort_values()

In [None]:
# 정렬시 NaN 는 항상 Series의 마지막으로 정렬됨
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

In [None]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

In [None]:
frame.sort_values(by='b')             # sorting의 기준을 b column으로 한다

In [None]:
frame.sort_values(by=['a', 'b'])          # a 기준으로 한번 sorting하고 b 기준으로 다시 한번 sorting

- ranking(순위)은 1부터 배열의 유효한 데이터 개수까지의 순위를 매김.
- rank(): 오름차순으로 순위를 매기다, 동점인 항목에 대해서는 평균 순위를 매김

In [None]:
# -5: 1, 0: 2, 2: 3, 4가 두개 있어 순위 (4, 5)의 평균 순위 => 4.5, 7이 두개이고 순위 (6, 7)의 평균 순위 => 6.5
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

In [None]:
# 동일 데이터는 관찰된 순서대로 순위 부여되도록 옵션 부여
obj.rank(method='first')

In [None]:
# 내림차순으로 순위를 매김: ascending=False 옵션
# method='max': 동점 관측치 그룹 내 최대 순위 부여
obj.rank(ascending=False, method='max')

In [None]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis=1)

![표5-6](img/table5-6.png)

## 2.8 Axis indexes with duplicate values
- 일반적으로 index의 label은 unique해야 하지만, 그렇지 않을 수도 있음
- is_unique: label이 unique 한지 check

In [None]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

In [None]:
obj.index.is_unique

- data selection: 
    - 여러 entry를 가진 동일 label의 경우 series를 반환
    - label에 해단되는 entry가 하나만 있는 경우 scalar 반환

In [None]:
obj['a']

In [None]:
obj['c']

In [None]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

In [None]:
df.loc['b']

# 3. 기술통계(descriptive statistics) 요약 및 계산
- **기술통계**: 데이터를 수집하여 정리, 요약, 설명을 통하여 자료의 특성을 규명하는 절차와 체계
- **추론통계**: 한 모집단에서 추출한 표본에 대해 그의 모집단의 어떤 특성에 대해 결론을 추론하는 절차와 체계
- 기초통계와 확률이론 강의자료

In [None]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
df

In [None]:
# column 합계 (NaN은 연산의 대상에서 제외된다)
df.sum()

In [None]:
# 행의 합계: axis='columns' 혹은 axis=1
df.sum(axis=1)

In [None]:
# NaN 값이 있으면 skip (그냥 NaN으로 출력됨)
df.mean(axis=1, skipna=False)

![표5-7](img/table5-7.png)

In [None]:
# max값을 가진 index value를 반환
df.idxmax()

In [None]:
# 누적 합계
df.cumsum()

In [None]:
# data에 대한 여러 통계치를 생성, 요약하여 보여줌
df.describe()

In [None]:
# 수치가 아닌 데이터에 대한 describe
obj = Series(['a', 'a', 'b', 'c'] * 4)
print(obj)
obj.describe()

![표5-8](img/Table5-8.png)

## 3.1 상관계수(Correlation)와 공분산(covariance)

- pandas-datareader package 설치: Yahoo! Finanace 사이트에서 얻은 주식 가격/거래량 분석을 DataFrame으로 분석
- DOS command 창에서
    - **conda install pandas-datareader** 혹은
    - **pip install pandas-datareader**
![datareader설치](img/pandas-datareader설치.png)

In [None]:
import pandas_datareader.data as web

In [None]:
all_data = {ticker: web.get_data_yahoo(ticker)           # 약어 정의
    for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
            for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
            for ticker, data in all_data.items()})

In [None]:
# 처음 5개의 data, 시계열(time series) data
price.head()

In [None]:
# 해당 날짜에 거래된 양에 대한 data
volume.head()

#### pickle
- 객체의 형태를 그대로 유지하면서 파일에 저장하고 불러올 수 있게 하는 모듈
- jump2python 책 p. 256 참조
> - import pickle
> - pickle.dump
> - pickle.load

- pandas DataFrame pickle
> - to_pickle
> - read_pickle

In [None]:
#to save the dataframe, price and volume to pickle
price.to_pickle('yahoo_price.pkl')
volume.to_pickle('yahoo_volume.pkl')

In [None]:
price = pd.read_pickle('yahoo_price.pkl')
volume = pd.read_pickle('yahoo_volume.pkl')

In [None]:
price.head()

In [None]:
returns = price.pct_change()    # 이전 row data와의 percent changes(변화율) 계산(시계열 data)
returns.tail()  # data의 마지막 5개 출력

In [None]:
dir(returns)

In [None]:
# correlation of the overlapping, non-NA, aligned-by-index values in two Series. (상관관계)
returns['MSFT'].corr(returns['IBM'])

In [None]:
# corvariance of the overlapping, non-NA, aligned-by-index values in two Series.
returns['MSFT'].cov(returns['IBM'])

In [None]:
returns.MSFT.corr(returns.IBM)   

In [None]:
# 공분산
returns.MSFT.cov(returns.IBM)

In [None]:
# full correlation matrix as DataFrame (각 col과 row에 대한 matrix)
returns.corr()

In [None]:
# full corvariance matrix as DataFrame (각 col과 row에 대한 matrix)
returns.cov()

In [None]:
returns.corrwith(returns.IBM)  # 특정 column과의 쌍별 상관계수 계산

In [None]:
returns.corrwith(volume)   # DataFrame 간의 일치하는 dlfmadml column과의 상관계수 계산

## 3.2 Unique values, value counts, and membership

![표5-9](img/TAble5-9.png)

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

In [None]:
obj.value_counts()   # 값의 개수를 출력 (내림차순으로 정렬되어 출력됨)

In [None]:
pd.value_counts(obj.values, sort=False)   # 정렬하지 않음

In [None]:
# a vectorized set membership check
obj

In [None]:
mask=obj.isin(['b','c'])          # 하나라도 포함하고 있으면 True 반환
mask

In [None]:
obj[mask]               # masking 결과가 true인 element만 반환

In [None]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

- histogram(빈도 막대그래프) 계산

In [None]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})
data

In [None]:
# 결과의 row label: DataFrame에서 나타난 value
# 각 column 별로 row label의 출현빈도 출력
result = data.apply(pd.value_counts).fillna(0)
result