# Pandas 소개

앞서 살펴 보았듯이 pandas 모듈은 확률과 통계에 최적화된 파이썬 모듈이다.
특히, 데이터프레임(DataFrame) 자료형 클래스는 데이터 분석을 위한 다양한 기능을 제공한다.
데이터프레임 자료형의 기본 특성은 다음과 같다.

* 스프레드쉬트라고 불리는 엑셀 파일에 담긴 테이블을 모방하는 자료형이다.
* 엑셀에서 제공하는 다양한 기능을 기본 함수(메소드)로 제공한다.
* 인덱싱, 슬라이싱 기능은 넘파이 모듈의 2차원 어레이와 기본적으로 유사하게 작동한다.
* SQL이 데이터베이스를 다루는 기능과 유사한 기능 제공

#### pandas 기초 자료 안내

pandas의 기초적인 활용에 대해서는 아래 두 사이트를 언급하는 것으로 하고 넘어간다.
강의 시간에 일부 내용을 함께 확인할 예정이다.

* 먼저 아래 사이트의 내용 중 5.2절까지의 내용을 먼저 본다.
    
    [1] http://sinpong.tistory.com/category/Python%20for%20data%20analysis


* 이제 아래 사이트 내용을 한 번 훑어 본다.

    [2] http://ourcstory.tistory.com/145

    언급된 사이트의 소스코드는 아래 사이트를 참조하면 쉽게 얻을 수 있다.

    https://github.com/liganega/10-minutes-to-pandas/blob/master/notebooks/10-minutes-to-pandas.ipynb


* 다시 사이트 [1]의 내용 중 5.2절 이후를 살펴본다.


* 강의노트로 돌아와서 GongSu21 장 내용을 다시 한 번 살펴본다.

## Pandas 기초 자료형 클래스 소개

**주의:** 여기서는 사이트 [1]의 내용을 따라하며 pandas의 기초자료형의 기본적인 활용을 소개하고자 한다.

특히, pandas에서 제공하는 자료형 중에서 시리즈(Series)와 데이터프레임(DataFrame) 두 개의 자료형을 살펴본다.
두 자료형은 확률과 통계 분석을 위한 다양한 편의 기능을 제공한다.

먼저 pandas와 numpy 두 모듈을 임포트 한다.

In [1]:
import pandas as pd
import numpy as np

Series 자료형을 생성하는 Series 함수와 DataFrame 자료형을 생성하는 DataFrame 함수는 따로 임포트 하는 것이 사용하기에 편하다. 
그렇지 않으면 항상 pd.Series, pd.DataFrame 형식으로 호출해야 한다.

In [2]:
from pandas import Series, DataFrame

### Series 소개

In [3]:
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index([u'd', u'b', u'a', u'c'], dtype='object')

In [8]:
obj2['a']

-5

In [9]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [10]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [11]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [12]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [13]:
'b' in obj2

True

In [14]:
'e' in obj2

False

In [15]:
sdata = {'Ohio':35000, 'Texas': 71000, 'Oregon':16000, 'Utah':5000}
obj3  = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [16]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [17]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [18]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [19]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [20]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [21]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [22]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [23]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [24]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [25]:
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],\
        'year' : [2000, 2001, 2002, 2001, 2002],\
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}

In [26]:
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [27]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [28]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],\
                         index=['one','two','three','four','five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [29]:
frame2.columns

Index([u'year', u'state', u'pop', u'debt'], dtype='object')

In [30]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [31]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64