## CHAPTER 5
# Getting Started with pandas
---

## pandas 소개

- pandas 는 **DB 테이블 형태**의 데이터를 다루기 위해 주로 사용된다.
- pandas 의 자료는 **칼럼명**과 **인덱스명**(레코드명)을 가질 수 있으며, 한 자료 안에 **여러가지 데이터타입**을 가질 수 있다.
- numpy 가 리스트 기능의 확장이라면, pandas 는 **딕셔너리 기능의 확장**이다.
- pandas 의 중요한 두가지 구조체는 **Series** 와 **DataFrame** 이다.
- pandas 의 주요 용도
    1. 복잡한 형태의 데이터 파일을 읽어온다.
    2. 복잡한 형태의 데이터를 정돈한다.
    3. 두개의 데이터를 합치고, 그룹 연산을 수행한다.
    4. numpy 어레이 생성을 위해, 데이터를 전처리한다.

## Series

In [3]:
%pylab inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

Populating the interactive namespace from numpy and matplotlib


In [4]:
s1 = pd.Series([1,'a',2,'b'])
s1

0    1
1    a
2    2
3    b
dtype: object

In [2]:
s = pd.Series([1,2,3,4])
display(s, s.values, s.index, s.count(), s.name)

0    1
1    2
2    3
3    4
dtype: int64

array([1, 2, 3, 4], dtype=int64)

RangeIndex(start=0, stop=4, step=1)

4

None

In [12]:
s=pd.Series([32,11,28,76], index=list('abab'))

s['a']

a    32
a    28
dtype: int64

In [13]:
s=pd.Series([32,11,28,76], index=list('abcd'))
display(s,s['a'],s[1],s[-1],s[:2],s[::-1],s[[1,0,3,2]])

a    32
b    11
c    28
d    76
dtype: int64

32

11

76

a    32
b    11
dtype: int64

d    76
c    28
b    11
a    32
dtype: int64

b    11
a    32
d    76
c    28
dtype: int64

In [15]:
display(s['a':'c'], s[['a','c']])

a    32
b    11
c    28
dtype: int64

a    32
c    28
dtype: int64

In [4]:
display(s*2, np.sin(s))
display(s>30)
s[s>30]

a     64
b     22
c     56
d    152
dtype: int64

a    0.551427
b   -0.999990
c    0.270906
d    0.566108
dtype: float64

a     True
b    False
c    False
d     True
dtype: bool

a    32
d    76
dtype: int64

In [5]:
'b' in s, 'e' in s

(True, False)

In [6]:
s = pd.Series([1,2,3,4])
print(s)

s.name='s'
s.index.name='i'
print(s)

0    1
1    2
2    3
3    4
dtype: int64
i
0    1
1    2
2    3
3    4
Name: s, dtype: int64


In [15]:
s = pd.Series([1,2], name='aaa')

0    1
1    2
Name: aaa, dtype: int64

In [7]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
s = pd.Series(sdata)
display(s, s.index, s.values)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Index(['Ohio', 'Texas', 'Oregon', 'Utah'], dtype='object')

array([35000, 71000, 16000,  5000], dtype=int64)

In [8]:
s = pd.Series(sdata, index=['California','Ohio','Oregon','Texas'])
display(s,s[0],s.isnull(),s.notnull(),pd.isnull(s))

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

nan

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [9]:
s.name = 'population'
s.index.name = 'state'
display(s, s.shape)

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

(4,)

In [10]:
s1 = pd.Series(sdata)
s2 = pd.Series(sdata, index=['California','Ohio','Oregon','Texas'])

display(s1+s2)

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [11]:
d = pd.DataFrame(s)
display(d, d.shape)
display(d.index.name, d.index, d.columns)

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


(4, 1)

'state'

Index(['California', 'Ohio', 'Oregon', 'Texas'], dtype='object', name='state')

Index(['population'], dtype='object')