In [2]:
import pandas as pd
import numpy as np

## Series 객체를 담을 수 있는 1차원 배열 같은 자료구조
#### 색인이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.
#### Series의 배열과 색인 객체는 각각 values와 index속성을 통해 얻을 수 있다.
#### 불리언 배열을 사용해서 값을 걸러내거나 산술곱셈을 수행하거나 또는 수학 함수를 적용하는 등, Numpy배열 연산을 수행해도 색인-값 연결 유지.

In [3]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [5]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


In [6]:
print(obj2['a'])
obj2['d']=6
print(obj2[['c','a','d']])

-5
c    3
a   -5
d    6
dtype: int64


In [7]:
print(obj2[obj2>0])

d    6
b    7
c    3
dtype: int64


In [8]:
print(obj2*2)
print(np.exp(obj2))

d    12
b    14
a   -10
c     6
dtype: int64
d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [9]:
print('b' in obj2)
print('e' in obj2)

True
False


In [10]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
print(obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [11]:
states = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 누락데이터를 찾을 때
#### isnull()  /  notnull()

In [12]:
print(pd.isnull(obj4))
print("---------------")
print(pd.notnull(obj4))
print("---------------")
print(obj4.isnull())
print("---------------")

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
---------------
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool
---------------
California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
---------------


In [13]:
print(obj3)
print(obj4)
print(obj3+obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [14]:
obj4.name = 'population'
obj4.index.name='state'
print(obj4)

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


In [15]:
print(obj)
obj.index = ['Bob','Steve','Jeff','Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


#### DataFrame - 표 같은 스프레드시트 형식의 자료구조이고 각 컬럼은 서로다른 종류의 값을 담을 수 있다
#### DataFrame은 row와 column에 대한 색인을 가지고 있는데, 색인의 모양이 같은 series객체를 담고 있는 파이썬 사전으로 생각하면 ok!


In [16]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)

In [17]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [18]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [19]:
# 원하는 순서대로 columns를 지정하면 원하는 순서를 가진 DataFrame이 생성
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [20]:
# series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장
frame2 = pd.DataFrame(data,columns = ['year','state','pop','debt'],
                            index = ['one','two','three','four','five','six'])
print(frame2)
print(frame2.columns)

year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
Index(['year', 'state', 'pop', 'debt'], dtype='object')


In [21]:
print(frame2['state'])
print("---------------")
print(frame2.year)
print("---------------")
print(frame2.loc['three'])
print("---------------")
frame2['debt']=16.5
print(frame2)
print("---------------")
frame2['debt'] = np.arange(6.)
print(frame2)
print("---------------")

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
---------------
one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64
---------------
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object
---------------
       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5
---------------
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0
---------------


In [22]:
# 컬럼에 스칼라값이나 배열의 값 대입이 가능.
# 리스트나 배열을 컬럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 동일해야 한다.
val = pd.Series([-1.2, -1.5, -1.7], index = ['two','four','five'])
frame2['debt']=val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [23]:
frame2['eastern']=frame2.state=='Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [24]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [25]:
pop = {'Nevada':{2001:2.4, 2002:2.9},
        'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}

In [26]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [27]:
frame3.T #numpy 배열과 유사한 문법으로 데이터를 전치할 수 있다.

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [28]:
pd.DataFrame(pop, index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [29]:
pdata = {'Ohio':frame3['Ohio'][:-1],
         'Nevada':frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [30]:
frame3.index.name = 'year';frame3.columns.name='state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [31]:
print(frame3.values) # series와 유사하게 value속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.
print("---------------")
print(frame2.values)

[[2.4 1.7]
 [2.9 3.6]
 [nan 1.5]]
---------------
[[2000 'Ohio' 1.5 nan]
 [2001 'Ohio' 1.7 -1.2]
 [2002 'Ohio' 3.6 nan]
 [2001 'Nevada' 2.4 -1.5]
 [2002 'Nevada' 2.9 -1.7]
 [2003 'Nevada' 3.2 nan]]


In [32]:
obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
print(index)
print(index[1:])

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')


In [33]:
labels = pd.Index(np.arange(3))
print(labels)
obj2 = pd.Series([1.5, -2.5, 0], index = labels)
print(obj2)

Int64Index([0, 1, 2], dtype='int64')
0    1.5
1   -2.5
2    0.0
dtype: float64


In [34]:
print(frame3)
print("---------------")
print(frame3.columns)

state  Nevada  Ohio
year               
2001      2.4   1.7
2002      2.9   3.6
2000      NaN   1.5
---------------
Index(['Nevada', 'Ohio'], dtype='object', name='state')


In [35]:
print('Ohio' in frame3.columns)
print(2003 in frame3.index)

True
False


In [36]:
# pandas의 index는 중복되는 값을 허용한다.
dup_labels = pd.Index(['foo','foo','bar','bar'])
print(dup_labels)

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')
