### pandas 자료 구조

<br><br>

> 참고 : 파이썬 라이브러리를 활용한 데이터 분석, 웨스 멕키니 , 한빛미디어

#### 1. Series

<br>

> 일련의 객체를 담을 수 있는 1차원의 배열 구조 

> 어떤 numpy 자료형이라도 담을 수 있다

> index이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다

> "고정 길이의 정렬된 사전형"

> index값에 데이터 값을 매핑하고 있으므로 dic형과 비슷하다

> 기본적 시리즈 생성 방식 => pd.Series(리스트) or pd.Series(딕셔너리)도 가능하다

In [1]:
import pandas as pd
import numpy as np

In [2]:
## series 객체 생성

obj = pd.Series([4,7,-5,3])
obj # index를 지정하지 않아도 자동으로 지정됨

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
## series 배열 , index 객체

print(obj.values)

print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [4]:
## index 지정하기 

obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])

obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [5]:
## index를 통한 값 접근과 대입

print(obj2['a'])

obj2['d'] = 6

obj2[['c','a','d']]

-5


c    3
a   -5
d    6
dtype: int64

In [6]:
print('b' in obj2)
print('e' in obj2)

True
False


In [7]:
# 파이썬 dict 객체로 부터 Series 객체 생성하기

sdata = {'Ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
obj3 # 사전객체의 key값이 index로 지정됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [8]:
states = ['California','Ohio','Oregon','Texas']

obj4 = pd.Series(sdata,index=states) # 배열값과 색인값 각 지정하기
obj4 # California의 경우 배열값이 존재하지 않기 떄문에 nan("누락된")

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [9]:
#### 다르게 색인된 데이터에 대한 산술연산

obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [10]:
#### Series 배열값과 색인의 name 속성
obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [11]:
## 대입을 통한 색인값 변경
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

#### 2. DataFrame

<br>

> 색인(index)의 모양이 같은 Series 객체를 담고 있는 파이썬 사전

In [12]:
# df 생성

# 같은 길이의 리스트에 담긴 dict 형태를 이용
data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year' : [2000,2001,2002,2001,2002],
       'pop' : [1.5,1.7,3.6,2.4,2.9]}
frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [10]:
#  컬럼 순서 지정
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [15]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [28]:
frame2.loc['three' , :'state'] # loc [ 행범위 , 컬럼범위]

year     2002
state    Ohio
Name: three, dtype: object

In [30]:
#  새로운 column + 값 대입

frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [34]:
#  numpy 이용 값 변경


frame2.debt = np.arange(0,5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


#### numpy (*Series) 이용하여 DataFrame 에 값을 대입

* 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다 <br>
* Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다(nan)

In [37]:
val = pd.Series([-1,-1.5,-1.7], index=['two','four','five'])

frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.0
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [40]:
#  특정값 추출하여 새로운 column 생성

frame2['eastern'] = frame2.state == 'Ohio'

frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.0,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


#### 중첩된 dict 를 이용한 DataFrame 생성 

* 바깥에 있는 사전의 key 값이 colum이 되고 안에 있는 key는 index가 된다 <br>
* index를 직접 지정한다면 직접 지정한 index로 DataFrame이 생성된다

In [41]:
pop = {'Nevada' : {2001:2.4, 2002:2.9},
      'Ohio' : {2000:1.5, 2001:1.7, 2002:3.6}}

In [43]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [45]:
#  column index 뒤집기

frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [47]:
#  .values => DataFrame에 저장된 데이터를 2차원 배열로 반환

frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

### DataFrame 생성자에서 사용 가능한 입력 데이터

<br>

> 2차원 ndarray

> 배열,리스트,튜플의 사전

> NumPy 구조화 배열

> Series 사전

> 중첩 사전

> 사전이나 Series의 리스트

> 리스트나 튜플의 리스트

> 다른 DataFrame

> Numpy MaskedArray

### Index

* index Method

> append : 추가적인 index 객체를 덧붙여 새로운 색인 반환

> diff : 색인의 차집합 반환

> intersection : 색인의 교집합 반환

> union : 색인의 합집합 반환

> isin : 넘겨받은 해당값이 해당 색인 위치에 존재하는지 알려주는 boolean 배열 반환

> delete : i 위치의 색인이 삭제된 새로운 색인 반환

> drop : 넘겨받은 값이 삭제된 새로운 색인을 반환

> insert : i 위치에 새로운 값이 추가된 새로운 색인 반환

> unique : 색인에서 중복되는 요소를 제거하고 유일한 값만을 반환

In [50]:
# index boolean
2001 in frame3.index

True

In [57]:
frame3.index.unique()

Int64Index([2000, 2001, 2002], dtype='int64')

In [59]:
frame3.index.delete(0)

Int64Index([2001, 2002], dtype='int64')

#### reindex ("재색인")



In [61]:
obj = pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])

obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [65]:
## reindex
## 단, index에 해당하는 값은 재색인 전의 값을 그대로 갖고 이동
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

* ffill / bfill을 이용한 reindex

In [67]:
# ffill => 앞의 값으로 채워 넣는다

obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])

obj3.reindex(range(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [70]:
# bfill => 뒤의 값으로 채워 넣는다

obj3 = pd.Series(['blue','purple','yellow'], index=[1,3,5])

obj3.reindex(range(6),method='bfill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [84]:
# reindex는 row뿐만 아니라 column도 재색인 가능하다

state = ['Texas','Utah','California']

frame.reindex(columns=state) #fill_value='1' => 비어있는 값을 채우기 위한 값 지정 가능

Unnamed: 0,Texas,Utah,California
0,,,
1,,,
2,,,
3,,,
4,,,


#### 하나의 row / column 삭제

In [76]:
obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])

new_obj=obj.drop('c')

new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [78]:
#  여러개 시 list로
new_obj=obj.drop(['a','e'])
new_obj

b    1.0
c    2.0
d    3.0
dtype: float64

In [80]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [83]:
# column 삭제
frame3.drop('Nevada',axis=1)

Unnamed: 0,Ohio
2000,1.5
2001,1.7
2002,3.6
