### pandas 자료 구조

<br><br>

> 참고 : 파이썬 라이브러리를 활용한 데이터 분석, 웨스 멕키니 , 한빛미디어

#### 1. Series

<br>

> 일련의 객체를 담을 수 있는 1차원의 배열 구조 

> 어떤 numpy 자료형이라도 담을 수 있다

> index이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다

> "고정 길이의 정렬된 사전형"

> index값에 데이터 값을 매핑하고 있으므로 dic형과 비슷하다

> 기본적 시리즈 생성 방식 => pd.Series(리스트) or pd.Series(딕셔너리)도 가능하다

In [2]:
import pandas as pd
import numpy as np

In [6]:
## series 객체 생성

obj = pd.Series([4,7,-5,3])
obj # index를 지정하지 않아도 자동으로 지정됨

0    4
1    7
2   -5
3    3
dtype: int64

In [9]:
## series 배열 , index 객체

print(obj.values)

print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [11]:
## index 지정하기 

obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])

obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [13]:
## index를 통한 값 접근과 대입

print(obj2['a'])

obj2['d'] = 6

obj2[['c','a','d']]

-5


c    3
a   -5
d    6
dtype: int64

In [14]:
print('b' in obj2)
print('e' in obj2)

True
False


In [16]:
# 파이썬 dict 객체로 부터 Series 객체 생성하기

sdata = {'Ohio' : 35000, 'Texas' : 71000, 'Oregon' : 16000, 'Utah' : 5000}
obj3 = pd.Series(sdata)
obj3 # 사전객체의 key값이 index로 지정됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [20]:
states = ['California','Ohio','Oregon','Texas']

obj4 = pd.Series(sdata,index=states) # 배열값과 색인값 각 지정하기
obj4 # California의 경우 배열값이 존재하지 않기 떄문에 nan("누락된")

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
#### 다르게 색인된 데이터에 대한 산술연산

obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [22]:
#### Series 배열값과 색인의 name 속성
obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [23]:
## 대입을 통한 색인값 변경
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

#### 2. DataFrame

<br>

> 색인(index)의 모양이 같은 Series 객체를 담고 있는 파이썬 사전

In [8]:
# df 생성

data = {'state' : ['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year' : [2000,2001,2002,2001,2002],
       'pop' : [1.5,1.7,3.6,2.4,2.9]}
frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [10]:
#  컬럼 순서 지정
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [12]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [16]:
frame2.loc['three',:'state']

year     2002
state    Ohio
Name: three, dtype: object