# Pandas 자료구조

## 1. Series
Series 는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다.
그리고 색인 index 라고 하는 배열의 데이터와 연관된 이름을 갖는다.
가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.

In [30]:
import numpy as np
import pandas as pd

In [31]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현을 살펴보면 왼쪽에는 색인을, 오른쪽에는 해당 색인의 값을 보여준다.

In [32]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

### 데이터를 지칭하는 색인을 지정하여 Series 객체 생성

In [33]:
obj2 = pd.Series([4,7,-5,3],index=["d","b","a","c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [34]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [35]:
obj2["a"]
obj2["d"] = 6

obj2[["c","a","d"]]

c    3
a   -5
d    6
dtype: int64

In [36]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [37]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [38]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

### Dictionary 와 Series 전환

In [39]:
sdata = {"Ohio":35000,"Texas":71000,"Oregon" : 16000,"Utah" : 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [40]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

### 2. DataFrame
DataFrame 은 표 같은 스프레드시트 형식의 자료구조이다.
여러개의 열이 있고 서로 다른 종류의 값을 담을 수 있다. DataFrame은 행과 열에 대한 색인을 가지며, 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 딕셔너리로 생각하면 편하다.
여러 가지 방법으로 DataFrame 객체를 생성할 수 있지만 가장 흔한 방법은 동일한 길이의 리스트에 담긴 딕셔너리를 이용하거나 numpy 배열을 이용하는 방법이다.


In [41]:
data = {"state" : ["Ohio","Ohio","Ohio","Nevada","Nevada","Nevada"],
        "year":[2000,2001,2002,2001,2002,2003],
        "pop" : [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


큰 DataFrame을 다룰때는 head 메서드를 이용해 처음 5개의 행만 출력할수 있다.

In [42]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


마찬 가지로 마지막 5개의 행을 출력할수도 있다.

In [43]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


columns을 원하는 순서대로 지정하면 해당 순서로 정렬된 DataFrame 객체가 생성된다.
(딕셔너리에 없는 값을 columns에 넘기면 결과에 결측치가 표시된다.)

In [44]:
frame2 = pd.DataFrame(data,columns=["state","pop","n","year"])
frame2

Unnamed: 0,state,pop,n,year
0,Ohio,1.5,,2000
1,Ohio,1.7,,2001
2,Ohio,3.6,,2002
3,Nevada,2.4,,2001
4,Nevada,2.9,,2002
5,Nevada,3.2,,2003


DataFrame의 열은 Series 처럼 딕셔너리 형식의 표기법이나 점 표기법으로 접근할 수 있다.

In [45]:
frame2.year #frame2["year"] 동일

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [46]:
frame2.iloc[2]

state    Ohio
pop       3.6
n         NaN
year     2002
Name: 2, dtype: object

List , numpy array 를 이용하여 대입 해보기

In [47]:
columns = ["이름","속성","색깔","순위"]
data_name = ["피카츄","라이츄","리자드","리자몽","꼬부기"]
data_property = ["전기","전기","불","불","물"]
data_color = ["노랑","노랑","빨강","빨강","파랑"]
data_rank = [5,2,6,1,4]

df = pd.DataFrame(columns=columns)
df["이름"] = data_name
df["속성"] = data_property
df["색깔"] = data_color
df["순위"] = data_rank

#### iloc이나 loc 같은 몇가지 속성을 사용해 위치나 이름으로 행에 접근

In [48]:
frame2.loc[1]

state    Ohio
pop       1.7
n         NaN
year     2001
Name: 1, dtype: object

In [49]:
frame2.iloc[2]

state    Ohio
pop       3.6
n         NaN
year     2002
Name: 2, dtype: object

#### state 열의 값이 Ohio인지 검사한 결과를 새로운 열에 넣어보자

In [50]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,state,pop,n,year,eastern
0,Ohio,1.5,,2000,True
1,Ohio,1.7,,2001,True
2,Ohio,3.6,,2002,True
3,Nevada,2.4,,2001,False
4,Nevada,2.9,,2002,False
5,Nevada,3.2,,2003,False


#### del 예약어를 이용해 Column 삭제하기

In [51]:
del frame2["eastern"]
frame2

Unnamed: 0,state,pop,n,year
0,Ohio,1.5,,2000
1,Ohio,1.7,,2001
2,Ohio,3.6,,2002
3,Nevada,2.4,,2001
4,Nevada,2.9,,2002
5,Nevada,3.2,,2003


In [55]:
frame[1:4]

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
