## Pandas 패키지

데이터분석시 가장 많이 쓰이는 패키지 중의 하나이다. 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 잇는데, Pandas 패키지에서는 이러한 표 데이터를 다르기 위한 시리즈 클래스와 데이터 프레임 클래스를 제공한다

### 시리즈 클래스

시리즈 클래스는 Numpy 에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 index를 붙일 수 있다


In [35]:
import pandas as pd
import numpy as np

In [40]:
s = pd.Series([0,1,2,3,4],index=["서울","부산","인천","대구","제주"])
s

서울    0
부산    1
인천    2
대구    3
제주    4
dtype: int64

In [41]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

시리즈 인덱스는 index 속성으로 접근 가능하다. 시리즈 값은 사실 numpy 1차원 배열이며 values 속성으로 접근 가능하다.

In [42]:
s.index

Index(['서울', '부산', '인천', '대구', '제주'], dtype='object')

In [43]:
s.values

array([0, 1, 2, 3, 4])

시리즈 데이터는 name 속성을 이용하여 자체적인 이름을 붙일 수 있으며 index.name 속성으로 인덱스에도 이름을 붙일 수 있다.

In [46]:
s.name = "도시의 인구입니다. 짜잔"
s.index.name = "도시"
s

도시
서울    0
부산    1
인천    2
대구    3
제주    4
Name: 도시의 인구입니다. 짜잔, dtype: int64

## 시리즈 연산

시리즈는 numpy 배열과 동일하게 백터화 연산을 할 수 있다. 다만 연산을 해도 인덱스 값은 변하지 않는다.

In [7]:
s/100000

도시
서울    0.00000
부산    0.00001
인천    0.00002
대구    0.00003
제주    0.00004
Name: 인구, dtype: float64

## 시리즈 인덱싱

numpy배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다. 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱도 가능하다.

In [8]:
s[1], s["부산"]

(1, 1)

In [9]:
s[[0,3,1]]

도시
서울    0
대구    3
부산    1
Name: 인구, dtype: int64

In [47]:
s[['서울','대구','부산']]

도시
서울    0
대구    3
부산    1
Name: 도시의 인구입니다. 짜잔, dtype: int64

## 시리즈와 사전 자료형
시리즈 객체는 라벨 값에 의해 인덱싱을 가능하므로 실질적으로 라벨값을 키(key)로 가지는 사전(dic) 자료형과 같다고 볼 수 있다.<br/>

<br/>따라서 사전 자료형에서 제공하는 in, iteritmes 매서드를 사용하면 for 루프를 통해 각 원소의 키와 값에도 접근 가능하다

In [48]:
"서울" in s

True

In [49]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, 
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

사전의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야한다.

In [50]:
s3 = pd.Series({'서울' : 1, '부산' : 2, '인천' : 3}, index = ['인천','서울','부산'])
s3

인천    3
서울    1
부산    2
dtype: int64

## 인덱스 기반 연산

두 시리즈에 대하여 연산을 하는 경우, 인덱스가 같은 데이터끼리 알아서 차이를 구해준다. 계산이 불가능한 경우 NaN(Not a Number)이라는 값을 가진다.

In [51]:
s

도시
서울    0
부산    1
인천    2
대구    3
제주    4
Name: 도시의 인구입니다. 짜잔, dtype: int64

In [52]:
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [14]:
ds = s - s2
ds

대구          NaN
대전          NaN
부산   -3393190.0
서울   -9631482.0
인천   -2632033.0
제주          NaN
dtype: float64

In [54]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
제주    False
dtype: bool

In [16]:
ds[ds.notnull()]

부산   -3393190.0
서울   -9631482.0
인천   -2632033.0
dtype: float64

In [17]:
rs = (s-s2)/s2 *100
rs = rs[rs.notnull()]
rs

부산    -99.999971
서울   -100.000000
인천    -99.999924
dtype: float64

In [18]:
rs["부산"] = 1.63
rs

부산      1.630000
서울   -100.000000
인천    -99.999924
dtype: float64

In [19]:
rs["대구"] = 1.41
rs

부산      1.630000
서울   -100.000000
인천    -99.999924
대구      1.410000
dtype: float64

In [20]:
del rs["대구"]
rs

부산      1.630000
서울   -100.000000
인천    -99.999924
dtype: float64

## 데이터프레임 클레스

시리즈가 1차원 백터 데이터에 행방향 인덱스(row index)를 붙인것 이라면 데이터 프레임 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 행방향 인덱스 (row index)뿐 아니라 열방향 인덱스 (column index)도 붙일 수 있다.
<br/>
<br/>
데이터 프레임은 리스트나 일차원 배열값을 가지고 열방향 인덱스로는 키값을 가지는 딕셔너리 데이터를 DataFrame클래스 생성자에 넣는다. 이 떄 열방향 인덱스는 columns 인수에 행방향 인덱스는 index인수에 넣는다





In [21]:
data = {
    "2015": [1,2,3,4,5],
    "2016": [3,2,5,1,2],
    "2017": [1,4,12,2,1],
    "지역" : ["수도권","충청","경북","대구","제주"]
}
columns = ["지역","2015","2016","2017"]
index = ["가","나","다","라","마"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2016,2017
가,수도권,1,3,1
나,충청,2,2,4
다,경북,3,5,12
라,대구,4,1,2
마,제주,5,2,1


데이터 프레임은 2차원 배열 데이터를 기반으로하지만, 사실 동일 인덱스를 가지는 열 시리즈를 사전으로 묶어놓은 것이다.
<br/>
<br/>
데이터에 접근하려면 values 속성을 사용한다. 열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근한다.

In [22]:
df.values

array([['수도권', 1, 3, 1],
       ['충청', 2, 2, 4],
       ['경북', 3, 5, 12],
       ['대구', 4, 1, 2],
       ['제주', 5, 2, 1]], dtype=object)

In [23]:
df.columns

Index(['지역', '2015', '2016', '2017'], dtype='object')

In [24]:
df.columns.name = "특성"
df

특성,지역,2015,2016,2017
가,수도권,1,3,1
나,충청,2,2,4
다,경북,3,5,12
라,대구,4,1,2
마,제주,5,2,1


## 데이터프레임 인덱싱 & 슬라이싱

데이터 프레임 인덱싱을 할 떄도 열라벨을 키값으로 생각하여 인덱싱을 할 수 있다. 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 변환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 변환된다.
<br/>
<br/>
행 단위 인덱싱을 하고자 하면 항상 슬라이싱을 해야한다. 시리즈와 같이 라벨 슬라이싱도 가능하다.

In [25]:
df["지역"]

가    수도권
나     충청
다     경북
라     대구
마     제주
Name: 지역, dtype: object

In [26]:
df["2005-2010 증가율"] = ((df["2015"] - df["2017"]) / df["2015"] * 100).round(2)
df

특성,지역,2015,2016,2017,2005-2010 증가율
가,수도권,1,3,1,0.0
나,충청,2,2,4,-100.0
다,경북,3,5,12,-300.0
라,대구,4,1,2,50.0
마,제주,5,2,1,80.0


In [27]:
df[:1]

특성,지역,2015,2016,2017,2005-2010 증가율
가,수도권,1,3,1,0.0


In [28]:
df[1:]

특성,지역,2015,2016,2017,2005-2010 증가율
나,충청,2,2,4,-100.0
다,경북,3,5,12,-300.0
라,대구,4,1,2,50.0
마,제주,5,2,1,80.0


In [29]:
df[1:3]

특성,지역,2015,2016,2017,2005-2010 증가율
나,충청,2,2,4,-100.0
다,경북,3,5,12,-300.0


In [30]:
df[0:3]

특성,지역,2015,2016,2017,2005-2010 증가율
가,수도권,1,3,1,0.0
나,충청,2,2,4,-100.0
다,경북,3,5,12,-300.0


In [31]:
df["가":"다"]

특성,지역,2015,2016,2017,2005-2010 증가율
가,수도권,1,3,1,0.0
나,충청,2,2,4,-100.0
다,경북,3,5,12,-300.0
