# 4.1 판다스 패키지의 소개 
---
대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다. 판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

## 1. 판다스 패키지 임포트 
판다스 패키지는 pd라는 별칭으로 임포트하는 것이 관례
```python
import pandas as pd
```

---
## 2. 시리즈 클래스 
시리즈 Series 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 데이터 자체는 값(value)라고 한다.  
`Label이라고 하는 편이 자연스러울 듯.. index는 배열에도 있잖아`
>시리즈 = 값(value) + 인덱스(index)


### 2.1 시리즈 생성
input : pd.Series(값 리스트, index = 인덱스 리스트)

In [1]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index = ['서울', '부산', '인천', '대구'])
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [2]:
# 인덱스를 지정하지 않고 시리즈를 만들면 default 인덱스는 0부터 시작하는 정수
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [4]:
# 시리즈의 인덱스는 index 속성으로 접근할 수 있다.
print(s.index)

# 시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있다.
print(s.values)

Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]


In [6]:
# name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다. 
s.name = "인구"
s
# index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 2.2 시리즈 연산
시리즈도 벡터화 연산을 할 수 있다. 다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다.

In [8]:
s / 1000000

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 2.3 시리즈 인덱싱
시리즈는 넘파이 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있다.

In [10]:
s[1] # 인덱스 방법
s['부산'] # 인덱스 라벨을 이용한 인덱싱

3448737

In [13]:
# 배열 인덱싱을 하면 부분적인 값을 가지는 시리즈 자료형을 반환한다. 
# 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.
# Usage : 시리즈 객체[ [선택할 인덱스 리스트] ]
s[[0, 3, 1]], s[['서울', '대구', '부산']]

(도시
 서울    9904312
 대구    2466052
 부산    3448737
 Name: 인구, dtype: int64,
 도시
 서울    9904312
 대구    2466052
 부산    3448737
 Name: 인구, dtype: int64)

In [15]:
# 인구가 250만 초과, 500만 미만인 경우
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
# 이 때 문자열 라벨을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 
# 콜론(:) 기호 뒤에 오는 값도 결과에 포함

s[1:3] # s[1] ~ s[2], (3 미포함)

s['부산':'대구'] # s['부산'] ~ s['대구'], (대구도 포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [18]:
# 만약 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 
# 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있다.

s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
s0

print(s0.a) # s0['a']
print(s0.b) # s0['b']

0
1


### 2.4 시리즈와 딕셔너리 자료형 
시리즈 객체는 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다.
- 딕셔너리 자료형에서 제공하는 in 연산도 가능
- items 메서드를 사용하면 for 루프를 통해 각 원소의 key와 value에 접근 가능

In [19]:
# 인덱스 라벨 중에 이 값이 있는지 조회
'서울' in s

True

In [38]:
for k, v in s.items():
    print(f'{k:>3} = {v:<10,}')

 서울 = 9,904,312 
 부산 = 3,448,737 
 인천 = 2,890,451 
 대구 = 2,466,052 


In [39]:
# 딕셔너리 객체를 input으로 넣어서 np.Series 생성
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [40]:
# 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 
# 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 한다.
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
              index = ['부산', '서울', '인천', '대전'])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 2.5 인덱스 기반 연산
2015년도와 2010년의 인구 증가를 계산해 보자.
두 개의 시리즈의 차이를 구하면 된다.
두 시리즈에 대해 연산을 하는 경우 **인덱스가 같은 데이터에 대해서만** 차이를 구한다.

In [54]:
# 또한 NaN 값이 float 자료형에서만 가능하므로 
# 다른 계산 결과도 모두 float 자료형이 되었다는 점에 주의한다.
ds = s - s2
print('{}'.format(ds))

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64


In [55]:
# 인덱스가 달라 이상한 값 출력됨
s.values - s2.values

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [56]:
# NaN인 값은 제외하고 구하는 방법 notnull()메서드
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [57]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [58]:
# 인구 증가율(%) 계산
rs = (ds) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 2.6 데이터의 갱신, 추가, 삭제
인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add)할 수 있다.

In [61]:
rs['부산'] = 1.63 # update

rs['eorn'] = 1.41 # add

del rs['eorn'] # delete using del command like dictionary
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [69]:
# 연습 문제 4.1.1
# (1) 임의로 두 개의 시리즈 객체를 만든다. 
# 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

s01 = pd.Series(range(3), index = ['영', '일', '이'])
s02 = pd.Series(range(2, 4), index = ['이','삼'])
s03 = s01 - s02
s03[pd.notnull(s03)]

# result, 인덱스가 같은 데이터 끼리 사칙 연산이 가능하다. 나머지는 NaN

이    0.0
dtype: float64

---
## 3. 데이터프레임 클래스

### 3.1 데이터프레임 생성

### 3.2 열 데이터의 갱신, 추가, 삭제 

### 3.3 열 인덱싱 

### 3.4 행 인덱싱 

### 3.5 개별 데이터 인덱싱 