<a href="https://colab.research.google.com/github/aaingyunii/230620_numpy_continued/blob/main/230620_ch06_01_pandas_Series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas?
* 대부분의 데이터는 시계열(series)나 표(table)로 나타낼 수 있음
* 판다스(Pandas)는 이러한 데이터를 다루기 위한 시리즈(`Series`) 클래스와 데이터 프레임(`DataFrame`) 클래스를 제공

In [1]:
import pandas as pd

## 시리즈 (Series)
* 시리즈는 Numpy에서 제공하는 1차원 배열과 비슷
* 각 데이터의 의미(이름)를 표시하는 인덱스(index)를 붙일 수 있음
> 데이터 자체는 값(value)라고 함
> 시리즈 = 값(value) + 인덱스(index)


### 시리즈 생성
* 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있음
* 이 때 인덱스의 길이는 데이터의 길이와 같아야 함
* 인덱스의 값을 인덱스 라벨(label)이라고도 함
* 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

In [4]:
data = [9904312, 3448737, 2890451, 2466052]
index = ["서울", "부산", "인천", "대구"]
s = pd.Series(data, index = index)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
# s = pd.Series(
#     [9904312, 3448737, 2890451, 2466052], index = ["서울", "부산", "인천"]
# )
# # ValueError: Length of values (4) does not match length of index (3)

ValueError: ignored

* 만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 됨

In [7]:
pd.Series(range(10,14)), pd.Series(range(10,14),index = range(4))

(0    10
 1    11
 2    12
 3    13
 dtype: int64,
 0    10
 1    11
 2    12
 3    13
 dtype: int64)

* 시리즈의 인덱스는 `index` 속성으로 접근할 수 있음
* 시리즈의 값은 1차원 배열이며 `values` 속성으로 접근할 수 있음

In [17]:
s , s.index

(서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 dtype: int64,
 Index(['서울', '부산', '인천', '대구'], dtype='object'),
 pandas.core.indexes.base.Index)

In [16]:
s.values, type(s.values)

(array([9904312, 3448737, 2890451, 2466052]), numpy.ndarray)

* `name` 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있음
* `index.name` 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있음

In [25]:
s.name = "주요 도시 인구 수"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 주요 도시 인구 수, dtype: int64

### 시리즈 연산
* 넘파이 배열처럼 시리즈도 벡터화 연산을 할 수 있음
* 다만 **연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않음**

In [28]:
s + 100   # 인덱스에는 영향을 안미치고 , values 부분에 연산이 적용
s / 1_000_000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 주요 도시 인구 수, dtype: float64

### 시리즈 인덱싱 & 슬라이싱
* 시리즈는 Numpy 배열에서 가능한 인덱스 방법 이외에도 인덱스 라벨을 이용한 인덱싱도 할 수 있음
* 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능


In [29]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 주요 도시 인구 수, dtype: int64

In [32]:
s['부산'] , s[1]  # 인덱스 번호로 가능하지만, 인덱스 라벨을 딕셔너리의 'key'처럼 사용가능하여 인덱싱이 가능하다

(3448737, 3448737)

In [34]:
s[-1], s[3], s["대구"]

(2466052, 2466052, 2466052)

In [37]:
s[[0, 3, 1]]
s[[0, 3, 1, 0]]

도시
서울    9904312
대구    2466052
부산    3448737
서울    9904312
Name: 주요 도시 인구 수, dtype: int64

In [40]:
s[["서울","대구","부산"]]
s[["서울","대구","부산","부산","서울"]]

도시
서울    9904312
대구    2466052
부산    3448737
부산    3448737
서울    9904312
Name: 주요 도시 인구 수, dtype: int64

In [43]:
s > 5_000_000

도시
서울     True
부산    False
인천    False
대구    False
Name: 주요 도시 인구 수, dtype: bool

In [45]:
s[s > 5_000_000]

도시
서울    9904312
Name: 주요 도시 인구 수, dtype: int64

In [48]:
# 인구가 250만 초과, 500만 미만인 경우의 도시
s[(250e4 < s) & (s < 500e4)]    # (e숫자 => 10의 숫자승 곱하기)

도시
부산    3448737
인천    2890451
Name: 주요 도시 인구 수, dtype: int64

* 슬라이싱을 해도 부분적인 시리즈를 반환
* 이 때 *문자열 라벨을 이용한 슬라이싱*을 하는 경우에는 **숫자 인덱싱과 달리 콜론(:) 기호 뒤에 오는 값도 결과에 포함**되므로 주의


In [49]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 주요 도시 인구 수, dtype: int64

In [52]:
s[1:3]  # 두번째 (인덱스 1) 부터 세번째 (인덱스 2) 까지..(3 직전까지...)

도시
부산    3448737
인천    2890451
Name: 주요 도시 인구 수, dtype: int64

In [54]:
s["부산" : "대구"]  # 문자열을 통한 슬라이싱을 할 때
# 문자열은 끝점도 포함해서 슬라이싱 된다.

도시
부산    3448737
인천    2890451
대구    2466052
Name: 주요 도시 인구 수, dtype: int64

* 만약 라벨 값이 (변수로 표기할 수 있는) 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근할 수도 있음


In [56]:
import numpy as np

s0 = pd.Series(np.arange(3), index = list('abc'))
s0

a    0
b    1
c    2
dtype: int64

In [57]:
s0['a'], s0.a, s0['b'], s0.b

(0, 0, 1, 1)

In [62]:
# 근데 한국어도 됌
s.서울, s.부산, s.인천

(9904312, 3448737, 2890451)

### 시리즈와 딕셔너리 자료형
* 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 유사
* 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있음


In [63]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 주요 도시 인구 수, dtype: int64

In [66]:
"서울" in s, "서울" in s.index    # 시리즈 s 안에 "서울" 이라는 인덱스 라벨이 있나요??- -> True

(True, True)

In [68]:
"대전" in s, "대전" not in s.index

(False, True)

In [69]:
for k,v in s.items(): # items() -> 갖고 있는 키와 value를 튜플 쌍으로 가져온다.
    print(f"{k} = {v}")

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


* 딕셔너리 객체에서 시리즈를 만들 수도 있음


In [70]:
s2 = pd.Series({
    "서울": 9631482,
    "부산": 3393191,
    "인천": 2632035,
    "대전": 1490158
})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

* 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않음
* 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함

In [73]:
s2 = pd.Series({
    "서울": 9631482,
    "부산": 3393191,
    "인천": 2632035,
    "대전": 1490158
}, index= ["부산","인천","대전","서울"])  # index = 부분에 리스트로 원하는 순서의 인덱스를 직접 지정하면
s2                                        # 순서를 바꿀 수 있다.

부산    3393191
인천    2632035
대전    1490158
서울    9631482
dtype: int64

### 인덱스 기반 연산
* 두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구함

In [75]:
s, s2

(도시
 서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 주요 도시 인구 수, dtype: int64,
 부산    3393191
 인천    2632035
 대전    1490158
 서울    9631482
 dtype: int64)

In [79]:
ds = s - s2
ds    # 서로에게 없는 항목에 대한 연산은 NaN 값을 반환, Null 처리

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [81]:
s.values - s2.values
# 이 둘은 인덱스 라벨에 상관없이 값이 존재하는 위치에 따라 연산한 것.

array([ 6511121,   816702,  1400293, -7165430])

In [85]:
# NaN인 값을 구하고 싶다면 null 메소드를 사용
ds.isnull(), ds.notnull()

(대구     True
 대전     True
 부산    False
 서울    False
 인천    False
 dtype: bool,
 대구    False
 대전    False
 부산     True
 서울     True
 인천     True
 dtype: bool)

In [88]:
ds.notna()  # == ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [91]:
print(ds[ds.isnull()],"\n\n",ds[ds.notnull()])

대구   NaN
대전   NaN
dtype: float64 

 부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64


In [96]:
# 인구 증가율 구하기 (%)
rs = (s-s2) / s2 * 100
rs = rs[rs.notnull()]  # == rs = rs.dropna()
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제
* 인덱싱을 이용하여 딕셔너리처럼 데이터를 갱신(update) 혹은 추가(add)

In [97]:
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [98]:
rs['부산'] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [99]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [100]:
# 데이터 삭제시 del 명령 사용
del rs['서울']
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

### 🦆 연습문제 1
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
1. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [109]:
import numpy as np
import pandas as pd

In [113]:
# 다른 예시. s1, s2
str_index = lambda x: np.random.choice(list(map(chr,range(65, 75))), x, replace=False)

value_count = 6
s1 = pd.Series(np.random.randn(value_count), str_index(value_count))
s2 = pd.Series(np.random.randn(value_count), str_index(value_count))
print(s1)
print(s2)

A   -2.100932
G    0.318147
B    0.385237
I    0.530705
C   -0.232385
J    0.571789
dtype: float64
C    0.096233
F   -1.569898
J    0.061105
I    1.363422
B   -1.275971
E    0.816456
dtype: float64


In [114]:
p1 = pd.Series(range(5), index = ["A","B","C","D","E"])
p2 = pd.Series(range(5,10), index = ["B","C","D","E","X"])
p1,p2

(A    0
 B    1
 C    2
 D    3
 E    4
 dtype: int64,
 B    5
 C    6
 D    7
 E    8
 X    9
 dtype: int64)

In [115]:
p1 + p2, s1 + s2

(A     NaN
 B     6.0
 C     8.0
 D    10.0
 E    12.0
 X     NaN
 dtype: float64,
 A         NaN
 B   -0.890735
 C   -0.136152
 E         NaN
 F         NaN
 G         NaN
 I    1.894127
 J    0.632894
 dtype: float64)

In [116]:
p1 - p2, s1 - s2

(A    NaN
 B   -4.0
 C   -4.0
 D   -4.0
 E   -4.0
 X    NaN
 dtype: float64,
 A         NaN
 B    1.661208
 C   -0.328617
 E         NaN
 F         NaN
 G         NaN
 I   -0.832716
 J    0.510684
 dtype: float64)

In [117]:
p1 * p2, s1 * s2

(A     NaN
 B     5.0
 C    12.0
 D    21.0
 E    32.0
 X     NaN
 dtype: float64,
 A         NaN
 B   -0.491551
 C   -0.022363
 E         NaN
 F         NaN
 G         NaN
 I    0.723575
 J    0.034939
 dtype: float64)

In [118]:
p1 / p2, s1 / s2

(A         NaN
 B    0.200000
 C    0.333333
 D    0.428571
 E    0.500000
 X         NaN
 dtype: float64,
 A         NaN
 B   -0.301916
 C   -2.414817
 E         NaN
 F         NaN
 G         NaN
 I    0.389245
 J    9.357490
 dtype: float64)