In [2]:
import pandas as pd
import numpy as np

## 1. 시리즈(Series)
- 시리즈는 배열과 유사한 판다스의 데이터 구조
- 각 데이터를 의미를 표시하는 인덱스(indax)를 붙일 수 있다.
- 하나의 Series 내에서는 하나의 자료형만 가질 수 있는 homogeneous 타입의 container이다.
- 시리즈의 인덱스는 index 속성으로 접근할 수 있으며 시리즈의 값은 1차원 배열이며 values 속성으로 접근할 수 있다.
- name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있다.
- index.name 속성으로 시리즈의 인덱스에도 이름을 붙일 수 있다.

In [4]:
# Series() 생성자를 호출하고 객체를 생성할 때 포함할 값을 배열 인수로 전달
ser1 = pd.Series([3, 46, 2, -5, 7, 1])
ser1

0     3
1    46
2     2
3    -5
4     7
5     1
dtype: int64

In [7]:
# 생성자를 호출할 때 인덱스 옵션을 통해서 인덱스를 지정할 수 있다.
ser2 = pd.Series([3, -6, 2, -5, 7, 1], index=['u', 'v','w', 'x','y','z'])
ser2

u    3
v   -6
w    2
x   -5
y    7
z    1
dtype: int64

In [10]:
# index, value를 사용하여 출력
print(f'인덱스 : {ser2.index}')
print(f'값 : {ser2.values}')

인덱스 : Index(['u', 'v', 'w', 'x', 'y', 'z'], dtype='object')
값 : [ 3 -6  2 -5  7  1]


In [22]:
# key를 지정해서 개별 요소를 숫자 배열로 선택할 수 있다.
# 특정 인덱스 명의 값만 출력할 수 있고 범위를 지정해서 출력할 수도 있다.
# 또한, 인덱스 명을 받아 값을 출력할 수 있다.

print(f'key를 지정 : {ser2[2]}')
print(f'특정 인덱스명 : {ser2["x"]}')
print(f'인덱스 0~1 범위의 값 : {ser2[0:2]}')
print(f'인덱스명을 받아 값 출력 : {ser2[["y", "z"]]}')

key를 지정 : 2
특정 인덱스명 : -5
인덱스 0~1 범위의 값 : u    3
v   -6
dtype: int64
인덱스명을 받아 값 출력 : y    7
z    1
dtype: int64


In [23]:
# 키를 지정 : 세 번째 인덱스 값
ser2[2] = 100
ser2

u      3
v     -6
w    100
x     -5
y      7
z      1
dtype: int64

In [24]:
# 특정 인덱스명 이용
ser2['x'] = 3000
ser2

u       3
v      -6
w     100
x    3000
y       7
z       1
dtype: int64

### 1-1. 넘파이를 통해 시리즈 정의하기

In [28]:
arr1 = np.array([1, 3, 5, 7, 9])

ser_arr1 = pd.Series(arr1)
print(ser_arr1)

0    1
1    3
2    5
3    7
4    9
dtype: int32


In [41]:
# 인덱스명 수정하기
ser3 = pd.Series(arr1, index=['갑', '을', '병', '정', '무'])
print(ser3)

갑       1
을       3
병    1000
정       7
무       9
dtype: int32


### 1-2. 값 변경, 필터링, 연산자 및 수학적 함수 이용

In [42]:
# 넘파이 배열이나 원본 열에 포함된 값은 복사되지 않고 참조에 의해 전달된다.
# 즉, 넘파이 배열이 변경되면 시리즈 객체도 변경된다.
arr1[2] = 1000
print(ser_arr1)

0       1
1       3
2    1000
3       7
4       9
dtype: int32


In [43]:
# 조건을 통한 필터링
print(ser3[ser3>5])

병    1000
정       7
무       9
dtype: int32


In [44]:
# 연산자 및 수학적 함수를 적용
print(ser3/2)

갑      0.5
을      1.5
병    500.0
정      3.5
무      4.5
dtype: float64


### 1-3. unique() 함수와 value_conts() 함수
- Series에 포함된 모든 값을 알기 위해서는 unique() 함수를 사용
- unique() 함수와 유사한 value_conts() 함수는 고유한 값과 개수를 반환

In [46]:
ser3 = pd.Series([2, 0, 1, 0, 3, 2], index = ["빨", "노", "초", "초", "빨", "파"])
print(ser3)
print()

# 중복된 값을 제외한시리즈에 포함된 모든 값
print(ser3.unique())
print()

# 고유한 값과 개수를 반환
print(ser3.value_counts())

빨    2
노    0
초    1
초    0
빨    3
파    2
dtype: int64

[2 0 1 3]

0    2
2    2
1    1
3    1
dtype: int64


### 1-4. isin() 함수
- 주어진 값 목록을 평가하는데 이는 데이터 구조에 값이 포함되어 있는지 알려준다
- 반환된 부울 값은 직렬 또는 데이터 프레임 열의 데이터를 필터링 할 때 매우 유용

In [49]:
# 값이 포함되어 있는지 여부를 판별
# 1과 3의 값이 있는 인덱스에 True를 출력하고 나머지는 False를 출력
print(ser3.isin([1,3]))

빨    False
노    False
초     True
초    False
빨     True
파    False
dtype: bool


### 1-5. isnull(), notnull()
- NaN은 빈 필드나 숫자로 정의할 수 없는 것이 있음을 나타낸다.
- 일반적으로 이러한 NaN값은 문제가 되며 특히 데이터 분석 중에 어떤 방식으로든 관리해야 한다.

In [51]:
ser4 = pd.Series([1, 3, np.NaN, 7,9])
print(ser4)
print('-------------------------')
# NaN 값 존재 여부
print(ser4.isnull())
# NaN 값이 없으면 True
print(ser4.notnull())

0    1.0
1    3.0
2    NaN
3    7.0
4    9.0
dtype: float64
-------------------------
0    False
1    False
2     True
3    False
4    False
dtype: bool
0     True
1     True
2    False
3     True
4     True
dtype: bool


### 1-6. 딕셔너리(dict) 자료형
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 라벨 값을 키(Key)로 가지는 딕셔너리 자료형과 같은 형태이다.
- 딕셔너리 자료형에서 제공하는 in 연산을 사용가능하며, items 메서드를 사용하면 for 루프를 통해 각 원소의 키(Key)와 값(Value)을 접근할 수 있다.
- 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다.
- 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야한다.

In [53]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])

print("대구" in s)
print("전남" in s)

for key, value in s.items():
    print("%s : %d" % (key, value))

True
False
서울 : 9904312
부산 : 3448737
인천 : 2890451
대구 : 2466052


In [54]:
s = pd.Series({"국어":90, "영어":70, "수학":80})
print(s)
print(s.index) # Index(['국어', '영어', '수학'], dtype='object')
print(s.values)


국어    90
영어    70
수학    80
dtype: int64
Index(['국어', '영어', '수학'], dtype='object')
[90 70 80]


In [57]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 
2632035, "대전": 1490158})
print(s2)
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
                # 인덱스 순서에 따라 데이터가 나열된다.
                index=["부산", "서울", "인천", "대전"])
print(s2)

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64
부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64
