## 1. 판다스(Pandas)
### 0) 필요패키지 임포트

In [8]:
import pandas as pd
import numpy as np

### 1) 시리즈(Series)
- 1차원 배열의 값(values) + 대응되는 인덱스(index)
- 인덱스의 길이 = 데이터의 길이
- 인덱스로 사용 가능한 값 : 문자열, 날짜, 시간, 정수 등


#### 1-1) 시리즈 생성

In [28]:
# 값(values)과 인덱스(index)를 설정하여 시리즈 만들기
s = pd.Series([9904312, 3448737, 2890451, 2466052],
        index=["서울", "부산", "인천", "대구"])
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [16]:
# 값(values)만 설정하여 시리즈 만들기
sv = pd.Series([9904312, 3448737, 2890451, 2466052])

#자동으로 index가 설정됨(0부터 시작하는 정수로)
print(sv)

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


In [30]:
# 시리즈 s의 인덱스만 출력
print(s.index)

# dtype='object'는 보통 인덱스가 문자열일 때 나타납니다. 문자열은 object 데이터 타입으로 저장됩니다.

Index(['서울', '부산', '인천', '대구'], dtype='object')


In [22]:
# 시리즈 s의 값만 출력
print(s.values)

[9904312 3448737 2890451 2466052]


In [38]:
# 10부터 13(14-1)까지 1씩 증가하는 수들을 값으로 갖는 Series를 생성한다.
# 인덱스를 설정하지 않았으므로 자동으로 0부터 설정됨.

print(pd.Series(range(10, 14)))

0    10
1    11
2    12
3    13
dtype: int64


In [36]:
# name 속성을 이용하여 시리즈 데이터에 이름 붙임
# index.name 속성으로 시리즈의 인덱스에도 이름 붙임

s.name = "인구"
s.index.name = "도시"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


#### 1-2) 시리즈 연산
- 시리즈는 백터화 연산이 가능
- 연산은 시리즈 값에만 적용할 수 있고 인덱스 값은 변하지 않음

In [45]:
print(s)
print()

# s에 대입한 것이 아니므로 s의 값이 변경된 것은 아니다
print(s / 1000000)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


#### 1-3) 시리즈 인덱싱
- 인덱스 라벨을 이용한 인덱싱 가능
- 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱도 가능

In [53]:
# 시리즈 데이터를 인덱싱하면 값이 나옴
s[2], s["부산"]

#s[2]를 하면 아래와 같은 오류 메세지가 나온다
# 위치에 의한 접근을 하기 위해선 ser.iloc[pos]를 사용하는 것을 권장한다.

# 위치에 의한 접근 : 이데이터의 위치(인덱스의 숫자적 위치)를 이용하여 접근
# 레이블 기반 접근 : 인덱스 레이블("문자열 또는 다른 데이터 타입)을 이용하여 접근

"""
C:\Users\Public\Documents\ESTsoft\CreatorTemp\ipykernel_12696\4005314761.py:2:
FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version,
integer keys will always be treated as labels (consistent with DataFrame behavior).
To access a value by position, use `ser.iloc[pos]`
s[2], s["부산"]
"""

  s[2], s["부산"]


(2890451, 3448737)

In [55]:
s[3], s["대구"]

  s[3], s["대구"]


(2466052, 2466052)

In [63]:
#자료 순서 바꾸기
s[[0,3,1]]

# 시리즈의 요소를 특정 순서로 재배열하는 방법입니다. 
# 이 방식은 시리즈의 요소를 인덱스의 위치를 기준으로 재배열할 뿐, 인덱스 자체를 삭제하거나 변경하지는 X

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64


  print(s[[0,3,1]])


In [65]:
s[3]

2466052


  print(s[3])


In [69]:
s[(250e4 < s) & (s < 500e4)]
# 조건에 만족하는 경우에만 출력
# 인구가 250만 초과, 500만 미만인 경우만 출력

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [81]:
print(s[1:2])
# 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

print()

print(s["부산":"인천"])
# 부산에서 대구까지 (대구도 포함)

# 보통의 슬라이싱은 콜론(:) 뒤에 오는 값은 포함하지 않지만,
# 시리얼에서의 인덱싱은 이 값을 포함한다

도시
부산    3448737
Name: 인구, dtype: int64

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [87]:
# 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근 가능

s0 = pd.Series(range(3), index=["a", "b", "c"])
print(s0)
print()

print('인덱스 a :', s0.a)
print()

print('인덱스 c :', s0.c)

a    0
b    1
c    2
dtype: int64

인덱스 a : 0

인덱스 c : 2


#### 1-4) 시리즈와 딕셔너리 자료형
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능
- 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형 사용 가능
- 딕셔너리 자료형에서 제공하는 연산 및 함수 사용가능
    - in 연산, for 루프를 통한 각 원소의 키(key)와 값(value)에 접근

In [94]:
print("서울" in s)  # 인덱스 라벨 중에 서울이 있는가
print("대전" in s)  # 인덱스 라벨 중에 대전이 있는가

True
False


In [96]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [98]:
#딕셔너리 객체에서 시리즈 만들기
s2 = pd.Series({"서울": 9631482, "부산": 3393191,
                "인천": 2632035, "대전": 1490158})
print(s2)

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64


In [102]:
# 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않음
# 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함

s2 = pd.Series({"서울": 9631482, "부산": 3393191,
                "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

#### 1-5) 인덱스 기반 연산
- 2015년도와 2010년의 인구 증가 계산

In [106]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
        index=["서울", "부산", "인천", "대구"])

s2 = pd.Series({"서울": 9631482, "부산": 3393191,
                "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])

#인덱스가 같은 데이터에 대해서만 계산 가능
ds = s - s2
print(ds)

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64


In [108]:
# null 값이 아닌 것 찾기
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [110]:
#값이 있는 것만 출력
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [112]:
#증가율 계산
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

#### 1-6) 데이터의 갱신, 추가, 삭제
-- 인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add) 가능

In [115]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [117]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [119]:
# 데이터 삭제
del rs["대구"]
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

### #1 연습문제 

1) 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
2) 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [127]:
t1 = pd.Series([41, 5, 88, 99], index = ["사과", "바나나", "오렌지", "딸기"])
t2 = pd.Series([78,32, 35,81], index = ["사과", "바나나", "자몽", "망고"])

print(t1)
print()

print(t2)

사과     41
바나나     5
오렌지    88
딸기     99
dtype: int64

사과     78
바나나    32
자몽     35
망고     81
dtype: int64


In [129]:
dt = t1 - t2
print(dt)
print()

print(dt[dt.notnull()])

딸기      NaN
망고      NaN
바나나   -27.0
사과    -37.0
오렌지     NaN
자몽      NaN
dtype: float64

바나나   -27.0
사과    -37.0
dtype: float64
