# 221020

### Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리

#### 자료형
- Series <br>
    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능
    
<img src="img/series_example.png" width="250" align="center">

In [3]:
# pandas library 및 Series, dataFrame 네임스페이스 불러오기
import pandas as pd

In [4]:
# Series 생성
pd.Series()

  pd.Series()


Series([], dtype: float64)

### Series 생성

- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### Series 속성
- 속성은 소괄호를 붙이지 않음
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

In [5]:
# 숫자 10을 데이터로 가지고 있는 Series
# 결과 해석
# 왼쪽 0=자동으로 생성되는 기본 인덱스번호 (0부터 시작)
# 오른쪽 10=입력한 데이터 값
s1 = pd.Series(10)
s1

0    10
dtype: int64

In [6]:
# 값을 얻을 때는 인덱싱이나 슬라이싱을 활용
s1[0]

10

In [7]:
# 데이터 내부에 저장된 값 확인
s1.values

array([10], dtype=int64)

In [8]:
# 인덱스 번호 확인
# RangeIndex : 기본적으로 생성되는 인덱스번호를 사용하는 경우 부여
s1.index

RangeIndex(start=0, stop=1, step=1)

In [9]:
# 문자
s2 = pd.Series('abc')
s2

0    abc
dtype: object

In [10]:
# 데이터 확인
s2.values

array(['abc'], dtype=object)

In [11]:
# 인덱스 확인
s2.index

RangeIndex(start=0, stop=1, step=1)

In [12]:
# 리스트 자료형
s3 = pd.Series([10,20,30])
s3

0    10
1    20
2    30
dtype: int64

In [13]:
# 데이터 확인
s3.values

array([10, 20, 30], dtype=int64)

In [14]:
# 인덱스 확인
# 0이상 3미만의 RangeIndex : 0,1,2
s3.index

RangeIndex(start=0, stop=3, step=1)

In [15]:
# dtype이 서로 다른 list 자료형
s4 = pd.Series([10.3,'test',200,[1,2,3]])
s4

0         10.3
1         test
2          200
3    [1, 2, 3]
dtype: object

In [16]:
# data 확인
s4.values

array([10.3, 'test', 200, list([1, 2, 3])], dtype=object)

In [17]:
# index 확인
s4.index

RangeIndex(start=0, stop=4, step=1)

In [18]:
# dictionary list(자동으로 라벨 부여, key가 index, value가 실제 데이터)
s5 = pd.Series({'a':10, 'b':20, 'c':30})
s5

a    10
b    20
c    30
dtype: int64

In [19]:
# 데이터 확인
s5.values

array([10, 20, 30], dtype=int64)

In [20]:
s5.index

Index(['a', 'b', 'c'], dtype='object')

In [21]:
# 숫자인덱스도 병행해서 사용 가능
s5[0]

10

In [22]:
s5['a']

10

# 221021

In [23]:
# 인덱스 새롭게 지정하기
# 인덱스 속성(길이)를 참조하여 list, tuple type으로 전달
# 라벨 인덱스가 없던 경우 -> 새롭게 ravel index 부여
# 라벨 인덱스가 있던 경우 -> 기존에 있던 라벨 인덱스에 덮어씌우기
s5.index

Index(['a', 'b', 'c'], dtype='object')

In [24]:
s4.index

RangeIndex(start=0, stop=4, step=1)

In [25]:
# tuple 생성 가능
s6 = pd.Series((1,2,3,4,5.0))

In [26]:
s6

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [27]:
# index를 새롭게 지정할 때는 RangeIndex 범위만큼 길이를 가지는 list 사용
# row 개수(데이터개수)와 동일한 길이를 전달해야 함
s6.index = [2018,2019,2020,2021,2022]

In [28]:
s6

2018    1.0
2019    2.0
2020    3.0
2021    4.0
2022    5.0
dtype: float64

In [29]:
# index를 지정하여 instance 생성
# index instance에 대해서 아이템 참조 가능
s6.index[3]

2021

In [30]:
# index instance 내부의 단일 ravel index만 수정하는 것은 불가능
s6.index[-1] =2023

TypeError: Index does not support mutable operations

In [31]:
# index raveling 수정시 전체 index를 대입해야 함
s6.index = [2018,2019,2020,2021,2023]

In [33]:
s6

2018    1.0
2019    2.0
2020    3.0
2021    4.0
2023    5.0
dtype: float64

In [36]:
# dictionary 없이 Series에 ravel index를 부여하고 싶은 경우
# Series()생성시 index를 parameter로 줘 처리할 수 있음
# pd.Series(ies(data, index=[...]))
s7 = pd.Series([10,20,30,40], index=["mon","tue","wed","thur"])
s7

mon     10
tue     20
wed     30
thur    40
dtype: int64

In [38]:
s7.values

array([10, 20, 30, 40], dtype=int64)

In [39]:
s7.index

Index(['mon', 'tue', 'wed', 'thur'], dtype='object')

In [40]:
# 자동 부여된 숫자 index도 여전히 사용 가능
s7[3]

40

In [41]:
s7["thur"]

40

### dictionary list와 유사한 Series list

In [42]:
# dictionary list 로 Series 생성
data = {'서울': 100, '경기' : 200, '강원' : 300, '부산' : 400}
sample = pd.Series(data)
print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [43]:
# Series instance와 in 연산자
# dictionary 와 유사 : in 연산자를 사용해 내부 요소 검사시 
# key 값에 해당하는 ravel을 이용해 해당 요소의 여부를 True, False로 출력
print('서울' in data)
print('서울' in sample)

True
True


In [44]:
# for 문에서 in 연산자로 접근 : Series의 value 값 참조
for key in data:
    print(key)
print("------------")
for value in sample.values:
    print(value)

서울
경기
강원
부산
------------
100
200
300
400


In [45]:
# 서울, 경기, 강원, 부산 -> 서울, 경기, 강원, 제주도 ravel indexing 변경
# 지정한 index 기준으로 Series 생성
# 사용하는 index에 없는 값은 Series에 NaN값으로 저장
# NaN : Not a Number(결측치) -> Numpy에서 해당 위치가 비었음을 의미하는 자료
# None : python 기본 자료혀에서 값이 없음을 의미하는 자료
index2 = ['서울', '경기','강원','제주']
sample2 = pd.Series(data, index=index2)
sample2

서울    100.0
경기    200.0
강원    300.0
제주      NaN
dtype: float64

In [46]:
data

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}

### 인덱싱(Indexing)

- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스 : 기본 숫자 인덱스 , 라벨 인덱스
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [47]:
s6_data = {'a':10, 'b':20, 'c':30}
s6 = pd.Series(s6_data)
s6

a    10
b    20
c    30
dtype: int64

In [49]:
# Series s6의 첫 번째 데이터 : 인덱스 0으로 조회
# Series 객체[인덱스 번호 or 라벨숫자]
print(s6.index[0]) # index의 0번째는 'a'
print(s6[0]) # s6자체 0번째 자료는 10

a
10


In [50]:
# Series s6의 index a에 매칭된 데이터 조회
s6['a']

10

In [51]:
# 요일 - 자료 매칭 데이터 조회
s7

mon     10
tue     20
wed     30
thur    40
dtype: int64

In [52]:
# Series s7의 index tue에 해당하는 데이터 값을 변경
# 인덱스(라벨링)은 개별적으로 변경 불가능
# 인덱스에 매칭된 데이터는 개별 데이터별 변경 가능 
s7['tue'] = 700
s7

mon      10
tue     700
wed      30
thur     40
dtype: int64

In [54]:
# Series에서 원하는 row만 조회 : 조회할 row_name을 리스트로 묶어서 전달
# Series에 s7 web, mon 라벨 조회
# 이중리스트를 사용해 조회해야함 -> s7['web','mon'] 에러 발생
s7[['wed','mon']]

wed    30
mon    10
dtype: int64

### 슬라이싱(Slicing)

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [58]:
# 인덱스 0에서 인덱스 2(포함)까지 조회
s1 = pd.Series([10,20,30,40,50], index = list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [60]:
# RangeIndex : 0,1
s1[:2]

a    10
b    20
dtype: int64

In [61]:
# ravel 'a' ~'c'(c포함)
s1['a':'c']

a    10
b    20
c    30
dtype: int64

In [68]:
# 0~3 범위를 2개 간격으로 인덱싱
s1[:4:2]

a    10
c    30
dtype: int64

In [70]:
# index 'b'에서 index 'd'까지 2개 간격으로 조회
s1['b':'d':2]

b    20
d    40
dtype: int64

### 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [71]:
# 양수와 음수 데이터를 저장하고 있는 Series 생성
s2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
s2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [72]:
# 음수인 데이터는 True로, 양수인 데이터는 False로 만들기
s2 <0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [76]:
# 위의 조건식을 이용해 조건색인으로 s2내부데이터중 음수만 남기시오
s2[s2<0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [79]:
# 두 개 이상의 조건 병렬형태로 처리
# 양수면서 10보다 작은 값만 조건식으로 남기시오
s2[(s2>0)&(s2<10)] #s2[s2>0][s2<10]

7     1
10    5
dtype: int64

### 산술연산

- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능

    <img src="img/series_math.png" width="500" align="center">

- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [80]:
# s1 -> 라벨 : a, b, c, d -> 데이터 4개 [1, 2, 3, 4]
# s2 -> 라벨 : a, c, d, e, f, g -> 데이터 6개 [10, 20, 30, 40, 50, 60]
s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))

In [81]:
s1

a    1
b    2
c    3
d    4
dtype: int64

In [82]:
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [83]:
# Series instance와 scala 산술연산
s1 *3

a     3
b     6
c     9
d    12
dtype: int64

In [84]:
# Sreies끼리 더하기
# 공동 ravel인 a,c,d에만 값 부여, 어느 한쪽에만 존재하는 revels = NaN
# NaN 이 들어가면 float으로 취급하는 듯
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [86]:
# fill_value parameter : 공통으로 존재하지 않는 ravael에 대해 NaN 값을
# 적용하지 않고 특정 값으로 대체하여 사용
# Sreies method를 사용할 때의 parameter 입력가능
s1.add(s2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [87]:
s1.add(s2,fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [88]:
# Series instance 간 빼기 연산
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [91]:
s1.sub(s2, fill_value = 100)

a    -9.0
b   -98.0
c   -17.0
d   -26.0
e    60.0
f    50.0
g    40.0
dtype: float64

In [92]:
# Series instance 간 곱하기 연산
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [93]:
s1.mul(s2,fill_value = 1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [94]:
# Series instacne 간 나누기 연산
s1/s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [95]:
s1.divide(s2,fill_value = 1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

위 사이트에서 추가적인 fill_value 사용 가능 연산자별 명령어를 확인 가능

### 연습 문제

#### 1. 실습 데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [96]:
import numpy as np

In [97]:
np.random.seed(1021)

In [137]:
data = np.random.randint(1,100,26)
data 

array([40,  3, 43, 75, 26, 92, 53,  9,  8, 79, 16, 20, 33, 10, 28, 35, 81,
       67, 60, 57, 81, 24, 27, 85, 97, 40])

In [151]:
# data = pd.Series(data, index = list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
d1=pd.Series(data, index = list("ABCDEFGHIJKLMNOPQRSTUVWXYZ"))
d1

A    40
B     3
C    43
D    75
E    26
F    92
G    53
H     9
I     8
J    79
K    16
L    20
M    33
N    10
O    28
P    35
Q    81
R    67
S    60
T    57
U    81
V    24
W    27
X    85
Y    97
Z    40
dtype: int32

In [149]:
d1['K']

16

In [152]:
d1[['A','F','C']]

A    40
F    92
C    43
dtype: int32

In [160]:
d1[5:16]

F    92
G    53
H     9
I     8
J    79
K    16
L    20
M    33
N    10
O    28
P    35
dtype: int32

In [154]:
d1[-5:]

V    24
W    27
X    85
Y    97
Z    40
dtype: int32

In [161]:
d1.size
len(d1)

26

In [157]:
d1.mean()

45.73076923076923

In [163]:
d1[d1>d1.mean()]

D    75
F    92
G    53
J    79
Q    81
R    67
S    60
T    57
U    81
X    85
Y    97
dtype: int32

In [164]:
50 in d1

False

In [165]:
50 in d1.values

False