- 넘파이 > 시리즈 > 데이터 소스

# ⬛ Pandas

- 데이터 처리 및 분석을 위한 라이브러리
- 대용량 데이터를 안정적이면서도 간편하게 처리
- 서로 다른 데이터타입으로 열을 구성할 수 있음 <br>
(참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한
- 주요 기능
    - 데이터 입출력 : csv, excel, RDB, JSON 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용 💛
    - 데이터 가공 : 분리, 결합, 계층, 피봇 등
    - 통계 분석 처리 💛 



## 자료형
- Series <br>

    - 1차원 배열과 유사한 자료형
    - 색인(index) : 행 번호
        - 각각의 데이터에 부여하는 속성으로 기본값은 0부터 1씩 증가하는 숫자 지정
        - index 파라미터를 통해 새로운 값으로 변경 가능
        - 리스트, 튜플 타입으로 새로운 값을 전달해야하며 다차원 자료형은 사용할 수 없음
        - 전달하는 색인의 개수와 데이터의 개수가 일치해야 함
    - 각각의 색인과 데이터가 매핑되어 있으므로 dictionary 자료형과 유사
    - 여러 가지 데이터 타입 사용 가능
    
    
- (추가) 시리즈보다는 데이터 프레임을 쓴다 => 데이터 프레임 : 시리즈를 중첩한 것



<img src="img/series_example.png" width="250" align="center">

- 인덱스는 0부터 1씩 증가하는 숫자
- 라벨을 사용하여 딕셔너리처럼 사용할 수도 있음

In [2]:
# ⬛ pandas 라이브러리 및 Series, DataFrame 네임 스페이스 불러오기

import pandas as pd

In [3]:
# 🔴 Series 생성

pd.Series()

## 결과값 : Series([], dtype: float64)
## numpy에서는 array라고 적혀있었고, 여기서는 Series라고 적혀있음

  pd.Series()


Series([], dtype: float64)

### 1. Series 생성

- 하나의 값(숫자, 문자) 또는 자료형(리스트, 튜플, np 배열)으로 데이터 전달

### 2. Series 속성

- 속성은 소괄호를 붙이지 않음 <<<
- index : series 객체의 인덱스 배열을 반환
- values : series 객체의 데이터(값) 배열을 반환
- name : series 객체의 이름을 반환 
- dtype : series 객체의 데이터 타입을 반환
- size : series 객체의 데이터 개수(길이)를 반환
- shape : series 객체의 구조(행, 열, 차원)를 반환

In [4]:
# 🔴 숫자 10을 데이터로 가지고 있는 Series

## 🔸 결과 해석
### ◾ 왼쪽 0 : 자동으로 생성되는 기본 인덱스 번호 ( 0부터 시작 )
### ◾ 오른쪽 10 : 입력한 데이터 값

s1 = pd.Series(10) ## Series라는 타입의 '생성자'라고 생각하면 됨
s1

0    10
dtype: int64

In [5]:
## 🔸 데이터 내부에 저장된 값 확인

s1.values

## 결과값 : array([10], dtype=int64)
### array[10]보면 >> 넘파이 배열임을 알 수 있다.💛 

array([10], dtype=int64)

In [6]:
## 🔸 인덱스 번호 확인

## RangeIndex : 기본적으로 부여되는 인덱스 번호가 사용되고 있을 때 지정되는 자료형

s1.index

RangeIndex(start=0, stop=1, step=1)

In [7]:
# 🔴 문자 abc를 데이터로 가지고 있는 Series

s2 = pd.Series('abc')
s2

0    abc
dtype: object

In [8]:
## 🔸 데이터 확인

s2.values

array(['abc'], dtype=object)

In [9]:
## 🔸 인덱스 확인

s2.index

RangeIndex(start=0, stop=1, step=1)

In [10]:
# 🔴 리스트 자료형을 데이터로 가지고 있는 Series

s3 = pd.Series([10, 20, 30])
s3

0    10
1    20
2    30
dtype: int64

In [11]:
## 🔸 데이터 확인

s3.values

array([10, 20, 30], dtype=int64)

In [12]:
## 🔸 인덱스 확인
s3.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
# 🔴  [10,20,30]을 하나의 값에 넣고 싶다면 '이중 리스트'로 주면 된다.

ss = pd.Series([[10,20,30]])
ss

0    [10, 20, 30]
dtype: object

In [14]:
# 🔴 데이터 타입이 서로 다른 리스트 자료형

s4 = pd.Series([10.3, 'test', 200, [1,2,3]])
s4

0         10.3
1         test
2          200
3    [1, 2, 3]
dtype: object

In [15]:
# 🔸 데이터 확인

s4.values

array([10.3, 'test', 200, list([1, 2, 3])], dtype=object)

In [16]:
# 🔸 인덱스 확인
s4.index

RangeIndex(start=0, stop=4, step=1)

In [17]:
# 🔴 튜플도 리스트처럼 1차원 자료로 주면, 각각 내부자료를 풀어서 집어 넣습니다.

s5 = pd.Series((1, 2, 3, 4, 5.0))
s5

## 통일시킬 수 있는 자료형이 있으면 바꾸어버림!

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [18]:
# 🔸 데이터, 인덱스 확인

print(s5.values)
print(s5.index)

[1. 2. 3. 4. 5.]
RangeIndex(start=0, stop=5, step=1)


In [19]:
s5.values

array([1., 2., 3., 4., 5.])

In [20]:
# 🔴 딕셔너리 자료형 ( 자동으로 라벨 부여, key가 index, value가 실제 데이터 )

s6 = pd.Series({'a':10, 'b':20, 'c':30})
s6

a    10
b    20
c    30
dtype: int64

In [24]:
## 🔸 숫자 인덱싱
print(s6[0])

## 🔸 라벨 인덱싱
print(s6['a'])

10
10


In [25]:
# 🔴 인덱스 새롭게 지정하기

## 🔸 인덱스 속성(길이)를 참조하여 리스트, 튜플 타입으로 전달
### ◾ 라벨 인덱스가 없던 경우 => 새롭게 라벨 인덱스 부여
### ◾ 라벨 인덱스가 있던 경우 => 기존에 있던 라벨 인덱스에 덮어 씌우기


## 현재 s5에는 숫자만 있고 라벨 인덱스가 없음.
s5.index

RangeIndex(start=0, stop=5, step=1)

In [26]:
## 🔸 인덱스를 새롭게 지정할 때는 Rangeindex의 벌위만큼 길이를 가지는 리스트를 대입해줍니다.

### ◾ 행 개수(데이터 개수)와 동일한 길이의 리스트를 전달해야 합니다. => 라벨 인덱스가 생김
s5.index = [2020, 2021, 2022, 2023, 2024]

In [32]:
print(s5)

2020    1.0
2021    2.0
2022    3.0
2023    4.0
2024    5.0
dtype: float64


In [43]:
# 🔴  인덱스를 지정하여 객체 생성

## 🔸 인덱스 객체에 대해서 아이템 참조는 가능

print(s5.index)
print(s5.index[0])

Int64Index([2020, 2021, 2022, 2023, 2025], dtype='int64')
2020


In [38]:
# 🔴 (문제) 인덱스 객체 내부의 단일 라벨 인덱스 하나 딱 잘라서 변경하는 것은 불가능 💛 
## TypeError: Index does not support mutable operations

s5.index[-1] = 2025

TypeError: Index does not support mutable operations

In [39]:
# 🔴 (해결) 인덱스 라벨링 수정시 바꿀 부분만 변경한 '전체 인덱스'를 대입해주어야 한다. 💛

s5.index = [2020, 2021, 2022, 2023, 2025]
s5

2020    1.0
2021    2.0
2022    3.0
2023    4.0
2025    5.0
dtype: float64

In [44]:
# 🔴 Series 함수의 index 파라미터를 이용해 생성 가능

## 🔸 pd.Series(data, index=[...])

s7 = pd.Series([10, 20, 30, 40], index=['mon', 'tue', 'wed', 'thu'])
s7

mon    10
tue    20
wed    30
thu    40
dtype: int64

In [47]:
## 🔸 데이터 확인

s7.values

array([10, 20, 30, 40], dtype=int64)

In [48]:
## 🔸 인덱스 확인

s7.index

Index(['mon', 'tue', 'wed', 'thu'], dtype='object')

In [49]:
# 🔴 자동 부여된 숫자 인덱스도 여전히 사용 가능

print(s7[3])
print(s7['thu'])

40
40


### 3. dictionary 자료형과 유사한 Series 자료형

In [52]:
# 🔴 dictionary 자료형으로 Series 생성

data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample =pd.Series(data)

print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [53]:
# 딕셔너리와 유사하기 때문에, 딕셔너리에서 쓰는 명령어를 쓸 수 있음.

In [58]:
# 🔴 Series 객체와 in 연산자

## dictionary와 유사 : in 연산자를 사용해 내부 요소 검사시
##                     key값에 해당하는 라벨을 이용해 해당 요소가 있는지 없는지 여부를 True, False로 출력

print('서울' in data)   ## 딕셔너리
print('서울' in sample) ## 시리즈

True
True


In [59]:
# 🔴 for문에서 in 연산자로 접근 : Series의 value값을 참조

for key in data :
    print(key)
print("------------")

for index in sample.index : ## sample.values를 이용해 value값만 조회도 가능
    print(index)

서울
경기
강원
부산
------------
서울
경기
강원
부산


### << 연습문제 >>

- 서울, 경기, 강원, 부산 => 서울, 경기, 강원, 제주로 라벨 인덱싱 변경

- 지정한 index 기준으로 Series 생성
- 사용하는 인덱스에 없는 값은 Series에 NaN 값으로 저장

- NaN : Not a Number(결측치) =-> numpy에서 값이 없음을 의미하는 자료
-None : 파이썬 기본 자료형에서 값이 없음을 의미하는 자료

In [60]:
sample.index = ['서울', '경기', '강원', '제주']
sample

서울    100
경기    200
강원    300
제주    400
dtype: int64

### 4. 인덱싱(Indexing)

- 하나의 특정 값을 선택하거나 변경
- 참조하는 인덱스 : 기본 숫자 인덱스, 라벨 인덱스
- 새로운 인덱스를 설정해도 기본 숫자 인덱스 사용 가능

In [62]:
s6_data = {'a':10, 'b':20, 'c':30}
s6 = pd.Series(s6_data)
s6

a    10
b    20
c    30
dtype: int64

In [66]:
# 🔴 Series s6의 첫 번째 데이터 => 인덱스 0으로 조회

## 🔸 Series객체[인덱스번호 or 라벨숫자]
print(s6.index[0]) # 인덱스의 0번째는 'a'
print(s6[0])       # s6자체 0번째 자료는 10

a
10


In [69]:
# 🔴 Series s6의 인덱스 a에 매칭된 데이터 조회

print(s6['a'])

10


In [71]:
# 🔴 Series s7의 인덱스tue에 해당하는 데이터 값을 변경

## 🔸 인덱스(라벨링)은 개별적으로 하나하나 변경 불가능 💛
## 🔸 인덱스에 매칭된 데이터는 개별 데이터별 변경 가능 💛

s7['tue'] = 700
s7

mon     10
tue    700
wed     30
thu     40
dtype: int64

In [72]:
# 🔴 시리즈에서 원하는 로우(행)만 조회하기. 조회할 로우명을 리스트로 묶어서 전달

## 🔸 Series s7에서 wed, mon라벨 조회

### ◾ 이중 리스트를 사용해 조회해야함. 💛  -> s7['mon', 'wed'] ==> 에러
### ◾ 인덱스 순서 조절이 가능하다.

s7[['wed', 'mon']]

wed    30
mon    10
dtype: int64

### 5. 슬라이싱(Slicing)

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능


- ◾ 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 ==> 끝 인덱스 미포함
- ◾ 라벨 인덱스를 사용해서 슬라이싱 할 떄는   ==> 끝 인덱스까지 모두 포함 💛

In [74]:
# 🔴 인덱스 0 ~ 2(포함) 까지 조회

s1 = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [76]:
## 🔸  RangeIndex = 0,1

s1[0:2]

a    10
b    20
dtype: int64

In [77]:
## 🔸 라벨 'a'에서 라벨'c' (c포함)

s1['a':'c']

a    10
b    20
c    30
dtype: int64

In [79]:
## 🔸 0 ~ 3 범위를 2개 간격으로 인덱싱

s1[0:4:2]

a    10
c    30
dtype: int64

In [80]:
## 🔸 인덱스 'b'에서 인덱스 'd'(포함)까지 2개 간격으로 조회

s1['b':'d':2]

b    20
d    40
dtype: int64

### 7. 조건 색인(Boolean Indexing)

- 객체에 벡터와 스칼라 연산을 적용하여 True인 데이터만 반환

<img src="img/conditional_index.png" width="700" align="center">

In [83]:
print(s7 >= 50)
print("--------")
print(s7[s7>=50])

mon    False
tue     True
wed    False
thu    False
dtype: bool
--------
tue    700
dtype: int64


In [84]:
# 🔴 양수와 음수 데이터를 저장하고 있는 Series 생성

s2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
s2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [91]:
# 🔴 음수는 True로, 양수는 False로 스칼라 연산을 통해 출력해보세요

s2 < 0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [92]:
# 🔴 위의 스칼라 연산을 확용한 조건 색인으로 s2 중 음수만 남겨보세요

s2[s2<0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [95]:
# 🔴 두 개 이상의 조건 색인을 병렬 형태로 처리하기

## 양수이면서 10보다 작은 값만 조건 색인으로 남겨보세요
## 두 개 이상의 조건식으로 나열할때는 and, or 키워드가 아닌 &와 |를 사용한다.
## 병렬 형식 조건 처리시 각 조건으로 ()로 감싸야 돌아갑니다.

s2[(s2>0) & (s2<10)]

7     1
10    5
dtype: int64

### 8. 산술 연산

- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능
    
    <img src="img/series_math.png" width="500" align="center">
    
    - 3 + null => NaN
    - null + 6 => NaN
    
    
    
    
- 연산의 종류
    - 더하기 : +, add()
    - 빼기 : -, sub()
    - 곱하기 : *, mul()
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [100]:
# 🔴 s1 -> 라벨 : a, b, c, d -> 데이터 4개 [1, 2, 3, 4]

s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s1

a    1
b    2
c    3
d    4
dtype: int64

In [101]:
# 🔴 s2 -> 라벨 : a, b, d, e, f, g -> 데이터 6개 [10, 20, 30, 40, 50, 60]

s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [102]:
# 🔴 Series 객체와 스칼라값의 산술연산 : *

s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [108]:
# 🔴 시리즈끼리 더하기 : +

## 🔸 공통 라벨인 a, c, d에만 값 부여, 어느 한 쪽에만 존재하는 라벨들은 NaN

print(s1)
print()
print(s2)
print()
print(s1 + s2)

a    1
b    2
c    3
d    4
dtype: int64

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64


In [109]:
# 🔴 fill_value 파라미터 : 공통으로 존재하지 않는 라벨에 대해서 NaN값을 적용하지 않고, 특정값으로 대체해서 사용할 수 있다.

## 🔸 Series 메서드를 사용할 때의 파라미터로 입력 가능

s1.add(s2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [112]:
## 🔸 fill_value 사용

s1.add(s2, fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [113]:
# 🔴 Series 객체 간의 빼기 연산

s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [115]:
# 🔴 .sub()를 이용해 없는 값을 100을 넣고 빼기를 수행해보세요

s1.sub(s2, fill_value=100)

a    -9.0
b   -98.0
c   -17.0
d   -26.0
e    60.0
f    50.0
g    40.0
dtype: float64

In [116]:
# 🔴 Serie 객체 간의 곱하기 연산

s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [117]:
# 🔴 mul을 이용해서 곱셈은 1을 넣고 해보세요

s1.mul(s2, fill_value=1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [118]:
# 🔴 객체간 나누기를 연산자를 이용해서 해보세요

s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [119]:
# 🔴 .divide를 이용해서 해보세요

s1.divide(s2, fill_value=1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

위 사이트에서 추가적인 fill_value 사용 가능 연산자별 명령어를 확인할 수 있다.

- 선생님이 공부하신 책 : 
    - 파이썬 라이브러리를 활용한 데이터 분석(두더지 책)
    - 파이썬 라이브러리를 활용한 머신러닝(도마뱀책)
    
- 믿고 사도 되는 번역가
    - 박해선(번역했거나 쓴 책) => 그냥 믿고 사라고 하심 ㅎ_ㅎ
    - 개앞맵시

### << 연습 문제 >>

#### 1. 실습 데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수값을 26개 저장한 series를 생성하고 A ~ Z까지의 알파벳으로 라벨링 설정

In [121]:
import numpy as np

In [122]:
data = np.random.randint(1, 100, 26)
data

array([77, 19, 99,  5,  7, 35, 57, 55, 84, 15,  8, 77, 82,  9, 26,  4, 54,
       33, 80, 61, 52, 17,  4, 99, 27, 80])

In [127]:
s1 = pd.Series(data, index=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
s1

A    77
B    19
C    99
D     5
E     7
F    35
G    57
H    55
I    84
J    15
K     8
L    77
M    82
N     9
O    26
P     4
Q    54
R    33
S    80
T    61
U    52
V    17
W     4
X    99
Y    27
Z    80
dtype: int32

In [126]:
data.size

26

#### 2. 인덱스 라벨이 'k'인 항목의 값 출력

In [133]:
s1['K']

8

#### 3. 인덱스 라벨이 A, F C 항목의 값 출력 ==> 이중 리스트

In [134]:
s1[['A', 'F', 'C']]

A    77
F    35
C    99
dtype: int32

#### 4. 5번 인덱스부터 15번 인덱스까지 항목 출력

In [135]:
s1[5:16]

F    35
G    57
H    55
I    84
J    15
K     8
L    77
M    82
N     9
O    26
P     4
dtype: int32

#### 5. 뒤에서 5개 항목 출력

In [139]:
s1[-5:]

V    17
W     4
X    99
Y    27
Z    80
dtype: int32

#### 6. data의 항목의 개수를 출력 ==> 다른 방법 len(data)

In [140]:
data.size

26

#### 7. data 항목 값의 평균보다 큰 항목만 출력 => data라고 해서 data로 구했는데 선생님은 s1으로 하심

In [155]:
s1[s1>s1.mean()]

A    77
C    99
G    57
H    55
I    84
L    77
M    82
Q    54
S    80
T    61
U    52
X    99
Z    80
dtype: int32

#### 8. data 항목 중 50 있는지 확인 -> T/ F

In [154]:
print(50 in data)

False
