### 판다스 패키지
데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 `Series` 클래스와 표로 표현하는 `Dataframe`클래스가 존재한다
  
판다스 패키지를 사용하기 위해서는 패키지를 설치해야함
```bash
pip install pandas
```

패키지를 임포트할 때는 
```python
import pandas 
import pandas as pd
```  
pandas 3.0 이상 버전 부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 존재하지 않으면 설치권장
```bash
pip install pyarrow
```

In [18]:
import pandas as pd

### 시리즈 클래스
1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열되어 있는 형태  
  
시리즈를 생성하는 방법 : pandas패키지의 `Series`클래스의 생성자로 값과 인덱스에 대한 배열 혹은 리스트를 전달하면 생성할 수 있음

In [110]:
# 인덱스 배열의 요소는 중복이 되어도 됨
scores = pd.Series([85, 70, 100, 90, 55], index = ['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores

홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
dtype: int64

In [93]:
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨
scores = pd.Series([85, 70, 100, 90, 55])
scores

0     85
1     70
2    100
3     90
4     55
dtype: int64

Series 객체의 index와 values들을 보고자 한다면 `index`속성과 `values`속성으로 확인할 수 있다

In [21]:
scores.index

Index(['홍길동', '김철수', '이영희', '최민수', '박지성'], dtype='object')

In [22]:
scores.values

array([ 85,  70, 100,  90,  55], dtype=int64)

`name`속성으로 value에 대한 이름을 부여할 수 있다  
`index.name`속성으로 index에 대한 이름을 부여할 수 있다

In [23]:
scores.name = '점수'
scores.index.name = '이름'
scores

이름
홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
Name: 점수, dtype: int64

#### 시리즈 연산
시리즈도 numpy 배열과 같이 벡터화 연산이 가능  
단, 연산 작업은 값에만 적용됨

In [25]:
scores * 0.4

이름
홍길동    34.0
김철수    28.0
이영희    40.0
최민수    36.0
박지성    22.0
Name: 점수, dtype: float64

In [26]:
scores >= 60

이름
홍길동     True
김철수     True
이영희     True
최민수     True
박지성    False
Name: 점수, dtype: bool

In [95]:
scores2 = pd.Series([60, 100, 90, 75, 95], index = ['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores2

홍길동     60
김철수    100
이영희     90
최민수     75
박지성     95
dtype: int64

In [30]:
scores + scores2

이름
홍길동    145
김철수    170
이영희    190
최민수    165
박지성    150
dtype: int64

#### 시리즈 인덱싱
시리즈도 리스트나 배열과 같이 인덱스 번호로 접근이 가능    
  
단, 시리즈는 index 값으로도 접근이 가능  
배열 인덱싱이나 슬라이싱 모두 가능하다

In [32]:
scores[1], scores['김철수']

  scores[1], scores['김철수']


(70, 70)

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있다  

In [33]:
scores[[0, 3, 1]]

  scores[[0, 3, 1]]


이름
홍길동    85
최민수    90
김철수    70
Name: 점수, dtype: int64

In [35]:
scores[['홍길동', '최민수', '김철수']]

이름
홍길동    85
최민수    90
김철수    70
Name: 점수, dtype: int64

In [37]:
scores[scores<70]

이름
박지성    55
Name: 점수, dtype: int64

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름(라벨)으로 슬라이싱 할 때는 인덱스 번호로 슬라이싱할 때와 다르게  
마지막 인덱스 값도 포함해서 반환

In [39]:
scores[1:3]

이름
김철수     70
이영희    100
Name: 점수, dtype: int64

In [42]:
scores['김철수':'최민수']

이름
김철수     70
이영희    100
최민수     90
Name: 점수, dtype: int64

시리즈 객체의 라벨이 영문자로 이루어져 있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있다

In [45]:
s0 = pd.Series(range(3), index = ['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [48]:
s0.a, s0.b

(0, 1)

#### 시리즈와 딕셔너리
시리즈는 인덱스의 이름(라벨)과 값이 한 쌍으로 이루어져 관리되어 지는데, 이는 파이썬의 기본 자료구조인  
키와 값을 한 쌍으로 관리하는 딕셔너리와 비슷한다

시리즈 객체도 딕셔너리에서 사용 가능한 `in`연산과 `items` 메서드를 사용할 수 있음                                                      

In [50]:
'이재용' in scores

False

In [52]:
'홍길동' in scores

True

In [56]:
for label, value in scores.items():
    print(f'{label}: {value}')

홍길동: 85
김철수: 70
이영희: 100
최민수: 90
박지성: 55


시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음  
단, 딕셔너리 객체는 순서가 보장되지 않기 때문에 순서를 결정하고 싶다면 `index` 매개변수에  
순서를 정한 인덱스 배열 또는 리스트를 전달해야함

In [108]:
scores2 = pd.Series({'홍길동':60, '김철수':90, '이재용':100, '권지용':75})
scores2

홍길동     60
김철수     90
이재용    100
권지용     75
dtype: int64

In [109]:
# index를 통해 데이터 순서 조정
scores2 = pd.Series({'홍길동':60, '김철수':90, '이재용':100, '권지용':75}, index=('권지용', '김철수', '이재용', '홍길동'))
scores2

권지용     75
김철수     90
이재용    100
홍길동     60
dtype: int64

#### 인덱스 기반 연산
두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 한해서 연산을 진행  
시리즈 모두에 존재하지 않는 인덱스는 `NaN`으로 표시

In [111]:
score_sums = scores + scores2
score_sums

권지용      NaN
김철수    160.0
박지성      NaN
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
dtype: float64

값들 끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
길이가 다른 값들에 대해서는 연산 불가

In [None]:
scores.values + scores2.values

시리즈 객체에서 값이 `NaN`인지 아닌지 구하려면 `notnull()`메서드를 사용할 수 있음

In [113]:
score_sums.notnull()

권지용    False
김철수     True
박지성    False
이영희    False
이재용    False
최민수    False
홍길동     True
dtype: bool

In [114]:
score_sums[score_sums.notnull()]

김철수    160.0
홍길동    145.0
dtype: float64

#### 데이터 갱신, 추가, 삭제
딕셔너리와 같은 방법으로 데이터를 갱신, 추가, 삭제 가능

In [115]:
score_sums['김철수'] = 120
score_sums

권지용      NaN
김철수    120.0
박지성      NaN
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
dtype: float64

In [116]:
score_sums['남궁선'] = 100
score_sums

권지용      NaN
김철수    120.0
박지성      NaN
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
남궁선    100.0
dtype: float64

In [117]:
del score_sums['이재용']
score_sums

권지용      NaN
김철수    120.0
박지성      NaN
이영희      NaN
최민수      NaN
홍길동    145.0
남궁선    100.0
dtype: float64

In [118]:
score_sums.pop('최민수')

nan

In [None]:
score_sums.pop('홍길동')
score_sums

**파이썬으로 다음 연산을 수행한다.**

1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

딕셔너리 store1 = {
'apple': 500,
'banana': 3000,
'carrot': 1000
}

딕셔너리 store2 = {
'apple': 800,
'banana': 2500,
'dabai': 5000
}

2. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다. 겹치지 않는 인덱스에 대해서 NaN으로 표시하는 시리즈 객체들과 겹치는 인덱스만 표시하는 시리즈 객체를 모두 생성한다.

In [142]:
store1 = {
    'apple': 500,
    'banana': 3000,
    'carrot': 1000
}
store2 = {
    'apple': 800,
    'banana': 2500,
    'dabai': 5000
}

In [144]:
store1_series = pd.Series(store1)
store2_series = pd.Series(store2)

In [149]:
sum_nan_series = store1_series + store2_series
sum_nan_series


apple     1300.0
banana    5500.0
carrot       NaN
dabai        NaN
dtype: float64

In [151]:
minus_nan_series = store1_series - store2_series
minus_nan_series

apple    -300.0
banana    500.0
carrot      NaN
dabai       NaN
dtype: float64

In [155]:
sum_series = sum_nan_series[sum_nan_series.notnull()]
sum_series

apple     1300.0
banana    5500.0
dtype: float64

In [156]:
minus_series = minus_nan_series[minus_nan_series.notnull()]
minus_series

apple    -300.0
banana    500.0
dtype: float64