### 판다스 패키지
데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 `Series` 클래스와 표로 표현하는 `DataFrame`클래스 존재함  

판다스 패키지를 사용하기 위해서는 패키지를 설치해야함  
```
pip install pandas
```
패키지를 임포트할 때는
```
import pandas
import pandas as pd
```
pandas 3.0 이상 버전 부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 존재하지 않으면
```
pip install pyarrow
```
로 Pyarrow 설치 권장

In [75]:
import pandas as pd

### 시리즈 클래스
1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열되 있는 형태  
시리즈를 생성하는 방법: pandas 패키지의 Series 클래스의 생성자로 값과 인덱스에 대한 배열 혹은 리스트를 전달하면 생성할 수 있음  

In [50]:
# 인덱스 배열의 요소는 중복이 되어도 됨
scores = pd.Series([85, 70, 100, 90, 55], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores

홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
dtype: int64

In [40]:
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨
scores = pd.Series([85, 70, 100, 90, 55])
scores

0     85
1     70
2    100
3     90
4     55
dtype: int64

Series 객체의 index와 values 들을 보고자 한다면 `index` 속성과 `values` 속성으로 확인할 수 있음

In [41]:
scores.index

RangeIndex(start=0, stop=5, step=1)

In [42]:
scores.values

array([ 85,  70, 100,  90,  55], dtype=int64)

`name` 속성으로 value에 대한 이름을 부여할 수 있음  
`index.name` 속성으로 index에 대한 이름을 부여할 수 있음

In [43]:
scores.name = '점수'
scores.index.name = '이름'
scores

이름
0     85
1     70
2    100
3     90
4     55
Name: 점수, dtype: int64

#### 시리즈 연산
시리즈도 numpy 배열과 같이 벡터화 연산이 가능함  
단, 연산 작업은 값에만 적용됨

In [44]:
scores * 0.4

이름
0    34.0
1    28.0
2    40.0
3    36.0
4    22.0
Name: 점수, dtype: float64

In [45]:
scores >= 60

이름
0     True
1     True
2     True
3     True
4    False
Name: 점수, dtype: bool

In [46]:
scores2 = pd.Series([60, 100, 90, 70, 95], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores2

홍길동     60
김철수    100
이영희     90
최민수     70
박지성     95
dtype: int64

In [48]:
scores + scores2

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
김철수   NaN
박지성   NaN
이영희   NaN
최민수   NaN
홍길동   NaN
dtype: float64

#### 시리즈 인덱싱
시리즈도 리스트나 배열과 같이 인덱스 번호로 접근이 가능  
단, 시리즈는 index 값으로도 접근이 가능  
배열 인덱싱이나 슬라이싱 모두 가능

In [51]:
scores[1], scores['김철수']

  scores[1], scores['김철수']


(70, 70)

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있음

In [33]:
scores[[0, 3, 1]]

  scores[[0, 3, 1]]


홍길동    85
최민수    90
김철수    70
dtype: int64

In [17]:
scores[['홍길동', '최민수', '김철수']]

홍길동    85
최민수    90
김철수    70
dtype: int64

In [34]:
scores[scores < 70]

박지성    55
dtype: int64

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름(라벨)으로 슬라이싱할 때는 인덱스 번호로 슬라이싱할 때와 다르게 마지막 인덱스 값도 포함해서 반환

In [35]:
scores[1:3]

김철수     70
이영희    100
dtype: int64

In [36]:
scores['김철수':'최민수']

김철수     70
이영희    100
최민수     90
dtype: int64

시리즈 객체의 라벨이 영문자로 이루어져 있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있음

In [37]:
s0 = pd.Series(range(3), index=['a', 'b', 'c'])
s0

a    0
b    1
c    2
dtype: int64

In [52]:
s0.a, s0.b

(0, 1)

### 시리즈와 딕셔너리
시리즈는 인덱스의 이름(라벨)과 값이 한쌍으로 이루어져서 관리되어 지는데, 이는 파이썬의 기본 자료구조인 키와 값을 한 쌍으로 관리하는 딕셔너리와 비슷함  

시리즈 객체도 딕셔너리에서 사용가능한 `in` 연산과 `items()` 메서드를 사용할 수 있음

In [53]:
'이재용' in scores

False

In [54]:
'홍길동' in scores

True

In [55]:
for label, value in scores.items():
    print(f'{label}: {value}')

홍길동: 85
김철수: 70
이영희: 100
최민수: 90
박지성: 55


시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음
단, 딕셔너리 객체는 순서가 보장되지 않기 때문에 순서를 결정하고 싶다면 `index` 매개변수에 순서를 정한 인덱스 배열 또는 리스트를 전달해야함

In [66]:
scores2 = pd.Series({'홍길동': 60, '김철수': 90, '이재용': 100, '권지용': 75})
scores2

홍길동     60
김철수     90
이재용    100
권지용     75
dtype: int64

In [65]:
scores2 = pd.Series({'홍길동': 60, '김철수': 90, '이재용': 100, '권지용': 75}, index=['권지용', '김철수', '이재용', '홍길동'])
scores2

권지용     75
김철수     90
이재용    100
홍길동     60
dtype: int64

### 인덱스 기반 연산
두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 대해서만 연산을 진행함  
시리즈 모두에 존재하지 않는 인덱스는 `NaN`으로 표시 됨

In [56]:
score_sums = scores + scores2
score_sums

홍길동    145
김철수    170
이영희    190
최민수    160
박지성    150
dtype: int64

값들 끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
(길이가 다른 값들에 대해서는 연산 불가)

In [59]:
scores.values + scores2.values

ValueError: operands could not be broadcast together with shapes (5,) (4,) 

시리즈 객체에서 값이 `NaN`인지 아닌지 구하려면 `notnull()` 메서드를 사용할 수 있음

In [68]:
score_sums.notnull()

홍길동    True
김철수    True
이영희    True
최민수    True
박지성    True
남궁선    True
dtype: bool

In [69]:
score_sums[score_sums.notnull()]

홍길동    145
김철수    120
이영희    190
최민수    160
박지성    150
남궁선    100
dtype: int64

#### 데이터 갱신, 추가, 삭제
딕셔너리와 같은 방법으로 데이터를 갱신, 추가, 삭제를 할 수 있음

In [62]:
score_sums['김철수'] = 120
score_sums

홍길동    145
김철수    120
이영희    190
최민수    160
박지성    150
dtype: int64

In [63]:
score_sums['남궁선'] = 100
score_sums

홍길동    145
김철수    120
이영희    190
최민수    160
박지성    150
남궁선    100
dtype: int64

In [None]:
del score_sums['이재용']
score_sums

In [71]:
score_sums.pop('최민수')

160

In [72]:
score_sums

홍길동    145
김철수    120
이영희    190
박지성    150
남궁선    100
dtype: int64

In [73]:
score_sums.pop('홍길동')

145

In [74]:
score_sums

김철수    120
이영희    190
박지성    150
남궁선    100
dtype: int64

파이썬으로 다음 연산을 수행한다.  
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.  
```python
store1 = {
    'apple': 500,
    'banana': 3000,
    'carrot': 1000
}
```
```python
store2 = {
    'apple': 500,
    'banana': 3000,
    'dabai': 5000
}
```
2. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다. 겹치지 않는 인덱스에 대해서 NaN으로 표시하는 시리즈 객체들과 겹치는 인덱스만 표시하는 시리즈 객체를 모두 생성한다.

In [78]:
store1 = {
    'apple': 500,
    'banana': 3000,
    'carrot': 1000
}

store2 = {
    'apple': 800,
    'banana': 2500,
    'dabai': 5000
}

store1, store2

({'apple': 500, 'banana': 3000, 'carrot': 1000},
 {'apple': 800, 'banana': 2500, 'dabai': 5000})

In [79]:
store1_series = pd.Series(store1)
store2_series = pd.Series(store2)

In [80]:
store1_series

apple      500
banana    3000
carrot    1000
dtype: int64

In [81]:
store2_series

apple      800
banana    2500
dabai     5000
dtype: int64

In [82]:
plus_nan_series = store1_series + store2_series
plus_nan_series

apple     1300.0
banana    5500.0
carrot       NaN
dabai        NaN
dtype: float64

In [83]:
minus_nan_series = store1_series - store2_series
minus_nan_series

apple    -300.0
banana    500.0
carrot      NaN
dabai       NaN
dtype: float64

In [84]:
plus_series = plus_nan_series[plus_nan_series.notnull()]
plus_series

apple     1300.0
banana    5500.0
dtype: float64

In [85]:
minus_series = minus_nan_series[minus_nan_series.notnull()]
minus_series

apple    -300.0
banana    500.0
dtype: float64

### 데이터프레임 클래스
2차원 형태의 행렬에 열과 행에 대한 인덱스가 붙은 형태. 즉, 표(table)

#### 데이터프레임 생성 방법
1. 열 인덱스 배열 혹은 리스트를 생성
2. 행 인덱스 배열 혹은 리스트를 생성
3. 각 열과 행에 해당하는 데이터를 가지고 있는 딕셔너리를 생성
4. pandas 패키지의 DAtaFrame 클래스의 생성자로 데이터 딕셔너리와 행 인덱스, 열 인덱스를 전달하여 생성

In [77]:
columns = ['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2010': [9631482, 3393191, 2632035, 2431774],
    '2005': [9762546, 3512547, 2517680, 2456016],
    '2000': [9853972, 3655437, 2466338, 2473990],
    '지역': ['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율': [.0283, .0163, .0982, .0141]
}

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


`values` 속성 : 데이터에 대한 배열 반환  
`columns` 속성 : 열 인덱스에 대한 배열 반환  
`index` 속성 : 행 인덱스에 대한 배열 반환  

In [86]:
df.values

array([['수도권', 9853972, 9762546, 9631482, 9904312, 0.0283],
       ['경상권', 3655437, 3512547, 3393191, 3448737, 0.0163],
       ['수도권', 2466338, 2517680, 2632035, 2890451, 0.0982],
       ['경상권', 2473990, 2456016, 2431774, 2466052, 0.0141]], dtype=object)

In [87]:
df.columns

Index(['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율'], dtype='object')

In [88]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

열 인덱스와 행 인덱스에 이름을 부여할 수 있음

In [89]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


데이터프레임은 넘파이 2차원 배열이 제공하는 대부분의 속성과 메서드를 지원함

In [90]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2000,9853972,3655437,2466338,2473990
2005,9762546,3512547,2517680,2456016
2010,9631482,3393191,2632035,2431774
2015,9904312,3448737,2890451,2466052
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### 파이썬으로 다음 연산을 수행한다.

다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.  

지역: 서울, 인천, 부산, 울산, 대구  
최저기온: -2, -1, 2, 3 ,1  
최고기온: 7, 6, 9, 7, 1  
오전 강수확률: 0.2, 0.2, 0.3, 0.3, 0.3  
오후 강수확률: 0.6, 0.6, 0.6, 0.6, 0.6

In [92]:
index = ['서울', '인천', '부산', '울산', '대구']
data = {
    '최저기온': [-2, -1, 2, 3, 1],
    '최고기온': [7, 6, 9, 7, 1],
    '오전 강수확률': [0.2, 0.2, 0.3, 0.3, 0.3],
    '오후 강수확률': [0.6, 0.6, 0.6, 0.6, 0.6]
}

df1 = pd.DataFrame(data, index=index)
df1

Unnamed: 0,최저기온,최고기온,오전 강수확률,오후 강수확률
서울,-2,7,0.2,0.6
인천,-1,6,0.2,0.6
부산,2,9,0.3,0.6
울산,3,7,0.3,0.6
대구,1,1,0.3,0.6
