### 판다스 패키지
데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 `Series` 클래스와 표로 표현하는 `DataFrame`클래스 존재함  
  
판다스 패키지를 사용하기 위해서는 패키지를 설치해야함  
```bash
pip install pandas
```  
  
패키지를 임포트할 때는 
```python
import pandas
import pandas as pd
```
  
pandas 3.0 이상 버전 부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 존재하지 않으면 
```bash
pip insall pyarrow
```  
로 Pyarrow 설치 권장

In [None]:
import pandas as pd
import numpy as np

### 시리즈 클래스
1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열되 있는 형태  
시리즈를 생성하는 방법: pandas 패키지의 `Series` 클래스의 생성자로 값과 인덱스에 대한 배열 혹은 리스트를 전달하면 생성할 수 있음

In [None]:
# 인덱스 배열의 요소는 중복이 되어도 됨
scores = pd.Series([85, 70, 100, 90, 55], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores

In [None]:
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨
scores = pd.Series([85, 70, 100, 90, 55])
scores

Series 객체의 index와 values 들을 보고자 한다면 `index` 속성과 `values` 속성으로 확인할 수 있음

In [None]:
scores.index

In [None]:
scores.values

`name` 속성으로 value에 대한 이름을 부여할 수 있음  
`index.name` 속성으로 index에 대한 이름을 부여할 수 있음  

In [None]:
scores.name = '점수'
scores.index.name = '이름'
scores

#### 시리즈 연산
시리즈도 numpy 배열과 같이 벡터화 연산이 가능함  
단, 연산 작업은 값에만 적용됨   

In [None]:
scores * 0.4

In [None]:
scores >= 60

In [None]:
scores2 = pd.Series([60, 100, 90, 70, 95], index=['홍길동', '김철수', '이영희', '최민수', '박지성'])
scores2

In [None]:
scores + scores2

#### 시리즈 인덱싱
시리즈도 리스트나 배열과 같이 인덱스 번호로 접근이 가능  
단, 시리즈는 index 값으로도 접근이 가능  
배열 인덱싱이나 슬라이싱 모두 가능  

In [None]:
scores[1], scores['김철수']

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있음  

In [None]:
scores[[0, 3, 1]]

In [None]:
scores[['홍길동', '최민수', '김철수']]

In [None]:
scores[scores < 70]

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름(라벨)으로 슬라이싱할 때는 인덱스 번호로 슬라이싱할 때와 다르게 마지막 인덱스 값도 포함해서 반환

In [None]:
scores[1:3]

In [None]:
scores['김철수':'최민수']

시리즈 객체의 라벨이 영문자로 이루어져 있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있음

In [None]:
s0 = pd.Series(range(3), index=['a', 'b', 'c'])
s0

In [None]:
s0.a, s0.b

#### 시리즈와 딕셔너리
시리즈는 인덱스의 이름(라벨)과 값이 한쌍으로 이루어져서 관리되어 지는데, 이는 파이썬의 기본 자료구조인 키와 값을 한 쌍으로 관리하는 딕셔너리와 비슷함  
  
시리즈 객체도 딕셔너리에서 사용가능한 `in` 연산과 `items()` 메서드를 사용할 수 있음

In [None]:
'이재용' in scores

In [None]:
'홍길동' in scores

In [None]:
for label, value in scores.items():
    print(f'{label}: {value}')

시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음  
단, 딕셔너리 객체는 순서가 보장되지 않기 때문에 순서를 결정하고 싶다면 `index` 매개변수에 순서를 정한 인덱스 배열 또는 리스트를 전달해야함

In [None]:
scores2 = pd.Series({'홍길동': 60, '김철수': 90, '이재용': 100, '권지용': 75})
scores2

In [None]:
scores2 = pd.Series({'홍길동': 60, '김철수': 90, '이재용': 100, '권지용': 75}, index=['권지용', '김철수', '이재용', '홍길동'])
scores2

#### 인덱스 기반 연산
두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 대해서만 연산을 진행함  
시리즈 모두에 존재하지 않는 인덱스는 `NaN`으로 표시 됨

In [None]:
score_sums = scores + scores2
score_sums

값들 끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
(길이가 다른 값들에 대해서는 연산 불가)

In [None]:
scores.values + scores2.values

시리즈 객체에서 값이 `NaN`인지 아닌지 구하려면 `notnull()` 메서드를 사용할 수 있음

In [None]:
score_sums.notnull()

In [None]:
score_sums[score_sums.notnull()]

#### 데이터 갱신, 추가, 삭제
딕셔너리와 같은 방법으로 데이터를 갱신, 추가, 삭제를 할 수 있음

In [None]:
score_sums['김철수'] = 120
score_sums

In [None]:
score_sums['남궁선'] = 100
score_sums

In [None]:
del score_sums['이재용']
score_sums

In [None]:
score_sums.pop('최민수')

In [None]:
score_sums

In [None]:
score_sums.pop('홍길동')

In [None]:
score_sums

##### 파이썬으로 다음 연산을 수행한다.

1.  임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

```python
store1 = {
    'apple': 500,
    'banana': 3000,
    'carrot': 1000
}

store2 = {
    'apple': 500,
    'banana': 3000,
    'dabai': 5000
}
```

2.  위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다. 겹치지 않는 인덱스에 대해서 NaN으로 표시하는 시리즈 객체들과 겹치는 인덱스만 표시하는 시리즈 객체를 모두 생성한다.

In [None]:
store1 = {
    'apple': 500,
    'banana': 3000,
    'carrot': 1000
}

store2 = {
    'apple': 800,
    'banana': 2500,
    'dabai': 5000
}

store1, store2

In [None]:
store1_series = pd.Series(store1)
store2_series = pd.Series(store2)

In [None]:
store1_series

In [None]:
store2_series

In [None]:
plus_nan_series = store1_series + store2_series
plus_nan_series

In [None]:
minus_nan_series = store1_series - store2_series
minus_nan_series

In [None]:
plus_series = plus_nan_series[plus_nan_series.notnull()]
plus_series

In [None]:
minus_series = minus_nan_series[minus_nan_series.notnull()]
minus_series

### 데이터프레임 클래스
2차원 형태의 행렬에 열과 행에 대한 인덱스가 붙은 형태. 즉, 표(table)

#### 데이터프레임 생성 방법
1. 열 인덱스 배열 혹은 리스트를 생성
2. 행 인덱스 배열 혹은 리스트를 생성
3. 각 열과 행에 해당하는 데이터를 가지고 있는 딕셔너리를 생성
4. pandas 패키지의 DataFrame 클래스의 생성자로 데이터 딕셔너리와 행 인덱스, 열 인덱스를 전달하여 생성

In [None]:
columns = ['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']
data = {
    '2015': [9904312, 3448737, 2890451, 2466052],
    '2010': [9631482, 3393191, 2632035, 2431774],
    '2005': [9762546, 3512547, 2517680, 2456016],
    '2000': [9853972, 3655437, 2466338, 2473990],
    '지역': ['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율': [.0283, .0163, .0982, .0141]
}

df = pd.DataFrame(data, index=index, columns=columns)
df

`values` 속성 : 데이터에 대한 배열 반환
`columns` 속성 : 열 인덱스에 대한 배열 반환
`index` 속성 : 행 인덱스에 대한 배열 반환

In [None]:
df.values

In [None]:
df.columns

In [None]:
df.index

열 인덱스와 행 인덱스에 이름을 부여할 수 있음

In [None]:
df.index.name = '도시'
df.columns.name = '특성'
df

데이터프레임은 넘파이 2차원 배열이 제공하는 대부분의 속성과 메서드를 지원함

In [None]:
df.T

##### 파이썬으로 다음 연산을 수행한다.
    
다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.  
    
지역: 서울, 인천, 부산, 울산, 대구
최저기온: -2, -1, 2, 3 ,1
최고기온: 7, 6, 9, 7, 1
오전 강수확률: 0.2, 0.2, 0.3, 0.3, 0.3
오후 강수확률: 0.6 0.6 0.6 0.6 0.6

In [None]:
practice_columns = ['지역', '최저기온', '최고기온', '오전 강수확률', '오후 강수확률']
practice_data = {
    '지역' : ['서울', '인천', '부산', '울산', '대구'],
    '최저기온': [-2, -1, 2, 3, 1],
    '최고기온': [7, 6, 9, 7, 1],
    '오전 강수확률': [.2, .2, .3, .3, .3],
    '오후 강수확률': [.6, .6, .6, .6, .6]
}

practice_df = pd.DataFrame(practice_data, columns=practice_columns)
practice_df

#### 열 데이터 갱신, 추가, 삭제
데이터프레임은 열 단위로 데이터를 추가, 수정, 삭제 할 수 있음

In [None]:
# 수정 (갱신)
df['2010-2015 증가율'] = df['2010-2015 증가율'] * 100
df

In [None]:
# 추가
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

In [None]:
# 삭제
del df['2010-2015 증가율']
df

#### 열 인덱싱
데이터프레임은 열과 행의 인덱스를 모두 가지고 있어서 열 라벨을 통한 인덱싱도 가능  
  
만약 문자열 형태의 하나의 열 라벨을 인덱싱 한다면 시리즈 객체로 반환  
만약 배역 혹은 리스트 형태의 열 라벨을 인덱싱 한다면 데이터프레임 객체로 반환 

In [None]:
df['지역']

In [None]:
df[['2010', '2015']]

In [None]:
df[['지역']]

열 인덱싱은 정수 인덱스로 인덱싱을 할 수 없음

In [None]:
df[0]

원래부터 정수형태의 열 인덱스를 가진다면 정수 인덱스로 인덱싱이 가능

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

In [None]:
df2[2]

In [None]:
df2[[1, 3]]

#### 행 인덱싱
데이터프레임에서 행으로 인덱싱을 하고자한다면 반드시 슬라이싱으로 인덱싱하여야 함

In [None]:
df[:1]

In [None]:
df[1:2]

In [None]:
df['서울':'부산']

#### 개별 데이터 인덱싱
하나의 필드 값을 얻고자 한다면 열로 먼저 인덱싱 후 행으로 다시 인덱싱 함

In [None]:
df['2015']['서울']

##### 파이썬으로 다음 연산을 수행한다.
다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.  
  
```python
practice_data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
practice_columns = ["국어", "영어", "수학"]
practice_index = ["춘향", "몽룡", "향단", "방자"]
practice_df = pd.DataFrame(practice_data, index=practice_index, columns=practice_columns)
```  
  
(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.  
    
(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.  
    
(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.  
    
(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.  
    
(5) 춘향의 점수를 데이터프레임으로 나타낸다.  
    
(6) 향단의 점수를 시리즈로 나타낸다.

In [38]:
practice_data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
practice_columns = ["국어", "영어", "수학"]
practice_index = ["춘향", "몽룡", "향단", "방자"]
practice_df = pd.DataFrame(practice_data, index=practice_index, columns=practice_columns)
practice_df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [39]:
# (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.  
practice_df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [40]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.  
practice_df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [44]:
# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.  
practice_df['평균'] = ((practice_df['국어'] + practice_df['영어'] + practice_df['수학']) / 3).round(2)
practice_df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [47]:
# (4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.  
practice_df['영어'] = [90, 70, 60, 80]
practice_df['평균'] = ((practice_df['국어'] + practice_df['영어'] + practice_df['수학']) / 3).round(2)
practice_df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [48]:
# (5) 춘향의 점수를 데이터프레임으로 나타낸다.  
practice_df[:'춘향']

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [51]:
# (6) 향단의 점수를 시리즈로 나타낸다.
practice_df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64