### 판다스 패키지
데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 `Series` 클래스와 표로 표현하는 `DataFrame` 클래스 존재함

판다스 패키지를 사용하기 위해서는 패키지를 설치 해야함
``` bash
pip install pandas
```

패키지를 임포트할 때는  
```python
import pandas
import pandas as pd
```

pandas 3.0 이상 버전 부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 존재하지 않으면  
```bash
pip install pyarrow
```
로 설치 권장 

In [4]:
import pandas as pd

### 시리즈 클래스
1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열 되어 있는 형태  
시리지를 생성하는 방법 : pandas 패키지의 `Series` 클래스의 생성자로 값과 인덱스에 대한 배열 혹은  
리스트를 전달하면 생성 할 수 있음

In [None]:
# 인덱스 배열의 요소는 중복이 되어도 됨
scores = pd.Series([85, 70, 100, 90, 55], index = ['김철수', '신짱구', '신짱아', '최유리', '봉미선'])
scores

In [None]:
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨
scores = pd.Series([85, 70, 100, 90, 55])
scores

Sereis 객체의 index와 values 들을 보고자 한다면 `index`속성과 `values` 속성으로 확인할 수 있음

In [None]:
scores.index

`name` 속성으로 value에 대한 이름을 부여할 수 있음
`index.name` 속성으로 index에 대한 이름을 부여할 수 있음

In [None]:
scores.name = '점수'
scores.index.name = '이름'
scores

#### 시리즈 연산
시리즈도 numpy 배열과 같이 벡터화 연산이 가능함  
단, 연산 작업은 값에만 적용됨

In [None]:
scores * 0.4

In [None]:
scores >= 60

In [None]:
scores2 = pd.Series([60,100,90,70,95], index= ['김철수', '신짱구', '신짱아', '최유리', '봉미선'])

In [None]:
scores + scores2

#### 시리즈 인덱싱
시리즈도 리스트나 배열과 같이 인덱스 번호로 접근이 가능  
단, 시리즈는 index 값으로 접근이 가능
배열 인덱싱이나 슬라이싱 모두 가능

In [None]:
scores[1], scores['김철수'] 

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있음

In [None]:
scores[[0, 3, 1]]

In [None]:
scores[['김철수','신짱구','신짱아']]

In [None]:
scores[(scores < 70)]

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름 (라벨)으로 슬라이싱 할 때는 인덱스 번호로 슬라이싱 할 때와 다르게  
마지막 인덱스 값도 포함해서 반환

In [None]:
scores[1:3]

In [None]:
scores['신짱구' :'신짱아']

시리즈 객체의 라벨이 영문자로 이루어져있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있음

In [None]:
s0 = pd.Series(range(3),index=['a', 'b', 'c'])
s0

In [None]:
s0.a, s0.b

#### 시리즈와 딕셔너리
시리즈는 인덱스의 이름(라벨)과 값이 한 쌍으로 이루어져서 관리되어 지는데, 이는 파이썬의 기본  
자료구조인 키와 값을 한 쌍으로 딕셔너리와 비슷하다  

시리즈 객체도 딕셔너리에서 사용가능한 `in` 연산과 `items()` 메서드를 사용할 수 있음

In [None]:
'이재용' in scores

In [None]:
'신짱구' in scores

In [None]:
for label, value in scores.items():
    print(f'{label} :{value}')

시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음  
단, 딕셔너리 객체는 순서가 보장되지 않기 떄문에 순서를 결정하고 싶다면 `index` 매개변수에 순서를   
정한 인덱스 배열 또는 리스트를 전달해야함


In [None]:
scores2 = pd.Series({'홍길동' : 60, '김철수' : 90, '이재용' : 100, '권지용' : 75},index = ['권지용', '김철수', '이재용', '홍길동'])
scores2

#### 인덱스 기반 연산
두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 대해서만 연산을 진행함  
시리즈 모두에 존재하지 않는 인덱스는 `NaN`으로 표시 됨

In [None]:
score_sums = scores + scores2
score_sums

값들 끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
길이가 다른 값들에 대해서는 연산 불가

In [None]:
scores.values + scores2.values

시리즈 객체에서 값이 `NaN`인지 아닌지 구하려면 `notnull()` 메서드를 사용할 수 있음

In [None]:
score_sums.notnull()

In [None]:
score_sums[score_sums.notnull()]

### 데이터 갱신 추가 삭제
딕셔너리와 같은 방법으로 데이털르 갱신, 추가, 삭제를 할 수 있음

In [None]:
score_sums['김철수'] = 120
score_sums

In [None]:
score_sums['남궁선'] = 100
score_sums

In [None]:
score_sums.pop('최유리')

In [None]:
score_sums

### 파이썬으로 다음 연산을 수행한다.
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.

딕셔너리 store1 = {
'apple': 500,
'banana': 3000,
'carrot': 1000
}

딕셔너리 store2 = {
'apple': 800,
'banana': 2500,
'dabai': 5000
}

1. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다. 겹치지 않는 인덱스에 대해서 NaN으로 표시하는 시리즈 객체들과 겹치는 인덱스만 표시하는 시리즈 객체를 모두 생성한다.

In [58]:
store1 = {
'apple': 500,
'banana': 3000,
'carrot': 1000
}

In [57]:
store2 = {
'apple': 800,
'banana': 2500,
'dabai': 5000
}

In [59]:
store1_series = pd.Series(store1)

In [61]:
store2_series = pd.Series(store2)

In [65]:
plus_nan_series =store1_series + store2_series
plus_nan_series 

apple     1300.0
banana    5500.0
carrot       NaN
dabai        NaN
dtype: float64

In [64]:
minus_nan_series =store1_series - store2_series
minus_nan_series 

apple    -300.0
banana    500.0
carrot      NaN
dabai       NaN
dtype: float64

In [68]:
plus_series = plus_nan_series[plus_nan_series.notnull()]
plus_series

apple     1300.0
banana    5500.0
dtype: float64

In [69]:
minus_series =minus_nan_series[minus_nan_series.notnull()]
minus_series

apple    -300.0
banana    500.0
dtype: float64

### 데이터프레임 클래스
2차원 형태의 행렬에 열과 행에 대한 인덱스가 붙은 형태. 즉, 표(table)

#### 데이터 프레임 생성 방법
1. 열 인덱스 배열 혹은 리스트를 생성
2. 행 인덱스 배열 혹은 리스트를 생성
3. 각 열과 행에 해당하는 데이터를 가지고 있는 딕셔너리 객체를 생성
4. pandas 패키지의 DataFrame 클래스의 생성자로 데이터 딕셔너리와 행 인덱스, 열 인덱스를 전달하여 생성

In [5]:
columns = ['지역', '2005', '2010', '2015', '2010-2015 증가율']
index = ['서울', '부산', '인천', '대구']
data = {
    '2015' : [9904312, 3448737, 2890451, 2466052],
    '2010' : [9631482, 3393131, 2632035, 2431774],
    '2005' : [9762546, 3512547, 2517680, 2456016],
    '2000' : [9853972, 3655437, 2466338, 2473990],
    '지역' : ['수도권', '경상권', '수도권', '경상권'],
    '2010-2015 증가율' : [.0283, .0163, .0982, .0141]
}

df= pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2005,2010,2015,2010-2015 증가율
서울,수도권,9762546,9631482,9904312,0.0283
부산,경상권,3512547,3393131,3448737,0.0163
인천,수도권,2517680,2632035,2890451,0.0982
대구,경상권,2456016,2431774,2466052,0.0141


`values` 속성 : 데이터에 대한 배열 반환
`column` 속성 : 열 인덱스에 대한 배열 반환
`index` 속성 : 행 인덱스에 대한 배열 반환

In [5]:
df.values

array([['수도권', 9762546, 9631482, 9904312, 0.0283],
       ['경상권', 3512547, 3393131, 3448737, 0.0163],
       ['수도권', 2517680, 2632035, 2890451, 0.0982],
       ['경상권', 2456016, 2431774, 2466052, 0.0141]], dtype=object)

In [6]:
df.columns

Index(['지역', '2005', '2010', '2015', '2010-2015 증가율'], dtype='object')

In [7]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

열 인덱스와 행 인덱스에 이름을 부여할 수 있음

In [9]:
df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9762546,9631482,9904312,0.0283
부산,경상권,3512547,3393131,3448737,0.0163
인천,수도권,2517680,2632035,2890451,0.0982
대구,경상권,2456016,2431774,2466052,0.0141


데이터프레임은 넘파이 2차원 배열이 제공하는 대부분의 속성과 메서드를 지원함

In [6]:
df.T

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2005,9762546,3512547,2517680,2456016
2010,9631482,3393131,2632035,2431774
2015,9904312,3448737,2890451,2466052
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [16]:
columns = ['지역' ]
index = ['서울', '인천', '부산', '울산', '대구']
data = {
    '최저 기온' : [-2, -1, 2, 3, 1 ],
    '최고 기온' : [7, 6, 9, 7, 1],
    '오전 강수확률' : [0.2, 0.2, 0.3, 0.3, 0.3],
    '오후 강수확률' : [0.6, 0.6, 0.6, 0.6, 0.6],
}

df= pd.DataFrame(data , index= index, columns = columns)
df

TypeError: unhashable type: 'list'