# Pandas

판다스가 제공하는 시리즈(Series)와 데이터프레임(DataFrame)은 넘파이 어레이와 유사한 기능과 함께 데이터를 조작하고 다루기 위한 다양한 기능을 추가로 제공한다.
판다스(pandas)는 넘파이와 함께 앞으로 가장 많이 다룰 라이브러리이며, 데이터 분석에 사용되는 많은 다른 라이브러리와 함께 자주 사용된다.

넘파이 어레이는 수치형 데이터를 처리하는 데에 특화된 반면에 
판다스의 데이터프레임은 표(table) 형식의 데이터 또는 다양한 형태의 데이터를 다룰 수 있다.

이번 장에서 소개하는 내용은 다음과 같다.

* `Series`와 `DataFrame` 객체 소개
* `Series`와 `DataFrame`의 주요 도구: 인덱싱, 삭제, 연산, 정렬
* 기초 통계 활용

1편에서는 먼저 시리즈와 데이터프레임을 소개한다.

## 기본 설정

`pandas` 라이브러리는 보통 `pd` 라는 별칭으로 사용된다.

In [None]:
# 설치
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import numpy as np
import pandas as pd

- `Series`와 `DataFrame`을 표로 보여줄 때 사용되는 행의 수 지정 가능 
- 기본 값은 60이다.

In [None]:
pd.options.display.max_rows

60

In [None]:
# max row 변경
pd.set_option("max_rows", 20)

In [None]:
pd.options.display.max_rows

20

## 1.1 판다스 자료구조 소개

* 시리즈(`Series`)
* 데이터프레임(`DataFrame`)

### 1.1.1 시리즈(`Series`)

- 1차원 어레이와 동일한 구조 
- 인덱스(index)를 0, 1, 2 등이 아닌 임의의 값으로 지정

#### 시리스 생성 1

- 1차원 리스트 또는 np.array를 이용해 생성가능
- index = 0, 1, 2, ... 으로 생성

- 참고
    - 인덱스: 별도로 지정하지 않으면 리스트, 넘파이 어레이 등에서 사용된 인덱스가 기본으로 사용됨.
    - `dtype`: 사용된 항목의 자료형을 가리키며 모든 항목은 동일한 자료형을 가져야 함. 

기본 Series 생성

In [None]:
# list 를 이용해 생성
obj = pd.Series([4, 7, -5, 3])

In [None]:
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [None]:
type(obj)

pandas.core.series.Series

1차원 array를 이용한 생성

In [None]:
obj = pd.Series(np.array([4, 7, -5, 3]))

In [None]:
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


항목으로 사용된 값들은 `values` 속성이 넘파이 어레이로 저장된다.

In [None]:
type(obj.values)

numpy.ndarray

- series.index 를 통해 index확인 가능
- 자동으로 생성된 경우 인덱스는 `range`와 유사한 `RangeIndex` 자료형

In [None]:
obj.index
# RangeIndex 기본 index자료형이다.

RangeIndex(start=0, stop=4, step=1)

#### 인덱스 지정
Series 생성시 index지정가능.

- `index` 키워드 인자: 항목의 수와 동일한 길이를 갖는 리스트. 리스트에 포함된 항목 순서대로 인덱스 지정.

In [None]:
obj2 = pd.Series(np.array([4, 7, -5, 3]), index= ["d", "b", "a","c"])

In [None]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

특정 인덱스를 지정시 인덱스의 자료형은 `Index` 객체로 할당된다.

In [None]:
obj.index

Index(['d', 'b', 'a', 'c'], dtype='object')

#### 인덱스 대체
- 기존에 사용된 인덱스를 완전히 새로운 인덱스로 대체할 수도 있다.

In [None]:
obj

d    4
b    7
a   -5
c    3
dtype: int64

In [None]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]

In [None]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

#### 인덱싱
- 숫자가 아닌 index도 동일하게 적용

In [None]:
obj2["a"]

-5

인덱스가 가리키는 값을 변경할 수도 있다.

In [None]:
obj2["a"] = 10

In [None]:
obj2

d     4
b     7
a    10
c     3
dtype: int64

인덱스의 리스트를 이용한 인덱싱의 결과는 지정된 인덱스가 사용

In [None]:
list_1 = ["c","a", "d"]
obj2[list_1]

c     3
a    10
d     4
dtype: int64

#### 부울 인덱싱(필터링)
- 부울 인덱싱은 넘파이 어레이의 경우와 동일하게 작동한다.


In [None]:
bool_1 = obj>2

In [None]:
obj[bool_1]

Bob      4
Steve    7
Ryan     3
dtype: int64

양수 항목들로만 구성된 시리즈 출력

In [None]:
bool_2 = obj>0
obj[bool_2]

Bob      4
Steve    7
Ryan     3
dtype: int64

#### 연산 및 유니버설 함수 적용
- 연산 및 유니버설 함수 적용 방식도 기본적으로 넘파이 어레이의 경우처럼 항목별로 작동

In [None]:
obj + 1

Bob      5
Steve    8
Jeff    -4
Ryan     4
dtype: int64

In [None]:
obj * 2

Bob       8
Steve    14
Jeff    -10
Ryan      6
dtype: int64

In [None]:
obj/2

Bob      2.0
Steve    3.5
Jeff    -2.5
Ryan     1.5
dtype: float64

In [None]:
np.exp(obj)

Bob        54.598150
Steve    1096.633158
Jeff        0.006738
Ryan       20.085537
dtype: float64

In [None]:
np.sqrt(obj)

  result = getattr(ufunc, method)(*inputs, **kwargs)


Bob      2.000000
Steve    2.645751
Jeff          NaN
Ryan     1.732051
dtype: float64

#### 사전(`dict`)과 시리즈(`Series`) 비교
- 시리즈는 길이가 고정되었으며 순서가 중요한 사전으로 간주할 수 있다.

| 사전 | 시리즈 |
| :---: | :---:  |
| 키(key) | 인덱스 |
| 값 | 값    |
| 순서 없음 | 순서 중요 |
| 중복 없음 | 중복 허용 |

#### 시리즈 생성 2
dict2Series
- 키 => 인덱스
- 값 => 값

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [None]:
obj3 = pd.Series(sdata)

In [None]:
print(obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


- dict 을 이용하여 index 별도 지정가능
     - dict에 키로 사용되지 않은 index는 누락되었다는 의미로 `NaN`이 표기
- 인덱스 리스트에 포함되지 않는 (사전의) 키는 포함되지 않는다.

* `California`: `sdata` 사전에 키로 사용되지 않았기에 `Nan`으로 지정
* `Utah`: `states` 리스트에 포함되지 않았기에 생성된 시리즈에 사용되지 않음.

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [None]:
obj4 = pd.Series(sdata, index = states)
# NaN 을 결측치라고 한다. 

역으로 시리즈를 사전으로 변환할 수도 있다. 

* 인덱스 => 키
* 값 => 값

In [None]:
dict(obj4)

{'California': nan, 'Ohio': 35000.0, 'Oregon': 16000.0, 'Texas': 71000.0}

#### `in` 연산자
- `in`연산자는 인덱스 사용 여부를 사전 자료형의 키(key) 사용 여부와 동일한 방식으로 판단한다.

In [None]:
"Texas" in obj4

True

In [None]:
"seoul" in obj4

False

#### 결측치 확인
- isnull
    - 누락된 항목은 `True`, 아니면 `False`로 지정하여 단번에 결측치가 포함되었는지 여부를 보여준다
- notnull
    - 함수는 누락된 항목은 `True`, 아니면 `False`로 지정하여 단번에 결측치가 포함되었는지 여부를 보여준다.

In [None]:
obj.isnull()

Bob      False
Steve    False
Jeff     False
Ryan     False
dtype: bool

In [None]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

- `any()` 또는 `all()` 메서드를 활용하면 결측치 여부 확인가능
- 예를 들어, `pd.isnull()` 과 `any()` -> `True` 결측치 존재

In [None]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

- `pd.notnull()` 과 `all()` -> `False` 이면 결측재 존재

In [None]:
obj4.isnull().sum() # 결측치가 몇개 있는지 확인가능

1

In [None]:
obj4.isnull().any()

True

In [None]:
obj.isnull().any()

False

#### 시리즈 연산과 인덱스

- 시리즈가 공동으로 사용하는 항목에 대해서만 연산가능
- 다른 인덱스에 대한 연산결과로는 `NaN`으로 값 지정

In [None]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [None]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

#### `name` 속성
- index 객체의 정보를 저장

In [None]:
obj4.name

In [None]:
obj4.name = "pop"

In [None]:
obj4.name

'pop'

In [None]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: pop, dtype: float64

In [None]:
obj4.index.name = "state"

In [None]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: pop, dtype: float64