# Pandas

## Agenda

* `Series`와 `DataFrame` 객체 소개
* `Series`와 `DataFrame`의 주요 도구: 인덱싱, 삭제, 연산, 정렬
* 기초 통계 활용

## 기본 설정

`pandas` 라이브러리는 보통 `pd` 라는 별칭으로 사용된다.

In [2]:
import pandas as pd
import numpy as np

- `Series`와 `DataFrame`을 표로 보여줄 때 사용되는 행의 수 지정 가능 
- 기본 값은 60이다.

In [8]:
# random seed 고정 항상 같은 결과를 출력한다.
np.random.seed(123) 

pd.options.display.max_rows
pd.set_option("display.max_row", 20)

## 1.1 판다스 자료구조 소개

* 시리즈(`Series`)
* 데이터프레임(`DataFrame`)

### 1.1.1 시리즈(`Series`)

- 1차원 어레이와 동일한 구조 
- 인덱스(index)를 0, 1, 2 등이 아닌 임의의 값으로 지정

#### 시리스 생성 1

- 1차원 리스트 또는 np.array를 이용해 생성가능
- index = 0, 1, 2, ... 으로 생성

- 참고
    - 인덱스: 별도로 지정하지 않으면 리스트, 넘파이 어레이 등에서 사용된 인덱스가 기본으로 사용됨.
    - `dtype`: 사용된 항목의 자료형을 가리키며 모든 항목은 동일한 자료형을 가져야 함. 

기본 Series 생성

In [11]:
ser_1 = pd.Series([2,1,4,-5])

In [12]:
ser_1

0    2
1    1
2    4
3   -5
dtype: int64

1차원 array를 이용한 생성

In [15]:
ser_2 = pd.Series(np.array([2,1,4,-5]))
ser_2

0    2
1    1
2    4
3   -5
dtype: int64

항목으로 사용된 값들은 `values` 속성이 넘파이 어레이로 저장된다.

In [16]:
ser_2.values

array([ 2,  1,  4, -5])

- series.index 를 통해 index확인 가능
- 자동으로 생성된 경우 인덱스는 `range`와 유사한 `RangeIndex` 자료형

In [17]:
ser_2.index

RangeIndex(start=0, stop=4, step=1)

#### 인덱스 지정
Series 생성시 index지정가능.

- `index` 키워드 인자: 항목의 수와 동일한 길이를 갖는 리스트. 리스트에 포함된 항목 순서대로 인덱스 지정.

In [19]:
# 기본적으로 순서가 없다
ser_3 = pd.Series([2,3,5,-2], index=["b","a","c","e"])
ser_3

b    2
a    3
c    5
e   -2
dtype: int64

특정 인덱스를 지정시 인덱스의 자료형은 `Index` 객체로 할당된다.

In [20]:
ser_3.index

Index(['b', 'a', 'c', 'e'], dtype='object')

#### 인덱스 대체
- 기존에 사용된 인덱스를 완전히 새로운 인덱스로 대체할 수도 있다.

In [21]:
ser_3.index= ["이성현","박소정","차민경","오민엽"]

In [22]:
ser_3

이성현    2
박소정    3
차민경    5
오민엽   -2
dtype: int64

#### 인덱싱
- 숫자가 아닌 index도 동일하게 적용

In [24]:
ser_3["이성현"]

2

인덱스가 가리키는 값을 변경할 수도 있다.

In [26]:
ser_3[["이성현"]] = 1
ser_3

이성현    1
박소정    3
차민경    5
오민엽   -2
dtype: int64

인덱스의 리스트를 이용한 인덱싱의 결과는 지정된 인덱스가 사용

In [28]:
ser_4 = ser_3[["이성현","오민엽"]]
ser_4

이성현    1
오민엽   -2
dtype: int64

#### 부울 인덱싱(필터링)
- 부울 인덱싱은 넘파이 어레이의 경우와 동일하게 작동한다.


양수 항목들로만 구성된 시리즈 출력

In [30]:
# ser_3>0 #ser_3는 양수
ser_3[ser_3>0] #True인 애들 반환

이성현    1
박소정    3
차민경    5
dtype: int64

#### 연산 및 유니버설 함수 적용
- 연산 및 유니버설 함수 적용 방식도 기본적으로 넘파이 어레이의 경우처럼 항목별로 작동

In [32]:
ser_3 - 10

이성현    -9
박소정    -7
차민경    -5
오민엽   -12
dtype: int64

In [33]:
np.exp(ser_3) #각각 요소에 exp을 씌울 수 있음.

이성현      2.718282
박소정     20.085537
차민경    148.413159
오민엽      0.135335
dtype: float64

#### 사전(`dict`)과 시리즈(`Series`) 비교
- 시리즈는 길이가 고정되었으며 순서가 중요한 사전으로 간주할 수 있다.

| 사전 | 시리즈 |
| :---: | :---:  |
| 키(key) | 인덱스 |
| 값 | 값    |
| 순서 없음 | 순서 중요 |
| 중복 없음 | 중복 허용 |

#### 시리즈 생성 2
dict2Series
- 키 => 인덱스
- 값 => 값

In [34]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
ser_5 = pd.Series(sdata)

In [35]:
ser_5

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

- dict 을 이용하여 index 별도 지정가능
     - dict에 키로 사용되지 않은 index는 누락되었다는 의미로 `NaN`이 표기
- 인덱스 리스트에 포함되지 않는 (사전의) 키는 포함되지 않는다.

* `California`: `sdata` 사전에 키로 사용되지 않았기에 `Nan`으로 지정
* `Utah`: `states` 리스트에 포함되지 않았기에 생성된 시리즈에 사용되지 않음.

In [49]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
ser_6 = pd.Series(sdata, index=states)

In [50]:
type(ser_6["California"]) #type(np.NAN)이 float이라 캘리포니아도 numpy float이다.

numpy.float64

역으로 시리즈를 사전으로 변환할 수도 있다. 

* 인덱스 => 키
* 값 => 값

In [38]:
dict(ser_6)

{'California': nan, 'Ohio': 35000.0, 'Oregon': 16000.0, 'Texas': 71000.0}

#### `in` 연산자
- `in`연산자는 인덱스 사용 여부를 사전 자료형의 키(key) 사용 여부와 동일한 방식으로 판단한다.

In [52]:
"Ohio" in ser_6

True

#### 결측치 확인
- isnull
    - 누락된 항목은 `True`, 아니면 `False`로 지정하여 단번에 결측치가 포함되었는지 여부를 보여준다
- notnull
    - 누락된 항목은 `False`, 아니면 `True`로 지정하여 단번에 결측치가 포함되었는지 여부를 보여준다.

In [55]:
pd.isnull(ser_6) #캘리포니아가 nan이기 떄문에 True
pd.notnull(ser_6) #캘리포니아가 nan이기 때문에 False

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [56]:
ser_6.isnull() #pd.isnull(ser_6)랑 동일한 값이 나온다.

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

- `any()` 또는 `all()` 메서드를 활용하면 결측치 여부 확인가능
- 예를 들어, `pd.isnull()` 과 `any()` -> `True` 결측치 존재

In [59]:
np.any(ser_6.isnull()) # True
np.any(ser_6.isnull) # True인 값들 뱉어냄

True

- `pd.notnull()` 과 `all()` -> `False` 이면 결측치 존재

In [64]:
np.all(ser_6.notnull())
np.all(ser_6.notnull)

<bound method Series.notnull of California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64>

#### 시리즈 연산과 인덱스

- 시리즈가 공동으로 사용하는 항목에 대해서만 연산가능
- 다른 인덱스에 대한 연산결과로는 `NaN`으로 값 지정

## 1.2 데이터프레임(`DataFrame`)

__데이데프레임__(DataFrame) 
- 인덱스를 공유하는 여러 개의 시리즈를 다루는 객체다. 
- 2차원 Array, Matrix 라고 하기도 한다.
- row 와 column으로 구성, Series 는 row vector 라고 하기도 한다

In [65]:
ser_4

이성현    1
오민엽   -2
dtype: int64

In [68]:
ser_5 + ser_4 #index중복된게 하나도 없기 때문에 결과값이 NaN이다

Ohio     NaN
Oregon   NaN
Texas    NaN
Utah     NaN
오민엽      NaN
이성현      NaN
dtype: float64

In [69]:
ser_7 = ser_5[["Ohio","Oregon"]]

In [70]:
ser_5 + ser_7 #값이 있는애들은 합쳐지고 없는 애들은 NaN

Ohio      70000.0
Oregon    32000.0
Texas         NaN
Utah          NaN
dtype: float64

In [71]:
ser_7.name="pop"

In [72]:
ser_7.index.name = "state"

In [73]:
ser_7

state
Ohio      35000
Oregon    16000
Name: pop, dtype: int64

- 세 개의 시리즈
- `name` 속성을 이용하여 각 시리즈의 이름도 함께 지정

In [81]:
# mango
series_1 = pd.Series([4,5,6,3,1], name="mango")
# ser_m = pd.Series(series_1)
# ser_m.name="mango"

In [76]:
# apple
series_2 = pd.Series([5,4,3,0,2], name="apple")


In [77]:
# banana
series_3 = pd.Series([2,3,5,2,7], name="banana")

<img src="https://s3.us-west-2.amazonaws.com/secure.notion-static.com/22162fb4-f914-489b-99ee-d6fbc441ba65/Untitled.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220717%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220717T133438Z&X-Amz-Expires=86400&X-Amz-Signature=4b08f8f2a17df6f87945256d9f02766e238fbdd5402e6b50aeadb11c44c99584&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Untitled.png%22&x-id=GetObject">

### 데이터프레임 생성 1 (From a dict of lists)

- value 가  list인 dict 으로 부터 데이터 프레임 생성
- 데이터프레임 객체는 시리즈를 값으로 갖는 사전(`dict`) 객체를 이용하여 생성가능
- 위 세 개의 시리즈를 하나의 데이터프레임으로 묶기 위해 키(key)는 각 series `name`으로, 값(value)은 해당 series로 지정된 아래 사전을 이용한다.

```python
{"Mango":series1, "Apple":series2, "Banana":series3}
```

- `name` 속성을 키로 지정한 후 데이터프레임 생성

In [82]:
pd.DataFrame({"Mango":series_1, "Apple":series_2, "Banana":series_3})

Unnamed: 0,Mango,Apple,Banana
0,4,5,2
1,5,4,3
2,6,3,5
3,3,0,2
4,1,2,7


- `pd.concat()` 함수도 여러 개의 시리즈를 묶어 하나의 데이터프레임을 생성
    - 축 지정
    - axis=1, axis=0

In [83]:
pd.concat([series_1,series_2,series_3],axis=1) # 1 이나까 1 이 방향으로 쌓인다. 0은 ㅡ 이 방향으로 쌓이구

Unnamed: 0,mango,apple,banana
0,4,5,2
1,5,4,3
2,6,3,5
3,3,0,2
4,1,2,7


### 데이터프레임 생성 2 (From a list of dicts)
- Object가 dict인 list로부터 데이터 프레임 생성
- 리스트를 값으로 갖는 사전을 이용하여 데이터프레임을 생성 가능
- `state`(주 이름), `year`(년도), `pop`(인구)을 키(key)로 사용
- 해당 특성에 해당하는 데이터로 구성된 리스트를 값(value)로 사용

In [84]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada', 'NY', 'NY', 'NY'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003, 2002, 2003, 2004],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2, 8.3, 8.4, 8.5]}
# dict 를 DataFrame로 변경해보자

In [86]:
df_1 = pd.DataFrame(data)

#### `head()` 메서드
- `head()` : 지정된 크기만큼의 행을 출력 
- 처음 5개의 행을 보여준다.

In [87]:
df_1.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


#### `tail()` 메서드
- `tail()` : 지정된 크기만큼의 행을 뒤에서부터 출력 
- 뒤에서부터 5개의 행을 보여준다.

In [88]:
df_1.tail()

Unnamed: 0,state,year,pop
4,Nevada,2002,2.9
5,Nevada,2003,3.2
6,NY,2002,8.3
7,NY,2003,8.4
8,NY,2004,8.5


### 데이터프레임 생성3 (From another DataFrame)
- `columns` 속성을 이용하여 열의 순서를 지정하여 기존 datafram을 이용해 새로운 datafram을 생성할 수 있다. 

In [90]:
pd.DataFrame(data, columns=["year","state","pop"]) #순서 변경 가능

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2
6,2002,NY,8.3
7,2003,NY,8.4
8,2004,NY,8.5


- 새로운 열을 추가 가능
- 이름만 지정하고 value가 없다면 항목은 모두 `NaN`으로 처리

In [91]:
df_2 = pd.DataFrame(data,columns=["year","state","pop","debt"])

In [98]:
df_2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,
6,2002,NY,8.3,
7,2003,NY,8.4,
8,2004,NY,8.5,


- 사전에 항목을 추가하듯이 처리 가능

In [95]:
df_2_ = df_2.copy()
df_2_["debt2"] = np

In [97]:
df_2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

 -`columns` 속성을 확인

#### `index` 속성
- 인덱스를 지정하려면 `index` 속성을 이용

- `columns`, `index` 등 여러 속성을 동시에 지정

### 열(column) 인덱싱

- 열 인덱싱은 시리즈, 사전 등과 동일한 방식을 사용
- 지정된 열의 이름을 사용하여 확인가능
```
df.[‘column_name’]
```

- 대괄호 대신 속성 형식을 사용할 수도 있다.
```
df.column_name
```

__참고__ 
- 속성 형식에 사용될 수 있는 열의 이름은 일반 변수의 이름 지정방식과 동일하게 사용해야 한다. 
- 대괄호를 사용하는 인덱싱은 임의의 문자열을 사용하지만 속성 형식은 변수를 사용하듯이 처리하기 때문 

예 
- Ohio 주(state)인지 여부를 판정하는 'Ohio state' 라는 열을 추가

### 열 삭제
- 하나의 열을 삭제하려면 `del` 예약어를 사용한다.

- `drop()` 메서드를 사용가능

### 행 인덱싱
- 행 인덱싱은 `loc` 속성과 지정된 인덱스를 이용
    - location 의 약자로 column의 label, 또는 boolean array로 접근

- 인덱스의 리스트를 활용
    - boolean 을 이용해 특정 조건의 행 선택

__참고__ 
- iloc를 이용해 정수 인덱싱 가능
    - integer location 의 약자로 indexing 값으로 데이터에 접근

### 열 업데이트

- 열 인덱싱을 이용하여 항목의 값을 지정및 변경 가능 
    - 브로드캐스팅이 기본적으로 작동한다.

- 행의 길이와 동일한 리스트, 어레이 등을 이용하여 각 행별로 다른 값을 지정가능
- 리스트, 어레이의 길이가 행의 개수와 동일해야한다.

- __Series__ 를 이용하여 특정 열의 값을 지정가능 
    - 항목의 길이가 행의 개수와 동일할 필요가 없다.
    - 지정된 행의 인덱스 값만 삽입되며 나머지는 `NaN`이 삽입

In [17]:
val = pd.Series([-1.2, -1.5, -1.7, 2.2], index=['two', 'four', 'five', 'eleven'])
val
# 위 시리즈를 이용하여 `'debt'` 열의 값을 업데이트

two      -1.2
four     -1.5
five     -1.7
eleven    2.2
dtype: float64

### 데이터프레임 생성 3 (From a dict of dicts)

- 중첩 사전을 활용하여 데이터프레임을 생성가능
- 최상위 키는 열의 이름으로, 내부에 사용된 키는 행의 인덱스로 사용

__참고__ 
- 데이터프레임을 생성함에 있어서의 핵심은 2차원 행렬 모양을 갖느냐이기에
- 각 열에 해당하는 값으로 리스트, 어레이, 사전, 시리즈 등이 사용될 수 있다.

In [19]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

- 중첩 사전을 이용하여 데이터프레임을 생성
- 두 사전의 키가 다른경우 결측치 저리 된다.

- 하나의 사전을 시리즈로 본다면 여러 개의 사전으로 데이터 프레임을 생성할수 있다. 
```
pd.concat
```

In [20]:
nevada = pd.Series({2001: 2.4, 2002: 2.9}, name="Nevada")
nevada

2001    2.4
2002    2.9
Name: Nevada, dtype: float64

In [21]:
ohio = pd.Series({2000: 1.5, 2001: 1.7, 2002: 3.6}, name="Ohio")
ohio

2000    1.5
2001    1.7
2002    3.6
Name: Ohio, dtype: float64

- 두 시리즈를 합치면 위 결과와 동일하다. 

### 전치 데이터프레임
- 2차원 행렬의 전치 행렬처럼 전치 데이터프레임은 행과 열의 위치를 변경한다.

### `name`/`values` 속성
- Series 경우와 동일한 방식으로 행과 열의 이름을 지정 가능
- 항목들로 이루어진 2차원 어레이는 `values` 속성이 가리킨다.

## 1.3 인덱스 객체

### `index` 속성
- 시리즈와 데이터프레임의 인덱스는 `Index` 속성값으로 지정

In [3]:
ind_obj= pd.Series(range(3),index=["a","b","c"])

In [4]:
index = ind_obj.index
index

Index(['a', 'b', 'c'], dtype='object')

- 인덱스 객체는 1차원 어레이와 유사하게 동작
- 예를 들어, 인덱싱과 슬라이싱은 리스트 또는 1차원 어레이의 경우와 동일하게 작동

In [6]:
index[2]
index[:]

Index(['a', 'b', 'c'], dtype='object')

In [8]:
index[1] #이렇게 하면 value자체를 호출
# index[1] = "d" #이거는 typeError가 난다.

TypeError: Index does not support mutable operations

### `columns` 속성
- 열(columns)에 사용된 이름은 `Index` 객체로 `columns` 속성값으로 지정


In [9]:
df_2.columns

NameError: name 'df_2' is not defined

### `in` 연산자
- 인덱스와 열에 대한 특정 이름의 사용 여부는 `in` 연산자를 이용하여 확인

In [None]:
# 어떤 value가 있는지 확인하는 예약어
"year" in df_2.columns

In [None]:
"kin" in df_2.columns

### 중복 인덱스
- 인덱스를 중복해서 사용 가능

In [12]:
ind_obj_2 = pd.Index(["one","tewo","three","one"])

In [13]:
ind_obj_2

Index(['one', 'tewo', 'three', 'one'], dtype='object')