# Pandas

# 1. Pandas 소개

- Numpy를 기반으로 개발된 패키지

- 유연한 인덱스를 가진 1차원 배열의 구조의 Series 객체와 유연한 행 인덱스와 열이름을 가진 2차원 배열의 구조의 DataFrame 객체를 제공

- 강력한 데이터 연산 기능을 제공

- DataFrame 객체는 여러 데이터 타입을 사용할 수 있으며, 값의 누락 역시 허용

# 2. Pandas 주요 기능

In [2]:
import numpy as np
import pandas as pd

### Pandas 패키지와 Series 객체

In [20]:
data = pd.Series(np.linspace(0, 1, num=5))
data

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

- pd.Series()로 데이터 구성

In [21]:
data.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [22]:
type(data.values)

numpy.ndarray

- Series의 내부 구조는 numpy의 ndarray이다.

In [23]:
data.index

RangeIndex(start=0, stop=5, step=1)

- data는 index와 values로 구성됨

- 테이블 모양의 DataFrame은 행 인덱스와 행 이름으로 구성

In [24]:
data[1]

0.25

In [25]:
data[2:4]

2    0.50
3    0.75
dtype: float64

In [26]:
data[(data > 0.1) & (data < 0.6)]

1    0.25
2    0.50
dtype: float64

In [27]:
data[[2, 4]]

2    0.5
4    1.0
dtype: float64

- Numpy 기반의 Series에서도 인덱싱, 슬라이싱, 마스킹, 팬시 인덱싱 사용 가능

In [28]:
list(data.keys())

[0, 1, 2, 3, 4]

- keys() 함수

In [29]:
list(data.index)

[0, 1, 2, 3, 4]

In [30]:
list(data.items())

[(0, 0.0), (1, 0.25), (2, 0.5), (3, 0.75), (4, 1.0)]

- items() 함수

- index와 values의 쌍으로 이루엉진 tuple

In [31]:
data.index = ["a", "b", "c", "d", "e"]
data

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

- 숫자가 아닌 값으로도 인덱스를 대신 할 수 있다.(유연한 인덱스)

- 0, 1, 2, ...
    - 만들지 않아도 되는 암묵적 인덱스(implicit index)

- "a", "b", ...
    - 직접 값을 지정하는 명시적 인덱스(explicit index)

In [34]:
data.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [38]:
data[1], data['b']

(0.25, 0.25)

### Series 객체와 loc 인덱서, iloc 인덱서의 활용

- 명시적 인덱스에 대해 사용하는 loc 인덱서

- 암묵적 인덱스에 대해 사용하는 iloc 인덱서

- 함수 x

- 인덱싱, 슬라이싱, 팬시 인덱싱, 마스킹 모두 사용 가능

In [44]:
data.loc["a"]

0.0

In [41]:
data.loc["a":"c"]

a    0.00
b    0.25
c    0.50
dtype: float64

In [42]:
data.loc[["a", "c"]]

a    0.0
c    0.5
dtype: float64

In [43]:
data.loc[data > 0.7]

d    0.75
e    1.00
dtype: float64

In [45]:
data.iloc[0]

0.0

In [46]:
data.iloc[0:3]

a    0.00
b    0.25
c    0.50
dtype: float64

In [47]:
data.iloc[[0, 2]]

a    0.0
c    0.5
dtype: float64

- loc와 iloc 차이에 주의해야 함

- 슬라이싱 에서 end 값이 inclusive 한지 exclusive 한지 주의해야 함

- loc => end값 포함 O

- iloc => end값 포함 X

### Pandas 패키지와 DataFrame 객체

- DataFrame은 행 인덱스와 열 이름으로 구성된 2차원 구조
- 다양한 타입의 데이터를 사용할 수 있는 DataFrame

In [53]:
np.random.seed(0)

df = pd.DataFrame(np.random.randint(10, size=(3, 4)), columns=['col1', 'col2', 'col3', 'col4'])
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


- DataFrame의 columns 지정

In [56]:
type(df.values)

numpy.ndarray

In [54]:
df['col2']

0    0
1    9
2    4
Name: col2, dtype: int32

- column의 이름을 key로 이용해 접근하는 방법

In [59]:
df.col2

0    0
1    9
2    4
Name: col2, dtype: int32

- dot(.)을 이용한 속성에 접근하는 방법

### DataFrame 객체와 loc 인덱서, iloc인덱서의 활용

In [63]:
df.loc[0, "col2":"col3"]

col2    0
col3    3
Name: 0, dtype: int32

- column에 대한 loc 인덱서 사용

In [61]:
df.loc[0:0, "col2":"col3"]

Unnamed: 0,col2,col3
0,0,3


- 위에 것과 유사하지만 슬라이싱을 이용하면 Series를 반환할지 DataFrame을 만들지 선택할 수 있음

- 인덱싱을 사용하면 Series
- 슬라이싱을 사용하면 DataFrame

- 결과는 같지만 데이터를 표현하는 방법이 다름

In [67]:
df.loc[[0], "col2":"col3"]

Unnamed: 0,col2,col3
0,0,3


- 배열를 사용하면 DataFrame으로 반환

In [76]:
df.loc[0:2, "col2":"col3"]

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


- 슬라이싱 이용

- loc이기 때문에 0:2 => 0, 1, 2 를 의미한다.

In [70]:
df.loc[(df["col2"] > 2) & (df["col3"] < 5), "col2":"col3"]

Unnamed: 0,col2,col3
1,9,3


- 부울 배열을 이용한 마스킹

- 슬라이싱을 이용해 2개의 조건을 만족하는 `행`의 col2와 col3 추출

In [71]:
df.iloc[0, 1:3]

col2    0
col3    3
Name: 0, dtype: int32

- column에 대한 iloc 인덱서 사용

- 슬라이싱에서 차이점있음
    - 1:3 => 1, 2를 의미함

In [75]:
df.iloc[0:1, 1:3]

Unnamed: 0,col2,col3
0,0,3


In [74]:
df.iloc[[0], 1:3]

Unnamed: 0,col2,col3
0,0,3


In [77]:
df.iloc[0:3, 1:3]

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


- 슬라이싱 주의
    - 0:3 => 0, 1, 2
    - 1:3 => 1, 2

<br/>

### 이어서...

2. pandas-2