## Pandas

#### 1. 정의

- https://pandas.pydata.org/
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 Python 라이브러리

#### 2. 종류

1) Series - index, value로 이루어진 데이터

2) DataFrame - index, column, value로 이루어진 데이터

---

## Series

index와 value로 되어 있는 데이터 형태

### 00. Setting

In [1]:
import numpy as np
import pandas as pd

### 01. Structure

#### 1) pd.Series

In [2]:
# 0에서 9까지의 숫자를 랜덤하게 5개 발생시켜 Series를 만듦
# index는 0에서 1씩증가하는 index가 자동으로 들어감
data = pd.Series(np.random.randint(10, size=5))
data

0    0
1    0
2    0
3    2
4    6
dtype: int64

#### 2) dictionary 타입

In [3]:
# dictionary 데이터 타입의 데이터로 Series 생성 가능
dic = {"D":7, "E":5, "F":9}
data2 = pd.Series(dic)
data2

D    7
E    5
F    9
dtype: int64

### 02. Index 

#### 1) Index 세팅

In [4]:
# series를 만들때 index를 키워드 파라미터로 리스트 데이터를 넘기면 인덱스를 설정할수 있음
data = pd.Series(np.random.randint(10, size=5), index=['A','B','C','D','E'])
data

A    9
B    0
C    0
D    4
E    6
dtype: int64

#### 2) 인덱스, 값 확인

In [5]:
# Series의 인덱스와 값 데이터 보기
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([9, 0, 0, 4, 6]))

In [6]:
# 인덱스로 값 데이터 보기
data.A, data.C

(9, 0)

#### 3) 인덱스와 series에 이름 부여

In [7]:
# Series의 이름과 인덱스에 이름을 붙여 줄수 있다
data.name = "랜덤숫자"
data.index.name = "알파벳"
data.name, data.index.name

('랜덤숫자', '알파벳')

In [8]:
data

알파벳
A    9
B    0
C    0
D    4
E    6
Name: 랜덤숫자, dtype: int64

### 03. 연산

#### 1) Broadingcasting

In [9]:
# 값을 계산 (broadcasting으로 계산됨)
data * 10

알파벳
A    90
B     0
C     0
D    40
E    60
Name: 랜덤숫자, dtype: int64

#### 2) Series + series

In [10]:
# series 끼리 계산
result = data + data2
result # 둘중에 하나의 값이 없으면 NaN값으로 반환

A     NaN
B     NaN
C     NaN
D    11.0
E    11.0
F     NaN
dtype: float64

### 04. 출력

In [11]:
# 여러개의 데이터 출력
data[["B","C","E"]]

알파벳
B    0
C    0
E    6
Name: 랜덤숫자, dtype: int64

In [12]:
# offset으로 출력
data[1:3] # 1, 2번째 자료 출력

알파벳
B    0
C    0
Name: 랜덤숫자, dtype: int64

In [13]:
# 역순으로 출력
data[::-1] 

알파벳
E    6
D    4
C    0
B    0
A    9
Name: 랜덤숫자, dtype: int64

In [14]:
# 6이상 되는 데이터 출력
data[data > 6]

알파벳
A    9
Name: 랜덤숫자, dtype: int64

In [15]:
# items를 이용해 key, val를 반복문에서 사용가능
for idx, val in data.items():
    print(idx, val)

A 9
B 0
C 0
D 4
E 6


In [16]:
# null 데이터 제거
print(result.notnull())
result = result[result.notnull()]
result

A    False
B    False
C    False
D     True
E     True
F    False
dtype: bool


D    11.0
E    11.0
dtype: float64