### DataFrame
- Pandas 에서 사용하는 기본 데이터는 데이터프레임(DataFrame)이다.
- 데이터프레임을 정의할 때는 2차원 리스트를 매개변수로 전달

In [4]:
import pandas as pd

a = pd.DataFrame([
    [10, 20, 30],
    [40, 50, 60],
    [70, 80, 90]
])

print (a)

    0   1   2
0  10  20  30
1  40  50  60
2  70  80  90


- 1차원 데이터는 시리즈(Series)를 사용해 다룬다.

In [6]:
import pandas as pd, numpy as np

s = pd.Series([1.0, 3.0, 5.0, 7.0, 9.0])
print(s)

0    1.0
1    3.0
2    5.0
3    7.0
4    9.0
dtype: float64


### 원하는 데이터 추출하기
1차원 리스트가 들어있는 딕셔너리 자료형의 데이터가 있을 때 키로 원하는 열의 데이터를 추출할 수 있다.

In [14]:
import pandas as pd

# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [80.0, 70.4, 65.5, 45.9, 51.2],
    "height": [170, 180, 155, 143, 154],
    "type": ["f", "n", "n", "t", "t"]
})

# 몸무게 목록 추출하기
print("몸무게 목록")
print(tbl["weight"])

# 몸무게와 키 목록 추출하기
print("\n몸무게와 키 목록")
print(tbl[["weight", "height"]])

### 원하는 위치의 값을 추출할 때는 파이썬 리스트처럼 슬라이스를 사용
# (0부터 세었을 때) 2~3번째 데이터 출력
print("\ntbl[2:4]\n", tbl[2:4])
# (0부터 세었을 때) 3번째 이후의 데이터 출력하기
print("\ntbl[3:]\n", tbl[3:])

### 원하는 조건의 값을 추출 가능
print("\n--- height가 160 이상인 것")
print(tbl[tbl.height >= 160])
print("\n--- type이 n 인 것")
print(tbl[tbl.type == "n"]) 

몸무게 목록
0    80.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64

몸무게와 키 목록
   weight  height
0    80.0     170
1    70.4     180
2    65.5     155
3    45.9     143
4    51.2     154

tbl[2:4]
    weight  height type
2    65.5     155    n
3    45.9     143    t

tbl[3:]
    weight  height type
3    45.9     143    t
4    51.2     154    t

--- height가 160 이상인 것
   weight  height type
0    80.0     170    f
1    70.4     180    n

--- type이 n 인 것
   weight  height type
1    70.4     180    n
2    65.5     155    n


## 정렬과 반전
### 정렬

In [16]:
import pandas as pd

# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [80.0, 70.4, 65.5, 45.9, 51.2],
    "height": [170, 180, 155, 143, 154],
    "type": ["f", "n", "n", "t", "t"]
})

print("--- 키로 정렬")
print(tbl.sort_values(by="height"))
print("\n--- 몸무게로 정렬")
print(tbl.sort_values(by="weight", ascending=False))

--- 키로 정렬
   weight  height type
3    45.9     143    t
4    51.2     154    t
2    65.5     155    n
0    80.0     170    f
1    70.4     180    n

--- 몸무게로 정렬
   weight  height type
0    80.0     170    f
1    70.4     180    n
2    65.5     155    n
4    51.2     154    t
3    45.9     143    t


### 반전

In [18]:
import pandas as pd

tbl = pd.DataFrame([
    ["A", "B", "C"],
    ["D", "E", "F"],
    ["G", "H", "I"]
])

print(tbl)
print("---")
print(tbl.T)

   0  1  2
0  A  B  C
1  D  E  F
2  G  H  I
---
   0  1  2
0  A  D  G
1  B  E  H
2  C  F  I


## 데이터 조작
Numpy를 이용하면 여러 데이터에 한꺼번에 조작을 가할 수 있다.

In [22]:
import numpy as np

# 10개의 float32 자료형 데이터 생성
v = np.zeros(10, dtype=np.float32)
print(v)

# 연속된 10개의 uint64 자료형 데이터 생성
v = np.arange(10, dtype=np.uint64)
print(v)

# v 값을 3배하기
v *= 3
print(v)

# v의 평균 구하기
print(v.mean())

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0 1 2 3 4 5 6 7 8 9]
[ 0  3  6  9 12 15 18 21 24 27]
13.5


In [27]:
import pandas as pd

# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [80.0, 70.4, 65.5, 45.9, 51.2, 72.5],
    "height": [170, 180, 155, 143, 154, 160],
    "gender": ["f", "m", "m", "f", "f", "m"]
})

# 키와 몸무게 정규화하기
# 최댓값과 최솟값 구하기
def norm(tbl, key):
    c = tbl[key]
    v_max = c.max()
    v_min = c.min()
    print(key, "=", v_min, " ~ ", v_max)
    tbl[key] = (c - v_min) / (v_max - v_min)

norm(tbl, "weight")
norm(tbl, "height")
print(tbl)

### NumPy로 변환 -> 머신러닝 라이브러리에 따라 Pandas의 DataFrame을 지원하지 않은 경우도 존재 -> 이런 경우 NumPy형식으로 변환
n = tbl.values
print(type(n))

weight = 45.9  ~  80.0
height = 143  ~  180
     weight    height gender
0  1.000000  0.729730      f
1  0.718475  1.000000      m
2  0.574780  0.324324      m
3  0.000000  0.000000      f
4  0.155425  0.297297      f
5  0.780059  0.459459      m
<class 'numpy.ndarray'>
