# 5-8. Pandas/NumPy 

## Pandas/NumPy

pandas/numpy는 고급 데이터 분석과 수치 계산 등의 기능을 제공하는 확장 모듈이다.

numpy는 수치 계산을 효율적으로 하기위한 모듈로서, 다차원 배열과 고수준의 수학 함수를 제공한다

pandas는 데이터 분석 기능을 제공하는 라이브러리로서, csv 파일 등의 데이터를 읽고 원하는 데이터 형식으로 변환해 준다.

전체 배열의 원소가 동일한 타입이어야하는 numpy와는 달리 pandas는 각 열의 타입이달라도 됨

In [3]:
import pandas as pd
import numpy as np

### DataFrame

pandas에서 사용하는 기본데이터는 데이터프레임이다. 데이터프레임을 정의할 때는 2차원 리스트를 매개변수로 전달한다

In [2]:
import pandas as pd
a = pd.DataFrame([
    [10,20,30],
    [40,50,60],
    [70,80,90]
])
print(a)

    0   1   2
0  10  20  30
1  40  50  60
2  70  80  90


1차원 데이터는 Series를 사용한다

In [4]:
import pandas as pd
import numpy as np
s = pd.Series([1.0, 3.0, 5.0, 7.0, 9.0])
print(s)

# 인덱스번호와 함께 자료형도 출력됨

0    1.0
1    3.0
2    5.0
3    7.0
4    9.0
dtype: float64


### 원하는 데이터 추출하기

1차원 리스트가 들어있는 딕셔너리 자료형의 데이터가 있을 떄 키로 원하는 열의 데이터를 추출할 수 있다

In [14]:
import pandas as pd
# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2 ],
    "height": [ 170,  180,  155,  143,  154  ],
    "type":   [ "f", "n", "n", "t", "t"]
})
# 몸무게 목록 추출하기
print("몸무게 목록")
print(tbl["weight"])  #tbl.get("weight")

# 몸무게와 키 목록 추출하기
print("몸무게와 키 목록")
print(tbl[["weight","height"]])

몸무게 목록
0    80.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64
몸무게와 키 목록
   weight  height
0    80.0     170
1    70.4     180
2    65.5     155
3    45.9     143
4    51.2     154


원하는 위치의 값을 추출할 때는 파이썬 리스트처럼 슬라이스를 사용한다

In [18]:
import pandas as pd
# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2 ],
    "height": [ 170,  180,  155,  143,  154  ],
    "type":   [ "f", "n", "n", "t", "t"]
})
# (0부터 세었을 때) 2~3번째 데이터 출력
print("tbl[2:4]\n", tbl[2:4])


# (0부터 세었을 때) 3번째 이후의 데이터 출력
print("tbl[3:]\n", tbl[3:])

tbl[2:4]
    height type  weight
2     155    n    65.5
3     143    t    45.9
tbl[3:]
    height type  weight
3     143    t    45.9
4     154    t    51.2


In [19]:
#원하는 조건의 값 추출하기

import pandas as pd
# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2, 72.5 ],
    "height": [ 170,  180,  155,  143,  154,  160  ],
    "gender": [ "f",  "m",  "m",  "f",  "f",  "m"  ]
})
print("--- height가 160 이상인 것")
print(tbl[tbl.height >= 160])  #객체[<칼럼 이름><비교연산자><값>]
print("--- gender가 m 인 것")
print(tbl[tbl.gender == "m"])

--- height가 160 이상인 것
  gender  height  weight
0      f     170    80.0
1      m     180    70.4
5      m     160    72.5
--- gender가 m 인 것
  gender  height  weight
1      m     180    70.4
2      m     155    65.5
5      m     160    72.5


### 정렬과 반전

In [22]:
import pandas as pd
# 키, 몸무게, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2, 72.5 ],
    "height": [ 170,  180,  155,  143,  154,  160  ],
    "gender": [ "f",  "m",  "m",  "f",  "f",  "m"  ]
})
print("--- 키로 정렬")
print(tbl.sort_values(by="height")) # by=column이름, 디폴트 오름차순. ascending = 내림차순
print("--- 몸무게로 정렬")
print(tbl.sort_values(by="weight", ascending=False))
print("--- 키, gender로 정렬")
print(tbl.sort_values(by=["gender", "height"])) #multiple sort도 가능하다. list형태로 2개 이상의 column을 넣을 수 있다.

--- 키로 정렬
  gender  height  weight
3      f     143    45.9
4      f     154    51.2
2      m     155    65.5
5      m     160    72.5
0      f     170    80.0
1      m     180    70.4
--- 몸무게로 정렬
  gender  height  weight
0      f     170    80.0
5      m     160    72.5
1      m     180    70.4
2      m     155    65.5
4      f     154    51.2
3      f     143    45.9
--- 키, gender로 정렬
  gender  height  weight
3      f     143    45.9
4      f     154    51.2
0      f     170    80.0
2      m     155    65.5
5      m     160    72.5
1      m     180    70.4


In [24]:
# 행과 열 반전하기

import pandas as pd
tbl = pd.DataFrame([
    ["A", "B", "C"],
    ["D", "E", "F"],
    ["G", "H", "I"]
])
print(tbl)
print('---------------------')
print(tbl.T)

   0  1  2
0  A  B  C
1  D  E  F
2  G  H  I
---------------------
   0  1  2
0  A  D  G
1  B  E  H
2  C  F  I


* pandas 참고
https://dandyrilla.github.io/2017-08-12/pandas-10min/

### 데이터 조작

numpy를 이용하면 여러 데이터를 한꺼번에 조작을 가할 수 있다

In [27]:
import numpy as np
# 10개의 float32 자료형 데이터 생성
v = np.zeros(10, dtype=np.float32)  
#크기가 정해져 있고 모든 값이 0인 배열을 생성하려면 zeros 명령을 사용한다. 인수로는 배열을 크기를 뜻하는 정수를 넣는다.
#dtype 인수를 명시하면 해당 자료형 원소를 가진 배열을 만든다.
print(v)

# 연속된 10개의 uint64 자료형 데이터 생성
v = np.arange(10) #arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다.
print(v)

# v 값을 3배하기
v *= 3
print(v)

# v의 평균 구하기
print(v.mean())

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0 1 2 3 4 5 6 7 8 9]
[ 0  3  6  9 12 15 18 21 24 27]
13.5


In [28]:
#pandas의 datafame으로도 같은 처리를 할 수 있다
import pandas as pd
tbl = pd.DataFrame([
    ["A", "B", "C"],
    ["D", "E", "F"],
    ["G", "H", "I"]
])
print(tbl)
print("---")
print(tbl.T)

   0  1  2
0  A  B  C
1  D  E  F
2  G  H  I
---
   0  1  2
0  A  D  G
1  B  E  H
2  C  F  I


In [35]:
import pandas as pd
# 키, 체중, 유형 데이터프레임 생성하기
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2, 72.5 ],
    "height": [ 170,  180,  155,  143,  154,  160  ],
    "gender": [ "f",  "m",  "m",  "f",  "f",  "m"  ]
})
# 키와 몸무게 정규화하기
# 최댓값과 최솟값 구하기
def norm(tbl, key):
    c = tbl[key]
    v_max = c.max()
    v_min = c.min()
    print(key, "=", v_min, "-", v_max)
    tbl[key] = (c - v_min) / (v_max - v_min)
norm(tbl, "weight")
norm(tbl, "height")
print(tbl)

weight = 45.9 - 80.0
height = 143 - 180
  gender    height    weight
0      f  0.729730  1.000000
1      m  1.000000  0.718475
2      m  0.324324  0.574780
3      f  0.000000  0.000000
4      f  0.297297  0.155425
5      m  0.459459  0.780059


#### numpy로 변환하기

머신러닝 라이브러리에 따라 pandas의 dataframe을 지원하지 않은 경우가 있다. 이럴때는 numpy형식으로 변환해야한다.
as_matrix()를 이용하면 numpy의 ndarray 자료형의 배열로 변환할 수 있다

In [36]:
n = tbl.as_matrix()
print(n)

[['f' 0.7297297297297297 1.0]
 ['m' 1.0 0.7184750733137831]
 ['m' 0.32432432432432434 0.5747800586510264]
 ['f' 0.0 0.0]
 ['f' 0.2972972972972973 0.15542521994134909]
 ['m' 0.4594594594594595 0.7800586510263929]]


* ndarray 참고

 - http://sinpong.tistory.com/120
 - https://datascienceschool.net/view-notebook/17608f897087478bbeac096438c716f6/
 - https://github.com/psygrammer/psytracker/blob/master/psytracker_3.md
