### Numpy
- python에서 사용하는 과학 계산용 패키지
- pandas가 numpy를 사용해서 속도가 빠릅니다
- numpy는 c, c++, fortran으로 만들어짐
- 선형대수 (linear algebra) 계산을 주로 사용
    - 행렬 연산
    - 스칼라, 벡터, 매트릭스

- Index
    - ndarray 객체 생성
    - 데이터 선택
    - 데이터 수정
    - 데이터 연산
    - ndarray 함수 사용

### 1. 데이터의 생성

In [7]:
# 동일한 데이터타입만 가능 -> pandas의 column
arr1 = np.array([1, 2, 3])
type(arr1), arr1, arr1.dtype

(numpy.ndarray, array([1, 2, 3]), dtype('int32'))

In [10]:
arr2 = arr1.astype(np.float64)
arr2, arr2.dtype

(array([1., 2., 3.]), dtype('float64'))

### 2. 데이터의 선택

In [15]:
arr = np.random.randint(5, size=(3,3))
arr

array([[1, 3, 2],
       [1, 0, 4],
       [2, 0, 3]])

In [20]:
arr[1][2], arr[1,2]

(4, 4)

##### *주의

In [22]:
arr[1:][1:]

array([[2, 0, 3]])

In [23]:
arr[1:, 1:]

array([[0, 4],
       [0, 3]])

### 3. 데이터의 수정

In [25]:
arr

array([[1, 3, 2],
       [1, 0, 4],
       [2, 0, 3]])

In [29]:
# 브로드캐스팅
arr[1] = 10 # scalar
arr

array([[ 1,  3,  2],
       [10, 10, 10],
       [ 2,  0,  3]])

In [31]:
# 이건 대입
arr[1] = [11, 12, 13] # vector
arr

array([[ 1,  3,  2],
       [11, 12, 13],
       [ 2,  0,  3]])

In [34]:
arr[arr > 3] = 20
arr

array([[ 1,  3,  2],
       [20, 20, 20],
       [ 2,  0,  3]])

### 4. 데이터의 연산

In [35]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
arr1 + arr2

array([5, 7, 9])

In [36]:
arr1 + 10

array([11, 12, 13])

In [37]:
#any(or), all(and)
arr3 = np.array([2, 1, 3])
arr1 == arr3

array([False, False,  True])

In [38]:
np.any(arr1==arr3), np.all(arr1==arr3)

(True, False)

In [39]:
# quiz
# 1. 60 ~ 100까지 10점 단위로 10*5 행렬을 생성
# 2. 평균이 80점 이상인 row 데이터를 출력하는 코드를 작성

In [51]:
# 1. 10*5 행렬 생성 
datas = np.random.randint(6, 10, size=(10,5))
datas *= 10
datas

array([[70, 70, 90, 70, 80],
       [80, 80, 90, 80, 70],
       [70, 70, 70, 90, 80],
       [60, 90, 80, 60, 90],
       [60, 90, 90, 70, 90],
       [60, 80, 60, 90, 70],
       [80, 70, 60, 80, 80],
       [70, 60, 80, 80, 90],
       [90, 70, 80, 70, 90],
       [60, 60, 70, 90, 60]])

In [52]:
datas.shape[1] # column의 개수

5

In [54]:
# 2. row별 평균 데이터 구하기
avg_data = np.sum(datas, axis=1) / datas.shape[1] # axis = 1 -> 가로로 더함
avg_data

array([76., 80., 76., 76., 80., 72., 74., 76., 80., 68.])

In [55]:
# 3. 80점이 넘는 데이터만 출력
datas[avg_data >= 80]

array([[80, 80, 90, 80, 70],
       [60, 90, 90, 70, 90],
       [90, 70, 80, 70, 90]])

In [67]:
# 4. 원래 데이터에서 총점하고 평균을 컬럼에 추가
total = np.sum(datas, axis=1)
total, avg_data

(array([380, 400, 380, 380, 400, 360, 370, 380, 400, 340]),
 array([76., 80., 76., 76., 80., 72., 74., 76., 80., 68.]))

In [58]:
np.c_[datas, total, avg_data]

array([[ 70.,  70.,  90.,  70.,  80., 380.,  76.],
       [ 80.,  80.,  90.,  80.,  70., 400.,  80.],
       [ 70.,  70.,  70.,  90.,  80., 380.,  76.],
       [ 60.,  90.,  80.,  60.,  90., 380.,  76.],
       [ 60.,  90.,  90.,  70.,  90., 400.,  80.],
       [ 60.,  80.,  60.,  90.,  70., 360.,  72.],
       [ 80.,  70.,  60.,  80.,  80., 370.,  74.],
       [ 70.,  60.,  80.,  80.,  90., 380.,  76.],
       [ 90.,  70.,  80.,  70.,  90., 400.,  80.],
       [ 60.,  60.,  70.,  90.,  60., 340.,  68.]])

In [69]:
# append
# total.reshape(10,1), avg_data.reshape(10,1)
result_data = np.append(datas, total.reshape(10,1), axis=1)  # axis=1은 가로
result_data = np.append(result_data, avg_data.reshape(10,1), axis=1)
result_data

array([[ 70.,  70.,  90.,  70.,  80., 380.,  76.],
       [ 80.,  80.,  90.,  80.,  70., 400.,  80.],
       [ 70.,  70.,  70.,  90.,  80., 380.,  76.],
       [ 60.,  90.,  80.,  60.,  90., 380.,  76.],
       [ 60.,  90.,  90.,  70.,  90., 400.,  80.],
       [ 60.,  80.,  60.,  90.,  70., 360.,  72.],
       [ 80.,  70.,  60.,  80.,  80., 370.,  74.],
       [ 70.,  60.,  80.,  80.,  90., 380.,  76.],
       [ 90.,  70.,  80.,  70.,  90., 400.,  80.],
       [ 60.,  60.,  70.,  90.,  60., 340.,  68.]])

In [70]:
# 데이터 프레임으로 만들기
columns = ["국어", "영어", "수학", "과학", "코딩", "총점", "평균"]
point_df = pd.DataFrame(result_data, columns=columns)
point_df

Unnamed: 0,국어,영어,수학,과학,코딩,총점,평균
0,70.0,70.0,90.0,70.0,80.0,380.0,76.0
1,80.0,80.0,90.0,80.0,70.0,400.0,80.0
2,70.0,70.0,70.0,90.0,80.0,380.0,76.0
3,60.0,90.0,80.0,60.0,90.0,380.0,76.0
4,60.0,90.0,90.0,70.0,90.0,400.0,80.0
5,60.0,80.0,60.0,90.0,70.0,360.0,72.0
6,80.0,70.0,60.0,80.0,80.0,370.0,74.0
7,70.0,60.0,80.0,80.0,90.0,380.0,76.0
8,90.0,70.0,80.0,70.0,90.0,400.0,80.0
9,60.0,60.0,70.0,90.0,60.0,340.0,68.0


### 5. ndarray의 함수 사용
- sum, mean, median, var, std, min, max
- unique(중복된 데이터 제거), split(column 잘라주는거), sort, concatenate(횡렬데이터 합쳐줌),

### Pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- Series, DataFrame

In [74]:
point_df.tail(3)

Unnamed: 0,국어,영어,수학,과학,코딩,총점,평균
7,70.0,60.0,80.0,80.0,90.0,380.0,76.0
8,90.0,70.0,80.0,70.0,90.0,400.0,80.0
9,60.0,60.0,70.0,90.0,60.0,340.0,68.0


In [76]:
# 마지막 row에 과목별 평균 row을 추가

In [81]:
# loc 사용 시 숫자를 넣으면 해당 row이 수정되지만,
# 아래와 같이 새로운 이름을 넣게 되면, 새로운 이름으로 row이 추가됨
point_df.loc["평균"] = point_df.sum() / len(point_df)
point_df

Unnamed: 0,국어,영어,수학,과학,코딩,총점,평균
0,70.0,70.0,90.0,70.0,80.0,380.0,76.0
1,80.0,80.0,90.0,80.0,70.0,400.0,80.0
2,70.0,70.0,70.0,90.0,80.0,380.0,76.0
3,60.0,90.0,80.0,60.0,90.0,380.0,76.0
4,60.0,90.0,90.0,70.0,90.0,400.0,80.0
5,60.0,80.0,60.0,90.0,70.0,360.0,72.0
6,80.0,70.0,60.0,80.0,80.0,370.0,74.0
7,70.0,60.0,80.0,80.0,90.0,380.0,76.0
8,90.0,70.0,80.0,70.0,90.0,400.0,80.0
9,60.0,60.0,70.0,90.0,60.0,340.0,68.0


In [84]:
# 평균이 80점 이상이면 PASS, 아니면 FAIL이 들어가는 컬럼을 추가 #### APPLY 더 공부하기. 왜 언제 쓰는건지? map?
point_df["PASS/FAIL"] = point_df["평균"].apply(lambda data : "PASS" if data >= 80 else "FAIL")
point_df

Unnamed: 0,국어,영어,수학,과학,코딩,총점,평균,PASS/FAIL
0,70.0,70.0,90.0,70.0,80.0,380.0,76.0,FAIL
1,80.0,80.0,90.0,80.0,70.0,400.0,80.0,PASS
2,70.0,70.0,70.0,90.0,80.0,380.0,76.0,FAIL
3,60.0,90.0,80.0,60.0,90.0,380.0,76.0,FAIL
4,60.0,90.0,90.0,70.0,90.0,400.0,80.0,PASS
5,60.0,80.0,60.0,90.0,70.0,360.0,72.0,FAIL
6,80.0,70.0,60.0,80.0,80.0,370.0,74.0,FAIL
7,70.0,60.0,80.0,80.0,90.0,380.0,76.0,FAIL
8,90.0,70.0,80.0,70.0,90.0,400.0,80.0,PASS
9,60.0,60.0,70.0,90.0,60.0,340.0,68.0,FAIL


In [None]:
# groupby, merge(join), pivot, apply
# 이거 확실하게 알고 넘어가야함