### Numpy
# 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지
# 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공(수학,과학에 쓰이는 공식이 내장되어 있음)
# 데이터 분석에서 Pandas와 함께 자주 사용하는 도구

# 자료구조의 발전과정 쉽게 이해하기 : List --> Numpy --> Series --> DataFrame

### 1. Numpy의 역할
# 데이터를 숫자형식으로 변환
# 파이썬의 list자료형의 경우 데이터의 크기가 커질수록 저장 및 가공에 효율성을 보장하지 못한다. => 보안 : Numpy

In [None]:
# 1. Numpy 설치하기
!pip install --upgrade numpy

In [2]:
# 2. Numpy 패키지 가져오기
import numpy

1차배열

In [None]:
# 3. Numpy 패키지 사용하기
# 1) 배열(array) 생성
# 1차원 배열 
arr = numpy.array([1,3,5,7,9])

arr #array([1, 3, 5, 7, 9])

# 2) List를 보완한 것이기 때문에 -> list에 관한 사항들을 쓸 수 있다.
# -1. len() 사용 가능
size = len(arr)
print("배열의 원소는 %d개 입니다." % size) #배열의 원소는 5개 입니다.
# -2. 인덱스 번호 접근 가능
print(arr[0]) #1
print(arr[1]) #3
print(arr[2]) #5
# -3. 반복문 통해 각 원소에 접근 가능
for i, v in enumerate(arr):
    print("%d번째 원소 >> %d" % (i,v))
        #0번째 원소 >> 1
        #1번째 원소 >> 3
        #2번째 원소 >> 5
        #3번째 원소 >> 7
        #4번째 원소 >> 9
        

In [None]:
# 4. numpy배열의 특성
# -1. List와 달리 배열은 원소의 타입이 서로 다른 것을 허용하지 않는다.
#       = 가장 포괄적인 형태의 자료형으로 통일
arr3 = numpy.array([1 ,2.4 ,3 ,4.6])
arr3 #array([1. , 2.4, 3. , 4.6])

# -2. 정수, 실수, 문자열이 포함된 리스트를 배열로 변환
#       = 모든 타입이 문자열로 변환되어 있음
arr4 = numpy.array([1.2, 3, '4'])
arr4  #array(['1.2', '3', '4'], dtype='<U32')

# -3. 모든 원소의 타입을 강제로 int(정수)fh wlwjd
#       = 소수점 아래 값들은 모두 버려진다.
arr5 = numpy.array([1, 2.4, 3, 4.6], dtype='int')
arr5 #array([1, 2, 3, 4])

In [None]:
# 5. numpy배열의 기초 통계값
grade = numpy.array([82, 77,91, 88])
grade

# 모든 원소의 합
s1 = numpy.sum(grade)

# 모든 원소의 평균
s2 = numpy.average(grade)

# 최대, 최소값
s3 = numpy.max(grade)
s4 = numpy.min(grade)

In [13]:
# 6. numpy배열의 각 원소에 대한 연산
grade = numpy.array([82, 77,91, 88])
# 모든 원소에 대해 +2
new1 = grade + 2
# 모든 원소에 대해 -5
new2 = grade -5

In [None]:
# 7. numpy배열끼리의 연산 
arr1 = numpy.array([10,15,20,25,30])
arr2 = numpy.array([2,3,4,5,6])
print(arr1) #[10 15 20 25 30]
print(arr2) #[2 3 4 5 6]

a = arr1 + arr2
a #array([12, 18, 24, 30, 36])

a = numpy.add(arr1,arr2)
a

b = arr1 - arr2
b #array([ 8, 12, 16, 20, 24])

b = numpy.subtract(arr1, arr2)
b

c = arr1 * arr2
c #array([ 20,  45,  80, 125, 180])

c = numpy.multiply(arr1, arr2)
c

d = arr1 / arr2
d #array([5., 5., 5., 5., 5.])

d = numpy.divide(arr1, arr2)
d



In [None]:
# 8. numpy배열의 기본인덱싱, 슬라이싱
grade = numpy.array([82,77,91,88])
grade

# -1. 인덱싱
grade[2] #array([91])

# -2. 슬라이싱
grade[1:3] #array([77, 91])
grade[:2]  #array([82,77])
grade[1:]  #array([77, 91, 88])

In [None]:
# 9. 조건에 맞는 값 추출하기
grade = numpy.array([82,77,91,88])
bool_array = numpy.array([True, False, True, False])
bool_array #array([ True, False,  True, False])

#조건에 맞는 항목만 1차 배열로 추출 
result1 = grade[bool_array]
result1 #array([82, 91])

# 80점 이상인지 판별된 조건에 맞는 데이터만 추려냄
result2 = grade[grade>=80]
result2 #array([82, 91, 88])

# logical_and함수를 사용하여 80점 이상이고 90점 이하인 데이터만 추려냄
result3 = grade[numpy.logical_and(grade>=80, grade<=90)]
result3 #array([82, 88])


2차배열

In [28]:
# 1. 2차배열 생성 및 조회
# -1. 생성 조회
grade = numpy.array([
    [98, 72, 80, 64], #0행 = kor
    [88, 90, 80, 72], #1행 = eng
    [92, 88, 82, 76]  #2행 = math
])
grade

# -2. 차원의 크기
grade.ndim

# -3. 각 차원의 원소수
grade.shape  #(3, 4)

# -4. 각 원소의 타입
grade.dtype #dtype('int32')

dtype('int32')

In [None]:
# 2. 기본 인덱싱과 슬라이싱
grade = numpy.array([
    [98, 72, 80, 64], #0행 = kor
    [88, 90, 80, 72], #1행 = eng
    [92, 88, 82, 76]  #2행 = math
])
grade

# -1. 정수형 인덱싱 (1행 2열 접근 방식)
grade[1,2]

# -2. 정수형 인덱싱 (1행 2열 접근 방식)
grade[1][2]

# 슬라이싱 (1~3행, 1~4열 범위 접근 방식)
grade[1:3][1:4] 

In [None]:
# 3. 기초통계산출
s1 = numpy.sum(grade, axis=0) #세로로 더하기
s2 = numpy.sum(grade, axis=1) #가로로 더하기

In [32]:
# 4. 조건에 맞는 값 추출하기
bool_array = numpy.array([
    [True, False, True, False],
    [True, True, True, False],
    [True, True, True, False],    
])

result1 = grade[bool_array] #True만 추출
result1 #array([98, 80, 88, 90, 80, 92, 88, 82])

result2 = grade[grade >= 80]
result2

result3 = grade[numpy.logical_and(grade>=80, grade<=90)]
result3

result4 = grade[numpy.logical_or(grade<80, grade>90)]
result4

array([98, 72, 64, 72, 92, 76])