모두의 연구소, 2024 AI 코칭스터디 팀 활동을 통해 정리한 내용입니다.  
- 로롱코치_6팀 : @박문지 @서진형 @엄수빈 @엔터6(변찬우) @miji(박미지) @Shinar(신애라) 

# **Numpy를 활용하는 작업**

NumPy가 제공하는 기능들은 특히 대규모 데이터 처리와 복잡한 수치 연산을 단순화하고 가속화하는 데 큰 기여를 했습니다. 다음은 NumPy로 인해 더욱 편리해진 주요 작업들입니다. 

1. 효율적인 다차원 배열 처리

In [None]:
import numpy as np

# 2차원 배열 생성
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 배열의 형태 확인
print("Array shape:", array_2d.shape)

# 배열의 요소 접근 및 수정
array_2d[1, 2] = 10
print("Modified array:\n", array_2d)

2. 고성능 수치 계산

In [None]:
# 두 개의 큰 배열 생성
a = np.random.rand(1000000)
b = np.random.rand(1000000)

# 배열 요소별 곱셈
result = a * b

# 첫 5개 결과 출력
print(result[:5])


3. 데이터 전처리 및 분석

In [None]:
# 임의의 데이터 생성
data = np.random.randn(1000)

# 평균과 표준편차 계산
mean = np.mean(data)
std_dev = np.std(data)

print("Mean:", mean)
print("Standard Deviation:", std_dev)

# 데이터 정규화
normalized_data = (data - mean) / std_dev
print("First 5 normalized data points:", normalized_data[:5])


4. 과학 계산 및 시뮬레이션

In [None]:
# 선형 방정식 시스템 Ax = b
A = np.array([[3, 1], [1, 2]])
b = np.array([9, 8])

# 선형 방정식 풀기
x = np.linalg.solve(A, b)

print("Solution x:", x)


5. 데이터 시각화와 상호 운용성

In [None]:
import matplotlib.pyplot as plt

# 임의의 데이터 생성
x = np.linspace(0, 10, 100)
y = np.sin(x)

# 데이터 시각화
plt.plot(x, y)
plt.title("Sine Wave")
plt.xlabel("x")
plt.ylabel("sin(x)")
plt.show()


6. 머신러닝과 데이터 과학

In [None]:
from sklearn.linear_model import LinearRegression

# 간단한 선형 회귀 모델 예제
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1, 2, 1.3, 3.75, 2.25])

# 모델 학습
model = LinearRegression().fit(X, y)

# 예측
predictions = model.predict(X)

print("Predictions:", predictions)

# **NumPy 도입 전-후 비교** 

과거에 NumPy가 등장하기 전에는, 대규모 데이터 처리와 수치 연산을 Python의 기본 데이터 구조와 반복문을 사용하여 수행해야 했습니다. 이는 특히 대규모 데이터셋이나 복잡한 수치 계산에서 매우 비효율적이었습니다. 아래는 NumPy가 없었던 시절의 예시 코드를 보여줍니다.

1. 대규모 행렬 연산

In [6]:
# 과거
## 대규모 행렬 곱셈을 루프를 사용하여 구현해야 했습니다.

# 행렬 곱셈
import random

# 두 행렬의 크기
N = 1000

# 행렬 생성
A = [[random.random() for _ in range(N)] for _ in range(N)]
B = [[random.random() for _ in range(N)] for _ in range(N)]
C = [[0]*N for _ in range(N)]

# 행렬 곱셈
for i in range(N):
    for j in range(N):
        for k in range(N):
            C[i][j] += A[i][k] * B[k][j]

In [7]:
# NumPy 도입 후
import numpy as np

# 행렬 생성
A = np.random.rand(1000, 1000)
B = np.random.rand(1000, 1000)

# 행렬 곱셈
C = np.dot(A, B)

2. 데이터 분석 및 전처리

In [8]:
# 과거
## 평균과 표준편차를 계산하는 데 많은 반복문이 필요했습니다.
import random

# 데이터 생성
data = [random.random() for _ in range(1000000)]

# 평균 계산
mean = sum(data) / len(data)

# 표준편차 계산
variance = sum((x - mean) ** 2 for x in data) / len(data)
std_dev = variance ** 0.5

print("과거 :", std_dev)

과거 : 0.2886542304368079


In [9]:
# NumPy 도입 후
import numpy as np

# 데이터 생성
data = np.random.rand(1000000)

# 평균과 표준편차 계산
mean = np.mean(data)
std_dev = np.std(data)

print("NumPy 도입 후 :", std_dev)

NumPy 도입 후 : 0.2887707580115495


3. 이미지 처리

In [1]:
# 과거
## 이미지의 밝기를 조정하는 작업이 복잡했습니다.

from PIL import Image

# 이미지 로드
image = Image.open('temp/image.png')
pixels = list(image.getdata())
width, height = image.size

# 밝기 조정
new_pixels = [(int(r*0.5), int(g*0.5), int(b*0.5)) for (r, g, b) in pixels]

# 새로운 이미지 생성
new_image = Image.new('RGB', (width, height))
new_image.putdata(new_pixels)
new_image.save('temp/darkened_image.png')



In [None]:
# 패키지 설치 
! pip install scikit-image

In [2]:
# NumPy 도입 후
import numpy as np
from skimage import io

# 이미지 로드
image = io.imread('temp/image.png')

# 밝기 조정
darkened_image = image * 0.5

# 이미지 저장
io.imsave('temp/darkened_image.png', darkened_image.astype(np.uint8))


4. 과학 계산 및 시뮬레이션

In [None]:
# 과거
import math
import random

# 푸리에 변환 (간단한 예제)
def dft(x):
    N = len(x)
    X = [complex(0)] * N
    for k in range(N):
        for n in range(N):
            angle = 2j * math.pi * k * n / N
            X[k] += x[n] * math.e ** (-angle)
    return X

# 데이터 생성
signal = [random.random() for _ in range(1000)]

# 푸리에 변환
fft_signal = dft(signal)

print("과거 :", fft_signal)

In [None]:
# NumPy 도입 후

import numpy as np

# 데이터 생성
signal = np.random.rand(1000)

# 푸리에 변환
fft_signal = np.fft.fft(signal)

print("NumPy 도입 후 :", fft_signal)

5. 머신러닝

In [None]:
# 과거
## 데이터 전처리와 기본적인 모델 구현도 많은 수작업이 필요했습니다.

import random

# 데이터 생성
X = [[random.random()] for _ in range(100)]
y = [3*x[0] + random.random() for x in X]

# 모델 학습 (단순 선형 회귀)
def fit_linear_regression(X, y):
    n = len(X)
    x_mean = sum([x[0] for x in X]) / n
    y_mean = sum(y) / n
    num = sum([(X[i][0] - x_mean) * (y[i] - y_mean) for i in range(n)])
    den = sum([(X[i][0] - x_mean) ** 2 for i in range(n)])
    slope = num / den
    intercept = y_mean - slope * x_mean
    return slope, intercept

# 학습
slope, intercept = fit_linear_regression(X, y)

print("과거 :", fft_signal)

In [None]:
# NumPy 도입 후

# import numpy as np
from sklearn.linear_model import LinearRegression

# 데이터 생성
X = np.random.rand(100, 1)
y = 3 * X + np.random.rand(100, 1)

# 모델 학습
model = LinearRegression().fit(X, y)

print("NumPy 도입 후 :", model)

# **넘파이의 실무 활용 시나리오 예시** 

In [1]:
import numpy as np

# 각 행은 제품, 각 열은 월별 판매량을 나타낸다.
sales_data = np.array([
    [120, 135, 150, 145],
    [100, 110, 140, 130],
    [90, 100, 95, 105]
])

# 각 제품의 단위당 이익
profit_per_unit = np.array([20, 30, 25])

In [2]:
#총 판매량 계산
total_sales = np.sum(sales_data, axis=1)
print(f"총 판매량: {total_sales}")

총 판매량: [550 480 390]


In [3]:
#각 제품별 총 이익 계산
total_profit = np.dot(profit_per_unit, sales_data)
print(f"총 이익: {total_profit}")


총 이익: [7650 8500 9575 9425]


In [18]:
# 가장 높은 판매량을 기록한 월 찾기
highest_sales_month = np.argmax(np.sum(sales_data, axis=0)) + 1
print(f"가장 높은 판매량을 기록한 월: {highest_sales_month}월")

가장 높은 판매량을 기록한 월: 3월


In [19]:
# 가장 이익이 높은 제품 찾기
highest_profit_product = np.argmax(total_profit) + 1
print(f"가장 이익이 높은 제품: 제품 {highest_profit_product}")

가장 이익이 높은 제품: 제품 3


출처 : https://velog.io/@thddbsk0853/%EB%84%98%ED%8C%8C%EC%9D%B4%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%82%AC%EC%97%85%EC%84%B1-%EB%B6%84%EC%84%9D-w6hn3ur0 