넘파이로 데이터 준비하기
pandas로 데이터를 불러와도, 대부분의 머신러닝 모델은 넘파이 배열(Numpy array) 형태로 데이터를 받는 것을 선호합니다. 
따라서 데이터를 모델에 전달하기 전에 판다스 데이터프레임(DataFrame)을 넘파이 배열로 변환하는 과정이 필요합니다.

이 과정은 어렵지 않습니다. 판다스에서 제공하는 .to_numpy() 메서드를 사용하면 쉽게 변환할 수 있습니다.

데이터를 넘파이 배열로 바꾸면 좋은 점:

모델과의 호환성: scikit-learn 같은 주요 라이브러리 모델들은 넘파이 배열에 최적화되어 있습니다.

빠른 연산: 넘파이 배열은 데이터프레임보다 수치 연산 속도가 더 빠릅니다.

In [1]:
import pandas as pd
import numpy as np

# 와인 데이터 로드 (URL에서 직접 읽어옵니다)
df = pd.read_csv("https://bit.ly/wine_csv_data")

# 데이터의 특성(X)과 타겟(y)을 분리합니다.
X = df[['alcohol', 'sugar', 'pH']]
y = df['class']

print("--- 데이터프레임의 타입과 형태 확인 ---")
print(f"X의 타입: {type(X)}")
print(f"y의 타입: {type(y)}")
print(f"X의 형태: {X.shape}")
print(f"y의 형태: {y.shape}")
print("\n")

# 판다스 데이터프레임을 넘파이 배열로 변환합니다.
# `.to_numpy()` 메서드를 사용하면 쉽게 변환할 수 있습니다.
X_numpy = X.to_numpy()
y_numpy = y.to_numpy()

print("--- 넘파이 배열로 변환 후 타입과 형태 확인 ---")
print(f"X_numpy의 타입: {type(X_numpy)}")
print(f"y_numpy의 타입: {type(y_numpy)}")
print(f"X_numpy의 형태: {X_numpy.shape}")
print(f"y_numpy의 형태: {y_numpy.shape}")


--- 데이터프레임의 타입과 형태 확인 ---
X의 타입: <class 'pandas.core.frame.DataFrame'>
y의 타입: <class 'pandas.core.series.Series'>
X의 형태: (6497, 3)
y의 형태: (6497,)


--- 넘파이 배열로 변환 후 타입과 형태 확인 ---
X_numpy의 타입: <class 'numpy.ndarray'>
y_numpy의 타입: <class 'numpy.ndarray'>
X_numpy의 형태: (6497, 3)
y_numpy의 형태: (6497,)
