In [3]:
import numpy as np
import pandas as pd

In [4]:
df = pd.read_csv('sample.csv')
df

Unnamed: 0,Name,Country,Age,Salary,Purchased
0,James,France,44.0,72000.0,No
1,Tim,Spain,27.0,48000.0,Yes
2,Sarah,Germany,30.0,54000.0,No
3,Robert,Spain,38.0,61000.0,No
4,Emma,Germany,40.0,,Yes
5,Jennifer,France,35.0,58000.0,Yes
6,Linda,Spain,,52000.0,No
7,Thomas,France,48.0,79000.0,Yes
8,Ben,Germany,50.0,83000.0,No
9,Scarlett,France,37.0,67000.0,Yes


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Name       10 non-null     object 
 1   Country    10 non-null     object 
 2   Age        9 non-null      float64
 3   Salary     9 non-null      float64
 4   Purchased  10 non-null     object 
dtypes: float64(2), object(3)
memory usage: 532.0+ bytes


## 1. ndarray로 변환

In [18]:
data = df.values
#pandas DataFrame의 모든 데이터를 NumPy의 ndarray(다차원 배열) 형태로 변환하는 코드
#DataFrame의 인덱스와 컬럼 이름은 제외하고, 오직 데이터 값만 추출
#반환되는 배열의 shape는 (행 개수, 열 개수)

In [20]:
print(type(data))
#변환된 data 객체의 타입을 출력하는 코드
#출력 결과: <class 'numpy.ndarray'>
#이는 이제 data가 pandas DataFrame이 아닌 NumPy 배열임을 확인

print(data[1,:])
#NumPy 배열의 인덱싱을 사용
#data[1, :]의 의미_ 첫 번째 인덱스 1: 2번째 행을 선택/ 콜론 :: 모든 열을 선택
#결과: 2번째 행의 모든 데이터
#[[1 4 7]
# [2 5 8]  ← 이 행 전체를 선택한 것
# [3 6 9]]


print(data[:,2])
#콜론 :: 모든 행을 선택
#두 번째 인덱스 2: 3번째 열을 선택
#결과: 3번째 열의 모든 데이터
#[[1 4 7]
# [2 5 8]
# [3 6 9]]
#      ↑
# 이 열 전체를 선택

<class 'numpy.ndarray'>
['Tim' 'Spain' 27.0 48000.0 'Yes']
[44.0 27.0 30.0 38.0 40.0 35.0 nan 48.0 50.0 37.0]


## 2. X(feature)와 y(label,target) 분리
- `X`: `Country`, `Age`, `Salary`열 (index 1/2/3)
- `y`: `Purchased`열 (index 4 or -1)

"나라, 나이, 월급을 보고 → 이 사람이 구매할지 말지 예측하는 기계"
X (문제지): Country, Age, Salary 열
y (정답지): Purchased 열

In [8]:
X = data[:,1:-1]   #: = "모든 행"  /  1:-1 = "1번열부터 (맨끝-1)번열까지"
y = data[:,-1]     # : = "모든 행"   /  -1 = "맨 마지막 열" (Python에서 -1은 끝에서 첫번째)

In [9]:
print(X.shape, y.shape)

#X.shape = (5, 2): "5개의 문제, 각 문제는 2개의 특징"
#y.shape = (5,): "5개의 정답"

(10, 3) (10,)


- 일반적으로, `sklearn`과 `tensorflow` 등에 사용하는 `X`는 `2d array`, `y`는 `1d array`를 사용함 (단, `y`의 경우, 변환이 필요할 때, `2d`로의 변경이 필요한 경우도 있음)

기계는 여러 사람 데이터를 한꺼번에 학습해야 하니까 2D가 필요!

- `ANN`의 **classification model**을 직접 구현할 경우, `y`를 `2d array`로 생성하는 것이 수월할 수 있음 (각 class에 속할 확률)

정답은 보통 1개니까!

+) in ANN

- y가 1D일 때 (단답형 느낌)

y_1d = [0, 1, 0, 0, 1]  # 0=No, 1=Yes

기계 출력: 0.7 (이게 0인지 1인지 헷갈림)

- y가 2D일 때 (One-Hot Encoding) (확률 느낌)

y_2d = [[1, 0],  # No
        [0, 1],  # Yes  
        [1, 0],  # No
        [1, 0],  # No
        [0, 1]]  # Yes

기계 출력: [0.3, 0.7] → "No일 확률 30%, Yes일 확률 70%" 기계 출력: 0.7 (이게 0인지 1인지 헷갈림) so, 2D는 확률을 출력해서 더 확실


In [None]:
## <김당니 심화 학습용>
import numpy as np
from sklearn.linear_model import LogisticRegression

# 데이터 준비
X = np.array([[44, 72000],
              [27, 48000],
              [30, 54000],
              [38, 61000],
              [35, 58000]])  # 2D 배열 (5, 2)

y = np.array(['No', 'Yes', 'No', 'No', 'Yes'])  # 1D 배열 (5,)

print("X shape:", X.shape)  # (5, 2) → 2D
print("y shape:", y.shape)  # (5,)   → 1D

# sklearn 사용 (대부분의 라이브러리가 이 형식을 요구함)
model = LogisticRegression()
model.fit(X, y)  # ← X는 2D, y는 1D로 넣어야 함!

In [None]:
## <김당니 심화 학습용>
#1D 에서 2D로 변환 방법
from sklearn.preprocessing import LabelBinarizer

# 원본 y (1D)
y_1d = ['No', 'Yes', 'No', 'No', 'Yes']

# 2D로 변환
lb = LabelBinarizer()
y_2d = lb.fit_transform(y_1d)

print("1D y:", y_1d)
print("2D y:")
print(y_2d)

## 3. training과 test data 분리

 시험 공부에 비유해보기!

Training 데이터 = "기출문제집" (공부용)

Test 데이터 = "실제 시험지" (실전)



In [10]:
from sklearn.model_selection import train_test_split

In [21]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=5)
#전체의 30%를 시험지로 만듦
#100문제 중 30문제는 시험지, 70문제는 기출문제집

#매번 같은 방식으로 나눔 (운에 의존 안 함)
#예: "5번 규칙으로 문제 나누기

#X_train (기출문제집 - 문제지) _  7명 데이터 (70%)
#y_train (기출문제집 - 정답지) _ 7개 정답
#X_test (실제시험 - 문제지) _ 3명 데이터 (30%)
#y_test (실제시험 - 정답지) _ 3개 정답



- 반환하는 데이터의 순서를 기억할 것!

- 데이터 입력이 하나일 경우, 2개의 결과만 반환함

In [12]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(7, 3) (3, 3) (7,) (3,)


- `X_train.shape` = **(train 데이터 샘플의 수, 특징의 수)** _ X_train: (7, 2) → "기출문제 7개, 각 문제 2개 특징"
- `X_test.shape` = **(test 데이터 샘플의 수, 특징의 수)** _ X_test: (3, 2) → "시험문제 3개, 각 문제 2개 특징"


- `y_train.shape` = **(train 데이터 샘플의 수, )** _ y_train: (7,) → "기출정답 7개"


- `y_test.shape` = **(test 데이터 샘플의 수, )** _ y_test: (3,) → "시험정답 3개"



- `ANN` **classification model**일 때, 주로 `y`는 `2d array`로 생성하며, 이때 <br/>
`y.shape` = **(데이터 샘플의 수, class의 수)**

In [None]:
# <김당니 심화 학습용>
# 1D를 2D로 변화하는 법

# 1. 원본 데이터 (1D y)
X = np.array([[44, 72000], [27, 48000], [30, 54000], [38, 61000],
              [35, 58000], [40, 60000], [25, 45000], [33, 55000]])
y_1d = np.array(['No', 'Yes', 'No', 'No', 'Yes', 'No', 'Yes', 'No'])

print("1. 원본 데이터")
print("X.shape:", X.shape)    # (8, 2)
print("y_1d:", y_1d)          # 1D
print("y_1d.shape:", y_1d.shape)  # (8,)

# 2. 1D → 2D 변환
lb = LabelBinarizer()
y_2d = lb.fit_transform(y_1d)

print("\n2. 1D → 2D 변환 후")
print("y_2d:")
print(y_2d)
print("y_2d.shape:", y_2d.shape)  # (8, 2)

# 3. Train/Test 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y_2d, test_size=0.25, random_state=5
)

print("\n3. Train/Test 분리 후")
print("X_train.shape:", X_train.shape)  # (6, 2)
print("X_test.shape:", X_test.shape)    # (2, 2)
print("y_train.shape:", y_train.shape)  # (6, 2) ← 2D로!
print("y_test.shape:", y_test.shape)    # (2, 2) ← 2D로!

print("\n4. 실제 데이터 확인")
print("y_train:")
print(y_train)
print("y_test:")
print(y_test)

## 4. 데이터 변환

#### (1) str을 numeric value로 변환
- `LabelEncoder`: str을 정수(0,1,2,..)로 변환_ 번호 매기기 (간단함)
> - ex> `Germany`: 0, `Spain`: 1, `France`: 2
- `OneHotEncoder`: str을 0과1의 조합으로 변환_ 자리 표시하기 (정확함)
> - ex> `Germany`: [1,0,0], `Spain`: [0,1,0], `France`: [0,0,1]

In [13]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
# X_train의 첫번째 열을 정수로 변경
le.fit(X_train[:,0])
# fit: 변환(인코딩)을 위한 정보를 수집하는 단계
# - 몇 종류의 str이 있고, 어떤 str을 어떤 정수로 변환할지 결정함, 실제 변환이 수행되지는 않음
X_country_le = le.transform(X_train[:,0])
# transform: 실제 변환 수행 (반드시 fit이 선행되어야 함)
print(X_train[:,0])
print(X_country_le)

['Germany' 'France' 'Spain' 'France' 'Germany' 'Spain' 'Spain']
[1 0 2 0 1 2 2]


In [None]:
# 당니쓰 코드
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

# 나라 데이터
countries = ['France', 'Spain', 'Germany', 'Spain', 'France']

# 1. 학습: 어떤 글자가 몇 번이 될지 결정
le.fit(countries)
# France: 0번, Germany: 1번, Spain: 2번 (가나다순)

# 2. 변환: 실제로 숫자로 바꾸기
numbers = le.transform(countries)

print("원본 글자:", countries)
print("변환 숫자:", numbers)

In [14]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
# OneHotEncoder의 경우, fit과 transform의 입력이 반드시 2d여야 함 (행, 열 모두 범위로 지정)
ohe.fit(X_train[:,0:1])
# OneHotEncoder.tranasform은 메모리 절약을 위해 sparse matrix 형태로 반환함
# toarray()를 통해 2d array로 변환할 수 있다.
X_country_ohe = ohe.transform(X_train[:,0:1]).toarray()
print(X_train[:,0:1])
print(X_country_ohe)

[['Germany']
 ['France']
 ['Spain']
 ['France']
 ['Germany']
 ['Spain']
 ['Spain']]
[[0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]]


In [None]:
#당니쓰 코드

from sklearn.preprocessing import OneHotEncoder
import numpy as np

ohe = OneHotEncoder()

# 나라 데이터 (⚠️ 주의: 2D로 만들어야 함!)
countries_2d = np.array([['France'], ['Spain'], ['Germany'], ['Spain'], ['France']])

# 1. 학습
ohe.fit(countries_2d)

# 2. 변환 (toarray()로 일반 숫자 배열로)
result = ohe.transform(countries_2d).toarray()

print("원본 글자:")
print(countries_2d)
print("OneHot 변환:")
print(result)

### (2) 특징 크기 변환
- `StandardScaler`: 평균이 0이고 표준편차가 1인 값으로 변환 _ 표준 점수화 하는
- `MinMaxScaler`: 지정된 최소/최대값 범위로 변환

In [15]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# X의 Age(index=2), Salary(index=3) 두 열을 Scaling함
sc.fit(X_train[:,1:])  ## 평균, 표준편차 계산
X_train_ss = sc.transform(X_train[:,1:])   ## 실제 변환
print(X_train[:,1:])
print(X_train_ss)


#ex) StandardScaler 변환:
# [[-1.22474487 -1.22474487]  # 둘 다 평균보다 1.22표준편차 아래
# [ 1.22474487  1.22474487]  # 둘 다 평균보다 1.22표준편차 위
# [ 0.          0.        ]] # 둘 다 평균과 같음

[[40.0 nan]
 [48.0 79000.0]
 [27.0 48000.0]
 [44.0 72000.0]
 [50.0 83000.0]
 [nan 52000.0]
 [38.0 61000.0]]
[[-0.15389262         nan]
 [ 0.90137106  1.00064154]
 [-1.86869611 -1.3552993 ]
 [ 0.37373922  0.4686549 ]
 [ 1.16518698  1.30463391]
 [        nan -1.05130693]
 [-0.41770854 -0.36732411]]
