In [None]:
import sklearn
sklearn.__version__

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
drive_path = '/content/drive/MyDrive/nado_ai/PythonMLWorkspace(LightWeight)/ScikitLearn/'

## 1. Linear Regression

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv(drive_path+'LinearRegressionData.csv')

In [None]:
dataset.head()

In [None]:
X = dataset.iloc[:, :-1].values # 처음부터 마지막 컬럼까지의 독립변수

In [None]:
Y = dataset.iloc[:, -1].values # 마지막 컬럼 데이터, 종속변수

In [None]:
X, Y

In [None]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()  # 모델 객체 생성
reg.fit(X, Y) # 학습하면서 모델생성

In [None]:
y_pred = reg.predict(X) # X에 대한 예측값

In [None]:
y_pred

In [None]:
plt.scatter(X, Y, color='blue') # 산점도
plt.plot(X, y_pred, color='red') # 그래프
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

In [None]:
print(f'9시간 공부 시 예상 점수는? {reg.predict([[9]])}')

In [None]:
reg.coef_ # 모델의 기울기 

In [None]:
reg.intercept_ # 모델의 y절편 -> bias

## 데이터 셋 분리

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv(drive_path + 'LinearRegressionData.csv')

In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 0)

In [None]:
X, len(X) # 전체데이터 X

In [None]:
X_train, len(X_train)

In [None]:
X_test, len(X_test)

In [None]:
y_train, len(y_train), y_test, len(y_test)

## 분리된 데이터를 통한 모델링

In [None]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()

In [None]:
reg.fit(X_train, y_train)

In [None]:
reg.predict(X_test)

In [None]:
y_test

## 데이터 시각화

In [None]:
plt.scatter(X_train, y_train, color='blue') # 산점도
plt.plot(X_train, reg.predict(X_train), color='red') # 그래프
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 데이터 시각화(예측값 확인)

In [None]:
plt.scatter(X_test, y_test, color='blue') # 산점도
plt.plot(X_train, reg.predict(X_train), color='red') # 그래프
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 모델 평가

In [None]:
reg.score(X_test, y_test)

## Gradient Descent

In [None]:
from sklearn.linear_model import SGDRegressor # SGD: Stochastic Gradient Descent
sr = SGDRegressor(max_iter = 1000, eta0=0.0001, random_state=0, verbose=1)
sr.fit(X_train, y_train)

In [None]:
plt.scatter(X_train, y_train, color='blue') # 산점도
plt.plot(X_train, sr.predict(X_train), color='red') # 그래프
plt.title('Score by hours(SGD, 873 epochs)')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 모델 평가

In [None]:
sr.score(X_train, y_train)

In [None]:
sr.score(X_test, y_test)

# 2. Multiple Linear Regression

## One-hot encoding

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv(drive_path + 'MultipleLinearRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
X, y

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
X = ct.fit_transform(X)
X

# 1 0 : Home
# 0 1 : Library
# 0 0 : Cafe

## 데이터 셋 분리

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## 학습 (다중 선형 회귀)

In [None]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)

## 예측 값과 실제 값 비교(테스트 셋)

In [None]:
y_pred = reg.predict(X_test)
y_pred

In [None]:
y_test

In [None]:
reg.coef_

In [None]:
reg.intercept_

## 모델 평가

In [None]:
reg.score(X_train, y_train) # 훈련 셋

In [None]:
reg.score(X_test, y_test) # 테스트 셋

## 다양한 평가 지표(회귀모델)

1. MAE (Mean Absolute Error) : (실제 값과 예측 값) 차이의 절대 값
2. MSE (Mean Squeared Error) : 차이의 제곱
3. RMSE (Root Mean Squared Error) : 차이의 제곱에 루트
4. R2 : 결정 계수
    > R2 는 1에 가까울 수록 좋음

In [None]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred) # 실제 값, 예측 값 # MAE

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred) # 실제 값, 예측 값 # MSE

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False) # 실제 값, 예측 값 # RMSE

In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred) # R2
# model.score() 메소드를 썻을 때, R2 score를 평가 지표로 사용한다.

# 3. Polynomial Regression

## 공부 시간에 따른 시험 점수 (우등생)

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

dataset = pd.read_csv(drive_path + 'PolynomialRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

## 3-1. Simple Linear Regression

In [None]:
from sklearn.linear_model import LinearRegression

reg = LinearRegression()
reg.fit(X, y)
plt.scatter(X, y, color='blue') # 산점도
plt.plot(X, reg.predict(X), color='red') # 그래프
plt.title('Score by hours (genius)')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

In [None]:
reg.score(X, y)

## 3-2. 다항 회귀(Polynomial Regression)

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree=4) # 2차
X_poly = poly_reg.fit_transform(X)
X_poly[:5] # degree의 수까지 x의 n승을 feature로 변환해줌

In [None]:
X[:5]

In [None]:
poly_reg.get_feature_names_out()

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)

## 데이터 시각화 (변환된 X와 y)

In [None]:
plt.scatter(X, y, color='blue') # 산점도
plt.plot(X, lin_reg.predict(X_poly), color='red') # 그래프
plt.title('Score by hours (genius)')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

In [None]:
X_range = np.arange(min(X), max(X), 0.1) # X의 최소값에서 최대값까지의 범위를 0.1 단위로 잘라서 데이터를 생성
X_range

In [None]:
X_range.shape

In [None]:
X[:5]

In [None]:
X_range = X_range.reshape(-1, 1) # -1은 row개수를 자동으로 세어줌

In [None]:
X_range[:5]

In [None]:
plt.scatter(X, y, color='blue') # 산점도
plt.plot(X_range, lin_reg.predict(poly_reg.fit_transform(X_range)), color='red') # 그래프
plt.title('Score by hours (genius)')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 공부시간에 따른 시험 성적 예측

In [None]:
reg.predict([[2]])  # 2시간 공부했을 때, 선형 회귀모델의 예측 점수

In [None]:
lin_reg.predict(poly_reg.fit_transform([[2]])) # 2시간 공부했을 때, 다항 선형 회귀모델의 예측 점수

# 4. Logistic Regression

## 공부 시간에 따른 자격증 시험 합격 가능성

In [None]:
import numpy as np
import matplotlib.pyplot as plot
import pandas as pd

In [None]:
dataset = pd.read_csv(drive_path + 'LogisticRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

### 데이터 분리

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### 학습(로지스틱 회귀 모델)

In [None]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier.fit(X_train, y_train)

### 6시간 공부했을 때 예측?

In [None]:
classifier.predict([[6]])
# 결과 1 : 합격할 것으로 예측

In [None]:
classifier.predict_proba([[6]]) # 합격할 확률 출력
# 불합격 확률 : 14%, 합격 확률 : 86%

### 4시간 공부했을 때 예측?

In [None]:
classifier.predict([[4]])
# 결과 0 : 불합격할 것으로 예측

In [None]:
classifier.predict_proba([[4]]) # 합격할 확률 출력
# 불합격 확률 : 62%, 합격 확률 : 38%

### 분류 결과 예측 (테스트 세트)

In [None]:
y_pred = classifier.predict(X_test)
y_pred # 예측 값

In [None]:
y_test # 실제 값 (테스트 세트)

In [None]:
X_test # 공부 시간 (테스트 세트)

In [None]:
classifier.score(X_test, y_test)  # 모델 평가
# 전체 테스트 세트 4개 중에서 분류 예측을 올바로 맞힌 개수 3개 -> 3/4 = 0.75

### 데이터 시각화(훈련 세트)

In [None]:
X_range = np.arange(min(X), max(X), 0.1) # X 의 최소 값에서 최대 값까지를 0.1단위로 잘라서 데이터 생성
X_range

In [None]:
p = 1 / (1 + np.exp(-(classifier.coef_  * X_range + classifier.intercept_))) # y = mx + b
p

In [None]:
p.shape

In [None]:
X_range.shape

In [None]:
p = p.reshape(-1) # 1차원 배열 형태로 변경
p.shape

In [None]:
plt.scatter(X_train, y_train, color='blue')
plt.plot(X_range, p, color='green')
plt.plot(X_range, np.full(len(X_range), 0.5), color='red')
plt.title('Probability by hours')
plt.xlabel('hours')
plt.ylabel('P')
plt.show()

# 데이터 시각화 (테스트 세트)

In [None]:
plt.scatter(X_test, y_test, color='blue')
plt.plot(X_range, p, color='green')
plt.plot(X_range, np.full(len(X_range), 0.5), color='red')
plt.title('Probability by hours (test)')
plt.xlabel('hours')
plt.ylabel('P')
plt.show()

In [None]:
classifier.predict_proba([[4.5]])  # 4.5 시간 공부했을 때 확률 (모델에서는 51% 확률로 합격 예측, 실제로는 불합격)

### 혼돈 행렬 (Confusion Matrix)

In [None]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

# True Negative (TN)    False Positive (FP)

# False Negative (FN)   True Positive (TP)



```
# 코드로 형식 지정됨
```

# 5. K-Means 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv(drive_path + 'KMeansData.csv')
dataset[:5]

In [None]:
X = dataset.values
# X = dataset.to_numpy() # 공식 홈페이지 권장사항

In [None]:
X[:5]

## 데이터 시각화 (전체 데이터 분포 확인)

In [None]:
plt.scatter(X[:, 0], X[:, 1])  # x축 : hour, y축 : score
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 데이터 시각화 (축 범위 통일)

In [None]:
plt.scatter(X[:, 0], X[:, 1])  # x축 : hour, y축 : score
plt.title('Score by hours')
plt.xlabel('hours')
plt.xlim(0, 100)
plt.ylim(0, 100)
plt.ylabel('score')
plt.show()

## Feature Scaling

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)
X[:5]

## 데이터 시각화 (스케일링된 데이터)

In [None]:
plt.figure(figsize=(5,5))
plt.scatter(X[:, 0], X[:, 1])  # x축 : hour, y축 : score
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 최적의 K 값 찾기 (Elbow Method)

In [None]:
from sklearn.cluster import KMeans
import warnings
warnings.filterwarnings(action='ignore')

inertia_list = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', random_state=0)
    kmeans.fit(X)
    inertia_list.append(kmeans.inertia_)  # 각 지점으로부터 클러스터의 중심(centroid) 까지의 거리의 제곱의 합

plt.plot(range(1, 11), inertia_list)
plt.title('Elbow Method')
plt.xlabel('n_clusters')
plt.ylabel('inertia')
plt.show()

## 최적의 K값으로 Kmeans 학습

In [None]:
K = 4  # 최적의 K값

In [None]:
kmeans = KMeans(n_clusters=K, random_state=0)
y_kmeans = kmeans.fit_predict(X)

In [None]:
y_kmeans

## 데이터 시각화 (최적의 K)

In [None]:
centers = kmeans.cluster_centers_
centers  # 클러스터의 중심점 좌표

In [None]:
for cluster in range(K):
    plt.scatter(X[y_kmeans == cluster, 0], X[y_kmeans == cluster, 1], s=100, edgecolor='black') # 각 데이터 
    plt.scatter(centers[cluster, 0], centers[cluster, 1], s=100, edgecolor='black', color='yellow', marker='s') # 중심점
    plt.text(centers[cluster, 0], centers[cluster, 1], cluster, va='center', ha='center')  # 클러스터 텍스트 출력
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

## 데이터 시각화(스케일링 원복)

In [None]:
X_org = sc.inverse_transform(X)  # Feature Scaling 된 데이터를 다시 원복
X_org[:5]

In [None]:
centers_org = sc.inverse_transform(centers)
centers_org

In [None]:
for cluster in range(K):
    plt.scatter(X_org[y_kmeans == cluster, 0], X_org[y_kmeans == cluster, 1], s=100, edgecolor='black') # 각 데이터 
    plt.scatter(centers_org[cluster, 0], centers_org[cluster, 1], s=100, edgecolor='black', color='yellow', marker='s') # 중심점
    plt.text(centers_org[cluster, 0], centers_org[cluster, 1], cluster, va='center', ha='center')  # 클러스터 텍스트 출력
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

# 6. Quiz

## 어느 결혼식장에서 피로연의 식수 인원을 올바르게 예측하지 못하여 버려지는 음식으로 고민이 많다고 합니다. 현재까지 진행된 결혼식에 대한 결혼식에 대한 결혼식 참석 인원과 그 중에서 식사를 하는 인원의 데이터가 제공될 때, 아래 각 문항에 대한 코드를 작성하시오.

In [None]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd

### 1) QuizData.csv 파일로부터 데이터를 읽어와서 결혼식 참석 인원(total), 식수 인원(reception)을 각각의 변수로 저장하시오.

In [None]:
dataset = pd.read_csv(drive_path + 'QuizData.csv')
X = dataset['total']
y = dataset['reception']

In [None]:
X = dataset.iloc[:, :-1].values 
y = dataset.iloc[:, -1].values

In [None]:
X[:5], y[:5]

### 2) 전체 데이터를 훈련 세트와 테스트 세트로 분리하시오. 이 때 비율은 75:25 으로 합니다.
(단, random_state = 0 으로 설정)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=0)
# X_train, X_test = train_test_split(X, test_size = 0.25, random_state=0)
# y_train, y_test = train_test_split(y, test_size = 0.25, random_state=0)
len(X_train), len(X_test), len(y_train), len(y_test)

In [None]:
# X_train = X_train.to_numpy().reshape(-1, 1)
# X_test = X_test.to_numpy().reshape(-1, 1)
# y_train = y_train.to_numpy().reshape(-1, 1)
# y_test = y_test.to_numpy().reshape(-1, 1)

### 3) 훈련 세트를 이용하여 단순 선형 회귀 (Simple Linear Regression) 모델을 생성하시오.

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

### 4) 데이터 시각화 (훈련 세트) 코드를 작성하시오.

In [None]:
plt.scatter(X_train, y_train)
plt.plot(X_train, model.predict(X_train), color='red')
plt.title('Wedding reception (train)')
plt.xlabel('total')
plt.ylabel('reception')
plt.show()

### 5) 데이터 시각화 (테스트 세트) 코드를 작성하시오.

In [None]:
plt.scatter(X_test, y_test)
plt.plot(X_train, model.predict(X_train), color='red')
plt.title('Wedding reception (test)')
plt.xlabel('total')
plt.ylabel('reception')
plt.show()

### 6) 훈련 세트, 테스트 세트에 대해 각각 모델 평가 점수를 구하시오.

In [None]:

model.score(X_train, y_train), model.score(X_test, y_test)

### 7) 결혼식 참석 인원이 300명 일 때 예상되는 식수 인원을 구하시오.

In [None]:
input = 300
pred = model.predict([[input]])
print(f'결혼식 참석 인원이 {input}명 일 때 예상되는 식수 인원은 {int(np.round(pred[0][0]))}명 입니다.')

## 걍 내가 해본거...(polynomial regeression)

In [None]:
from sklearn.preprocessing import PolynomialFeatures

dataset = pd.read_csv(drive_path + 'QuizData.csv')
X = dataset['total']
y = dataset['reception']

X = X.to_numpy().reshape(-1, 1)
y = y.to_numpy().reshape(-1, 1)

poly_reg = PolynomialFeatures(degree=4) # 2차
X_poly = poly_reg.fit_transform(X)

X_train, X_test = train_test_split(X, test_size = 0.25, random_state=0)
y_train, y_test = train_test_split(y, test_size = 0.25, random_state=0)

X_train_poly, X_test_poly = train_test_split(X_poly, test_size = 0.25, random_state=0)

model = LinearRegression()
model.fit(X_train_poly, y_train)

In [None]:
X_range = np.arange(min(X), max(X), 0.1).reshape(-1, 1)

plt.scatter(X_train, y_train)
plt.plot(X_range, model.predict(poly_reg.fit_transform(X_range)), color='red')

In [None]:
X_range = np.arange(min(X), max(X), 0.1).reshape(-1, 1)

plt.scatter(X_test, y_test)
plt.plot(X_range, model.predict(poly_reg.fit_transform(X_range)), color='red')

In [None]:
model.score(X_train_poly, y_train), model.score(X_test_poly, y_test)  # 역시나 overfitting...