# 1. 데이터 불러오기

In [None]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('sales.csv')

# 엑셀 파일 불러오기
df = pd.read_excel('파일명.xlsx')

# 리스트로 데이터프레임 생성
data = {'Column1': [1, 2, 3], 'Column2': ['A', 'B', 'C']}
df = pd.DataFrame(data)

# 인덱스 초기화
df.reset_index(drop=False, inplace=True)

# 데이터 프레임 여러개 출력
display(df1)
display(df2)

# CSV 파일 저장
df.to_csv('df.csv', index=False)

# 2. 기본 정보 확인

In [None]:
# 데이터 크기 확인
df.shape

# 상위 n개 행 출력
df.head()

# 하위 n개 행 출력
df.tail()

# 데이터 인덱스 확인
df.index

# 속성 값 확인
df.values

# 컬럼 정보 확인
df.columns

# 컬럼 출력
list(df)

# 자료형 확인
df.dtypes

# 데이터프레임 정보 출력
df.info()

# 기본 통계 정보 출력
df.describe()

# 특정 데이터 타입형 열 조회
df.select_dtypes()

# 3. 데이터 탐색

In [None]:
# 날짜 형식으로 바꿔주기
df['date'] = pd.to_datetime(df['date']) # 날짜 형변환
df['year'] = df['date'].dt.year ## 날짜 쪼개기
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df['date'].dt.hour
df['minute'] = df['date'].dt.minute
df['second'] = df['date'].dt.second
df['dayofweek'] = df['date'].dt.dayofweek    # 0 ~ 6
df['weekday'] = df['date'].dt.day_name()  # Monday ~ Sunday

# type 바꿔주기
df['Column'] = df['Column'].astype(str)

# 열 기준 정렬
df.sort_values(by='Column_Name', ascending=False)

# 인덱스 기준 정렬
df.sort_index(ascending=False)

# 고유값 확인
df['Column_Name'].unique()

# 고유값 비율 확인
df['Column_Name'].value_counts(normalize=True)

# 최빈값 확인
df['Column_Name'].mode()

# 행끼리 더해서 열 기준으로 출력
df.sum(axis=0, numeric_only=True)

# 열끼리 더해서 행 기준으로 출력
df.sum(axis=1, numeric_only=True)

# 해당 열의 최댓값 조회
df['Column_Name'].max()

# 해당 열의 최솟값 조회
df['Column_Name'].min()

# 해당 열의 평균 조회
df['Column_Name'].mean()

# 해당 열의 중앙값 조회
df['Column_Name'].median()

# 4. 데이터 조회

In [None]:
# 특정 열 
df['Column_Name']

# 여러 열
df[['Column1', 'Column2']]

# 특정 행
df.loc[1]

# 여러 행
df.loc[[1, 3, 5]]

# 특정 조건에 따른 행 선택
df.loc[df['Column'] > 10]

# 여러 조건에 따른 행 선택
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]

# 여러 조건 특정 열
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]['Col1','Col2']

# between() #기본 both
df.loc[df['Column'].between(80, 90, inclusive='both')]

# isin()
df.loc[df['Column'].isin(['A', 'B'])]

# 5. 데이터프레임 집계

In [None]:
# 특정 열 집계
df.groupby(by='Column1', as_index=False)[['Column2']].sum()
df.groupby(by='Column1', as_index=False)[['Column2']].mean()
df.groupby(by='Column1', as_index=False)[['Column2']].count()
df.groupby(by='Column1', as_index=False)[['Column2']].max()
df.groupby(by='Column1', as_index=False)[['Column2']].min()
                                                   

# 여러 열 집계
df.groupby(by = ['Column1', 'Column2', 'Column3'], as_index=False).sum(numeric_only=True)

# 6. 데이터프레임 변경

In [None]:
# 일부 열 이름 변경
df.rename(columns={'Col1', 'Col2', 'Col3'}, as_index=False)

# 모든 열 이름 변경
df.columns = ['Col1', 'Col2', 'Col3']

# 열 추가
df['New_Column'] = df['Column1'] + df['Column2']

# 열 삭제
drop_cols = ['Col1', 'Col2']
df.drop(drop_cols, axis=1, inplace=True)

# 범주값 변경
df['Col1'] = df['Col1'].map({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})
df['Col1'] = df['Col1'].replace({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})

# 범주값 만들기
pd.cut(df, bins, labels)   # 크기 기준
#bin = [-np.inf, 30, 100, np.inf]
#label = list('LMH')
#titanic['Fare'] = pd.cut(titanic['Fare'], bins=bin, labels=label) # 예시
pd.qcut(df, bins, labels)

# 특정 열을 기준으로 중복 행 제거
drop_duplicates(subset='기준 열', keep='first')

# 값 변경
titanic['col'] = np.where(titanic['col'] == '비교', 참, 거짓)
#titanic['Age2'] = np.where(titanic['Sex'] == 'female', 0, 1) #예시

# 7. 결측치 처리

In [None]:
# 결측치 확인
df.isnull()  # isna()

# 결측치 합계
df.isna().sum()  # isnull().sum()

# 결측치 아닌것 확인
df.notna()

# 결측치 아닌것 합계
df.notna().sum() # notnull().sum()

# 결측치 제거
df.dropna()

# 특정 열에 결측치가 있는 행 제거
df.dropna(subset=['Column'], axis=0, inplace=True)

# 결측치를 특정 값으로 대체
df.fillna(value)

#ffill
df['Column'].fillna(method='ffill', inplace=True)

#bfill
df['Column'].fillna(method='bfill', inplace=True)

# 8. 가변수 만들기

In [None]:
dumm_cols = ['Col1', 'Col2', 'Col3']
df = pd.get_dummies(df, columns=dumm_cols, drop_first=True, dypte=int)

# 9. 데이터프레임 합치기

In [None]:
# 두 데이터프레임 합치기
merged_df = pd.concat([df1, df2], axis=0)

# 열을 기준으로 합치기
merged_df = pd.merge(df1, df2, on='기준열', how='inner')

# 10. 시각화

In [None]:
# 막대 그래프 # 범주 데이터에 사용

plt.rc('axes', axisbelow=True)   # 격자 밑으로 하겠다
plt.figure(figsize=(5, 3))
plt.bar(x=df['Col1'], height=df['Col2'])
plt.title('제목 지정하세요')
plt.xlabel('x축 이름 지정하세요')
plt.ylabel('y축 이름 지정하세요')
plt.xticks(rotation=90)   
plt.grid(axis='y')
plt.show()

In [None]:
# 가로 막대 그래프
plt.bar(y=df['Col1'], width=df['Col2'])

In [None]:
# 선 그래프
plt.figure(figsize=(5, 3))
plt.plot(df[['Col1', 'Col2']])
plt.legend(['Col1', 'Col2'], loc='upper left') # plt.legend( loc='upper left')
plt.show()

# 라인그래프
plt.plot('col1', 'col2', data = df, linewidth = .7)

# y축의 범위 지정
plt.ylim(70, 100)
# x축의 범위 지정
plt.xlim(0, 10)

# 수평선 (y축)
plt.axhline(40, color = 'grey', linestyle = '--')
# 수직선 (xㄴ축)
plt.axvline(10, color = 'red', linestyle = '--')

# 텍스트 입력 x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 3행 1열 인텍스 1 그래프 그리기
plt.subplot(3,1,1)

# 그래프간 간격을 적절히 맞추기
plt.tight_layout() 

# 수평, 수직선 추가
plt.axhline(40, color = 'grey', linestyle = '--') # 수평선 # plt.axhline(ozone_mean, color = 'red', linestyle = '--') # 평균선 추가 가능
plt.axvline(10, color = 'red', linestyle = '--') # 수직선

# 텍스트 표현 # x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 여러 그래프 나눠 그리기
# 3행 1열 1번        # 즉 3 x 1
plt.subplot(3,1,1)
# 3행 1열 2번    
plt.subplot(3,1,2)

# 2행 2열           # 즉 2 x 2
plt.subplot(2,2,1)
plt.subplot(2,2,2)

In [None]:
# 히스토그램 # 연속 데이터에 사용

df_mean = df['Col1'].mean()

plt.figure(figsize=(5, 3))
plt.hist(df['Col1'], bins=20, alpha=0.7, edgecolor='w')
plt.axvline(df_mean, color='tab:orange')
plt.show()

In [None]:
# KDE 그래프 # 밀도 추정
# 라이브러리 필요
import matplotlib.pyplot as plt
import seaborn as sns 

# 밀도함수 그래프 그리기
sns.kdeplot(df['col'])
plt.show()

# 100% 비율로 채우기
sns.kdeplot(x='col', data = df, hue ='col'
            , multiple = 'fill')
plt.axhline(df['col'].mean(), color = 'r')


# kde = True 밀도 추정 선 그래프에 추가
sns.histplot(df['col'], bins=10, edgecolor = 'gray', kde=True)
plt.show()

In [None]:
# 선 그래프
sns.lineplot(x = 'Date', y = 'Close', data = kospi, label = 'Close', color = 'blue', linewidth = .5)

In [None]:
# bar chart # countplot #자동으로 카운트
# x : 세로 # y : 가로
sns.countplot(x='col' data=df) 
# or
sns.countplot(dr['col']) 
sns.countplot(x='Pclass', data=df)

In [None]:
# pie 차트
temp = df['col'].value_counts()
temp.values, temp.index

plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%',
        startangle=90, counterclock=False) # startangle = 90 : 90도 부터 시작
                                            # counterclock = False : 시계 방향으로

In [None]:
# scatter 차트 산점도 # col1의 co2에 대해 산점도
plt.scatter(df['col1'], df['col2'])
plt.show()


# 숫자형 변수들에 대한 산점도를 한꺼번에 그려줍니다. 
sns.pairplot(air)
plt.show()

In [None]:
# -1, 1에 가까울 수록 강한 상관관계를 나타냄.
# 상관관계 p-value 구하기 
# 1, -1에 가까울 수록 상관관계 강함
# p-value가 0.05보다 작을 수록  두 변수간에 관계가 있다
import scipy.stats as spst
# 상관분석
spst.pearsonr(df['col1'], df['col2'])

# 데이터프레임 한꺼번에 상관계수 구하기
df.corr()
# 숫자만 
df.corr(numeric_only=True)

# 상관계수를 heatmap으로 시각화
plt.figure(figsize = (6, 6))
sns.heatmap(air.corr(),
            annot = True,            # 숫자(상관계수) 표기 여부
            cbar=False               # 색깔 바 제거
            fmt = '.3f',             # 숫자 포멧 : 소수점 3자리까지 표기
            cmap = 'RdYlBu_r',       # 칼라맵(색상)
            vmin = -1, vmax = 1),    # 값의 최소, 최대값
            quare=True,              # 정사각형 변경
            annot_kws={'size':8},    # 텍스트 크기 지정  
plt.show()

In [None]:
# 모든 숫자형 변수를 쌍(pair)으로 만들어 각 변수 쌍에 대한 산점도
sns.pairplot(df, hue = 'col')
plt.show()

# 11. 상관계수

In [None]:
import pandas as pd
# 상관계수 행렬 계산
correlation_matrix = data.corr()

# 상관계수 계산
# 특정 열과 다른 열 간의 상관계수 확인
correlation = data['column1'].corr(data['column2'])

import seaborn as sns
import matplotlib.pyplot as plt


# 상관계수 시각화
# 히트맵을 이용한 상관계수 시각화
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Correlation Heatmap")
plt.show()

# NaN 값 제외한 상관계수 계산
correlation_matrix_cleaned = data.dropna().corr()

# 12. seaborn

In [None]:
# seaborn 문제 발생 시 실행
# 커널 restart
!pip install seaborn --upgrade

In [None]:
# 라이브러리 불러오기
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 데이터 불러오기 및 산점도 플롯

# 데이터 불러오기
import pandas as pd
data = pd.read_csv("your_dataset.csv")

# 산점도 플롯
sns.scatterplot(x='x_column', y='y_column', data=data)
plt.show()

In [None]:
# 히스토그램 및 밀도 그래프

# 히스토그램
sns.histplot(data['column'], bins=10, kde=True)

# 밀도 그래프
sns.kdeplot(data['column'], shade=True)
plt.show()

# 100% 밀도 채우기
sns.histplot(x='col', data = df, bins = 16
             , hue ='cpl', multiple = 'fill')
plt.axhline(titanic['cpl'].mean(), color = 'r')
plt.show()

In [None]:
# 상자 그림 (Box Plot)
sns.boxplot(x='group_column', y='value_column', data=data)
plt.show()


In [None]:
# 선 그래프
sns.lineplot(x='x_column', y='y_column', data=data)
plt.show()

In [None]:
# 히트맵
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()

In [None]:
# 카테고리별 플롯
#범주형 변수와 숫자형 변수 간의 관계를 시각화하고, 
#범주형 변수의 분포나 숫자형 변수의 집계값을 쉽게 파악하기 위해 사용됩니다.
sns.barplot(x='category_column', y='value_column', data=data)

sns.countplot(x='category_column', data=data)
sns.boxplot(x='category_column', y='value_column', data=data)
plt.show()

In [None]:
# 산점도 행렬 (Pair Plot)
sns.pairplot(data)
plt.show()

In [None]:
# 분포 및 범주형 데이터 시각화
sns.violinplot(x='category_column', y='value_column', data=data)
sns.swarmplot(x='category_column', y='value_column', data=data)
plt.show()

In [None]:
# 다중 플롯
sns.jointplot(x='x_column', y='y_column', data=data, kind='scatter')
sns.jointplot(x='x_column', y='y_column', data=data, kind='kde')
sns.jointplot(x='x_column', y='y_column', data=data, kind='reg')
plt.show()

# 13. T-테스트 

In [None]:
# 라이브러리 불러오기
import scipy.stats as stats

In [None]:
# 두 그룹으로 데이터 저장
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']

# statistic : 통계량  2보다 크므로, 차이가 있으나 크지 않다
# statistic 양수는 died 평균값이 survived 보다 크다 
spst.ttest_ind(died, survived)

In [None]:
# 일표본 T-테스트 (One-sample T-test)

# 예시 데이터
data = [1, 2, 3, 4, 5]

# 가설 설정: 평균이 기준값과 같은지 검정
null_mean = 3

# 일표본 T-테스트
t_statistic, p_value = stats.ttest_1samp(data, null_mean)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# 독립표본 T-테스트 (Independent-samples T-test)

# 예시 데이터
group1 = [23, 25, 29, 32, 28]
group2 = [20, 22, 27, 30, 26]

# 독립표본 T-테스트
t_statistic, p_value = stats.ttest_ind(group1, group2)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# 대응표본 T-테스트 (Paired-samples T-test)

# 예시 데이터
before = [18, 20, 22, 25, 21]
after = [16, 18, 20, 23, 20]

# 대응표본 T-테스트
t_statistic, p_value = stats.ttest_rel(before, after)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# anova 분산분석 #3개 이상 일때
# 1) 분산 분석을 위한 데이터 만들기
# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 그룹별 저장
P_1 = temp.loc[temp.Pclass == 1, 'Age']
P_2 = temp.loc[temp.Pclass == 2, 'Age']
P_3 = temp.loc[temp.Pclass == 3, 'Age']

spst.f_oneway(P_1, P_2, P_3)

In [None]:
# 등분산 검정 (Equal variance test)

# 등분산 검정
levene_statistic, p_value = stats.levene(group1, group2)

# 결과 출력
print("Levene's test statistic:", levene_statistic)
print("P-value:", p_value)


In [None]:
# mosaic plot # 비율, 범주별 양 확인 할 수 있음
mosaic(titanic, ['Embarked', 'Survived'])
plt.axhline(1- titanic['Survived'].mean(), color = 'r')
plt.show()

# 14. 카이제곱

In [None]:
# 1) 먼저 교차표 집계- normalize 하면 안 됨
table = pd.crosstab(titanic['Survived'], titanic['Pclass'])
print(table)
print('-' * 50)

# 2) 카이제곱검정
spst.chi2_contingency(table)




Chi2ContingencyResult(statistic=102.88898875696056, pvalue=4.549251711298793e-23, dof=2, expected_freq=array([[133.09090909, 113.37373737, 302.53535354],
       [ 82.90909091,  70.62626263, 188.46464646]])) 

# statistic :  높은 카이제곱 통계량 값은 범주형 변수들 간에 유의한 연관성이 있을 가능성

# dof : 자유도가 높을수록, 분할표의 정보가 더 많아집니다.
# 그러나, 너무 많은 자유도는 데이터가 불충분하여 신뢰할 수 없는 결과를 초래할 수 있습니다.
# 적절한 자유도를 가진 모델을 선택하는 것이 중요합니다.

# expected_freq :  기대 빈도가 높을수록, 관측된 데이터와 기대되는 데이터가 비슷하다는 것을 의미
# 기대 빈도가 너무 높은 경우에도, 실제 관측된 데이터와 유의미한 차이가 있는지 여부를 확인해야 합니다.
# 기대 빈도가 낮은 경우, 표본의 크기가 작거나 표본이 실제 모집단을 대표하지 못하는 경우일 수 있습니다.

#statistic 자유도 보다 2배 이상 이면 관련이 있다


# 15 시계열 데이터

In [None]:
result = pd.DataFrame({'observed':decomp.observed, 'trend':decomp.trend, 'seasonal':decomp.seasonal, 'residual':decomp.resid})  

'observed': decomp.observed,  # 관측치 데이터
'trend': decomp.trend,        # 추세 데이터
'seasonal': decomp.seasonal,  # 계절성 데이터
'residual': decomp.resid      # 잔차 데이터

# 16. 크롤링

In [None]:
# 임포트
import warnings
warnings.filterwarnings('ignore') # 경고 문구 안뜨게 해주는 설정
import requests
import pandas as pd

In [None]:
# 동적 방식
page_size, page = 30, 1 
url = f'https://m.stock.naver.com/api/index/KOSPI/price?pageSize={page_size}&page={page}' # 네이버 코스피 지수 

response = requests.get(url) # 서버에 데이터 요청
response

data = response.json() #리스트로 바꿔줌 

cols = ['localTradedAt', 'closePrice'] # 원하는 컬럼만 데이터 프레임으로 출력
df = pd.DataFrame(data)[cols] 
df.head()

In [None]:
# 함수로 만듦
def stock_price(code='KOSPI', page_size=60, page=1):
    # 1. URL
    url = f'https://m.stock.naver.com/api/index/{code}/price?pageSize={page_size}&page={page}'
    # 2. request(url)
    response = requests.get(url)
    # 3. parsing json
    data = response.json()
    # 4. 데이터프레임 
    cols = ['localTradedAt', 'closePrice']
    df = pd.DataFrame(data)[cols]
    #pd.DataFrame(response.json())[['localTradedAt', 'closePrice']] # 한줄로 줄일 수 있다
    
    return df

# 17. 머신러닝
- x, y 분리

우선 target 변수를 명확히 지정합니다.
target을 제외한 나머지 변수들 데이터는 x로 선언합니다.
target 변수 데이터는 y로 선언합니다.
이 결과로 만들어진 x는 데이터프레임, y는 시리즈가 됩니다.
이후 모든 작업은 x, y를 대상으로 진행합니다.

In [None]:
# Pclass Age 평균 구하기
titanic.groupby(by='Pclass', as_index=False)['Age'].transform('mean')

In [None]:
# 
# 독립변수 -> features
# 종속변수 -> target

In [None]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = data.drop(target, axis=1)
y = data.loc[:, target] # [행, 열]

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split # 데이터를 무자위로 섞음
# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, 
                                                    random_state=1, shuffle=True, stratify=y) 
                                                    # random_state : 난수 섞음 즉, 동일하게 결과를 얻기 위해 사용
                                                    # shuffle : 섞음, False는 안섞음 시계열을 할 때 False
                                                    # stratify : y기준으로 균등하게 분할

### 모델링

- 알고리즘: LinearRegression
- 평가방법: mean_absolute_error

In [None]:
# 1단계: 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error # 평가는 metrics에서 다 불러올 수 있다.

In [None]:
# 2단계: 선언하기
model = LinearRegression()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계: 평가하기 
# 오차 (평균)출력
print('MAE:', mean_absolute_error(y_test, y_pred)) # 평균 절대 오차 # 값이 낮을 수록 좋은 모델

In [None]:
# 실제값, 예측값 비교
print(y_test.values[:10])
print(y_pred[:10])

In [None]:
# 기준(평균) 모델 성능 평가
mean_ozone = y_train.mean()
y_base= np.array([mean_ozone] * len(y_test))

# 5단계: 평가하기 
# 오차 (평균)출력
print('MAE:', mean_absolute_error(y_test, y_base))

In [None]:
# 시각화하여 비교

plt.plot(y_test.values, label='Actual')
plt.plot(y_pred, label='Predicted')
plt.plot(y_base, label='baseline', color='r', linestyle='--')
plt.legend()
plt.show()

- 알고리즘: KNeighborsClassifier
- 평가방법: accuracy_score

In [None]:
# 1단계: 불러오기
from sklearn.neighbors import KNeighborsClassifier #최근접
from sklearn.metrics import accuracy_score

In [None]:
# 2단계: 선언하기
model = KNeighborsClassifier()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
print(y_test.values[:20])
print(y_pred[:20]) # 비교

In [None]:
# 5단계: 평가하기
print('accuracy_score', accuracy_score(y_test, y_pred)) # 86% 

In [None]:
y_base = np.array([y_train.mode()[0]] * len(y_test))
print('accuracy_score', accuracy_score(y_test, y_base)) # base 56%

- 알고리즘: DecisionTreeClassifier
- 평가방법: accuracy_score

In [None]:
# 1단계: 불러오기 # sklearn 은 target(종속변수)은 문자열 허용 feature(독립변수)는 안됌
from sklearn.tree import DecisionTreeClassifier # 의사 결정 나무
from sklearn.metrics import accuracy_score

In [None]:
# 2단계: 선언하기
model = DecisionTreeClassifier()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
print(y_test.values[:10])
print(y_pred[:10]) # 비교

In [None]:
# 5단계 평가하기
print('accuracy_score:', accuracy_score(y_test, y_pred)) # 95% 정확도 높네...

In [None]:
y_train.value_counts() # 빈도수는 비슷

- MSE, RMSE, MAE, MAPE는 오류(Error) 이므로 작을 수록 좋음
- R2 Score는 클 수록 좋음

## 회귀 성능 평가

**1) MAE(Mean Absolute Error)**


$$\large MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|$$

- 평균 절대 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_error

# 성능 평가
print('MAE:',mean_absolute_error(y_test, y_pred)) # 평균 절대 오차

**2) MSE(Mean Squared Error)**

$$\large MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2$$

- 평균 제곱 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('MSE:',mean_squared_error(y_test, y_pred))

**3) RMSE(Root Mean Squared Error)**


$$\large RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2}$$

- MSE(평균 제곱 오차)의 제곱근

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('RMSE:', mean_squared_error(y_test, y_pred) ** 0.5) # 루트 0.5 제곱

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('RMSE:', mean_squared_error(y_test, y_pred, squared=False)) 

**4) MAPE(Mean Absolute Percentage Error)**

$$\large MAPE=\frac{1}{n}\sum_{i=1}^{n}\left |\frac{y_{i}-\hat{y}_{i}}{y_{i}}\right |$$

- 예측 값과 실제 값 사이의 평균 절대 백분율 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_percentage_error

# 성능 평가
print('MAPE:', mean_absolute_percentage_error(y_test, y_pred)) # 오차의 비율

**5) R2-Score**

$$\large R^2=1-\frac{SSE}{SST}=1-\frac{\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^2}$$

- 0에서 1 사이의 값을 가지며, 높을수록 모델이 데이터를 잘 설명한다고 해석

In [None]:
# 모듈 불러오기
from sklearn.metrics import r2_score

# 성능 평가
print('R2:', r2_score(y_test, y_pred)) # 57% # 클수록 좋음

- score() 메서드를 사용해 R2 Score를 확인할 수 있습니다.

In [None]:
# 참고
model.score(x_test, y_test)

**6) 학습 성능 확인**

In [None]:
# 학습 데이터에 대한 예측
y_train_pred = model.predict(x_train)

# 학습 성능 확인
print('R2:', r2_score(y_train, y_train_pred)) #학습 성능과 평가 성능이 비슷 과적합은 아님

In [None]:
# 학습성능, 평가성능 비교
print('학습성능:', model.score(x_train, y_train))
print('평가성능:', model.score(x_test, y_test))

## 분류 성능 평가

**1) Confusion Matrix**

In [None]:
# 모듈 불러오기
from sklearn.metrics import confusion_matrix

# 성능 평가
print("CM:", confusion_matrix(y_test, y_pred)) # TN, FP, FN, TP

In [None]:
# 혼동행렬 시각화
plt.figure(figsize=(5, 2))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, cbar=False,
           cmap='Blues')
plt.show()

**2) Accuracy**

$$\large Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import accuracy_score

# 성능 평가
print('Accuracy:', accuracy_score(y_test, y_pred)) # 정확도

**3) Precision**

$$\large Precision = \frac{TP}{TP+FP}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import precision_score

# 성능 평가
print('Precision', precision_score(y_test, y_pred)) # 정밀도
print('Precision', precision_score(y_test, y_pred, average=None)) # 0의정밀도, 1정밀도 #특이도 # 이걸 권고
print('Precision', precision_score(y_test, y_pred, average='macro'))
print('Precision', precision_score(y_test, y_pred, average='weighted'))

**4) Recall**

$$\large Recall = \frac{TP}{TP+FN}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import recall_score

# 성능 평가
print('Recall:', recall_score(y_test, y_pred, average=None)) # 재현도 # 0.9 값 특이도 
                                                             # 민감도(실제값) 정밀도(예측값)

**5) F1-Score**

$$\large F1 = \frac{2\times Precision\times Recall}{Precision+Recall}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import f1_score

# 성능 평가
print("F1:", f1_score(y_test, y_pred, average=None)) # 정밀도와 재현율의 조화 평균

**6) Classification Report**

In [None]:
# 모듈 불러오기
from sklearn.metrics import classification_report

# 성능 평가
print(classification_report(y_test, y_pred))

In [None]:
# 참고
print('학습성능:', model.score(x_train, y_train))
print('평가성능:', model.score(x_test, y_test))

- 회귀 계수를 살펴봅니다.

In [None]:
# 회귀계수 확인
print(model.coef_) # 가중치
print(model.intercept_) # 편향

$$ \large Distance = 3.9*Speed -16.37 $$

In [None]:
# 회귀식 확인
# y = a * x + b
a = model.coef_  # 가중치
b = model.intercept_ # 편향
#speed = np.array([x_test.min(), x_test.max()])
speed = np.linspace(x_test.min(), x_test.max(), 2)
# 회귀선 = 가중치 x feature x 편향
dist = a * speed + b # 회귀선

In [None]:
# 회귀선 그리기
plt.scatter(x_test, y_test) # 평가 데이터
plt.scatter(x_train, y_train, color='orange') # 학습 데이터
plt.plot(speed, dist, color='r') # 학습 데이터 회귀선
plt.show()

### 정규화(Normalization)
• 각 변수의 값이 0과 1사이 값이 됨

### 표준화(Standardization)
• 각 변수의 평균이 0, 표준편차가 1이 됨


In [None]:
# 함수 불러오기
from sklearn.preprocessing import MinMaxScaler
# 정규화
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

## 결정 트리

In [None]:
# 1단계: 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# 2단계: 선언하기 
model = DecisionTreeClassifier(max_depth=5 ,random_state=1) #독립 변수 제한 # 같은 걸 고를 수 있음

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계 평가하기
print('confusion:', confusion_matrix(y_test, y_pred))
print('report::', classification_report(y_test, y_pred))

In [None]:
# 시각화 모듈 불러오기
from sklearn.tree import export_graphviz
from IPython.display import Image

# 이미지 파일 만들기
export_graphviz(model,                                 # 모델 이름
                out_file='tree.dot',                   # 파일 이름
                feature_names=list(x),                 # Feature 이름
                class_names=['die', 'survived'],       # Target Class 이름 (분류인 경우만 지정)
                rounded=True,                          # 둥근 테두리
                precision=2,                           # 불순도 소숫점 자리수
                max_depth=3,                           # 실제로 표시할 트리 깊이
                filled=True)                           # 박스 내부 채우기

# 파일 변환
!dot tree.dot -Tpng -otree.png -Gdpi=300

# 이미지 파일 표시
Image(filename='tree.png')

In [None]:
# 변수 중요도 시각화
# 변수 중요도
plt.figure(figsize=(5, 5))
plt.barh(y=list(x), width=model.feature_importances_) # feature_importances_ 속성이 변수 중요도
plt.show()

In [None]:
# 정렬해서 중요도 시각화
# 데이터프레임 만들기
df = pd.DataFrame()
df['feature'] = list(x)
df['importance'] = model.feature_importances_
df.sort_values(by='importance', ascending=True, inplace=True)

# 시각화
plt.figure(figsize=(5, 5))
plt.barh(df['feature'], df['importance'])
plt.show()

# 로지스틱회귀

- Diabetes 데이터로 모델링합니다.
- Logistic Regression 알고리즘으로 모델링합니다.

In [None]:
# 1단계: 불러오기
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# 2단계: 선언하기
model = LogisticRegression()

In [None]:
# 3단계: 학습하기
model.fit(x_train,y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# 예측값
y_pred[10:20]

# 예측 확률
p = model.predict_proba(x_test)
p[10:20]
       # 0 확률      # 1확률

In [None]:
# 비교
print(classification_report(y_test, y_pred)) 

# 임계값 : 0.4
y_pred2 = [1 if x > 0.4 else 0 for x in p1] # 0.4보다 크면 1 아니면 0

# 성능 평가
print(classification_report(y_test, y_pred2))

### 성능 예측
- K분할 교차 검증 방법으로 모델 성능을 예측합니다.
- cross_val_score(model, x_train, y_train, cv=n) 형태로 사용합니다.
- cv 옵션에 k값(분할 개수, 기본값=5)을 지정합니다.
- cross_val_score 함수는 넘파이 배열 형태의 값을 반환합니다.
- cross_val_score 함수 반환 값의 평균을 해당 모델의 예측 성능으로 볼 수 있습니다.

1) Decision Tree

In [None]:
# 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# 선언하기
model = DecisionTreeClassifier(random_state=1)

# 검증하기
cv_score = cross_val_score(model, x_train, y_train, cv=10) 

# 확인 
print(cv_score) # 정확도 # ex) 회귀에서는 R2
print('평균:', cv_score.mean())
print('표준편차:', cv_score.std())

# 예측 결과 저장
result = {}
result['Decision Tree'] = cv_score.mean()

# 확인
print(result)

### 회귀
- DecisionTreeRegressor
- KNeighborsRegressor
- LinearRegression
- RandomForestRegressor
- GradientBoostingRegressor
- XGBRFRegressor
- LGBMRegressor

- #### 평가지표
    - mean_squared_error
    - mean_absolute_error
    - r2_score
    - root mean_squared_error

### 분류
- LogisticRegression
- KNeighborsClassifier
- DecisionTreeClassifier
- RandomForestClassifier
- XGBClassifier
- GradientBoostingClassifier
- LGBMClassifier
- SVC

 - #### 평가지표
    - accuracy_score
    - recall_score
    - precision_score
    - classification_report
    - confusion_matrix

In [None]:
# 머신러닝 라이브러리 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor

from sklearn.metrics import *

### Decision Tree
- 하이퍼 파라미터
   - max_depth
      - 트리의 최대 깊이 제한
      - 기본값: 완벽하게 클래스 결정 값이 될 때까지
      - 깊이를 계속 키우며 분할하거나, 노드가 가지는
      - 데이터 개수가 min_samples_split보다 작아질
      - 때까지 계속 깊이를 증가시킴
      - 이 값이 작을 수록 트리 깊이가 제한되어 모델이 단순해 짐
    - min_samples_leaf
      - leaf가 되기 위한 최소한의 샘플 데이터 수
      - 이 값이 클 수록 모델이 단순해 짐
    - min_samples_split
      - 노드를 분할하기 위한 최소한의 샘플 데이터 수
      - 이 값이 클 수록 모델이 단순해 짐
      - 위 파라미터 값을 조정해 모델을 단순화 시켜 과대적합 위험을 줄임

### 1) 모델 튜닝

 - 성능을 확인할 파라미터를 딕셔너리 형태로 선언합니다.
 - 기존 모델을 기본으로 RandomizedSearchCV 알고리즘을 사용하는 모델을 선언합니다.
 - 다음 정보를 최종 모델에 파라미터로 전달합니다.
 - 기본 모델 이름
 - 파라미터 변수
 - cv: K-Fold 분할 개수(기본값=5)
 - n_iter: 시도 횟수(기본값=10)
 - scoring: 평가 방법

In [None]:
# 불러오기
from sklearn.model_selection import RandomizedSearchCV

# 파라미터 선언
  # max_depth: 1~50
param = {'max_depth': range(1, 51)}

# Random Search 선언
  # cv=5
  # n_iter=20
  # scoring='r2'
model = RandomizedSearchCV(model_dt,   # 튜닝할 기본 모델
                          param,       # 테스트 대상 매개변수 범위
                          n_iter=20,   # 임으로 선택할 매개변수 개수
                          cv=5,        # K-Fold cv 개수
                          scoring='r2' # 평가지표 (회귀여서 r2)
                          )



### 튜닝 결과 확인

- model.cv_results_ 속성에 성능 테스트와 관련된 많은 정보가 포함되어 있습니다.
- 이 중 중요한 정보를만 추출해서 확인합니다.
- 다음 3가지는 꼭 기억해야 합니다.
- model.cv_results_['mean_test_score']: 테스트로 얻은 성능
- model.best_params_: 최적의 파라미터
- model.best_score_: 최고의 성능

In [None]:
grid_search_lr = GridSearchCV(RandomForestClassifier(), param_grid_lr, cv=5, scoring='accuracy')
grid_search_lr.fit(x_train, y_train2)
best_lr_model = grid_search_lr.best_estimator_
best_lr_params = grid_search_lr.best_params_
best_lr_score = grid_search_lr.best_score_

In [None]:
y_pred_lr = best_lr_model.predict(x_val)
print("Logistic Regression 모델 평가 결과:")
print('accuracy :', accuracy_score(y_val2, y_pred_lr))
print('='*60)
print(confusion_matrix(y_val2, y_pred_lr))
print('='*60)
print(classification_report(y_val2, y_pred_lr))
print('='*60)
print("최적의 파라미터:", best_lr_params)
print("최고 성능:", best_lr_score)
print('='*60)

In [None]:
#### 결과

# Logistic Regression 모델 평가 결과:
# accuracy : 1.0
# ============================================================
# [[637   0]
# [  0 540]]
# ============================================================
#              precision    recall  f1-score   support
#
#           0       1.00      1.00      1.00       637
#            1       1.00      1.00      1.00       540

#     accuracy                           1.00      1177
#    macro avg       1.00      1.00      1.00      1177
# weighted avg       1.00      1.00      1.00      1177

# ============================================================
# 최적의 파라미터: {'max_depth': 23, 'n_estimators': 205}
# 최고 성능: 0.9991496144888868

# 18. 차원 축소

In [None]:
!pip install plotly
import plotly.graph_objects as go

In [None]:
# 기본 라이브러리 가져오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import *

from sklearn.datasets import load_breast_cancer, load_digits, load_iris, make_swiss_roll
from sklearn.preprocessing import MinMaxScaler

from sklearn.decomposition import PCA

In [None]:
# 럭비공 형태의 샘플 데이터 생성 함수
def generate_rugby_data(n_points=1000, a=1, b=1.5, c=2):
    phi = np.random.uniform(0, np.pi, n_points)
    theta = np.random.uniform(0, 2*np.pi, n_points)
    x = a * np.sin(phi) * np.cos(theta)
    y = b * np.sin(phi) * np.sin(theta)
    z = c * np.cos(phi)
    X = np.column_stack((x, y, z))
    return X

rugby = generate_rugby_data()

# 스위스롤 데이터
swiss_roll, _ = make_swiss_roll(n_samples=1000, noise=0.2)

In [None]:
# 3차원 스캐터 함수 생성
def my_3d_Scatter(X) :
    fig = go.Figure()
    fig.add_trace(go.Scatter3d(x=X[:, 0], y=X[:, 1], z=X[:, 2],
                           mode='markers', marker=dict(size=2, color='blue'),
                           name='Original Data'))

    fig.update_layout(margin=dict(l=0, r=0, b=0, t=0),
                      scene=dict(xaxis_title='X Axis', yaxis_title='Y Axis', zaxis_title='Z Axis'))

    fig.show()

In [None]:
my_3d_Scatter(rugby)

In [None]:
# PCA를 이용하여 2개의 주성분으로 차원 축소
pca = PCA(n_components=2)
X_pca = pca.fit_transform(rugby)

# PCA 축소 데이터 조회
plt.scatter(X_pca[:, 0], X_pca[:, 1])
plt.grid()
plt.show()


### PCA 사용준비

In [None]:
iris = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/iris.csv")
target = 'Species'
x = iris.drop(target, axis = 1)
y = iris.loc[:, target]

# 스케일링
scaler = MinMaxScaler()
x2 = scaler.fit_transform(x)

# (옵션)데이터프레임 변환
x2 = pd.DataFrame(x2, columns= x.columns)

# 주성분 분석
from sklearn.decomposition import PCA

# feature 수
x2.shape[1]

# 주성분 수 2개
n = 2
pca = PCA(n_components = n) # 2차원으로 축소

# 만들고, 적용하기(결과는 넘파이 어레이)
x2_pc = pca.fit_transform(x2)

# (옵션) 데이터프레임으로 변환
x2_pc = pd.DataFrame(x2_pc, columns = ['PC1', 'PC2'])
x2_pc.head()

# 차원추속된 데이터를 붙임
pd.concat([iris, x2_pc], axis = 1).head()

# 두 주성분 시각화
sns.scatterplot(x = 'PC1', y = 'PC2', data = x2_pc, hue = y)
plt.grid()
plt.show()

### 고차원 데이터 차원 축소

In [None]:
# breast_cancer 데이터 로딩
cancer=load_breast_cancer()
x = cancer.data
y = cancer.target

x = pd.DataFrame(x, columns=cancer.feature_names)

x.shape

In [None]:
x.head()

In [None]:
# 거리계산 기반 차원축고
# 스케일링 필요

scaler = MinMaxScaler()
x = scaler.fit_transform(x)

# (옵션)데이터프레임 변환
x = pd.DataFrame(x, columns=cancer.feature_names)

# 데이터 분할
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random_state = 20)

In [None]:
# 주 성분 만들기
from sklearn.decomposition import PCA

# feature 수
x_train.shape[1]

In [None]:
# 주성분 분석 수행

# 주성분을 몇개로 할지 결정(최대값 : 전체 feature 수)
n = x_train.shape[1] # feautre 수

# 주성분 분석 선언
pca = PCA(n_components=n)

# 만들고, 적용하기
x_train_pc = pca.fit_transform(x_train)
x_val_pc = pca.transform(x_val)


# 칼럼이름 생성
column_names = [ 'PC'+str(i+1) for i in range(n) ]
column_names

In [None]:
# 편리하게 사용하기 위해 데이터프레임 변환
# 데이터프레임으로 변환하기
x_train_pc = pd.DataFrame(x_train_pc, columns = column_names)
x_val_pc = pd.DataFrame(x_val_pc, columns = column_names)
x_train_pc

### x_train을 이용해서 주성분 추출

In [None]:
# 주성분 1개짜리
n = 1
pca = PCA(n_components = n) 

# 만들고, 적용하기(결과는 넘파이 어레이)
x_train_pc_1 = pca.fit_transform(x_train)

# 주성분 2개짜리
n = 2
pca = PCA(n_components = n) 

# 만들고, 적용하기(결과는 넘파이 어레이)
x_train_pc_2 = pca.fit_transform(x_train)

# 주성분 3개짜리
n = 3
pca = PCA(n_components = n) 

# 만들고, 적용하기(결과는 넘파이 어레이)
x_train_pc_3 = pca.fit_transform(x_train)

# 상위 3개행씩 조회 
print(x_train_pc_1[:3]) 
print()
print(x_train_pc_2[:3]) # pc_1의 첫번째 값과 Pc_2의 첫번째 값이 같음
print()
print(x_train_pc_3[:3]) # pc_1의 첫번째 값과 Pc_2, Pc3 첫번째 값이 같음
                        # pc_2 두번쨰 값과 Pc_3 두번째값과 같음

### 주성분 누적 분산 그래프
- 그래프를 보고 적절한 주성분의 개수를 지정(elbow method!)
- x축 : PC 수
- y축 : 전체 분산크기 - 누적 분산크기

In [None]:
# 주성분을 몇개로 할지 결정(최대값 : 전체 feature 수) 
n = x_train.shape[1] 
# 주성분 분석 선언 
pca = PCA(n_components=n) 
# 만들고, 적용하기 
x_train_pc = pca.fit_transform(x_train) 
x_val_pc = pca.transform(x_val)

# 엘보우 시각화
plt.plot(range(1,n+1), pca.explained_variance_ratio_, marker = '.')
plt.xlabel('No. of PC')
plt.grid()
plt.show()

In [None]:
# 시각화
# 주 성분 중 상위 2개를 뽑아 시각화 해 봅시다.
sns.scatterplot(x = 'PC1', y = 'PC2', data = x_train_pc, hue = y_train)
plt.grid()
plt.show()

# gka

In [None]:
# 함수
def pca_model_test(n): 
    # 데이터 준비 
    cols = column_names[:n] 
    x_train_pc_n = x_train_pc.loc[:, cols] 
    x_val_pc_n = x_val_pc.loc[:, cols] 

    # 모델링 
    model_n = KNeighborsClassifier() 
    model_n.fit(x_train_pc_n, y_train) 

    # 예측 
    predn = model_n.predict(x_val_pc_n.values)

    # 평가 
    return accuracy_score(y_val, predn)

In [None]:
pc_n = list(range(1, 31))
acc=[]
for i in pc_n:
    acc.append(pca_model_test(i))

In [None]:
sns.lineplot(x=pc_n, y=acc, marker='o')
plt.grid()
plt.show()

### K-means 함수

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

# 샘플데이터 로딩 함수
from sklearn.datasets import make_blobs, make_moons 

# 클러스터링을 위한 함수
from sklearn.neighbors import NearestNeighbors
from sklearn.cluster import KMeans, DBSCAN

import warnings
warnings.filterwarnings("ignore", category=UserWarning)

In [None]:
def k_means_plot(x, y, k) :
    # 모델 생성
    model = KMeans(n_clusters= k, n_init = 'auto')
    model.fit(x)
    pred = model.predict(x)

    # 군집 결과와 원본 데이터 합치기(concat)
    pred = pd.DataFrame(pred, columns = ['predicted'])
    result = pd.concat([x, pred, y], axis = 1)

    # 중앙(평균) 값 뽑기
    centers = pd.DataFrame(model.cluster_centers_, columns=['x1','x2'])

    # 그래프 그리기
    plt.figure(figsize = (8,6))
    plt.scatter(result['x1'],result['x2'],c=result['predicted'],alpha=0.5)
    plt.scatter(centers['x1'], centers['x2'], s=50,marker='D',c='r')
    plt.grid()
    plt.show()

In [None]:
# k 값을 1~8까지 조절해 봅시다.
k_means_plot(x, y, k = 8)

In [None]:
# k means 모델을 생성하게 되면 inertia 값을 확인
model.inertia_

In [None]:
# k의 갯수에 따라 각 점과의 거리를 계산하여 적정한 k를 찾아 봅시다.
kvalues = range(1, 10)
inertias = []

for k in kvalues:
    model = KMeans(n_clusters=k, n_init = 'auto')
    model.fit(x)
    inertias.append(model.inertia_)

    # Plot k vs inertias
plt.figure(figsize = (8, 6))
plt.plot(kvalues, inertias, marker='o')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.grid()
plt.show()

### 실루엣 점수

In [None]:
from sklearn.metrics import silhouette_score

In [None]:
# 클러스터 개수에 따른 실루엣 점수를 저장할 리스트
kvalues = range(2, 10) # 최소 2개 이상이어야 함.
sil_score = []

for k in kvalues:
    # KMeans 모델 생성
    model = KMeans(n_clusters=k, n_init = 'auto')

    # 모델을 학습하고 예측
    pred = model.fit_predict(x)

    # 실루엣 점수 계산
    sil_score.append(silhouette_score(x, pred))


# 실루엣 점수 시각화
plt.figure(figsize = (8, 6))
plt.plot(kvalues, sil_score, marker='o')
plt.xlabel('n_clusters')
plt.ylabel('Silhouette Score')
plt.grid()
plt.show()

# 19. 딥러닝 

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.backend import clear_session

In [None]:
# 데이터 준비
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/boston.csv'
boston = pd.read_csv(path)
boston.head()

In [None]:
target = 'medv'
x = boston.drop(target, axis=1)
y = boston.loc[:, target]

# 데이터 분할
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 20)

In [None]:
# 스케일링 # 딥러닝 스케일링 필수!!
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

In [None]:
nfeatures = x_train.shape[1] #num of columns # 컬럼(열) 갯수 
nfeatures

In [None]:
# 메모리 정리(필수는 아님!)
clear_session()

# Sequential 타입 모델 선언
model = Sequential(Dense(1, input_shape=(nfeatures,))) # input_shape
                    # output            # input_put

# 모델요약
model.summary()

In [None]:
# 컴파일
model.compile(optimizer='adam', loss='mse')

In [None]:
# 학습
model.fit(x_train, y_train)

# 예측
pred = model.predict(x_val)

# 검증
print(f'RMSE  : {mean_squared_error(y_val, pred, squared=False)}')
print(f'MAE   : {mean_absolute_error(y_val, pred)}')
print(f'MAPE  : {mean_absolute_percentage_error(y_val, pred)}')

In [None]:
# Adam 0.1 지정 # 가중치 조절
from keras.optimizers import Adam
model.compile(optimizer=Adam(0.1), loss='mse')

In [None]:
history = model.fit(x_train , y_train, epochs = 20, validation_split=0.2).history
                                    # 20번 반복       # 20%를 검증셋 분리  # 가중치가 업데이트 되면서 그때그때마다의 성능을 측정하여 기록
                                                      # 하이퍼 파라미터 찾기위해, 일반화 성능을 얻기 위해

In [None]:
# 함수로 만들어서 사용합시다.
def dl_history_plot(history):
    plt.figure(figsize=(10,6))
    plt.plot(history['loss'], label='train_err', marker = '.')
    plt.plot(history['val_loss'], label='val_err', marker = '.')

    plt.ylabel('Loss')
    plt.xlabel('Epoch')
    plt.legend()
    plt.grid()
    plt.show()

In [None]:
dl_history_plot(history)

In [None]:
pred = model.predict(x_val)

In [None]:
print(f'RMSE : {mean_squared_error(y_val, pred, squared=False)}')
print(f'MAE  : {mean_absolute_error(y_val, pred)}')
print(f'MAPE : {mean_absolute_percentage_error(y_val, pred)}')

### 회귀

In [None]:
# 히든 레이터
# 메모리 정리
clear_session()

# Sequential 타입 모델 선언(입력은 리스트로!) # 레이어 2개 이상은 리스트로 작성
model3 = Sequential([  Dense(2, input_shape = (nfeatures,), activation = 'relu'),
                       Dense(1)   ])

# 모델요약
model3.summary()
# 이하 같음

In [None]:
model.compile(optimizer=Adam(0.1), loss='mse')
history = model.fit(x_train , y_train, epochs = 20, validation_split=0.2).history

### 분류

In [None]:
# 메모리 정리
clear_session()

# Sequential 모델 만들기
model = Sequential( Dense( 1 , input_shape = (nfeatures ,), activation= 'sigmoid') )

# 모델요약
model.summary()

In [None]:
model.compile(optimizer = Adam(lr=0.01), loss = 'binary_crossentropy')

history = model.fit(x_train, y_train,
                    epochs = 50, validation_split=0.2).history

In [None]:
red = model.predict(x_val)

# activation이 sigmoid --> 0 ~ 1 사이의 확률값.
# 그러므로 cut-off value(보통 0.5)를 기준으로 잘라서 0과 1로 만들어 준다.
pred = np.where(pred >= .5, 1, 0)

### 다중 분류

In [None]:
# 메모리 정리
clear_session()

# Sequential
model = Sequential( Dense( 3 , input_shape = (nfeatures,), activation = 'softmax') ) #softmax 사용 # 예측한 값을, 하나의 확률 값으로 변환

# 모델요약
model.summary()

model.compile(optimizer=Adam(learning_rate=0.1), loss= 'sparse_categorical_crossentropy')

# verbose = 0 : 로그를 안보기
history = model.fit(x_train, y_train, epochs = 50, validation_split=0.2, verbose = 0).history

dl_history_plot(history)



In [None]:
pred = model.predict(x_val)
pred[:5] 

In [None]:
# 5개 행만 살펴보면
np.argmax(pred[:5], axis = 1)

In [None]:
# 전체에 적용해서 변환합시다.
pred_1 = pred.argmax(axis=1)   # 열에서 가장 큰 값의 인덱스를 1로 반환 나머지는 0으로 반환

print(confusion_matrix(y_val, pred_1))
print(classification_report(y_val, pred_1))

### 원-핫-인코딩

In [None]:
from keras.utils import to_categorical

In [None]:
y_c = to_categorical(y.values, 3) # 클래스 3개 원-핫-인코딩
x_train, x_val, y_train, y_val = train_test_split(x, y_c, test_size = .2, random_state = 2024)

scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

nfeatures = x_train.shape[1] #num of columns
nfeatures

In [None]:
# 메모리 정리
clear_session()

# Sequential
model = Sequential([Dense(3, input_shape = (nfeatures,), activation = 'softmax')])

# 모델요약
model.summary()

model.compile(optimizer=Adam(learning_rate=0.1), loss='categorical_crossentropy')

history = model.fit(x_train, y_train, epochs = 100,
                    validation_split=0.2).history

dl_history_plot(history)

In [None]:
# 전체에 적용해서 변환합시다.
pred_1 = pred.argmax(axis=1)
pred_1

y_val_1 = y_val.argmax(axis=1)
y_val_1

In [None]:
print(confusion_matrix(y_val_1, pred_1))
print(classification_report(y_val_1, pred_1))

### MNIST

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import *
from sklearn.preprocessing import StandardScaler, MinMaxScaler

from keras.models import Sequential
from keras.layers import Dense, Flatten
from keras.backend import clear_session
from keras.optimizers import Adam
from keras.datasets import mnist, fashion_mnist

In [None]:
# 케라스 데이터셋으로 부터 mnist 불러오기
(x_train, y_train), (x_val, y_val) = mnist.load_data() # 튜플 형태로 반환
x_train.shape, y_train.shape

In [None]:
class_names = ['0','1','2','3','4','5','6','7','8','9']

In [None]:
# 아래 숫자를 바꿔가며 화면에 그려 봅시다.
n = 20

plt.figure()
plt.imshow(x_train[n], cmap=plt.cm.binary)
plt.colorbar()
plt.show()

In [None]:
# 옵션추가해주세요. 
np.set_printoptions(linewidth= np.inf)
x_train[n]

In [None]:
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(x_train[i], cmap=plt.cm.binary)
    plt.xlabel(class_names[y_train[i]])
plt.tight_layout()
plt.show()

In [None]:
x_train.shape, y_train.shape, x_val.shape, y_val.shape

In [None]:
x_train = x_train.reshape(60000, -1) # 행 유지하면 열은 알아서 reshape
x_val = x_val.reshape(10000, -1)

In [None]:
x_train.shape, x_val.shape

In [None]:
# Min-Max 스케일링 255가 최댓값
x_train = x_train / 255
x_val = x_val / 255

In [None]:
nfeatures = x_train.shape[1]

clear_session()

model = Sequential(Dense(10, input_shape = (nfeatures,), activation = 'softmax'))

model.summary()

In [None]:
model.compile(optimizer=Adam(learning_rate=0.001), loss= 'sparse_categorical_crossentropy' )

history = model.fit(x_train, y_train, epochs = 20, validation_split=0.2).history

In [None]:
dl_history_plot(history)

In [None]:
# 예측 및 평가
pred = model.predict(x_val)
pred_1 = pred.argmax(axis=1)

print(confusion_matrix(y_val, pred_1))
print(classification_report(y_val, pred_1))

### CNN - MNIST

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random as rd
import cv2, os  # cv2 : OpenCV # 이미지 처리 라이브러리

from sklearn.model_selection import train_test_split
from sklearn.metrics import *

from keras.models import Sequential
from keras.layers import Dense, Flatten, Conv2D, MaxPooling2D # CNN
from keras.backend import clear_session
from keras.optimizers import Adam
from keras.datasets import mnist, fashion_mnist

In [None]:
# 학습곡선 함수
def dl_history_plot(history):
    plt.figure(figsize=(10,6))
    plt.plot(history['loss'], label='train_err', marker = ',')
    plt.plot(history['val_loss'], label='val_err', marker = ',')

    plt.ylabel('Loss')
    plt.xlabel('Epoch')
    plt.legend()
    plt.grid()
    plt.show()

In [None]:
# 케라스 데이터셋으로 부터 mnist 불러오기
(x_train, y_train), (x_val, y_val) = mnist.load_data()

In [None]:
# 3차원 데이터 
x_train.shape, x_val.shape

In [None]:
# CNN은 4차원을 요구 # 4차원으로 reshape
x_train = x_train.reshape(60000,28,28,1)
x_val = x_val.reshape(10000,28,28,1)

In [None]:
# 0-255 값으로 되어 있는 데이터를 0-1사이 값으로 변환
# x_train, x_val 그냥 255로 나누면 됨
# 스케일링
x_train = x_train / 255.
x_val = x_val / 255.

#### CNN 모델의 기본 구조
- Conv2D : 지역적인 특징 도출
- MaxPooling : 요약
- Flatten : 1차원으로 펼치기
- Dense : Output Layer

In [None]:
clear_session()
                                                        #28, 28, 1(컬럼 3, 흑백 1)
model = Sequential([Conv2D(16, kernel_size = 3, input_shape=(28, 28, 1),  # 필터 정류를 16개, 16개 합성곱 # kernel_size 3x3 크기
                                                                        # 28x28 크기에서 1step씩 
                           padding='same', activation='relu'),  # padding: input_shape와 같은 크기로 나오게(same) # strides = 1(기본값,1),
                                                                                                                # 가로,세로 1칸씩 이동
                    MaxPooling2D(pool_size = 2 ),            # 중요한 것만 요약  # strides = 2(기본값이 pool_size 동일)
                    Flatten(),                          # 1차원으로 펼침
                    Dense(10, activation='softmax')
])

model.summary()

model.compile(optimizer=Adam(learning_rate=0.001), loss='sparse_categorical_crossentropy')

In [None]:
# 학습
history = model.fit(x_train, y_train, epochs = 10, validation_split=0.2).history

In [None]:
# 그래프 그리기
dl_history_plot(history)

In [None]:
# 예측
pred = model.predict(x_val)
pred = pred.argmax(axis=1)

In [None]:
# 평가
print(accuracy_score(y_val,pred))
print('-'*60)
print(confusion_matrix(y_val, pred))
print('-'*60)
print(classification_report(y_val, pred))

#### 진짜 손글씨 예측

In [None]:
idx = (y_val != pred)
x_val_wr = x_val[idx]
y_val_wr = y_val[idx]
pred_wr = pred[idx]

x_val_wr = x_val_wr.reshape(-1,28,28)
print(x_val_wr.shape)

In [None]:
# 모델에서 틀리게 예측한 그림 찾기
idx = rd.sample(range(x_val_wr.shape[0]),25)
x_temp = x_val_wr[idx]
y_temp = y_val_wr[idx]
p_temp = pred_wr[idx]

plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(x_temp[i], cmap=plt.cm.binary)
    plt.xlabel(f'actual : {y_temp[i]},  predict : {p_temp[i]}')
plt.tight_layout()
plt.show()

In [None]:
import cv2
from google.colab.patches import cv2_imshow

In [None]:
# 파일 열기
img = cv2.imread('33.png', cv2.IMREAD_GRAYSCALE)
cv2_imshow(img)
print(img.shape)

In [None]:
# 크기 조절하기 # 28x28x1 로 맞추기
img = cv2.resize(255-img, (28, 28))
print(img.shape)
cv2_imshow(img)

In [None]:
# 예측하기
# 입력데이터 형식을 갖추기
test_num = img.reshape(1,28,28,1)

# 예측하기
pred = model.predict(test_num)
pred = pred.argmax(axis=1)
print(pred)

#### 과적합 방지 : 먼저 먼춤기 : Early Stopping

In [None]:
from keras.callbacks import EarlyStopping
es = EarlyStopping(monitor = 'val_loss', min_delta = 0, patience = 0)

In [None]:
# callbacks = [es] # 
model.fit(x_train, y_train, epochs = 100, validation_split = .2, callbacks = [es])

# 20. YOLOv8

In [None]:
!pip install ultralytics  # 라이브러리 설치

In [None]:
# 라이브러리 불러오기
from ultralytics import YOLO # YOLO v8 Quick Manual

In [None]:
# 모델 학습 학습에 관련된 설정 가능
model.train()

In [None]:
# 예측값 생성 데이터의 예측 결과 생성
model.predict(save=True, save_txt=True)

### YOLO setting

In [None]:
!pip install ultralytics # 라이브러리 설치

In [None]:
# YOLOv8 설정
from ultralytics import settings 

In [None]:
# 확인
settings

In [None]:
# 라이브러리 불러오기
from ultralytics import YOLO # YOLO v8 Quick Manual

In [None]:
YOLO

In [None]:
# 모델 선언
# model : 모델 구조 또는 모델 구조 + 가중치 설정. task와 맞는 모델을 선택해야 한다.
# task : detect, segment, classify, pose 중 택일
model = YOLO(model='yolov8n.pt', task='detect')

### 모델 학습
- Parameters
- data : 학습시킬 데이터셋의 경로. default 'coco128.yaml'
- epochs : 학습 데이터 전체를 총 몇 번씩 학습시킬 것인지 설정. default 100
- patience : 학습 과정에서 성능 개선이 발생하지 않을 때 몇 epoch 더 지켜볼 것인지 설정. default 100
- batch : 미니 배치의 사이즈 설정. default 16. -1일 경우 자동 설정.
- imgsz : 입력 이미지의 크기. default 640
- save : 학습 과정을 저장할 것인지 설정. default True
- project : 학습 과정이 저장되는 폴더의 이름.
- name : project 내부에 생성되는 폴더의 이름.
- exist_ok : 동일한 이름의 폴더가 있을 때 덮어씌울 것인지 설정. default False
- pretrained : 사전 학습된 모델을 사용할 것인지 설정. default True
- optimizer : 경사 하강법의 세부 방법 설정. default 'auto'
- verbose : 학습 과정을 상세하게 출력할 것인지 설정. default False
- seed : 재현성을 위한 난수 설정
- resume : 마지막 학습부터 다시 학습할 것인지 설정. default False
- freeze : 첫 레이어부터 몇 레이어까지 기존 가중치를 유지할 것인지 설정. default None

In [None]:
model.train(data='coco128.yaml',
            epochs=10,
            patience=5,
            save=True,
            # project='trained',
            # name='trained_model',
            exist_ok=False,
            pretrained=False,
            optimizer='auto',
            verbose=False,
            seed=2024,
            resume=False,
            freeze=None
            )

### 예측값 생성
Parameters
- source : 예측 대상 이미지/동영상의 경로
- conf : confidence score threshold. default 0.25
- iou : NMS에 적용되는 IoU threshold. default 0.7. threshold를 넘기면 같은 object를 가리키는 거라고 판단.
- save : 예측된 이미지/동영상을 저장할 것인지 설정. default False
- save_txt : Annotation 정보도 함께 저장할 것인지 설정. default False
- save_conf : Annotation 정보 맨 끝에 Confidence Score도 추가할 것인지 설정. default False
- line_width : 그려지는 박스의 두께 설정. default None

In [None]:
results = model.predict(source='https://images.pexels.com/photos/139303/pexels-photo-139303.jpeg',
                        #conf=0.5,
                        iou=0.5,
                        save=True, save_txt=True, line_width=2)

# 21. Roboflow

In [None]:
!pip install roboflow # 라이브러리 설치

In [None]:
# 데이터셋 불러오기
from roboflow import Roboflow 

* 데이터셋 설치하기

    - [링크](https://universe.roboflow.com/ilyes-talbi-ptwsp/futbol-players)

In [None]:
# 링크에서 YOLO8로 선택 다운 디텍트 한 후 복사 붙여넣기
rf = Roboflow(api_key="vZV4ItqyYGeuNdaDKbFa") #  사용자 및 선택한 데이터 셋에 따라 다름
project = rf.workspace("ilyes-talbi-ptwsp").project("futbol-players")
version = project.version(7)
dataset = version.download("yolov8")

In [None]:
# 모델링 라이브러리 설치
!pip install ultralytics

In [None]:
# 모델링 라이브러리 불러오기
from ultralytics import YOLO, settings

In [None]:
settings

In [None]:
# 데이터 경로 설정
settings['datasets_dir'] = '/content/'
settings.update()
settings

In [None]:
import yaml

In [None]:
# YAML 파일 경로 수정
with open('/content/futbol-players-7/data.yaml', 'r+') as f:
    film = yaml.load(f, Loader=yaml.FullLoader)
    # display(film)
    film['train'] = './train/images/'
    film['val'] = './valid/images/'

with open('/content/futbol-players-7/data.yaml','w') as f:
    yaml.dump(film, f)

In [None]:
# 모델 구조 및 사전 학습 가중치 선택하기
model_transfer = YOLO(model='yolov8n.pt', task='detect')

In [None]:
# 모델 학습
model2.train(data='/content/Playing-Cards-4/data.yaml',
             epochs=5,
             verbose=True,
             patience=1,  # 얼리 스탑을 위한 patience 값 # early Stopping # 5번 학습하고 1번동안 개선이 없으면 멈춤
             seed=2024,
             pretrained=True)

In [None]:
# 예측하기
# image_path = '/content/futbol-players-7/test/images/1-fps-2_00001_jpeg_jpg.rf.e95412d81fb5fe6dd2b3fb120b41ba1a.jpg'
image_path = 'https://www.telegraph.co.uk/content/dam/football/2019/08/12/TELEMMGLPICT000206209364_trans_NvBQzQNjv4BqK3Ytq28vYzV8vgytz3tt20cdhPuOVqLHI0GKTHeusDU.jpeg'