# 1. 데이터 불러오기

In [None]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('sales.csv')

# 엑셀 파일 불러오기
df = pd.read_excel('파일명.xlsx')

# 리스트로 데이터프레임 생성
data = {'Column1': [1, 2, 3], 'Column2': ['A', 'B', 'C']}
df = pd.DataFrame(data)

# 인덱스 초기화
df.reset_index(drop=False, inplace=True)

# 데이터 프레임 여러개 출력
display(df1)
display(df2)

# CSV 파일 저장
df.to_csv('df.csv', index=False)

# 2. 기본 정보 확인

In [None]:
# 데이터 크기 확인
df.shape

# 상위 n개 행 출력
df.head()

# 하위 n개 행 출력
df.tail()

# 데이터 인덱스 확인
df.index

# 속성 값 확인
df.values

# 컬럼 정보 확인
df.columns

# 컬럼 출력
list(df)

# 자료형 확인
df.dtypes

# 데이터프레임 정보 출력
df.info()

# 기본 통계 정보 출력
df.describe()

# 특정 데이터 타입형 열 조회
df.select_dtypes()

# 3. 데이터 탐색

In [None]:
# 날짜 형식으로 바꿔주기
df['date'] = pd.to_datetime(df['date']) # 날짜 형변환
df['year'] = df['date'].dt.year ## 날짜 쪼개기
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df['date'].dt.hour
df['minute'] = df['date'].dt.minute
df['second'] = df['date'].dt.second
df['dayofweek'] = df['date'].dt.dayofweek    # 0 ~ 6
df['weekday'] = df['date'].dt.day_name()  # Monday ~ Sunday

# type 바꿔주기
df['Column'] = df['Column'].astype(str)

# 열 기준 정렬
df.sort_values(by='Column_Name', ascending=False)

# 인덱스 기준 정렬
df.sort_index(ascending=False)

# 고유값 확인
df['Column_Name'].unique()

# 고유값 비율 확인
df['Column_Name'].value_counts(normalize=True)

# 최빈값 확인
df['Column_Name'].mode()

# 행끼리 더해서 열 기준으로 출력
df.sum(axis=0, numeric_only=True)

# 열끼리 더해서 행 기준으로 출력
df.sum(axis=1, numeric_only=True)

# 해당 열의 최댓값 조회
df['Column_Name'].max()

# 해당 열의 최솟값 조회
df['Column_Name'].min()

# 해당 열의 평균 조회
df['Column_Name'].mean()

# 해당 열의 중앙값 조회
df['Column_Name'].median()

# 4. 데이터 조회

In [None]:
# 특정 열 
df['Column_Name']

# 여러 열
df[['Column1', 'Column2']]

# 특정 행
df.loc[1]

# 여러 행
df.loc[[1, 3, 5]]

# 특정 조건에 따른 행 선택
df.loc[df['Column'] > 10]

# 여러 조건에 따른 행 선택
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]

# 여러 조건 특정 열
df.loc[(df['Column'] > 10) & (df['Column'] < 30)]['Col1','Col2']

# between() #기본 both
df.loc[df['Column'].between(80, 90, inclusive='both')]

# isin()
df.loc[df['Column'].isin(['A', 'B'])]

# 5. 데이터프레임 집계

In [None]:
# 특정 열 집계
df.groupby(by='Column1', as_index=False)[['Column2']].sum()
df.groupby(by='Column1', as_index=False)[['Column2']].mean()
df.groupby(by='Column1', as_index=False)[['Column2']].count()
df.groupby(by='Column1', as_index=False)[['Column2']].max()
df.groupby(by='Column1', as_index=False)[['Column2']].min()
                                                   

# 여러 열 집계
df.groupby(by = ['Column1', 'Column2', 'Column3'], as_index=False).sum(numeric_only=True)

# 6. 데이터프레임 변경

In [None]:
# 일부 열 이름 변경
df.rename(columns={'Col1', 'Col2', 'Col3'}, as_index=False)

# 모든 열 이름 변경
df.columns = ['Col1', 'Col2', 'Col3']

# 열 추가
df['New_Column'] = df['Column1'] + df['Column2']

# 열 삭제
drop_cols = ['Col1', 'Col2']
df.drop(drop_cols, axis=1, inplace=True)

# 범주값 변경
df['Col1'] = df['Col1'].map({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})
df['Col1'] = df['Col1'].replace({'Col1의 속성': 바꾸려는 값, 'Col의 속성2': 바꾸려는 값})

# 범주값 만들기
pd.cut(df, bins, labels)   # 크기 기준
#bin = [-np.inf, 30, 100, np.inf]
#label = list('LMH')
#titanic['Fare'] = pd.cut(titanic['Fare'], bins=bin, labels=label) # 예시
pd.qcut(df, bins, labels)

# 특정 열을 기준으로 중복 행 제거
drop_duplicates(subset='기준 열', keep='first')

# 값 변경
titanic['col'] = np.where(titanic['col'] == '비교', 참, 거짓)
#titanic['Age2'] = np.where(titanic['Sex'] == 'female', 0, 1) #예시

# 7. 결측치 처리

In [None]:
# 결측치 확인
df.isnull()  # isna()

# 결측치 합계
df.isna().sum()  # isnull().sum()

# 결측치 아닌것 확인
df.notna()

# 결측치 아닌것 합계
df.notna().sum() # notnull().sum()

# 결측치 제거
df.dropna()

# 특정 열에 결측치가 있는 행 제거
df.dropna(subset=['Column'], axis=0, inplace=True)

# 결측치를 특정 값으로 대체
df.fillna(value)

#ffill
df['Column'].fillna(method='ffill', inplace=True)

#bfill
df['Column'].fillna(method='bfill', inplace=True)

# 8. 가변수 만들기

In [None]:
dumm_cols = ['Col1', 'Col2', 'Col3']
df = pd.get_dummies(df, columns=dumm_cols, drop_first=True, dypte=int)

# 9. 데이터프레임 합치기

In [None]:
# 두 데이터프레임 합치기
merged_df = pd.concat([df1, df2], axis=0)

# 열을 기준으로 합치기
merged_df = pd.merge(df1, df2, on='기준열', how='inner')

# 10. 시각화

In [None]:
# 막대 그래프 # 범주 데이터에 사용

plt.rc('axes', axisbelow=True)   # 격자 밑으로 하겠다
plt.figure(figsize=(5, 3))
plt.bar(x=df['Col1'], height=df['Col2'])
plt.title('제목 지정하세요')
plt.xlabel('x축 이름 지정하세요')
plt.ylabel('y축 이름 지정하세요')
plt.xticks(rotation=90)   
plt.grid(axis='y')
plt.show()

In [None]:
# 가로 막대 그래프
plt.bar(y=df['Col1'], width=df['Col2'])

In [None]:
# 선 그래프
plt.figure(figsize=(5, 3))
plt.plot(df[['Col1', 'Col2']])
plt.legend(['Col1', 'Col2'], loc='upper left') # plt.legend( loc='upper left')
plt.show()

# 라인그래프
plt.plot('col1', 'col2', data = df, linewidth = .7)

# y축의 범위 지정
plt.ylim(70, 100)
# x축의 범위 지정
plt.xlim(0, 10)

# 수평선 (y축)
plt.axhline(40, color = 'grey', linestyle = '--')
# 수직선 (xㄴ축)
plt.axvline(10, color = 'red', linestyle = '--')

# 텍스트 입력 x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 3행 1열 인텍스 1 그래프 그리기
plt.subplot(3,1,1)

# 그래프간 간격을 적절히 맞추기
plt.tight_layout() 

# 수평, 수직선 추가
plt.axhline(40, color = 'grey', linestyle = '--') # 수평선 # plt.axhline(ozone_mean, color = 'red', linestyle = '--') # 평균선 추가 가능
plt.axvline(10, color = 'red', linestyle = '--') # 수직선

# 텍스트 표현 # x, y, 표현문자
plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

# 여러 그래프 나눠 그리기
# 3행 1열 1번        # 즉 3 x 1
plt.subplot(3,1,1)
# 3행 1열 2번    
plt.subplot(3,1,2)

# 2행 2열           # 즉 2 x 2
plt.subplot(2,2,1)
plt.subplot(2,2,2)

In [None]:
# 히스토그램 # 연속 데이터에 사용

df_mean = df['Col1'].mean()

plt.figure(figsize=(5, 3))
plt.hist(df['Col1'], bins=20, alpha=0.7, edgecolor='w')
plt.axvline(df_mean, color='tab:orange')
plt.show()

In [None]:
# KDE 그래프 # 밀도 추정
# 라이브러리 필요
import matplotlib.pyplot as plt
import seaborn as sns 

# 밀도함수 그래프 그리기
sns.kdeplot(df['col'])
plt.show()

# 100% 비율로 채우기
sns.kdeplot(x='col', data = df, hue ='col'
            , multiple = 'fill')
plt.axhline(df['col'].mean(), color = 'r')


# kde = True 밀도 추정 선 그래프에 추가
sns.histplot(df['col'], bins=10, edgecolor = 'gray', kde=True)
plt.show()

In [None]:
# 선 그래프
sns.lineplot(x = 'Date', y = 'Close', data = kospi, label = 'Close', color = 'blue', linewidth = .5)

In [None]:
# bar chart # countplot #자동으로 카운트
# x : 세로 # y : 가로
sns.countplot(x='col' data=df) 
# or
sns.countplot(dr['col']) 
sns.countplot(x='Pclass', data=df)

In [None]:
# pie 차트
temp = df['col'].value_counts()
temp.values, temp.index

plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%',
        startangle=90, counterclock=False) # startangle = 90 : 90도 부터 시작
                                            # counterclock = False : 시계 방향으로

In [None]:
# scatter 차트 산점도 # col1의 co2에 대해 산점도
plt.scatter(df['col1'], df['col2'])
plt.show()


# 숫자형 변수들에 대한 산점도를 한꺼번에 그려줍니다. 
sns.pairplot(air)
plt.show()

In [None]:
# -1, 1에 가까울 수록 강한 상관관계를 나타냄.
# 상관관계 p-value 구하기 
# 1, -1에 가까울 수록 상관관계 강함
# p-value가 0.05보다 작을 수록  두 변수간에 관계가 있다
import scipy.stats as spst
# 상관분석
spst.pearsonr(df['col1'], df['col2'])

# 데이터프레임 한꺼번에 상관계수 구하기
df.corr()
# 숫자만 
df.corr(numeric_only=True)

# 상관계수를 heatmap으로 시각화
plt.figure(figsize = (6, 6))
sns.heatmap(air.corr(),
            annot = True,            # 숫자(상관계수) 표기 여부
            cbar=False               # 색깔 바 제거
            fmt = '.3f',             # 숫자 포멧 : 소수점 3자리까지 표기
            cmap = 'RdYlBu_r',       # 칼라맵(색상)
            vmin = -1, vmax = 1),    # 값의 최소, 최대값
            quare=True,              # 정사각형 변경
            annot_kws={'size':8},    # 텍스트 크기 지정  
plt.show()

# 11. 상관계수

In [None]:
import pandas as pd
# 상관계수 행렬 계산
correlation_matrix = data.corr()

# 상관계수 계산
# 특정 열과 다른 열 간의 상관계수 확인
correlation = data['column1'].corr(data['column2'])

import seaborn as sns
import matplotlib.pyplot as plt


# 상관계수 시각화
# 히트맵을 이용한 상관계수 시각화
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Correlation Heatmap")
plt.show()

# NaN 값 제외한 상관계수 계산
correlation_matrix_cleaned = data.dropna().corr()

# 12. seaborn

In [None]:
# seaborn 문제 발생 시 실행
# 커널 restart
!pip install seaborn --upgrade

In [None]:
# 라이브러리 불러오기
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 데이터 불러오기 및 산점도 플롯

# 데이터 불러오기
import pandas as pd
data = pd.read_csv("your_dataset.csv")

# 산점도 플롯
sns.scatterplot(x='x_column', y='y_column', data=data)
plt.show()

In [None]:
# 히스토그램 및 밀도 그래프

# 히스토그램
sns.histplot(data['column'], bins=10, kde=True)

# 밀도 그래프
sns.kdeplot(data['column'], shade=True)
plt.show()

# 100% 밀도 채우기
sns.histplot(x='col', data = df, bins = 16
             , hue ='cpl', multiple = 'fill')
plt.axhline(titanic['cpl'].mean(), color = 'r')
plt.show()

In [None]:
# 상자 그림 (Box Plot)
sns.boxplot(x='group_column', y='value_column', data=data)
plt.show()


In [None]:
# 선 그래프
sns.lineplot(x='x_column', y='y_column', data=data)
plt.show()

In [None]:
# 히트맵
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()

In [None]:
# 카테고리별 플롯
#범주형 변수와 숫자형 변수 간의 관계를 시각화하고, 
#범주형 변수의 분포나 숫자형 변수의 집계값을 쉽게 파악하기 위해 사용됩니다.
sns.barplot(x='category_column', y='value_column', data=data)

sns.countplot(x='category_column', data=data)
sns.boxplot(x='category_column', y='value_column', data=data)
plt.show()

In [None]:
# 산점도 행렬 (Pair Plot)
sns.pairplot(data)
plt.show()

In [None]:
# 분포 및 범주형 데이터 시각화
sns.violinplot(x='category_column', y='value_column', data=data)
sns.swarmplot(x='category_column', y='value_column', data=data)
plt.show()

In [None]:
# 다중 플롯
sns.jointplot(x='x_column', y='y_column', data=data, kind='scatter')
sns.jointplot(x='x_column', y='y_column', data=data, kind='kde')
sns.jointplot(x='x_column', y='y_column', data=data, kind='reg')
plt.show()

# 13. T-테스트 

In [None]:
# 라이브러리 불러오기
import scipy.stats as stats

In [None]:
# 두 그룹으로 데이터 저장
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']

# statistic : 통계량  2보다 크므로, 차이가 있으나 크지 않다
# statistic 양수는 died 평균값이 survived 보다 크다 
spst.ttest_ind(died, survived)

In [None]:
# 일표본 T-테스트 (One-sample T-test)

# 예시 데이터
data = [1, 2, 3, 4, 5]

# 가설 설정: 평균이 기준값과 같은지 검정
null_mean = 3

# 일표본 T-테스트
t_statistic, p_value = stats.ttest_1samp(data, null_mean)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# 독립표본 T-테스트 (Independent-samples T-test)

# 예시 데이터
group1 = [23, 25, 29, 32, 28]
group2 = [20, 22, 27, 30, 26]

# 독립표본 T-테스트
t_statistic, p_value = stats.ttest_ind(group1, group2)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# 대응표본 T-테스트 (Paired-samples T-test)

# 예시 데이터
before = [18, 20, 22, 25, 21]
after = [16, 18, 20, 23, 20]

# 대응표본 T-테스트
t_statistic, p_value = stats.ttest_rel(before, after)

# 결과 출력
print("T-statistic:", t_statistic)
print("P-value:", p_value)


In [None]:
# anova 분산분석 #3개 이상 일때
# 1) 분산 분석을 위한 데이터 만들기
# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]
# 그룹별 저장
P_1 = temp.loc[temp.Pclass == 1, 'Age']
P_2 = temp.loc[temp.Pclass == 2, 'Age']
P_3 = temp.loc[temp.Pclass == 3, 'Age']

spst.f_oneway(P_1, P_2, P_3)

In [None]:
# 등분산 검정 (Equal variance test)

# 등분산 검정
levene_statistic, p_value = stats.levene(group1, group2)

# 결과 출력
print("Levene's test statistic:", levene_statistic)
print("P-value:", p_value)


In [None]:
# mosaic plot # 비율, 범주별 양 확인 할 수 있음
mosaic(titanic, ['Embarked', 'Survived'])
plt.axhline(1- titanic['Survived'].mean(), color = 'r')
plt.show()

# 14. 카이제곱

In [None]:
# 1) 먼저 교차표 집계- normalize 하면 안 됨
table = pd.crosstab(titanic['Survived'], titanic['Pclass'])
print(table)
print('-' * 50)

# 2) 카이제곱검정
spst.chi2_contingency(table)




Chi2ContingencyResult(statistic=102.88898875696056, pvalue=4.549251711298793e-23, dof=2, expected_freq=array([[133.09090909, 113.37373737, 302.53535354],
       [ 82.90909091,  70.62626263, 188.46464646]])) 

# statistic :  높은 카이제곱 통계량 값은 범주형 변수들 간에 유의한 연관성이 있을 가능성

# dof : 자유도가 높을수록, 분할표의 정보가 더 많아집니다.
# 그러나, 너무 많은 자유도는 데이터가 불충분하여 신뢰할 수 없는 결과를 초래할 수 있습니다.
# 적절한 자유도를 가진 모델을 선택하는 것이 중요합니다.

# expected_freq :  기대 빈도가 높을수록, 관측된 데이터와 기대되는 데이터가 비슷하다는 것을 의미
# 기대 빈도가 너무 높은 경우에도, 실제 관측된 데이터와 유의미한 차이가 있는지 여부를 확인해야 합니다.
# 기대 빈도가 낮은 경우, 표본의 크기가 작거나 표본이 실제 모집단을 대표하지 못하는 경우일 수 있습니다.

#statistic 자유도 보다 2배 이상 이면 관련이 있다


# 15 시계열 데이터

In [None]:
result = pd.DataFrame({'observed':decomp.observed, 'trend':decomp.trend, 'seasonal':decomp.seasonal, 'residual':decomp.resid})  

'observed': decomp.observed,  # 관측치 데이터
'trend': decomp.trend,        # 추세 데이터
'seasonal': decomp.seasonal,  # 계절성 데이터
'residual': decomp.resid      # 잔차 데이터

# 16. 크롤링

In [None]:
# 임포트
import warnings
warnings.filterwarnings('ignore') # 경고 문구 안뜨게 해주는 설정
import requests
import pandas as pd

In [None]:
# 동적 방식
page_size, page = 30, 1 
url = f'https://m.stock.naver.com/api/index/KOSPI/price?pageSize={page_size}&page={page}' # 네이버 코스피 지수 

response = requests.get(url) # 서버에 데이터 요청
response

data = response.json() #리스트로 바꿔줌 

cols = ['localTradedAt', 'closePrice'] # 원하는 컬럼만 데이터 프레임으로 출력
df = pd.DataFrame(data)[cols] 
df.head()

In [None]:
# 함수로 만듦
def stock_price(code='KOSPI', page_size=60, page=1):
    # 1. URL
    url = f'https://m.stock.naver.com/api/index/{code}/price?pageSize={page_size}&page={page}'
    # 2. request(url)
    response = requests.get(url)
    # 3. parsing json
    data = response.json()
    # 4. 데이터프레임 
    cols = ['localTradedAt', 'closePrice']
    df = pd.DataFrame(data)[cols]
    #pd.DataFrame(response.json())[['localTradedAt', 'closePrice']] # 한줄로 줄일 수 있다
    
    return df

# 17. 머신러닝
- x, y 분리

우선 target 변수를 명확히 지정합니다.
target을 제외한 나머지 변수들 데이터는 x로 선언합니다.
target 변수 데이터는 y로 선언합니다.
이 결과로 만들어진 x는 데이터프레임, y는 시리즈가 됩니다.
이후 모든 작업은 x, y를 대상으로 진행합니다.

In [None]:
# Pclass Age 평균 구하기
titanic.groupby(by='Pclass', as_index=False)['Age'].transform('mean')

In [None]:
# 
# 독립변수 -> features
# 종속변수 -> target

In [None]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = data.drop(target, axis=1)
y = data.loc[:, target] # [행, 열]

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split # 데이터를 무자위로 섞음
# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, 
                                                    random_state=1, shuffle=True, stratify=y) 
                                                    # random_state : 난수 섞음 즉, 동일하게 결과를 얻기 위해 사용
                                                    # shuffle : 섞음, False는 안섞음 시계열을 할 때 False
                                                    # stratify : y기준으로 균등하게 분할

### 모델링

- 알고리즘: LinearRegression
- 평가방법: mean_absolute_error

In [None]:
# 1단계: 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error # 평가는 metrics에서 다 불러올 수 있다.

In [None]:
# 2단계: 선언하기
model = LinearRegression()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계: 평가하기 
# 오차 (평균)출력
print('MAE:', mean_absolute_error(y_test, y_pred)) # 평균 절대 오차 # 값이 낮을 수록 좋은 모델

In [None]:
# 실제값, 예측값 비교
print(y_test.values[:10])
print(y_pred[:10])

In [None]:
# 기준(평균) 모델 성능 평가
mean_ozone = y_train.mean()
y_base= np.array([mean_ozone] * len(y_test))

# 5단계: 평가하기 
# 오차 (평균)출력
print('MAE:', mean_absolute_error(y_test, y_base))

In [None]:
# 시각화하여 비교

plt.plot(y_test.values, label='Actual')
plt.plot(y_pred, label='Predicted')
plt.plot(y_base, label='baseline', color='r', linestyle='--')
plt.legend()
plt.show()

- 알고리즘: KNeighborsClassifier
- 평가방법: accuracy_score

In [None]:
# 1단계: 불러오기
from sklearn.neighbors import KNeighborsClassifier #최근접
from sklearn.metrics import accuracy_score

In [None]:
# 2단계: 선언하기
model = KNeighborsClassifier()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
print(y_test.values[:20])
print(y_pred[:20]) # 비교

In [None]:
# 5단계: 평가하기
print('accuracy_score', accuracy_score(y_test, y_pred)) # 86% 

In [None]:
y_base = np.array([y_train.mode()[0]] * len(y_test))
print('accuracy_score', accuracy_score(y_test, y_base)) # base 56%

- 알고리즘: DecisionTreeClassifier
- 평가방법: accuracy_score

In [None]:
# 1단계: 불러오기 # sklearn 은 target(종속변수)은 문자열 허용 feature(독립변수)는 안됌
from sklearn.tree import DecisionTreeClassifier # 의사 결정 나무
from sklearn.metrics import accuracy_score

In [None]:
# 2단계: 선언하기
model = DecisionTreeClassifier()

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
print(y_test.values[:10])
print(y_pred[:10]) # 비교

In [None]:
# 5단계 평가하기
print('accuracy_score:', accuracy_score(y_test, y_pred)) # 95% 정확도 높네...

In [None]:
y_train.value_counts() # 빈도수는 비슷

- MSE, RMSE, MAE, MAPE는 오류(Error) 이므로 작을 수록 좋음
- R2 Score는 클 수록 좋음

## 회귀 성능 평가

**1) MAE(Mean Absolute Error)**


$$\large MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|$$

- 평균 절대 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_error

# 성능 평가
print('MAE:',mean_absolute_error(y_test, y_pred)) # 평균 절대 오차

**2) MSE(Mean Squared Error)**

$$\large MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2$$

- 평균 제곱 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('MSE:',mean_squared_error(y_test, y_pred))

**3) RMSE(Root Mean Squared Error)**


$$\large RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2}$$

- MSE(평균 제곱 오차)의 제곱근

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('RMSE:', mean_squared_error(y_test, y_pred) ** 0.5) # 루트 0.5 제곱

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_squared_error

# 성능 평가
print('RMSE:', mean_squared_error(y_test, y_pred, squared=False)) 

**4) MAPE(Mean Absolute Percentage Error)**

$$\large MAPE=\frac{1}{n}\sum_{i=1}^{n}\left |\frac{y_{i}-\hat{y}_{i}}{y_{i}}\right |$$

- 예측 값과 실제 값 사이의 평균 절대 백분율 오차

In [None]:
# 모듈 불러오기
from sklearn.metrics import mean_absolute_percentage_error

# 성능 평가
print('MAPE:', mean_absolute_percentage_error(y_test, y_pred)) # 오차의 비율

**5) R2-Score**

$$\large R^2=1-\frac{SSE}{SST}=1-\frac{\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^2}$$

- 0에서 1 사이의 값을 가지며, 높을수록 모델이 데이터를 잘 설명한다고 해석

In [None]:
# 모듈 불러오기
from sklearn.metrics import r2_score

# 성능 평가
print('R2:', r2_score(y_test, y_pred)) # 57% # 클수록 좋음

- score() 메서드를 사용해 R2 Score를 확인할 수 있습니다.

In [None]:
# 참고
model.score(x_test, y_test)

**6) 학습 성능 확인**

In [None]:
# 학습 데이터에 대한 예측
y_train_pred = model.predict(x_train)

# 학습 성능 확인
print('R2:', r2_score(y_train, y_train_pred)) #학습 성능과 평가 성능이 비슷 과적합은 아님

In [None]:
# 학습성능, 평가성능 비교
print('학습성능:', model.score(x_train, y_train))
print('평가성능:', model.score(x_test, y_test))

## 분류 성능 평가

**1) Confusion Matrix**

In [None]:
# 모듈 불러오기
from sklearn.metrics import confusion_matrix

# 성능 평가
print("CM:", confusion_matrix(y_test, y_pred)) # TN, FP, FN, TP

In [None]:
# 혼동행렬 시각화
plt.figure(figsize=(5, 2))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, cbar=False,
           cmap='Blues')
plt.show()

**2) Accuracy**

$$\large Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import accuracy_score

# 성능 평가
print('Accuracy:', accuracy_score(y_test, y_pred)) # 정확도

**3) Precision**

$$\large Precision = \frac{TP}{TP+FP}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import precision_score

# 성능 평가
print('Precision', precision_score(y_test, y_pred)) # 정밀도
print('Precision', precision_score(y_test, y_pred, average=None)) # 0의정밀도, 1정밀도 #특이도 # 이걸 권고
print('Precision', precision_score(y_test, y_pred, average='macro'))
print('Precision', precision_score(y_test, y_pred, average='weighted'))

**4) Recall**

$$\large Recall = \frac{TP}{TP+FN}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import recall_score

# 성능 평가
print('Recall:', recall_score(y_test, y_pred, average=None)) # 재현도 # 0.9 값 특이도 
                                                             # 민감도(실제값) 정밀도(예측값)

**5) F1-Score**

$$\large F1 = \frac{2\times Precision\times Recall}{Precision+Recall}$$

In [None]:
# 모듈 불러오기
from sklearn.metrics import f1_score

# 성능 평가
print("F1:", f1_score(y_test, y_pred, average=None)) # 정밀도와 재현율의 조화 평균

**6) Classification Report**

In [None]:
# 모듈 불러오기
from sklearn.metrics import classification_report

# 성능 평가
print(classification_report(y_test, y_pred))

In [None]:
# 참고
print('학습성능:', model.score(x_train, y_train))
print('평가성능:', model.score(x_test, y_test))

- 회귀 계수를 살펴봅니다.

In [None]:
# 회귀계수 확인
print(model.coef_) # 가중치
print(model.intercept_) # 편향

$$ \large Distance = 3.9*Speed -16.37 $$

In [None]:
# 회귀식 확인
# y = a * x + b
a = model.coef_  # 가중치
b = model.intercept_ # 편향
#speed = np.array([x_test.min(), x_test.max()])
speed = np.linspace(x_test.min(), x_test.max(), 2)
# 회귀선 = 가중치 x feature x 편향
dist = a * speed + b # 회귀선

In [None]:
# 회귀선 그리기
plt.scatter(x_test, y_test) # 평가 데이터
plt.scatter(x_train, y_train, color='orange') # 학습 데이터
plt.plot(speed, dist, color='r') # 학습 데이터 회귀선
plt.show()

### 정규화(Normalization)
• 각 변수의 값이 0과 1사이 값이 됨

### 표준화(Standardization)
• 각 변수의 평균이 0, 표준편차가 1이 됨


## 결정 트리

In [None]:
# 1단계: 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# 2단계: 선언하기 
model = DecisionTreeClassifier(max_depth=5 ,random_state=1) #독립 변수 제한 # 같은 걸 고를 수 있음

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계 평가하기
print('confusion:', confusion_matrix(y_test, y_pred))
print('report::', classification_report(y_test, y_pred))

In [None]:
# 시각화 모듈 불러오기
from sklearn.tree import export_graphviz
from IPython.display import Image

# 이미지 파일 만들기
export_graphviz(model,                                 # 모델 이름
                out_file='tree.dot',                   # 파일 이름
                feature_names=list(x),                 # Feature 이름
                class_names=['die', 'survived'],       # Target Class 이름 (분류인 경우만 지정)
                rounded=True,                          # 둥근 테두리
                precision=2,                           # 불순도 소숫점 자리수
                max_depth=3,                           # 실제로 표시할 트리 깊이
                filled=True)                           # 박스 내부 채우기

# 파일 변환
!dot tree.dot -Tpng -otree.png -Gdpi=300

# 이미지 파일 표시
Image(filename='tree.png')

In [None]:
# 변수 중요도 시각화
# 변수 중요도
plt.figure(figsize=(5, 5))
plt.barh(y=list(x), width=model.feature_importances_) # feature_importances_ 속성이 변수 중요도
plt.show()

In [None]:
# 정렬해서 중요도 시각화
# 데이터프레임 만들기
df = pd.DataFrame()
df['feature'] = list(x)
df['importance'] = model.feature_importances_
df.sort_values(by='importance', ascending=True, inplace=True)

# 시각화
plt.figure(figsize=(5, 5))
plt.barh(df['feature'], df['importance'])
plt.show()

# 18