### 맷플롯립 한글 깨짐 현상 처리

In [None]:
# 맷플롯 한글 폰트 깨짐 현상에 대한 해결 방법

# 1. 먼저 폰트를 설치합니다.
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 2. 폰트 캐시를 재구성합니다.
import matplotlib.font_manager as fm
fm.FontManager()

# 런타임 다시 시작

In [None]:
# 3. 이제 matplotlib를 임포트합니다.
import matplotlib.pyplot as plt
import matplotlib as mpl

# 4. 폰트를 설정합니다.
plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] =False
# 5. Retina 디스플레이를 위한 설정 (선택 사항)
%config InlineBackend.figure_format = 'retina'

# 6. 한글 폰트가 적용되었는지 확인하기 위한 예제 플롯
plt.title('한글 폰트 테스트')
plt.plot([1, 2, 3], [1, 4, 9])
plt.xlabel('X 축')
plt.ylabel('Y 축')
plt.show()


## [ 참고 ] 선형회귀 관련 개념


* 독립변수, 종속변수
* 최소제곱법
* 손실함수
* 평균제곱오차, 결정계수
* 모델 성능 평가
* 과적합



# 회귀분석의 간단한 예제

In [None]:
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 공부시간 : 독립변수, 시험점수 : 종속변수
x = [[2],[4],[6],[8],[10]]       # 공부시간
y = [[81],[93],[90],[97],[100]]  # 시험점수

# 산점도 그래프
plt.scatter(x,y)
plt.show()

# 학습시키기
model = LinearRegression()      # 선형회귀분석 객체 생성하기

# 선형회귀분석 객체를 이용하여 학습시키기
model.fit(x,y)

# 예측하기
result = model.predict([[7]])   # 7시간 학습
print(f'예상점수:{result}')

# [날씨데이터] 회귀분석 실습
- 기상자료개방포털 홈페이지 데이터


## 단순선형회귀분석

In [None]:
# 데이터 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
seoul = pd.read_excel('/content/(2010-2020) weather.xlsx')
seoul.head()

In [None]:
seoul.info()

In [None]:
# 요약 통계량 확인
seoul.describe()

In [None]:
# 지점명 컬럼 삭제
seoul.drop('지점',axis=1,inplace=True)
seoul.head()

In [None]:
seoul.head()

In [None]:
# 컬럼명 변경
seoul.columns=['날짜','평균기온','최저기온','최고기온']
seoul.columns

In [None]:
seoul.isnull().sum()

In [None]:
# 누락 데이터 행을 삭제하기
seoul.dropna(subset=['최고기온'],axis=0,inplace=True)

In [None]:
seoul.info()

In [None]:
# 컬럼추가
seoul['년도']=seoul['날짜'].dt.year
#seoul['월']=seoul['날짜'].dt.month
#seoul['일']=seoul['날짜'].dt.day
seoul.head()

In [None]:
# 데이터분석에 사용할 데이터 필터링 - 매년 8월 15일 정보만 선별
conditions=(seoul['날짜'].dt.month==8) & (seoul['날짜'].dt.day==15)
conditions
seoul0815=seoul[conditions]
seoul0815

In [None]:
seoul0815.info()

In [None]:
# 결측값 확인 및 처리
seoul0815.isnull().sum()

In [None]:
# 년도, 평균기온 산점도 그리기
fig = plt.figure(figsize=(15,7))
X = seoul0815[['년도']]
Y = seoul0815['평균기온']
plt.xlabel('년도')
plt.ylabel('평균기온')
plt.scatter(X,Y)
plt.show()

In [None]:
# jointplot 그리기

# 첫 번째 jointplot: '년도'와 '평균기온' 간의 관계를 산점도와 히스토그램으로 나타냄
# x축은 '년도', y축은 '평균기온'을 사용하여 두 변수 간의 관계를 시각화
sns.jointplot(x='년도', y='평균기온', data=seoul0815)

# 두 번째 jointplot: '년도'와 '평균기온' 간의 관계를 산점도와 함께 회귀선을 추가하여 시각화
# kind='reg'는 회귀 분석을 수행하여 산점도에 회귀선을 표시함
sns.jointplot(x='년도', y='평균기온', kind='reg', data=seoul0815)

# 플롯을 화면에 표시
plt.show()


In [None]:
# sklearn package를 활용한 단순선형회귀분석 : 2022년 08월15일 기온예측하기
from sklearn.linear_model import LinearRegression
model = LinearRegression()
X = seoul0815[['년도']]
Y = seoul0815['평균기온']
model.fit(X, Y) #  LinearRegression 모델을 생성하고, 그 안에 X, y 데이터를 fit 시킨다
result = model.predict([[2022]]) # [27.50818182] 예측된 값
print(result)

In [None]:
# 파이썬 머신러닝 라이브러리 싸이킷런 불러오기
'''
fit() 메서드는 선형 회귀 모델에 필요한 두 가지 변수를 전달하는 거다.
기울기: line_fitter.coef_
절편: line_fitter.intercept_
이렇게 하면 새로운 X 값을 넣어 y값을 예측할 수 있게 된다.
싸이킷런 단순 선형회귀에서는 최소제곱법(Ordinary Least Squares)을 활용하기 때문이다.
'''

In [None]:
# numpy 라이브러리를 활용한 08월 15일의 '년도'와 '평균기온' 데이터를 사용하여 산점도와 회귀선을 출력

x = seoul0815['년도']
y = seoul0815['평균기온']

# 2차 다항 회귀선(polynomial fit)을 계산하여 '년도'와 '평균기온' 간의 관계를 모델링
# np.polyfit() 함수는 x와 y의 데이터에 맞는 2차 다항식의 계수를 계산
fp1 = np.polyfit(x, y, 2)

# np.poly1d() 함수를 사용하여 2차 다항식(f1)을 생성
f1 = np.poly1d(fp1)

# 회귀선을 그릴 x 값의 범위를 설정 (2010년부터 2020년까지)
fx = np.linspace(2010, 2020)

# 그래프 크기를 15x7로 설정
plt.figure(figsize=(15,7))

# 산점도(scatter plot) 생성: x축은 '년도', y축은 '평균기온'
plt.scatter(x, y)

# 계산된 2차 다항 회귀선을 플롯에 추가
# f1(fx)는 x 값 범위(fx)에 대한 회귀선을 계산한 값
# 선 스타일(ls='dashed')은 점선, 선 두께(lw=3)는 3, 선 색깔(color='g')은 'green'으로 설정
plt.plot(fx, f1(fx), ls='dashed', lw=3, color='g')

# x축에 '년도' 레이블 추가
plt.xlabel('년도')

# y축에 '평균기온' 레이블 추가
plt.ylabel('평균기온')

# 그래프 출력
plt.show()


In [None]:
fp1
f1
fx

In [None]:
# 시본 모듈로 추세선 넣기
fig = plt.figure(figsize=(15, 7))
sns.regplot(x='년도', y='평균기온', data=seoul0815)
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(15, 7))
sns.jointplot(x='년도', y='평균기온', data=seoul0815, kind='reg')
plt.show()

In [None]:
sns.pairplot(seoul0815,kind='reg')
plt.show()

## 다중회귀분석
- 여러 개의 특성을 이용해 종속변수를 예측하기 때문에 단순선형회귀보다 더 좋은 성능을 기대함

In [None]:
seoul.info()
seoul.head()

In [None]:
# sklearn을 활용한 다중 선형 회귀 분석1
from sklearn.linear_model import LinearRegression
model = LinearRegression()

X = seoul0815[['년도','최저기온','최고기온']]
Y = seoul0815['평균기온']

model.fit(X, Y)
result = model.predict([[2022,24,33]]) # 2022년,최저기온,최고기온
print(result)                # [28.08381871] # 평균기온 예측됨

In [None]:
# sklearn을 활용한 다중 선형 회귀 분석 모델 평가
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import seaborn as sns
plt.figure(figsize=(15,7))


# 데이터 준비 : 속성(변수) 2가지 선택
X = seoul[['년도','최저기온','최고기온']]
Y = seoul['평균기온']

# 먼저 X와 Y변수를 받아 사이킷런의 train_test_split함수를 통해 7:3의 비율로 데이터를 분할한다.
x_train, x_test, y_train, y_test = train_test_split(X,Y, train_size = 0.7, test_size = 0.3)

#다중 선형 회귀 모델 생성
model = LinearRegression()
model.fit(x_train, y_train)

# 모델 테스트하기 : test셋의 일부 데이터를 가지고 모델의 예측결과가 얼마나 좋게 나타나는지 확인
plt.plot(model.predict(x_test[:50]), label='predict')
plt.plot(y_test[:50].values.reshape(-1, 1), label='real temp')
plt.legend()

In [None]:
# 전체 데이터를 이용해 값을 예측하고 실제 값과 비교하여 산점도 그리기
plt.figure(figsize=(15,7))
y_predict = model.predict(x_test)

plt.scatter(y_test, y_predict, alpha = 0.4)
plt.show()

In [None]:
# score 메소드를 통해 다중선형회귀 모델의 성능을 측정
print(model.score(x_train,y_train))
# 결정계수 R²의 최댓값은 1이며 이 수치가 클수록 실제값과 예측값이 유사함을 의미한다.
'''
우리가 모델링한 다중선형회귀모델은 약 0.99의 결정계수를 가지며
이는 X변수들이 y변수에 미치는 영향이 99%로 X변수들이 평균기온값 변동의 99%를 설명할 수 있다는 뜻이다.
'''