In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'NanumBarunGothic'

- csv파일 pandas를 이용하여 가져오기
- 조건에 맞는 데이터 추출법


In [None]:
data = pd.read_csv('gts-seoul.csv')

# 방법 1
data_test = data.loc[data['일시']=="2011-03-21 06:00",:]
print(data_test["습도"]+data_test["풍속"]+data_test["현지기압"]+data_test["기온"]+data_test["이슬점 온도"])

# 방법 2
# data_test에서 아예 열들도 추출하고 sum(axis=1)
# 가로 합 -> 열들의 합 axis=1
# 세로 합 -> 행들의 합 axis=0
test = data.loc[data["일시"]=="2011-03-21 06:00", ["습도", "풍속", "현지기압", "기온", "이슬점 온도"]]
print(test.sum(axis=1))

2101    1038.9
dtype: float64


- 데이터 전처리하기 -> 앞으로 전처리한 데이터를 사용하자!
- dropna() -> Nan 값이 있는 행을 지운다.(꼭 할당 해주자!)
- 전처리 순서 주의하자! 추출하고 행 지우기였다.!
- dropna(axis=0) -> 행제거
- dropna(axis=1) -> 열제거

In [None]:
data_pt = data[["습도","풍속","현지기압","기온","이슬점 온도"]].dropna()
print(data_pt)

print(len(data_pt)+data_pt["습도"].mean()+max(data_pt["풍속"])+min(data_pt["기온"]))

         습도    풍속   현지기압    기온  이슬점 온도
0      70.7   3.0  995.0  25.0    19.3
1      61.8   3.0  993.9  27.9    19.9
2      49.7   3.0  992.3  30.5    18.8
3      66.8   6.0  992.1  28.8    22.0
4      79.6   4.0  993.4  26.3    22.5
...     ...   ...    ...   ...     ...
32080  65.7  11.0  987.0  21.7    15.0
32081  83.8   5.0  989.7  18.9    16.1
32082  84.9   7.0  991.2  18.8    16.2
32083  85.9   4.0  991.7  18.4    16.0
32084  88.7   6.0  992.7  18.3    16.4

[32068 rows x 5 columns]
32128.421619683173


- pearson 상관계수 -> corr(method='pearson') 함수 사용하기
- 특정 열에 대한 상관계수 값들의 합은 sum() 함수 적용 후 -1하자!


In [None]:
data_pearson = data_pt.corr(method='pearson')
print(data_pearson)

data_pearson_tm = data_pearson["이슬점 온도"]
dpt_sum = data_pearson_tm.sum()
print(dpt_sum)

# 방법 2
data_corr = data_pt.corr(method="pearson")
corr_sum = data_corr["이슬점 온도"].sum()-1
print(corr_sum)

              습도        풍속      현지기압        기온    이슬점 온도
습도      1.000000 -0.208003 -0.097019  0.176056  0.572123
풍속     -0.208003  1.000000 -0.038114  0.010847 -0.086802
현지기압   -0.097019 -0.038114  1.000000 -0.204052 -0.209702
기온      0.176056  0.010847 -0.204052  1.000000  0.903583
이슬점 온도  0.572123 -0.086802 -0.209702  0.903583  1.000000
2.1792022126818202


- 그래프 캡쳐 문제는 subplot을 떠올리자!
- 산점도 -> scatter(x,y)

In [None]:
plt.figure(figsize=(12,8)) # -> 한 이미지당 얼마만큼의 크기인지
# 습도와 이슬점 온도 산점도
plt.subplot(2, 2, 1)
plt.scatter(data_pt['습도'], data_pt['이슬점 온도'])
plt.xlabel('습도')
plt.ylabel('이슬점 온도')
plt.title('습도 vs 이슬점 온도')

# 풍속과 이슬점 온도 산점도
plt.subplot(2, 2, 2)
plt.scatter(data_pt['풍속'], data_pt['이슬점 온도'])
plt.xlabel('풍속')
plt.ylabel('이슬점 온도')
plt.title('풍속 vs 이슬점 온도')

# 현지기압과 이슬점 온도 산점도
plt.subplot(2, 2, 3)
plt.scatter(data_pt['현지기압'], data_pt['이슬점 온도'])
plt.xlabel('현지기압')
plt.ylabel('이슬점 온도')
plt.title('현지기압 vs 이슬점 온도')

# 기온과 이슬점 온도 산점도
plt.subplot(2, 2, 4)
plt.scatter(data_pt['기온'], data_pt['이슬점 온도'])
plt.xlabel('기온')
plt.ylabel('이슬점 온도')
plt.title('기온 vs 이슬점 온도')

# 그림 저장
plt.tight_layout()
plt.savefig('scatter_plots1.png')
plt.show()

- 또 전처리 -> 이 이후에 또 전처리한 데이터를 쓰자!

In [None]:
data_pt2 = data_pt.loc[data_pt["현지기압"] >= 200]
print(data_pt)
print(data_pt2)

         습도    풍속   현지기압    기온  이슬점 온도
0      70.7   3.0  995.0  25.0    19.3
1      61.8   3.0  993.9  27.9    19.9
2      49.7   3.0  992.3  30.5    18.8
3      66.8   6.0  992.1  28.8    22.0
4      79.6   4.0  993.4  26.3    22.5
...     ...   ...    ...   ...     ...
32080  65.7  11.0  987.0  21.7    15.0
32081  83.8   5.0  989.7  18.9    16.1
32082  84.9   7.0  991.2  18.8    16.2
32083  85.9   4.0  991.7  18.4    16.0
32084  88.7   6.0  992.7  18.3    16.4

[32068 rows x 5 columns]
         습도    풍속   현지기압    기온  이슬점 온도
0      70.7   3.0  995.0  25.0    19.3
1      61.8   3.0  993.9  27.9    19.9
2      49.7   3.0  992.3  30.5    18.8
3      66.8   6.0  992.1  28.8    22.0
4      79.6   4.0  993.4  26.3    22.5
...     ...   ...    ...   ...     ...
32080  65.7  11.0  987.0  21.7    15.0
32081  83.8   5.0  989.7  18.9    16.1
32082  84.9   7.0  991.2  18.8    16.2
32083  85.9   4.0  991.7  18.4    16.0
32084  88.7   6.0  992.7  18.3    16.4

[32027 rows x 5 columns]


- 데이터 특정 열 접근 때 [[]]를 사용하면 집계함수 계산 값이 더 간단하게 나온다.

In [None]:
data_pearson2 = data_pt2.corr(method='pearson')
print(data_pearson2)

data_pearson_tm2 = data_pearson2[["이슬점 온도"]]
dpt_sum2 = data_pearson_tm2.sum()
print(dpt_sum2)

              습도        풍속      현지기압        기온    이슬점 온도
습도      1.000000 -0.207624 -0.359687  0.176078  0.572122
풍속     -0.207624  1.000000 -0.118371  0.010655 -0.086814
현지기압   -0.359687 -0.118371  1.000000 -0.748598 -0.770175
기온      0.176078  0.010655 -0.748598  1.000000  0.903592
이슬점 온도  0.572122 -0.086814 -0.770175  0.903592  1.000000
이슬점 온도    1.618725
dtype: float64


In [None]:
# plt.figure(figsize=(12,8)) # 필수 코드 x
# 습도와 이슬점 온도 산점도
plt.subplot(2, 2, 1)
plt.scatter(data_pt2['습도'], data_pt2['이슬점 온도'])
plt.xlabel('습도')
plt.ylabel('이슬점 온도')
plt.title('습도 vs 이슬점 온도')

# 풍속과 이슬점 온도 산점도
plt.subplot(2, 2, 2)
plt.scatter(data_pt2['풍속'], data_pt2['이슬점 온도'])
plt.xlabel('풍속')
plt.ylabel('이슬점 온도')
plt.title('풍속 vs 이슬점 온도')

# 현지기압과 이슬점 온도 산점도
plt.subplot(2, 2, 3)
plt.scatter(data_pt2['현지기압'], data_pt2['이슬점 온도'])
plt.xlabel('현지기압')
plt.ylabel('이슬점 온도')
plt.title('현지기압 vs 이슬점 온도')

# 기온과 이슬점 온도 산점도
plt.subplot(2, 2, 4)
plt.scatter(data_pt2['기온'], data_pt2['이슬점 온도'])
plt.xlabel('기온')
plt.ylabel('이슬점 온도')
plt.title('기온 vs 이슬점 온도')

# 그림 저장
plt.tight_layout()
plt.savefig('scatter_plots2.png')
plt.show()

- Regression 기법 -> Linear Regression을 떠올리자!
- w,b 값을 구하고 싶을땐 sklearn을 사용하면 편하다!

In [None]:
from sklearn.linear_model import LinearRegression

x = data_pt2[["습도", "풍속", "현지기압", "기온"]]
y = data_pt2[["이슬점 온도"]]

lr = LinearRegression()
lr.fit(x,y)

print(lr.coef_, lr.intercept_)

[[ 0.2676329  -0.03078923  0.00952646  0.92936961]] [-32.91662937]


- MSE 구하기
1. 수업시간에 배운대로 가설함수를 세우고 cost를 구한다. (torch가 아니라면 데이터 값들을 numpy로 만들어서 한다.)
2. sklearn 내장함수인 mse를 사용한다.

In [None]:
import numpy as np
x = np.array(x) # 데이터 타입 : 데이터 프레임 -> matrix
h = np.dot(x,lr.coef_.T) +  lr.intercept_ # w*x(내적) + b
cost = ((h-y)**2).mean()
print(cost)

from sklearn.metrics import mean_squared_error
cost_sklearn = mean_squared_error(y,h)
print(cost_sklearn)

[[ 70.7   3.  995.   25. ]
 [ 61.8   3.  993.9  27.9]
 [ 49.7   3.  992.3  30.5]
 ...
 [ 84.9   7.  991.2  18.8]
 [ 85.9   4.  991.7  18.4]
 [ 88.7   6.  992.7  18.3]]
32027
[[ 0.2676329  -0.03078923  0.00952646  0.92936961]]
1
이슬점 온도    1.168515
dtype: float64
1.168514629572586
