# 날씨 데이터로 Scikit-learn ML 알고리즘 비교하기

### 내용
비가 올지 안올지 데이터를 예측하는 다양한 알고리즘 비교하기


### 파일 
- 구분: 0(비가 안온다)/1(비가 온다)

In [3]:
import pandas as pd

file = 'data/weather_total.csv'
df = pd.read_csv(file, encoding='cp949')
df.head(5)

Unnamed: 0,일시,평균기온(°C),평균 상대습도(%),평균 전운량(1/10),합계 일조 시간(hr),강수 계속시간(hr),구분
0,2010-01-01,-7.6,48.0,3.8,7.3,,0
1,2010-01-02,-3.6,76.4,6.0,0.8,6.57,1
2,2010-01-03,-6.8,49.3,2.6,8.2,,0
3,2010-01-04,-5.9,84.1,7.5,0.1,13.03,1
4,2010-01-05,-9.9,66.4,2.1,7.5,0.95,1


-----------------------

### [실습] Scikit-learn ML 알고리즘 비교하기

In [13]:
import csv
import random

# 사용할 ML 모듈 가져오기
from sklearn import svm
from sklearn.linear_model import Perceptron
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier

# 1.사용할 ML 모델 지정하기
model = svm.SVC()
# model = Perceptron()
# model = KNeighborsClassifier(n_neighbors=1)
# model = GaussianNB()


# 2.학습용 데이터 불러오기(전처리가 된 상태의 데이터)
file = 'data/weather_total.csv'
with open(file) as f:
    reader = csv.reader(f)
    next(reader)

    data = []
    for row in reader:
        data.append({
            "evidence": [float(cell) if cell !='' else 0  for cell in row[1:5] ],
            "label": "Rain" if row[6] == "1" else "No-rain"
        })
# print(data)


# 3.학습용 데이터와 테스트 데이터 분류하기= 6:4
holdout = int(0.40 * len(data))
random.shuffle(data)
testing = data[:holdout]
training = data[holdout:]


# 4.학습용 데이터에서 독립변수와 종속변수 지정하게 학습모델에 넣기
X_training = [row["evidence"] for row in training]   # 독립변수
y_training = [row["label"] for row in training]      # 레이블
model.fit(X_training, y_training)


# 5.테스트 데이터 모델에 넣고 예측하기
X_testing = [row["evidence"] for row in testing]
y_testing = [row["label"] for row in testing]
predictions = model.predict(X_testing)


# 6.모델의 성능 및 정확도 출력하기
correct = 0
incorrect = 0
total = 0
for actual, predicted in zip(y_testing, predictions):
    total += 1
    if actual == predicted:
        correct += 1
    else:
        incorrect += 1
# 화면에 출력하기
print('-'*50)
print(f"Results for model {type(model).__name__}")
print(f"Correct: {correct}")
print(f"Incorrect: {incorrect}")
print(f"Accuracy: {100 * correct / total:.2f}%")

--------------------------------------------------
Results for model SVC
Correct: 1311
Incorrect: 296
Accuracy: 81.58%


------

## THE END