In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import preprocessing
from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA

# **Lendo arquivo**

In [0]:
DATA_PATH = '/content/Metro_Interstate_Traffic_Volume.csv'

In [0]:
df = pd.read_csv(DATA_PATH)
df

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767
3,,290.13,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 12:00:00,5026
4,,291.14,0.0,0.0,75,Clouds,broken clouds,2012-10-02 13:00:00,4918
...,...,...,...,...,...,...,...,...,...
48199,,283.45,0.0,0.0,75,Clouds,broken clouds,2018-09-30 19:00:00,3543
48200,,282.76,0.0,0.0,90,Clouds,overcast clouds,2018-09-30 20:00:00,2781
48201,,282.73,0.0,0.0,90,Thunderstorm,proximity thunderstorm,2018-09-30 21:00:00,2159
48202,,282.09,0.0,0.0,90,Clouds,overcast clouds,2018-09-30 22:00:00,1450


# **Pré-processamento**

In [0]:
#transformar atributos qualitativos em quantitativos
le = preprocessing.LabelEncoder() 
for column in df.columns:
    if df[column].dtypes == 'object':
        df[column] = le.fit_transform(df[column])

df

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,7,288.28,0.0,0.0,40,1,24,0,5545
1,7,289.36,0.0,0.0,75,1,2,1,4516
2,7,289.58,0.0,0.0,90,1,19,2,4767
3,7,290.13,0.0,0.0,90,1,19,3,5026
4,7,291.14,0.0,0.0,75,1,2,4,4918
...,...,...,...,...,...,...,...,...,...
48199,7,283.45,0.0,0.0,75,1,2,40570,3543
48200,7,282.76,0.0,0.0,90,1,19,40571,2781
48201,7,282.73,0.0,0.0,90,10,21,40572,2159
48202,7,282.09,0.0,0.0,90,1,19,40573,1450


In [0]:
X = df.iloc[:, 0:8]
y = df.iloc[:, 8]

X.shape, y.shape

((48204, 8), (48204,))

# **Kfold com predição em Naive Bayes**

In [0]:
from sklearn.model_selection import KFold
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

kf = KFold(n_splits=10, random_state=0, shuffle=True) 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, train_size=0.7, random_state=None) 

gnb = GaussianNB()

for train_index, test_index in kf.split(X):
  X_train, X_test = X.iloc[train_index], X.iloc[test_index]
  y_train, y_test = y.iloc[train_index], y.iloc[test_index]

  y_pred = gnb.fit(X_train, y_train).predict(X_test)

  print("Numero de pontos incorretos de um total %d pontos : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

Numero de pontos incorretos de um total 4821 pontos : 4810
Numero de pontos incorretos de um total 4821 pontos : 4816
Numero de pontos incorretos de um total 4821 pontos : 4813
Numero de pontos incorretos de um total 4821 pontos : 4811
Numero de pontos incorretos de um total 4820 pontos : 4808
Numero de pontos incorretos de um total 4820 pontos : 4807
Numero de pontos incorretos de um total 4820 pontos : 4813
Numero de pontos incorretos de um total 4820 pontos : 4803
Numero de pontos incorretos de um total 4820 pontos : 4807
Numero de pontos incorretos de um total 4820 pontos : 4807


In [0]:
#@title Rodando mais uma vez para obter outros resultados
kf = KFold(n_splits=10, random_state=1, shuffle=True)

gnb = GaussianNB()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, train_size=0.7, random_state=None) 

for train_index, test_index in kf.split(X):
  X_train, X_test = X.iloc[train_index], X.iloc[test_index]
  y_train, y_test = y.iloc[train_index], y.iloc[test_index]

  y_pred = gnb.fit(X_train, y_train).predict(X_test)

  print("Número de pontos incorretos de um total %d pontos : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

Número de pontos incorretos de um total 4821 pontos : 4805
Número de pontos incorretos de um total 4821 pontos : 4810
Número de pontos incorretos de um total 4821 pontos : 4809
Número de pontos incorretos de um total 4821 pontos : 4816
Número de pontos incorretos de um total 4820 pontos : 4812
Número de pontos incorretos de um total 4820 pontos : 4813
Número de pontos incorretos de um total 4820 pontos : 4813
Número de pontos incorretos de um total 4820 pontos : 4808
Número de pontos incorretos de um total 4820 pontos : 4813
Número de pontos incorretos de um total 4820 pontos : 4811


# **Kfold com predição por árvore de decisão**

In [0]:
from sklearn import tree

kf = KFold(n_splits=10, random_state=1, shuffle=True)
clf = tree.DecisionTreeRegressor()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, train_size=0.7, random_state=1) 

for train_index, test_index in kf.split(X):
  X_train, X_test = X.iloc[train_index], X.iloc[test_index]
  y_train, y_test = y.iloc[train_index], y.iloc[test_index]

  y_pred = clf.fit(X_train, y_train).predict(X_test)

  print("Numero de pontos incorretos de um total %d pontos : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

Numero de pontos incorretos de um total 4821 pontos : 4069
Numero de pontos incorretos de um total 4821 pontos : 4089
Numero de pontos incorretos de um total 4821 pontos : 4187
Numero de pontos incorretos de um total 4821 pontos : 4277
Numero de pontos incorretos de um total 4820 pontos : 4152
Numero de pontos incorretos de um total 4820 pontos : 4070
Numero de pontos incorretos de um total 4820 pontos : 4173
Numero de pontos incorretos de um total 4820 pontos : 4151
Numero de pontos incorretos de um total 4820 pontos : 4316
Numero de pontos incorretos de um total 4820 pontos : 4028


In [0]:
#@title Rodando mais uma vez 
kf = KFold(n_splits=10, random_state=1, shuffle=True)
clf = tree.DecisionTreeRegressor()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, train_size=0.7, random_state=1) 

for train_index, test_index in kf.split(X):
  X_train, X_test = X.iloc[train_index], X.iloc[test_index]
  y_train, y_test = y.iloc[train_index], y.iloc[test_index]

  y_pred = clf.fit(X_train, y_train).predict(X_test)

  print("numero de pontos incorretos de um total %d pontos : %d" % (X_test.shape[0], (y_test != y_pred).sum()))

numero de pontos incorretos de um total 4821 pontos : 4075
numero de pontos incorretos de um total 4821 pontos : 4087
numero de pontos incorretos de um total 4821 pontos : 4192
numero de pontos incorretos de um total 4821 pontos : 4277
numero de pontos incorretos de um total 4820 pontos : 4134
numero de pontos incorretos de um total 4820 pontos : 4065
numero de pontos incorretos de um total 4820 pontos : 4162
numero de pontos incorretos de um total 4820 pontos : 4141
numero de pontos incorretos de um total 4820 pontos : 4319
numero de pontos incorretos de um total 4820 pontos : 4035
