In [27]:
import numpy
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from mpl_toolkits.mplot3d.axes3d import Axes3D
import scipy.stats as st
import csv
from numpy.linalg import inv
%matplotlib inline

In [28]:
forest_fires = []
with open('forestfires.csv', "rt", encoding="utf-8") as f:
    reader = csv.reader(f)
    forest_fires = list(reader)

In [29]:
names = forest_fires[0] 
names[2] = 'summer'
names[3] = 'constant'

forest_fires = forest_fires[1:]
n = len(forest_fires)
print(names)

['X', 'Y', 'summer', 'constant', 'FFMC', 'DMC', 'DC', 'ISI', 'temp', 'RH', 'wind', 'rain', 'area']


In [30]:
for i in range(n):
    if forest_fires[i][2] in ['jun', 'jul', 'aug']:
        forest_fires[i][2] = '1'
    else:
        forest_fires[i][2] = '0'
    forest_fires[i][3] = '1'
    forest_fires[i] = [float(x) for x in forest_fires[i]]

Обработали данные, заменили месяц на индикатор лета, а день недели - на константу. 

In [45]:
numpy.random.shuffle(forest_fires)

In [37]:
def test_model(forest_fires, f, inv_f): # возвращает среднеквадратичное отклонение модели
    learn_data = forest_fires[:(n * 7 // 10)]
    test_data = forest_fires[(n * 7 // 10):]

    learn_answer = numpy.matrix([f(x[-1]) for x in learn_data]).transpose()
    test_answer = numpy.matrix([f(x[-1]) for x in test_data]).transpose()

    learn_data = [x[:-1] for x in learn_data]
    test_data = [x[:-1] for x in test_data]
    
    z = numpy.matrix(learn_data)
    estimator = inv(z.transpose() * z) * z.transpose() * learn_answer
    
    z_test = numpy.matrix(test_data)
    test_result = z_test * estimator
    
    q1 = numpy.array((test_result - test_answer).transpose())[0]
    q2 = numpy.array((inv_f(test_result) - inv_f(test_answer)).transpose())[0]
    return (numpy.mean(q1 * q1), numpy.mean(q2 * q2))

In [46]:
print(test_model(forest_fires, (lambda x: x), (lambda x: x)))

(1021.0615919540779, 1021.0615919540779)


Разделили выборку в отношении 7 : 3, построили регрессионную модель по первой выборке, среднеквадратичное отклонение ответа по второй получилось очень большим - 1021.

In [47]:
print(test_model(forest_fires, (lambda x: numpy.log(x + 1)), (lambda x: numpy.exp(x) - 1)))
print(test_model(forest_fires, (lambda x: numpy.log(x + 10)), (lambda x: numpy.exp(x) - 10)))
print(test_model(forest_fires, (lambda x: numpy.log(x + 50)), (lambda x: numpy.exp(x) - 50)))
print(test_model(forest_fires, (lambda x: numpy.log(x + 100)), (lambda x: numpy.exp(x) - 100)))

(2.773757469231716, 606.68592911347901)
(0.47231052180348088, 593.71926971080109)
(0.082185112218259776, 614.17712201882318)
(0.032839533607965057, 643.888589610238)


Если взять функцию $ln(x+c)$ от площади, среднеквадратичное отклонение поменьше - порядка 600.

In [50]:
mn_c = 1.0
mn = 10 ** 10
for c in numpy.arange(0.1, 100.0, 0.1):
    s = test_model(forest_fires, (lambda x: numpy.log(x + c)), (lambda x: numpy.exp(x) - c))[1]
    if (s < mn):
        mn_c = c
        mn = s
print(mn_c, mn)

10.1 593.71909884


Константа $c$, при которой для функции $ln(x+c)$ среднеквадратичное отклонение минимальное для данного разбиения выборки - $10.1$, при этом отклонение равно примерно $593,7$.

In [51]:
for i in range(20):
    numpy.random.shuffle(forest_fires)
    print(test_model(forest_fires, (lambda x: numpy.log(x + mn_c)), (lambda x: numpy.exp(x) - mn_c)))

(0.68456814410679867, 9176.5489060272721)
(0.37299286988390323, 1046.7676147715981)
(0.36681527308325873, 661.50363634638393)
(0.3809426275145788, 728.73438954991673)
(0.55459805607651425, 4777.2049996172882)
(0.28335223229289069, 239.11946608899467)
(0.57615267274186821, 12130.547155839524)
(0.5052558772991419, 4606.6113210304302)
(0.36642183583854315, 1016.8671558606808)
(0.42798349555438603, 1119.8426247165592)
(0.48050499729721435, 4057.3648721167074)
(0.34962427693981513, 638.68661545248904)
(0.42678367532605405, 1101.4477515927201)
(0.41688818280792195, 647.28451559745974)
(0.53894773788958417, 8428.4237391610677)
(0.49131005335455019, 4160.5284498750025)
(0.37459157257268705, 873.93108280278125)
(0.6182451366344236, 1365.8084070166201)
(0.44229137610128105, 8319.4499977067389)
(0.42050294145004574, 7960.9743433608182)


Однако при других разбиениях на две выборки при данном $c$ отклонения получаются большие и с широким разбросом - от 240 до 12000.
Значит, к сожалению, данная модель не подходит для этих данных.