# Tiesinė regresija

### Dėmesio!
Statistikos ir matematikos čia neaptarinėsime, tik patį modelio veikimo principą, labai pavirutiniškai. Šios paskaitos yra orientuotos į rezultatą, o teoriją, kam įdomu, pasistudijuokite savarankiškai.

![](https://littleml.files.wordpress.com/2019/03/residuals-1.png?w=497)

Tiesinės regresijos veikimo principas - mūsų modelis stengsis nubrėžti tarp taškų liniją taip, kad iki jų būtų mažiausia įmanoma atstumų kvadratų suma. Vėliau, prognozuojant naujas reikšmes, jis remsis ta linija. Žinoma, esant daugiau negu dviems kintamiesiems, kaip šiuo atveju, x ir y, procesai pasidaro sudėtingi ir painūs, todėl turėkite omenyje, kad tai tik labai primityvus pavyzdys.

Pradėkime nuo bibliotekų importavimo:

In [36]:
import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sns

In [37]:
%matplotlib inline

Dirbsime su tuo pačiu automobilių DF, mėginsime apmokyti modelį, kuris atspės automobilio degalų suvartojimą

In [38]:
mpg = sns.load_dataset('mpg')

In [39]:
mpg.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


Patikrinkime, ar nėra tuščių reikšmių:

In [40]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
mpg             398 non-null float64
cylinders       398 non-null int64
displacement    398 non-null float64
horsepower      392 non-null float64
weight          398 non-null int64
acceleration    398 non-null float64
model_year      398 non-null int64
origin          398 non-null object
name            398 non-null object
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


matome, kad yra problemų su horsepower stulpeliu.

In [41]:
mpg[mpg['horsepower'].isnull()]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
32,25.0,4,98.0,,2046,19.0,71,usa,ford pinto
126,21.0,6,200.0,,2875,17.0,74,usa,ford maverick
330,40.9,4,85.0,,1835,17.3,80,europe,renault lecar deluxe
336,23.6,4,140.0,,2905,14.3,80,usa,ford mustang cobra
354,34.5,4,100.0,,2320,15.8,81,europe,renault 18i
374,23.0,4,151.0,,3035,20.5,82,usa,amc concord dl


Galimi sprendimo variantai - kadangi reikšmių kiekis sąntykinai nedidelis - galime jas tiesiog ištrinti. Arba pamėginti jas surasti internete. Arba pakeisti vidurkiu visų reikšmių. Arba pakeisti vidurkiu reikšmių su panašiais kitais tech parametrais. Turime nuspręsti, kiek preciziški norėsime būti :)

Internete surastos reikšmės:
* ford pinto - 75, 
* ford maverick - 105, 
* renault lecar deluxe - 51, 
* ford mustang cobra - 120, 
* renault 18i - 73, 
* amc concord dl - 82

Tiesiog jas pakeičiame rankiniu būdu:

In [42]:
mpg['horsepower'].loc[32] = 75
mpg['horsepower'].loc[126] = 105
mpg['horsepower'].loc[330] = 51
mpg['horsepower'].loc[336] = 120
mpg['horsepower'].loc[354] = 73
mpg['horsepower'].loc[374] = 82

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


patikrinkime dar kartą:

In [48]:
mpg[mpg['horsepower'].isnull()]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name


In [44]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
mpg             398 non-null float64
cylinders       398 non-null int64
displacement    398 non-null float64
horsepower      398 non-null float64
weight          398 non-null int64
acceleration    398 non-null float64
model_year      398 non-null int64
origin          398 non-null object
name            398 non-null object
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


Kadangi statistiniams modeliams nepatinka *string* reikšmės, pakalbėkime apie pandas.get_dummies() metodą. Turime kategorines reikšmes stulpelyje origin - usa, japan, europe. Metodas get_dummies() padės mums jas išskirstyti į tris atskirus stulpelius, kuriuose 1 reikš True, 0 - False.  

In [53]:
dummies = pd.get_dummies(mpg['origin'])

In [54]:
dummies.head()

Unnamed: 0,europe,japan,usa
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1


Prijunkime gautą rezultatą prie mūsų pagrindinės lentelės:

In [75]:
data = pd.concat([mpg, dummies], axis=1)

Patikrinkime, ar atitinka gamintojai pagal šalį:

In [79]:
data.tail(10)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,europe,japan,usa
388,26.0,4,156.0,92.0,2585,14.5,82,usa,chrysler lebaron medallion,0,0,1
389,22.0,6,232.0,112.0,2835,14.7,82,usa,ford granada l,0,0,1
390,32.0,4,144.0,96.0,2665,13.9,82,japan,toyota celica gt,0,1,0
391,36.0,4,135.0,84.0,2370,13.0,82,usa,dodge charger 2.2,0,0,1
392,27.0,4,151.0,90.0,2950,17.3,82,usa,chevrolet camaro,0,0,1
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl,0,0,1
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup,1,0,0
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage,0,0,1
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger,0,0,1
397,31.0,4,119.0,82.0,2720,19.4,82,usa,chevy s-10,0,0,1


Ištrinkime mums nereikalingus stulpelius su string reikšmėmis. 

In [82]:
data.drop(['origin', 'name'], axis=1, inplace=True)