# Simple Linear Regression

### 1. Import i wstępna obróbka danych

Import pakietu pandas, pozwalającego na łatwe wczytywanie i zarządzanie danymi z pliku CSV. Dane w Pandas przechowywane są w DataFrame.

In [1]:
import pandas as pd

Pobranie zbioru danych z pliku CSV:

In [2]:
dataset = pd.read_csv('Salary_Dataset.csv')

Całość DataFrame można wyświetlić na ekran przy użyciu komendy display. Komenda head pozwala za na wyświetlenie pierwszych n wierszy DataFrame.

In [3]:
# display(dataset)
dataset.head(5)

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


Aby móc wygornie operowac danymi podczas tworzenai wykresu, interesujace nas kolumny zapisujemy w postaci list.

In [4]:
# X_list = dataset['YearsExperience'].tolist()
# Y_list = dataset['Salary'].tolist()

In [5]:
X = dataset.iloc[:, :-1].values
Y = dataset.iloc[:, 1].values

### 2. Wizualizacja danych wejściowych przy użyciu biblioteki plotly

Pobieramy pakiet ploty.ofline który pozwoli nam na tworzenie wykresów.

In [6]:
import plotly.graph_objs as go

from plotly.offline import init_notebook_mode, iplot, plot
init_notebook_mode(connected=True)

Mamy tylko jeden zestaw danych, który stanowią pary z list X i Y. Pary te zostaną zwizualizowane w postaci punktów.

In [7]:
trace = go.Scatter(x = X, y = Y, mode = 'markers')

In [8]:
data = [trace]

Opis wykresu oraz osi.

In [9]:
layout = go.Layout(
    title='Wizualizacja zastawu danych',
    titlefont=dict(
            size=25
        ),
    xaxis=dict(
        title='Staż pracy',
        titlefont=dict(
            size=18,
            color='#7f7f7f'
        )
    ),
    yaxis=dict(
        title='Zarobki',
        titlefont=dict(
            size=18,
            color='#7f7f7f'
        )
    )
)

In [10]:
fig = go.Figure(data=data, layout=layout)

Zapisywanie wykresu na dysku.

In [11]:
# plot(fig, filename='basic-scatter', image='png', image_filename='wykres1_plotly')

### 3. Wizualizacja danych wejściowych przy użyciu biblioteki matplotlib

In [12]:
import matplotlib.pyplot as plt

Mamy tylko jeden zestaw danych, który stanowią pary z list X i Y. Pary te zostaną zwizualizowane w postaci punktów.

In [13]:
plt.plot(X, Y, marker='.',linestyle='None', color='r')

[<matplotlib.lines.Line2D at 0x98b70dcf8>]

Opis wykresu oraz osi.

In [14]:
plt.xlabel('Staż pracy')

<matplotlib.text.Text at 0x98b555a58>

In [15]:
plt.ylabel('Zarobki')

<matplotlib.text.Text at 0x98b56cb00>

In [16]:
plt.title('Wizualizacja zastawu danych')

<matplotlib.text.Text at 0x98b6e5eb8>

Zapisywanie wykresu na dysku.

In [17]:
plt.savefig('wykres1_pyplot.png', dpi = 300)

### 4. Analiza danych przy użyciu biblioteki sklearn

Przed przystapieniem do analizy należy podzielić zestaw danych na dwie grupy: treningową i testową. Aby tego dokonać pobieramy train_test_split.

In [18]:
from sklearn.cross_validation import train_test_split


This module was deprecated in version 0.18 in favor of the model_selection module into which all the refactored classes and functions are moved. Also note that the interface of the new CV iterators are different from that of this module. This module will be removed in 0.20.



In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 1/3, random_state = 0)

Import klasy przeprowadzającej liniową regresję:

In [20]:
from sklearn.linear_model import LinearRegression

In [21]:
regressor = LinearRegression(fit_intercept =True)

In [23]:
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [24]:
regressor.coef_

array([ 9449.96232146])

In [25]:
regressor.intercept_

25792.20019866871

### 5. Analiza danych przy użyciu własnej metody

In [84]:
from Simple_Linear_Regression import MySimpleLinearRegression

In [85]:
X_train_list = X_train.reshape(1, -1).tolist()
y_train_list = y_train.reshape(1, -1).tolist()
X_train_list = X_train_list[0]
y_train_list = y_train_list[0]

In [86]:
my_regressor = MySimpleLinearRegression()

In [87]:
my_regressor.fit(X_train_list, y_train_list)

In [90]:
my_regressor.coef_

9345.942443122376

In [91]:
my_regressor.intercept_

26816.19224403117