### We will choose the linear regression algorithm:

Regression is the appropriate choice. Regression is used when the goal is to predict continuous numerical

outputs, such as passenger numbers, In this case, the target variable (number of passengers) is a continuous numerical value,

and the goal is to estimate this numerical value based on history and other factors. Regression models, such as linear

regression, are well suited for this type of forecasting because they can provide continuous forecasts.

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Load the data
data = pd.read_csv('Ruter-data.csv', sep=';')

In [7]:
data.head(10)

Unnamed: 0,TurId,Dato,Fylke,Område,Kommune,Holdeplass_Fra,Holdeplass_Til,Linjetype,Linjefylke,Linjenavn,Linjeretning,Tidspunkt_Faktisk_Ankomst_Holdeplass_Fra,Tidspunkt_Faktisk_Avgang_Holdeplass_Fra,Tidspunkt_Planlagt_Ankomst_Holdeplass_Fra,Tidspunkt_Planlagt_Avgang_Holdeplass_Fra,Kjøretøy_Kapasitet,Passasjerer_Ombord
0,15006-2020-08-10T10:24:00+02:00,10/08/2020,Viken,Vest,Bærum,Nordliveien,Tjernsmyr,Lokal,Viken,150,0,10:53:53,10:53:59,10:53:00,10:53:00,112,5
1,15002-2020-08-15T12:54:00+02:00,15/08/2020,Viken,Vest,Bærum,Nadderud stadion,Bekkestua bussterminal (Plattform C),Lokal,Viken,150,0,13:12:20,13:12:26,13:12:00,13:12:00,112,5
2,15004-2020-08-03T09:54:00+02:00,03/08/2020,Viken,Vest,Bærum,Ringstabekkveien,Skallum,Lokal,Viken,150,0,10:18:56,10:19:21,10:19:00,10:19:00,112,6
3,15003-2020-07-27T13:00:00+02:00,27/07/2020,Viken,Vest,Bærum,Gruvemyra,Gullhaug,Lokal,Viken,150,1,13:52:04,13:52:26,13:51:00,13:51:00,112,10
4,15002-2020-08-27T07:15:00+02:00,27/08/2020,Viken,Vest,Bærum,Lysaker stasjon (Plattform A),Tjernsmyr,Lokal,Viken,150,1,07:34:13,07:34:53,07:33:00,07:33:00,112,10
5,3110-2020-08-01T16:16:00+02:00,01/08/2020,Oslo,Nordøst,Bjerke,Veitvet (mot Kalbakken),Rødtvet (mot Kalbakken),Lokal,Oslo,31,0,17:22:56,17:23:23,17:16:00,17:16:00,151,8
6,15010-2020-07-28T13:09:00+02:00,28/07/2020,Viken,Vest,Bærum,Nedre Toppenhaug,Øvre Toppenhaug,Lokal,Viken,150,0,13:19:00,13:19:05,13:17:00,13:17:00,112,1
7,15003-2020-07-27T06:18:00+02:00,27/07/2020,Oslo,Indre By,St.Hanshaugen,Hammersborggata (ved Storgata retning vest),St. Olavs plass (mot Frederiks gate),Lokal,Viken,150,1,06:20:24,06:20:29,06:20:00,06:20:00,112,-1
8,21002-2020-08-16T14:33:00+02:00,16/08/2020,Viken,Vest,Bærum,Stein gård,Knabberudveien,Lokal,Viken,150,1,15:10:12,15:10:34,15:09:00,15:09:00,112,2
9,15002-2020-08-13T18:09:00+02:00,13/08/2020,Viken,Vest,Bærum,Bekkestua bussterminal (Plattform C),Stabekk skole,Lokal,Viken,150,0,18:37:41,18:38:19,18:29:00,18:29:00,112,4


In [8]:
print(data.dtypes)

TurId                                        object
Dato                                         object
Fylke                                        object
Område                                       object
Kommune                                      object
Holdeplass_Fra                               object
Holdeplass_Til                               object
Linjetype                                    object
Linjefylke                                   object
Linjenavn                                    object
Linjeretning                                  int64
Tidspunkt_Faktisk_Ankomst_Holdeplass_Fra     object
Tidspunkt_Faktisk_Avgang_Holdeplass_Fra      object
Tidspunkt_Planlagt_Ankomst_Holdeplass_Fra    object
Tidspunkt_Planlagt_Avgang_Holdeplass_Fra     object
Kjøretøy_Kapasitet                            int64
Passasjerer_Ombord                            int64
dtype: object


In [9]:
print(data.isnull().sum())

TurId                                        0
Dato                                         0
Fylke                                        0
Område                                       0
Kommune                                      0
Holdeplass_Fra                               0
Holdeplass_Til                               0
Linjetype                                    0
Linjefylke                                   0
Linjenavn                                    0
Linjeretning                                 0
Tidspunkt_Faktisk_Ankomst_Holdeplass_Fra     0
Tidspunkt_Faktisk_Avgang_Holdeplass_Fra      0
Tidspunkt_Planlagt_Ankomst_Holdeplass_Fra    0
Tidspunkt_Planlagt_Avgang_Holdeplass_Fra     0
Kjøretøy_Kapasitet                           0
Passasjerer_Ombord                           0
dtype: int64


In [10]:
print(data.describe())

       Linjeretning  Kjøretøy_Kapasitet  Passasjerer_Ombord
count   6000.000000         6000.000000         6000.000000
mean       0.492000          104.712167            4.512833
std        0.499978           24.225196            6.735730
min        0.000000           33.000000          -39.000000
25%        0.000000           80.000000            0.000000
50%        0.000000          106.000000            3.000000
75%        1.000000          112.000000            7.000000
max        1.000000          151.000000           64.000000


In [11]:
# Convert the "Dato" column to a datetime data type
data['Dato'] = pd.to_datetime(data['Dato'], format="%d/%m/%Y")
data['Day'] = data['Dato'].dt.day
data['Month'] = data['Dato'].dt.month
data['Year'] = data['Dato'].dt.year

In [12]:
#Handle missing values by removing rows with missing values
data.dropna(inplace=True)

In [14]:
data[['Dato', 'Day', 'Month', 'Year']].head()

Unnamed: 0,Dato,Day,Month,Year
0,2020-08-10,10,8,2020
1,2020-08-15,15,8,2020
2,2020-08-03,3,8,2020
3,2020-07-27,27,7,2020
4,2020-08-27,27,8,2020
...,...,...,...,...
5995,2020-06-10,10,6,2020
5996,2020-06-23,23,6,2020
5997,2020-06-11,11,6,2020
5998,2020-08-13,13,8,2020
