In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import statsmodels.api as sm
import pickle as pkl
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
%matplotlib widget

<div dir="rtl">   להלן בעיה: הרלב"ד מעוניין לחזות כמות תאונות דרכים בשנה על ידי כמות הרכבים שיש על הכביש. ישנם מספר סוגים של רכבים. 1. משאיות, אופניים, אמבולנס, אוטובוסים ומכוניות. כלומר יש 5 סוגים שונים של רכבים.  

<div dir="rtl">  ננסה לעשות מודל רגרסיה:

$$\hat{Y} = b_0 + b_1*X_1 + b_2*X_2 +b_3*X_3 + b_4*X_4   + b_5 *X_5$$

<div dir="rtl"> כאשר $X_1$ מצין מס' משאיות, $X_2$ מס' אופניים, $X_3$ מס' אמבולנס, $X_4$ מס' אוטובוסים ו-$X_5$ מס' מכוניות.

In [2]:
data = pkl.load(open('../pkl/y_vals_multi_1_tirgul.pkl', 'rb'))

<div dir="rtl"> מטלה: נא לבנות מודל של רגרסיה מרובה, ללא המשתנים הקטגוריאלים. יש לבדוק אילו משתנים נכנסו למודל ואילו לא.  

In [3]:
data['Intercept'] = 1

In [4]:
## If we don't add it, the intercept will be 0.
# Create a linear regression model
model = sm.OLS(data['Accidents'], data.loc[:, ['Intercept', 'Trucks', 'Bikes', 'Ambulance', 'Buses', 'Cars']])
# Fit the model
results = model.fit()
# Print summary statistics, including p-values for each coefficient
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:              Accidents   R-squared:                       0.998
Model:                            OLS   Adj. R-squared:                  0.998
Method:                 Least Squares   F-statistic:                 3.027e+04
Date:                Thu, 19 Oct 2023   Prob (F-statistic):               0.00
Time:                        13:17:03   Log-Likelihood:                -3370.9
No. Observations:                 350   AIC:                             6754.
Df Residuals:                     344   BIC:                             6777.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   3629.2656   1503.568      2.414      0.0

<div dir="rtl"> מבחני ההשערות הם:

<div dir="rtl"> גם כשאנחנו עושים מודל רגרסיה אנחנו עושים מבחן סטטיסטי. המבחן בעצם מתייחס לפרמטרים של המודל: $b_0$, $b_1$, $b_2$ .

<div dir="rtl"> פורמלית המבחן עבור כל פרמטר נראה כך:

$$H_0: b_0 = 0, H_1: b_0 \neq 0$$
$$H_0: b_1 = 0, H_1: b_1 \neq 0$$
$$H_0: b_2 = 0, H_1: b_2 \neq 0$$
$$H_0: b_3 = 0, H_1: b_3 \neq 0$$
$$H_0: b_4 = 0, H_1: b_4 \neq 0$$
$$H_0: b_5 = 0, H_1: b_5 \neq 0$$



<div dir="rtl"> נרצה לבדוק האם כל משתנה הוא מובהק סטטיסטית ואז נוכל להכניסו למודל. מקובל לבדוק ברמת מובהקות של 0.05.  נבדוק את התוצאה בפלט של המודל בעמודה $P >|t|$.

<div dir="rtl"> לפי הפלט כולם קטנים מ 0.05.

<div dir="rtl">  אם אחד הפרמטרים לא נכנס למודל אז נוציא את המשתנה ונבנה מודל חדש.

<div dir="rtl">  לפי התוצאות נראה שאמבלונס לא נכנס למודל. נריץ מחדש מודל בלי המשתנה הזה:

In [5]:
## If we don't add it, the intercept will be 0.
# Create a linear regression model
model = sm.OLS(data['Accidents'], data.loc[:, [ 'Intercept','Trucks', 'Bikes',  'Buses', 'Cars']])
# Fit the model
results = model.fit()
# Print summary statistics, including p-values for each coefficient
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:              Accidents   R-squared:                       0.998
Model:                            OLS   Adj. R-squared:                  0.998
Method:                 Least Squares   F-statistic:                 3.781e+04
Date:                Thu, 19 Oct 2023   Prob (F-statistic):               0.00
Time:                        13:17:04   Log-Likelihood:                -3371.5
No. Observations:                 350   AIC:                             6753.
Df Residuals:                     345   BIC:                             6772.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   4358.2336   1355.297      3.216      0.0

<div dir="rtl">  כעת נראה שכל המשתנים נכנסו למודל.

## Dummy variables

<div dir="rtl"> כעת ננסה לבדוק האם ניתן להכניס למודל את המשתנים הקטגוריאלים. תחילה נבנה אותם ונכניס אותם לDataFrame.

In [6]:
dummy_variables = pd.get_dummies(data[ ['Region_name', 'Time']])

# Concatenate dummy variables with the original DataFrame and drop the original column
data = pd.concat([data, dummy_variables], axis=1)

data.head()

Unnamed: 0,Trucks,Bikes,Ambulance,Buses,Cars,Region,Region_name,day_time,Time,Accidents,Intercept,Region_name_Galil,Region_name_Gush_Dan,Region_name_Shomron,Region_name_South,Time_Day,Time_Night
0,11698,1997,1250,5867,141916,0,South,0,Night,254534,1,0,0,0,1,0,1
1,17903,2283,1449,1329,131118,1,Gush_Dan,0,Night,261222,1,0,1,0,0,0,1
2,28415,1020,1216,4284,104860,3,Shomron,1,Day,284060,1,0,0,1,0,1,0
3,17872,1769,1133,9290,179883,3,Shomron,0,Night,337163,1,0,0,1,0,0,1
4,22456,1325,1746,4518,117766,3,Shomron,1,Day,270994,1,0,0,1,0,1,0


<div dir="rtl"> נכניס אותם למודל ונראה מה התוצאה:

In [7]:
data.columns

Index(['Trucks', 'Bikes', 'Ambulance', 'Buses', 'Cars', 'Region',
       'Region_name', 'day_time', 'Time', 'Accidents', 'Intercept',
       'Region_name_Galil', 'Region_name_Gush_Dan', 'Region_name_Shomron',
       'Region_name_South', 'Time_Day', 'Time_Night'],
      dtype='object')

In [8]:
model = sm.OLS(data['Accidents'], data.loc[:, [ 'Intercept','Trucks', 'Bikes',  'Buses', 'Cars', 'Region_name_Galil', 'Region_name_Gush_Dan', 'Region_name_Shomron','Time_Day']])
# Fit the model
results = model.fit()
# Print summary statistics, including p-values for each coefficient
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:              Accidents   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 2.713e+07
Date:                Thu, 19 Oct 2023   Prob (F-statistic):               0.00
Time:                        13:17:04   Log-Likelihood:                -2097.7
No. Observations:                 350   AIC:                             4213.
Df Residuals:                     341   BIC:                             4248.
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                           coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------
Intercept             7956.8030 

<div dir="rtl">  שהשפעה שהמשנה הדמה של השומרון לא נכנס למודל. מאחר ולא הכנסנו את הדרום למודל משמעות הדבר היא שאין הבדל סטטיסטי בין בכמות התאונות בין הדרום לשומרון. 

<div dir="rtl">  נוציא את השומרון מהמודל ונראה את התוצאה: 

In [9]:
model = sm.OLS(data['Accidents'], data.loc[:, [ 'Intercept','Trucks', 'Bikes',  'Buses', 'Cars', 'Region_name_Galil', 'Region_name_Gush_Dan', 'Time_Day']])
# Fit the model
results = model.fit()
# Print summary statistics, including p-values for each coefficient
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:              Accidents   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 3.108e+07
Date:                Thu, 19 Oct 2023   Prob (F-statistic):               0.00
Time:                        13:17:04   Log-Likelihood:                -2097.8
No. Observations:                 350   AIC:                             4212.
Df Residuals:                     342   BIC:                             4243.
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                           coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------
Intercept             7953.2650 

<div dir="rtl"> כעת כל המשתנים נכנסנו למודל.

<div dir="rtl"> המודל הסופי נראה כך: 

$$\hat{Y} = b_0 + b_1*X_1 + b_2*X_2 + + b_4*X_3   + b_5*X_5 + d_1 $$