In [24]:
import pandas as pd
import os
import numpy as np

# URL of the dataset
url = "https://www.statlearning.com/s/Advertising.csv"

# Path to the datasets folder (adjust this to your actual folder location)
datasets_folder = os.path.expanduser("~/datasets")

# Create the folder if it doesn't exist
# os.makedirs(datasets_folder, exist_ok=True)

# File path to save the dataset
file_path = os.path.join(datasets_folder, "Advertising.csv")

# Download the dataset and save it to the specified folder
print(f"Dataset downloaded and saved to {file_path}\n")

advertising = pd.read_csv(url, index_col=0)
advertising.head()

Dataset downloaded and saved to /Users/umutkaya/datasets/Advertising.csv



Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


## Is there a relationship between sales and advertising budget ?


In [13]:
advertising.corr()['sales'].sort_values(ascending=False)

sales        1.000000
TV           0.782224
radio        0.576223
newspaper    0.228299
Name: sales, dtype: float64

In [29]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from scipy import stats

X, y = advertising.drop('sales', axis=1).values, advertising['sales'].values

lr = LinearRegression()
lr.fit(X, y)
print('R2 score ',lr.score(X, y))
print('rmse', np.sqrt(mean_squared_error(y, lr.predict(X))))

# F-statistic hesaplama
n = len(y)  # Veri setindeki gözlem sayısı
k = X.shape[1]  # Bağımsız değişkenlerin sayısı
r2 = lr.score(X, y)
# F-statistic formülü
f_statistic = (r2 / (1 - r2)) * ((n - k - 1) / k)
print('F-statistic: ', f_statistic)

# Alternatif olarak, p-değerini de elde edebiliriz
f_p_value = 1 - stats.f.cdf(f_statistic, k, n - k - 1)
print('p-value for F-statistic: ', f_p_value)

R2 score  0.8972106381789522
rmse 1.6685701407225697
F-statistic:  570.2707036590946
p-value for F-statistic:  1.1102230246251565e-16


**F-Statistic**

Null hipotezi (H₀): Bağımsız değişkenlerin hedef değişken üzerindeki etkisi yoktur. Yani, bağımsız değişkenlerin hepsinin regresyon katsayıları sıfırdır.

Alternatif hipotez (H₁): En az bir bağımsız değişkenin hedef değişken üzerindeki etkisi vardır (en az bir katsayı sıfır değildir).

F-statistic, modelin genel anlamda açıklayıcı olup olmadığını test eder. Eğer F-statistic değeri yüksekse, bu bağımsız değişkenlerin toplu olarak hedef değişkeni açıklamada anlamlı olduğu anlamına gelir. Bu durumda, null hipotezi reddedilir ve modelin anlamlı olduğu söylenir.