# Multiple Linear
### **📢 Real-World Applications of Assumptions**
| **Assumption**            | **Real-World Application**                        |
|--------------------------|------------------------------------------------|
| **Linearity**            | Salary prediction, price estimation           |
| **Homoscedasticity**     | Market analysis, advertising expenditures      |
| **Normality**           | Survey analysis, statistical tests             |
| **Independence**        | Stock prices, time series                      |
| **Lack of Multicollinearity** | Economic forecasting, customer behavior analysis |
| **Outliers**            | Sales forecasting, healthcare data analysis    |


## Importing the libraries
# Kütüphanelerin İçe Aktarılması

Bu bölümde, çoklu doğrusal regresyon analizi için gerekli olan temel Python kütüphanelerini içe aktarıyoruz:

- **numpy**: Sayısal işlemler ve çok boyutlu diziler için kullanılır. Özellikle matris işlemleri için önemlidir.
- **matplotlib.pyplot**: Veri görselleştirme için kullanılır. Regresyon sonuçlarını grafiksel olarak göstermek için faydalıdır.
- **pandas**: Veri manipülasyonu ve analizi için kullanılır. CSV dosyasını okumak ve veri çerçeveleri ile çalışmak için gereklidir.

Bu kütüphaneler, veri bilimi ve makine öğrenimi projelerinde sıkça kullanılan temel araçlardır. Çoklu doğrusal regresyon gibi istatistiksel analizler için veri hazırlama, işleme ve sonuçları görselleştirme aşamalarında önemli rol oynarlar.


In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset
# Veri Setinin İçe Aktarılması

Bu bölümde, çoklu doğrusal regresyon analizi için kullanacağımız veri setini yüklüyoruz ve gerekli değişkenleri oluşturuyoruz:

1. **Veri Setinin Okunması**:
   - `pd.read_csv('50_Startups.csv')` komutu ile '50_Startups.csv' dosyasını okuyoruz.
   - Bu, 50 farklı startup şirketine ait verileri içeren bir CSV dosyasıdır.

2. **Bağımsız Değişkenlerin (X) Oluşturulması**:
   - `dataset.iloc[:, :-1].values` komutu ile veri setindeki tüm sütunları (son sütun hariç) seçiyoruz.
   - Bu, startup'ların özelliklerini (örneğin, Ar-Ge harcamaları, Yönetim harcamaları, Pazarlama harcamaları, vb.) içerir

3. **Bağımlı Değişkenin (y) Oluşturulması**:
   - `dataset.iloc[:, -1].values` komutu ile veri setinin son sütununu seçiyoruz.
   - Bu genellikle tahmin etmek istediğimiz değerdir (örneğin, startup'ın kârı).

Bu adımlar, veri setimizi çoklu doğrusal regresyon modeli için uygun formata getirmemizi sağlar. X matrisi bağımsız değişkenleri, y vektörü ise bağımlı değişkeni temsil eder.

In [3]:
dataset = pd.read_csv('50_Startups.csv')  # CSV dosyasını okuyup dataset değişkenine atıyoruz
X = dataset.iloc[:, :-1].values  # Bağımsız değişkenleri X'e atıyoruz (son sütun hariç tüm sütunlar)
y = dataset.iloc[:, -1].values   # Bağımlı değişkeni y'ye atıyoruz (son sütun)

In [4]:
print(X)

[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

# One-Hot Encoding: Neden ve Nasıl Kullanılır?

One-Hot Encoding, kategorik verileri sayısal formata dönüştürmek için kullanılan önemli bir tekniktir. Bu yöntemin kullanılmasının birçok nedeni vardır:

## 1. Kategorik Verilerin Sayısallaştırılması
- Makine öğrenimi algoritmaları genellikle sayısal verilerle çalışır.
- One-Hot Encoding, kategorik verileri bu algoritmaların anlayabileceği bir formata dönüştürür.

## 2. Sıralama Olmaması
- Kategoriler arasında doğal bir sıralama yoksa (örneğin, şehir isimleri) ideal bir seçenektir.
- Her kategori eşit öneme sahip olur.

## 3. Eşit Ağırlık
- Her kategori için ayrı bir sütun oluşturulur.
- Bu, tüm kategorilere eşit ağırlık verilmesini sağlar.

## 4. Çok Boyutlu Uzayda Temsil
- Her kategori, çok boyutlu uzayda ayrı bir boyut olarak temsil edilir.
- Bu, modelin kategoriler arasındaki ilişkileri daha iyi anlamasına yardımcı olur.

## 5. Dummy Variable Trap'ten Kaçınma
- scikit-learn'in OneHotEncoder'ı otomatik olarak bir kategoriyi düşürür.
- Bu, çoklu doğrusal bağlantı sorununu önler.

## 6. Yorumlanabilirlik
- Dönüştürülmüş veriler, orijinal kategorilere kolayca geri dönüştürülebilir.
- Bu özellik, model sonuçlarının yorumlanmasını kolaylaştırır.

One-Hot Encoding, özellikle çoklu doğrusal regresyon gibi doğrusal modellerde kategorik değişkenlerin etkili bir şekilde kullanılmasını sağlar. Bu yöntem, veri bilimi ve makine öğrenimi projelerinde sıkça kullanılan temel bir tekniktir.

In [None]:
## Encoding categorical data
# Kategorik verilerin kodlanması

# Bu bölümde, 'State' sütunundaki kategorik verileri sayısal formata dönüştüreceğiz.
# One-Hot Encoding yöntemi kullanılacak, çünkü:
# 1. Kategoriler arasında doğal bir sıralama yok (örn. New York > California gibi bir durum söz konusu değil).
# 2. Bu yöntem, her kategori için ayrı bir sütun oluşturarak modelin kategoriler arasındaki farkları daha iyi anlamasını sağlar.
# 3. Dummy Variable Trap'ten kaçınmak için, scikit-learn otomatik olarak bir kategoriyi düşürür.

# Gerekli kütüphaneleri içe aktarıyoruz
from sklearn.compose import ColumnTransformer  # Sütun bazlı dönüşümler için
from sklearn.preprocessing import OneHotEncoder  # Kategorik verileri kodlamak için

# ColumnTransformer oluşturuyoruz
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
# 'encoder': dönüşümün adı
# OneHotEncoder(): kullanılacak kodlama yöntemi
# [3]: 'State' sütununun indeksi (4. sütun, 0'dan başlayarak sayıldığında 3. indeks)
# remainder='passthrough': diğer sütunları olduğu gibi bırakır

# Dönüşümü uygulayıp sonucu numpy dizisine çeviriyoruz
X = np.array(ct.fit_transform(X))
# fit_transform: Hem öğrenme hem de dönüştürme işlemini aynı anda yapar
# np.array: Sonucu numpy dizisine çevirir, bu sayede daha hızlı işlemler yapılabilir


In [7]:
print(X)  # Dönüştürülmüş X matrisini yazdırıyoruz

[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]
 [0.0 1.0 0.0 142107.34 91391.77 366168.42]
 [0.0 0.0 1.0 131876.9 99814.71 362861.36]
 [1.0 0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 1.0 0.0 130298.13 145530.06 323876.68]
 [0.0 0.0 1.0 120542.52 148718.95 311613.29]
 [1.0 0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 1.0 0.0 101913.08 110594.11 229160.95]
 [1.0 0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 1.0 0.0 93863.75 127320.38 249839.44]
 [1.0 0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 1.0 0.0 119943.24 156547.42 256512.92]
 [0.0 0.0 1.0 114523.61 122616.84 261776.23]
 [1.0 0.0 0.0 78013.11 121597.55 264346.06]
 [0.0 0.0 1.0 94657.16 145077.58 282574.31]
 [0.0 1.0 0.0 91749.16 114175.79 294919.57]
 [0.0 0.0 1.0 86419.7 153514.11 0.0]
 [1.0 0.0 0.0 76253.86 113867.3 298664.47]
 [0.0 0.0 1.0 78389.47 153773.43 299737.29]
 [0.0 1.0 0.0 73994.56 122782.75 3

## Splitting the dataset into the Training set and Test set

In [11]:
# Veri Setinin Eğitim ve Test Setlerine Bölünmesi

# Gerekli kütüphaneyi içe aktarıyoruz
from sklearn.model_selection import train_test_split

# Veri setini eğitim ve test setlerine bölüyoruz
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Açıklamalar:
# - X_train: Eğitim seti için bağımsız değişkenler
# - X_test: Test seti için bağımsız değişkenler
# - y_train: Eğitim seti için bağımlı değişken
# - y_test: Test seti için bağımlı değişken
# - test_size=0.2: Veri setinin %20'si test seti olarak ayrılır
# - random_state=0: Sonuçların tekrarlanabilir olması için sabit bir rastgele durum belirlenir

# Bu bölme işlemi, modelimizin performansını doğru bir şekilde değerlendirmemizi sağlar:
# 1. Eğitim seti (X_train, y_train): Modeli eğitmek için kullanılır
# 2. Test seti (X_test, y_test): Eğitilmiş modelin performansını değerlendirmek için kullanılır

# Not: Veri setinin bölünmesi, modelin genelleme yeteneğini test etmek ve aşırı uyumu (overfitting) önlemek için önemlidir.

## Training the Multiple Linear Regression model on the Training set

In [12]:
# Gerekli kütüphaneyi içe aktarıyoruz
from sklearn.linear_model import LinearRegression # Doğrusal regresyon modeli

# Regresyon modelini oluşturuyoruz
# LinearRegression() sınıfı, çoklu doğrusal regresyon için kullanılır
# Varsayılan parametreler genellikle yeterlidir, bu yüzden ek argüman kullanmıyoruz
regressor = LinearRegression()

# Modeli eğitim seti üzerinde eğitiyoruz
# fit() metodu, modeli verilen eğitim verileri üzerinde eğitir
# X_train: Bağımsız değişkenler (özellikler) matrisi
# y_train: Bağımlı değişken (hedef) vektörü
# Bu işlem, en küçük kareler yöntemi kullanarak regresyon katsayılarını hesaplar
regressor.fit(X_train, y_train)

# Eğitim tamamlandıktan sonra, regressor nesnesi şunları içerir:
# - coef_: Her bir özellik için hesaplanan regresyon katsayıları
# - intercept_: Regresyon denkleminin sabit terimi (y-kesişimi)
# - score(): R-kare (R²) değerini hesaplamak için kullanılabilecek bir metot

# Not: fit() metodu, modeli eğitirken aynı zamanda veri setindeki ilişkileri de öğrenir
# Bu sayede, daha sonra predict() metodu ile yeni veriler üzerinde tahminler yapabiliriz

## Predicting the Test set results

In [13]:
# Test seti üzerinde tahminler yapıyoruz
y_pred = regressor.predict(X_test)

# NumPy'ın yazdırma seçeneklerini ayarlıyoruz
# precision=2: Ondalık sayıları virgülden sonra 2 basamak gösterir
np.set_printoptions(precision=2)

# Tahmin edilen ve gerçek değerleri yan yana yazdırıyoruz
print(np.concatenate(
    (
        # y_pred.reshape(len(y_pred), 1):
        # - reshape() fonksiyonu, bir diziyi yeniden boyutlandırır.
        # - len(y_pred): y_pred dizisinin uzunluğunu verir (örnek sayısı).
        # - 1: Her örnek için bir sütun oluşturur.
        # - Sonuç: (n, 1) şeklinde bir dizi oluşturur, burada n örnek sayısıdır.
        # - Neden kullanıyoruz? Tahminleri dikey bir vektör haline getirmek için.
        y_pred.reshape(len(y_pred), 1),

        # y_test.reshape(len(y_test), 1):
        # - Aynı işlemi gerçek test değerleri için yapıyoruz.
        # - Gerçek değerleri de dikey bir vektör haline getiriyoruz.
        y_test.reshape(len(y_test), 1)
    ),
    # axis=1:
    # - Birleştirme işlemini sütunlar boyunca yapar (yatay birleştirme).
    # - Neden kullanıyoruz? Tahmin edilen ve gerçek değerleri yan yana göstermek için.
    axis=1
))

# np.concatenate():
# - İki veya daha fazla diziyi birleştirir.
# - Burada, tahmin edilen değerler ve gerçek değerleri içeren iki diziyi birleştiriyoruz.

# - Sonuç: Her satırda bir örnek için tahmin edilen değer ve gerçek değer yan yana gösterilir.

# Bu kod parçası, model performansını hızlıca değerlendirmemizi sağlar.
# Tahmin edilen ve gerçek değerleri yan yana görerek, modelin ne kadar doğru tahminler yaptığını kolayca anlayabiliriz.

[[126362.88 134307.35]
 [ 84608.45  81005.76]
 [ 99677.49  99937.59]
 [ 46357.46  64926.08]
 [128750.48 125370.37]
 [ 50912.42  35673.41]
 [109741.35 105733.54]
 [100643.24 107404.34]
 [ 97599.28  97427.84]
 [113097.43 122776.86]]


# Multiple Linear Regression Analysis: Summary and Learning Notes (Çoklu Doğrusal Regresyon Analizi: Özet ve Öğrenme Notları)

Bu projede, çoklu doğrusal regresyon modelini kullanarak 50 startup şirketinin verilerini analiz ettik. İşte öğrendiğimiz önemli noktalar ve projenin ana hatları:

## 1. Data Preparation and Preprocessing (Veri Hazırlama ve Ön İşleme)
- CSV dosyasından veri okumayı öğrendik (pandas kullanarak).
- Bağımlı ve bağımsız değişenleri ayırmayı gördük.
- Kategorik verileri One-Hot Encoding ile sayısallaştırdık.
  - One-Hot Encoding'in önemini ve neden kullanıldığını anladık.

## 2. Splitting the Dataset (Veri Setinin Bölünmesi)
- Veri setini eğitim ve test setlerine ayırmayı öğrendik.
- Bu bölünmenin neden önemli olduğunu anladık (overfitting'i önlemek için).

## 3. Model Training (Model Eğitimi)
- LinearRegression sınıfını kullanarak çoklu doğrusal regresyon modelini oluşturduk.
- fit() metoduyla modeli eğitmeyi öğrendik.

## 4. Prediction and Evaluation (Tahmin ve Değerlendirme)
- predict() metoduyla test seti üzerinde tahminler yaptık.
- Tahmin edilen ve gerçek değerleri karşılaştırmayı öğrendik.

## 5. Key Concepts (Önemli Kavramlar)
- Bağımlı ve bağımsız değişenler
- Kategorik ve sayısal veriler
- One-Hot Encoding
- Eğitim ve test setleri
- Overfitting ve underfitting

## 6. Libraries Used (Kullanılan Kütüphaneler)
- numpy: Sayısal işlemler için
- pandas: Veri manipülasyonu için
- sklearn: Makine öğrenimi modelleri ve veri ön işleme için

## 7. Assumptions of Multiple Linear Regression (Çoklu Doğrusal Regresyonun Varsayımları)
- Doğrusallık (Linearity)
- Homojenlik (Homoscedasticity)
- Normallik (Normality)
- Bağımsızlık (Independence)
- Çoklu doğrusal bağlantı olmaması (Lack of Multicollinearity)

## 8. Practical Applications (Pratik Uygulamalar)
- Startup şirketlerinin performansını tahmin etme
- Farklı faktörlerin şirket başarısına etkisini anlama

## 9. Advanced Topics (İleri Seviye Konular)
- Model performansını artırma yöntemleri
- Farklı regresyon teknikleri ile karşılaştırma

Bu proje, temel makine öğrenimi kavramlarını ve çoklu doğrusal regresyon modelinin nasıl uygulanacağını pratik bir şekilde öğrenmemizi sağladı. Veri bilimi sürecinin temel adımlarını (veri hazırlama, model eğitimi, tahmin ve değerlendirme) uygulamalı olarak gördük.