# UNDERFITTING

- **Açıklama:** Underfitting, bir makine öğrenimi modelinin veri setini yeterince iyi öğrenemediği durumu ifade eder. Model, eğitim verilerine uygun bir şekilde uyum sağlayamaz ve dolayısıyla eğitim verileri üzerinde düşük performans gösterir.
- **Özellikler:**
  - Model, eğitim verilerine uygun bir şekilde uyum sağlayamaz.
  - Model, basit veya düşük karmaşıklığa sahiptir.
  - Eğitim ve test hataları yüksektir.
- **Not:** Underfitting, modelin aşırı basitleştirildiği ve verilerdeki örüntüleri tam olarak yakalayamadığı durumda ortaya çıkar.

# OVERFITTING

- **Açıklama:** Overfitting, bir makine öğrenimi modelinin eğitim verilerine aşırı uyum sağladığı ve genelleme yapma yeteneğini kaybettiği durumu ifade eder.
- **Özellikler:**
  - Model, eğitim verilerine aşırı uyum sağlar.
  - Model, eğitim verileri üzerinde düşük hata verirken, test verileri üzerinde yüksek hata verir.
  - Model, çok karmaşık veya çok fazla özellik içerebilir.
- **Not:** Overfitting, modelin eğitim verilerindeki gürültüyü veya rastgele örüntüleri öğrenmesi durumunda ortaya çıkar.

# BALANCED FITTING

- **Açıklama:** Balanced fitting, bir makine öğrenimi modelinin hem eğitim verilerine hem de genelleme yapma yeteneğine uygun bir şekilde uyum sağladığı ideal durumu ifade eder.
- **Özellikler:**
  - Model, eğitim verilerine uygun bir şekilde uyum sağlar ve genelleme yapma yeteneğini korur.
  - Eğitim ve test hataları dengeli ve kabul edilebilir düzeydedir.
  - Model, verilerdeki örüntüleri doğru bir şekilde yakalar ve genelleme yapar.
- **Not:** Balanced fitting, modelin karmaşıklığının veri setinin karmaşıklığına uygun şekilde ayarlandığı durumda ortaya çıkar.


In [15]:
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

seaborn kütüphanesi veri görselleştirme işine yarar.

In [10]:
df = sns.load_dataset('diamonds')

In [11]:
df.head(3)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31


Şimdi burada, elmasların fiyatlarını tahmin eden bir model oluşturmaya çalışacağız.

İlk olarak kategorisel verileri nümerik verilere dönüştürelim.

In [12]:
df = pd.get_dummies(df, columns = ['cut', 'color', 'clarity'], drop_first=True)

In [13]:
df.head(3)

Unnamed: 0,carat,depth,table,price,x,y,z,cut_Premium,cut_Very Good,cut_Good,...,color_H,color_I,color_J,clarity_VVS1,clarity_VVS2,clarity_VS1,clarity_VS2,clarity_SI1,clarity_SI2,clarity_I1
0,0.23,61.5,55.0,326,3.95,3.98,2.43,0,0,0,...,0,0,0,0,0,0,0,0,1,0
1,0.21,59.8,61.0,326,3.89,3.84,2.31,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0.23,56.9,65.0,327,4.05,4.07,2.31,0,0,1,...,0,0,0,0,0,1,0,0,0,0


In [14]:
y = df[['price']]
x = df.drop('price', axis=1)

In [16]:
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=10, train_size=0.8)

In [17]:
lm = LinearRegression()
model = lm.fit(x_train, y_train)

In [18]:
model.score(x_test, y_test)

0.9204184209338033

In [19]:
model.score(x_train, y_train)

0.9195499547473205

Bu bir **underfitting değildir**. Aradaki fark fazla değil.
Aradaki fark ne kadar az ise o kadar **uyumlu(balanced)** olur.

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 24 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   carat          53940 non-null  float64
 1   depth          53940 non-null  float64
 2   table          53940 non-null  float64
 3   price          53940 non-null  int64  
 4   x              53940 non-null  float64
 5   y              53940 non-null  float64
 6   z              53940 non-null  float64
 7   cut_Premium    53940 non-null  uint8  
 8   cut_Very Good  53940 non-null  uint8  
 9   cut_Good       53940 non-null  uint8  
 10  cut_Fair       53940 non-null  uint8  
 11  color_E        53940 non-null  uint8  
 12  color_F        53940 non-null  uint8  
 13  color_G        53940 non-null  uint8  
 14  color_H        53940 non-null  uint8  
 15  color_I        53940 non-null  uint8  
 16  color_J        53940 non-null  uint8  
 17  clarity_VVS1   53940 non-null  uint8  
 18  clarit