# Random Forests Algoritması

### Random Forest Regresyon, birçok karar ağacının bir araya gelerek oluşturduğu bir ensemble (kombinasyon) yöntemidir. Ensemble yöntemleri, birden fazla öğrenme modelinin birleştirilerek daha güçlü ve daha istikrarlı bir model oluşturulmasını sağlar.

## Random Forest Regresyon'un temel çalışma prensibi şu şekildedir:

### Veri kümesi rastgele örneklemlerle alt kümeler (bootstrap örnekleme) olarak seçilir. Bu, veri kümesindeki gözlemlerden rastgele seçimler yaparak farklı alt kümeler oluşturulmasını sağlar. 

### Her alt küme için bir karar ağacı oluşturulur. Karar ağacı, veri seti üzerinde bir dizi test sorusu sorarak veriyi bölen ve sonunda tahmin yapabilen bir ağaç yapısıdır.

### Karar ağaçlarının oluşturulmasında, her düğümde veri setinin bir alt kümesi rastgele seçilen özellikler üzerinde test edilir. Bu özellikler rastgele bir şekilde seçilir ve en iyi bölünme noktası seçilir.

### Karar ağaçları, yaprak düğümlerinde tahmin yapmak için kullanılan sayısal bir değerle sonlanır. Bu değer, yaprak düğümüne dahil olan veri noktalarının hedef değişkeninin ortalamasıdır.

### Tahmin yaparken, tüm karar ağaçlarının tahminleri alınır ve genellikle bu tahminlerin ortalaması kullanılarak final tahmin değeri elde edilir.


## Random Forest Regresyon'un sağladığı birçok avantaj vardır:

### Robustluk: Birden fazla karar ağacının birleştirilmesi, tek bir karar ağacının hatalarının ortadan kalkmasını sağlar. Bu, modelin daha dengeli ve güvenilir tahminler yapmasını sağlar.

### Özellik Seçimi: Karar ağaçlarının oluşturulmasında rastgele özelliklerin seçilmesi, modelin genellemesini ve aşırı uyumunu (overfitting) azaltır. Bu, veri bilimcisinin tüm özellikleri dikkate almadan önemli olanları belirlemesini sağlar.

### Eksik Veri Yönetimi: Random Forest Regresyon, eksik veriye sahip veri kümeleriyle iyi başa çıkabilir. Eksik veriye sahip özelliklerin kullanılmasıyla, tahmin yapma yeteneği korunur.

### Outlier (aykırı değer) Toleransı: Random Forest Regresyon, tek bir ağaçtan daha fazla karar ağacı kullanarak daha iyi bir aykırı değer toleransı sağlar. Bu, modelin dışsal gürültüye daha dirençli olmasını sağlar.


## Random Forest Regresyon'u kullanırken dikkate almamız gereken bazı detaylar vardır:

### Karar ağaçlarının sayısı: Random Forest Regresyon'da kullanılacak karar ağacı sayısı, bir hiperparametre olarak belirlenir. Daha fazla ağaç, daha iyi bir genelleme sağlayabilir, ancak daha yüksek hesaplama maliyeti gerektirir.

### Hiperparametre ayarlaması: Random Forest Regresyon'un performansını optimize etmek için hiperparametrelerin ayarlanması önemlidir. Karar ağacı sayısı, derinlik, bölünme kriterleri gibi parametrelerin seçimi, modelin performansını etkileyebilir.

### Özellik Önemi: RandomForest Regresyon, özelliklerin ölçeğine karşı dirençli olmasına rağmen, bazı durumlarda veri ölçeklendirme işlemi gerekebilir. Özelliklerin aynı ölçekte olması, modelin daha iyi performans göstermesini sağlayabilir.

In [1]:
from sklearn.ensemble import RandomForestRegressor

In [2]:
model = RandomForestRegressor()
model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'squared_error',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

# Parametreler Hakkında

### n_estimators:
#### İşlevi: Oluşturulacak karar ağacı sayısını belirler.
#### Varsayılan değer: 100
#### Genellikle daha yüksek bir değer, daha iyi bir genelleme performansı sağlayabilir, ancak hesaplama maliyeti artar.


### criterion:
#### İşlevi: Bölünme kalitesini ölçmek için kullanılan kriteri belirler.
#### Varsayılan değer: 'mse' (ortalama karesel hata)
#### Diğer seçenekler: 'mae' (ortalama mutlak hata)
#### 'mse' genellikle regresyon problemleri için daha yaygın kullanılır.


### max_depth:
#### İşlevi: Karar ağaçlarının maksimum derinliğini belirler.
#### Varsayılan Değer: None (Derinlik sınırlaması yok)
#### Derinliği sınırlamak, modelin aşırı uyuma (overfitting) eğilimini azaltabilir.


### min_samples_split:
#### İşlevi: Bir iç düğümün bölünmesi için gereken minimum örnek sayısını belirler.
#### Varsayılan değer: 2
#### Daha yüksek bir değer, modelin daha genel kararlar vermesini sağlayabilir.


### min_samples_leaf:
#### İşlevi: Bir yaprak düğümünün oluşması için gereken minimum örnek sayısını belirler.
#### Varsayılan değer: 1
#### Daha yüksek bir değer, modelin daha basit bir yapıya sahip olmasını sağlayabilir.


### max_features:
#### İşlevi: Her ağaçta kullanılacak maksimum özellik sayısını belirler.
#### Varsayılan değer: auto (sqrt(n_features))
#### Diğer seçenekler: 'sqrt', 'log2', None veya sayısal değerler
#### Özellik seçiminin rastgelelik derecesini kontrol eder.


### random_state:
#### İşlevi: Tekrarlanabilir sonuçlar elde etmek için kullanılan bir tohum değeridir.
#### Varsayılan değer: None
#### Belirli bir değer atanması, her çalıştırmada aynı sonuçları elde etmemizi sağlar.