## Regresyona Giriş - Ders 1

#### Perspektif Kazanma

✅ Regresyon yöntemlerinin birçok türü vardır ve hangisini seçeceğiniz, aradığınız cevaba bağlıdır. Örneğin, belirli bir yaşta bir kişinin muhtemel boyunu tahmin etmek istiyorsanız, **sayısal bir değer** aradığınız için `doğrusal regresyon` kullanırsınız. Eğer bir mutfak türünün vegan olarak kabul edilip edilmemesi gerektiğini keşfetmek istiyorsanız, **kategori ataması** arıyorsunuz demektir ve bu durumda `lojistik regresyon` kullanırsınız. Lojistik regresyon hakkında daha fazla bilgi edineceksiniz. Verilere sorabileceğiniz bazı soruları düşünün ve bu yöntemlerden hangisinin daha uygun olacağını değerlendirin.

Bu bölümde, [diyabet hakkında küçük bir veri seti](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) ile çalışacaksınız. Diyabet hastaları için bir tedaviyi test etmek istediğinizi hayal edin. Makine Öğrenimi modelleri, değişkenlerin kombinasyonlarına dayanarak hangi hastaların tedaviye daha iyi yanıt vereceğini belirlemenize yardımcı olabilir. Görselleştirildiğinde, çok basit bir regresyon modeli bile teorik klinik deneylerinizi organize etmenize yardımcı olacak değişkenler hakkında bilgi gösterebilir.

Öyleyse, bu göreve başlayalım!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>@allison_horst tarafından yapılmış sanat eseri</figcaption>

<!--![@allison_horst tarafından yapılmış sanat eseri](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>@allison_horst tarafından yapılmış sanat eseri-->


## 1. Araç setimizi yükleme

Bu görev için aşağıdaki paketlere ihtiyacımız olacak:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/), veri bilimini daha hızlı, kolay ve eğlenceli hale getirmek için tasarlanmış bir [R paketleri koleksiyonudur](https://www.tidyverse.org/packages).

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) çerçevesi, modelleme ve makine öğrenimi için bir [paketler koleksiyonudur](https://www.tidymodels.org/packages).

Bu paketleri şu şekilde yükleyebilirsiniz:

`install.packages(c("tidyverse", "tidymodels"))`

Aşağıdaki script, bu modülü tamamlamak için gerekli paketlere sahip olup olmadığınızı kontrol eder ve eksik olanları sizin için yükler.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



Şimdi, bu harika paketleri yükleyelim ve mevcut R oturumumuzda kullanılabilir hale getirelim. (Bu sadece bir örnek için, `pacman::p_load()` bunu zaten sizin için yaptı)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diyabet veri seti

Bu alıştırmada, diyabet veri seti üzerinde tahminler yaparak regresyon becerilerimizi sergileyeceğiz. [Diyabet veri seti](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt), diyabetle ilgili `442 örnek` veri içerir ve 10 tahmin edici özellik değişkeni, `yaş`, `cinsiyet`, `vücut kitle indeksi`, `ortalama kan basıncı` ve `altı kan serumu ölçümü` ile bir sonuç değişkeni `y`: başlangıçtan bir yıl sonra hastalık ilerlemesinin nicel bir ölçüsünü içerir.

|Gözlem Sayısı|442|
|----------------------|:---|
|Tahmin Edici Sayısı|İlk 10 sütun sayısal tahmin edici|
|Sonuç/Hedef|11. sütun başlangıçtan bir yıl sonra hastalık ilerlemesinin nicel bir ölçüsüdür|
|Tahmin Edici Bilgileri|- yaş (yıl olarak)
||- cinsiyet
||- bmi vücut kitle indeksi
||- bp ortalama kan basıncı
||- s1 tc, toplam serum kolesterol
||- s2 ldl, düşük yoğunluklu lipoproteinler
||- s3 hdl, yüksek yoğunluklu lipoproteinler
||- s4 tch, toplam kolesterol / HDL
||- s5 ltg, muhtemelen serum trigliserit seviyesinin logaritması
||- s6 glu, kan şekeri seviyesi|


> 🎓 Unutmayın, bu denetimli öğrenmedir ve adlandırılmış bir 'y' hedefine ihtiyacımız var.

R ile veri üzerinde işlem yapmadan önce, veriyi R'nin belleğine aktarmanız veya R'nin veriye uzaktan erişebilmesi için bir bağlantı oluşturmanız gerekir.

> [readr](https://readr.tidyverse.org/) paketi, Tidyverse'in bir parçası olup, dikdörtgen verileri R'ye hızlı ve kullanıcı dostu bir şekilde aktarmanın bir yolunu sunar.

Şimdi, bu kaynak URL'de sağlanan diyabet veri setini yükleyelim: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Ayrıca, verilerimiz üzerinde bir kontrol yapacağız ve `glimpse()` kullanarak veri yapısını inceleyeceğiz, ardından `slice()` ile ilk 5 satırı görüntüleyeceğiz.

Daha ileri gitmeden önce, R kodunda sıkça karşılaşacağınız bir şeyi tanıtalım 🥁🥁: pipe operatörü `%>%`

Pipe operatörü (`%>%`), bir nesneyi mantıksal bir sırayla bir fonksiyona veya çağrı ifadesine ileterek işlemleri gerçekleştirir. Pipe operatörünü kodunuzda "ve sonra" demek gibi düşünebilirsiniz.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` bize bu verinin 442 satır ve 11 sütundan oluştuğunu, tüm sütunların veri türünün `double` olduğunu gösteriyor.

<br>

> glimpse() ve slice(), [`dplyr`](https://dplyr.tidyverse.org/) paketindeki fonksiyonlardır. Dplyr, Tidyverse'in bir parçası olup, veri manipülasyonu için bir dil sunar ve en yaygın veri manipülasyonu zorluklarını çözmenize yardımcı olan tutarlı bir dizi fiil sağlar.

<br>

Artık elimizde veri olduğuna göre, bu alıştırma için bir özelliği (`bmi`) hedef alarak daraltalım. Bunun için istediğimiz sütunları seçmemiz gerekecek. Peki bunu nasıl yaparız?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html), bir veri çerçevesindeki sütunları *seçmemize* (ve isteğe bağlı olarak yeniden adlandırmamıza) olanak tanır.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Eğitim ve Test Verileri

Denetimli öğrenmede, verileri iki alt kümeye *bölmek* yaygın bir uygulamadır; modelin eğitilmesi için kullanılan (genellikle daha büyük) bir küme ve modelin performansını görmek için kullanılan daha küçük bir "ayrılmış" küme.

Artık veriler hazır olduğuna göre, bu veri kümesindeki sayılar arasında mantıklı bir ayrım yapıp yapamayacağını görmek için bir makineye başvurabiliriz. Verileri nasıl böleceğimize dair bilgileri içeren bir nesne oluşturmak için Tidymodels çerçevesinin bir parçası olan [rsample](https://tidymodels.github.io/rsample/) paketini kullanabiliriz. Daha sonra oluşturulan eğitim ve test kümelerini çıkarmak için iki rsample fonksiyonunu kullanabiliriz:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Tidymodels ile bir doğrusal regresyon modeli eğitmek

Artık modelimizi eğitmeye hazırız!

Tidymodels'de modelleri `parsnip()` kullanarak üç kavramı belirterek tanımlarsınız:

-   Model **türü**, doğrusal regresyon, lojistik regresyon, karar ağacı modelleri gibi modelleri birbirinden ayırır.

-   Model **modu**, regresyon ve sınıflandırma gibi yaygın seçenekleri içerir; bazı model türleri her iki modu desteklerken bazıları yalnızca bir moda sahiptir.

-   Model **motoru**, modeli eğitmek için kullanılacak hesaplama aracıdır. Genellikle bunlar R paketleridir, örneğin **`"lm"`** veya **`"ranger"`**

Bu modelleme bilgisi bir model spesifikasyonunda tutulur, o halde bir tane oluşturalım!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Bir model *belirlendikten* sonra, model [`fit()`](https://parsnip.tidymodels.org/reference/fit.html) fonksiyonu kullanılarak genellikle bir formül ve bazı verilerle `tahmin edilebilir` veya `eğitilebilir`.

`y ~ .` ifadesi, `y`'yi tahmin edilen değer/hedef olarak, tüm tahmin ediciler/özellikler tarafından açıklanacak şekilde (yani `.`) uyarlayacağımız anlamına gelir (bu durumda yalnızca bir tahmin edicimiz var: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Model çıktısından, eğitim sırasında öğrenilen katsayıları görebiliriz. Bu katsayılar, gerçek ve tahmin edilen değişken arasındaki toplam hatayı en aza indiren en iyi uyum çizgisinin katsayılarını temsil eder.
<br>

## 5. Test seti üzerinde tahminler yapma

Artık bir model eğittiğimize göre, test veri seti için hastalık ilerlemesi y'yi [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html) kullanarak tahmin edebiliriz. Bu, veri grupları arasındaki çizgiyi çizmek için kullanılacaktır.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! 💃🕺 Bir model eğittik ve tahminler yapmak için kullandık!

Tahmin yaparken, tidymodels geleneği her zaman standartlaştırılmış sütun adlarına sahip bir tibble/veri çerçevesi üretmektir. Bu, orijinal verilerle tahminleri birleştirerek, grafik oluşturma gibi sonraki işlemler için kullanılabilir bir format oluşturmayı kolaylaştırır.

`dplyr::bind_cols()` birden fazla veri çerçevesini sütun olarak verimli bir şekilde birleştirir.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Modelleme Sonuçlarını Görselleştirme

Şimdi bunu görsel olarak inceleme zamanı 📈. Test setindeki tüm `y` ve `bmi` değerlerinin bir dağılım grafiğini oluşturacağız, ardından modelin tahminlerini kullanarak, modelin veri gruplamaları arasında en uygun yere bir çizgi çizeceğiz.

R, grafik oluşturmak için birkaç sisteme sahiptir, ancak `ggplot2` bunların en zarif ve en esnek olanlarından biridir. Bu, grafikleri **bağımsız bileşenleri birleştirerek** oluşturmanıza olanak tanır.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

✅ Burada neler olduğunu biraz düşünün. Bir doğru, birçok küçük veri noktasının içinden geçiyor, ancak tam olarak ne yapıyor? Bu doğruyu kullanarak yeni, görülmemiş bir veri noktasının grafiğin y ekseniyle olan ilişkisini nasıl tahmin edebileceğinizi görebiliyor musunuz? Bu modelin pratik kullanımını kelimelerle ifade etmeye çalışın.

Tebrikler, ilk doğrusal regresyon modelinizi oluşturdunuz, onunla bir tahmin yaptınız ve bunu bir grafikte gösterdiniz!



---

**Feragatname**:  
Bu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlama veya yanlış yorumlamalardan sorumlu değiliz.
