# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

## Kolay Sorular

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

## Orta Düzey Sorular

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

## İleri Düzey Sorular

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

## Araştırma Soruları

Aşağıdaki sorular, belirtilen konularda bahsedilmeyen ancak önemli olan yöntem ve fonksiyonları keşfetmek için tasarlanmıştır.

**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.