# Titanic Veri Seti ile Özellik Mühendisliği Ödevi


- **Veri seti**: Titanic veri seti.
- **Amaç**:
  - `Sex` sütununu veri setinden düşürmek.
  - `Name` sütunundan unvanları (`Title`, örneğin Mr, Mrs, Miss) çıkararak cinsiyet tahmini yapmak.
  - Eksik verileri doldurmak ve yeni özellikler oluşturmak.
  - Bu aşamaya kadar kullanılan kodların fonksiyonlaştırılması.
  - Tüm işlemleri fonksiyonlar halinde düzenlemek.
- **Kullanılan kütüphaneler**: `pandas`, `numpy`.


## Görevler
Aşağıdaki adımları takip ederek özellik mühendisliği yapın. Her bir görev için ayrı bir fonksiyon yazmanız gerekiyor. Fonksiyonlar, modüler ve tekrar kullanılabilir olmalıdır.

### 1. Veri Setini Yükleme
- **Görev**: Titanic veri setini bir pandas DataFrame’e yükleyin.
- **Fonksiyon**: `load_data(file_path)`
  - **Parametre**: `file_path` (dosya yolu, örneğin "train.csv")
  - **Çıktı**: Pandas DataFrame

### 2. Eksik Verileri Doldurma
- **Görev**: `Age` ve `Embarked` sütunlarındaki eksik verileri doldurun.
  - `Age`: Ortalama yaş ile doldurun.
  - `Embarked`: En sık kullanılan liman ile doldurun.
- **Fonksiyon**: `fill_missing_values(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: Eksik verileri doldurulmuş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 3. Sex Sütununu Düşürme
- **Görev**: `Sex` sütununu veri setinden kaldırın.
- **Fonksiyon**: `drop_sex_column(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `Sex` sütunu kaldırılmış DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 4. Unvan Çıkarımı (Title Extraction)
- **Görev**: `Name` sütunundan unvanları (`Mr`, `Mrs`, `Miss`, `Master` vb.) çıkarın ve yeni bir `Title` sütunu oluşturun.
- **Fonksiyon**: `extract_title(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `Title` sütunu eklenmiş DataFrame
  - **Not**: Unvanları düzenli ifadeler (regex) kullanarak çıkarın. Örneğin, "Mr." veya "Mrs." gibi ifadeleri arayın.

### 5. Cinsiyet Tahmini
- **Görev**: `Title` sütununa dayalı olarak cinsiyet tahmini yapın ve yeni bir `EstimatedSex` sütunu oluşturun.
  - Örneğin: `Mr`, `Master` → `male`; `Mrs`, `Miss` → `female`; diğer unvanlar için en yaygın cinsiyeti kullanın.
- **Fonksiyon**: `estimate_sex_from_title(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `EstimatedSex` sütunu eklenmiş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 6. Yeni Özellik Oluşturma
- **Görev**: Aşağıdaki yeni özellikleri oluşturun:
  - `FamilySize`: `SibSp` + `Parch` + 1 (kendi dahil)
  - `IsAlone`: `FamilySize` 1 ise 1, değilse 0
  - `AgeGroup`: Yaşı kategorilere ayırın (örneğin, 0-12: Çocuk, 13-19: Genç, 20-59: Yetişkin, 60+: Yaşlı)
- **Fonksiyon**: `create_new_features(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: Yeni özellikler eklenmiş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 7. Tüm İşlemleri Birleştirme
- **Görev**: Yukarıdaki tüm işlemleri sırayla uygulayan bir ana fonksiyon yazın.
- **Fonksiyon**: `process_titanic_data(file_path)`
  - **Parametre**: `file_path`
  - **Çıktı**: İşlenmiş DataFrame
  - **Not**: Tüm fonksiyonları sırayla çağırarak veri setini tamamen işleyin.

In [21]:
import pandas as pd
import os

def load_data(file_path):
    if not file_path.startswith("https") and not os.path.exists(file_path):
        raise FileNotFoundError(f"{file_path} bulunamadı.")

    df = pd.read_csv(file_path)
    return df

#pass, sadece boş fonksiyon veya yapı yer tutucu olarak kullanılıyormuş. bu sebeple kaldırdım

In [22]:
df = load_data("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [23]:
df.isnull().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,177
SibSp,0
Parch,0
Ticket,0
Fare,0


In [24]:
# 2. Eksik Verileri Doldurma
def fill_missing_values(df):
  df_copy = df.copy()
  df_copy['Age'].fillna(df_copy['Age'].mean(), inplace=True)
  df_copy['Embarked'].fillna(df_copy['Embarked'].mode()[0], inplace=True)

  return df_copy



In [25]:
df_filled = fill_missing_values(df)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copy['Age'].fillna(df_copy['Age'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copy['Embarked'].fillna(df_copy['Embarked'].mode()[0], inplace=True)


In [26]:
# 3. Sex Sütununu Düşürme
def drop_sex_column(df):
    df_copy = df.copy()
    df_copy.drop("Sex", axis=1, inplace=True)

    return df_copy



In [27]:
df_no_sex = drop_sex_column(df_filled)
df_no_sex.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S


In [28]:
# 4. Unvan Çıkarımı
def extract_title(df):
    df_copy = df.copy()
    df_copy['Title'] = df_copy['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

    return df_copy

In [29]:
df_with_title = extract_title(df_no_sex)
df_with_title.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Mrs
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Mr


Tek bir sütuna atayacaksan	expand=False

Birden fazla grup yakalıyorsan	expand=True

Sonucu birkaç sütuna böleceksen	expand=True

In [30]:
# 5. Cinsiyet Tahmini
def estimate_sex_from_title(df):
    df_copy = df.copy()
    title_to_gender = {
        "Mr." : "male",
        "Master" : "male",
        "Mrs" : "female",
        "Miss" : "female"
    }
    df_copy["EstimatedSex"] = df_copy["Title"].map(title_to_gender)
    df_copy["EstimatedSex"].fillna(df_copy["EstimatedSex"].mode()[0], inplace=True)

    return df_copy



In [31]:
df_estimated = estimate_sex_from_title(df_with_title)
df_estimated.head(10)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copy["EstimatedSex"].fillna(df_copy["EstimatedSex"].mode()[0], inplace=True)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,EstimatedSex
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Mr,female
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Mrs,female
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Miss,female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Mrs,female
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Mr,female
5,6,0,3,"Moran, Mr. James",29.699118,0,0,330877,8.4583,,Q,Mr,female
6,7,0,1,"McCarthy, Mr. Timothy J",54.0,0,0,17463,51.8625,E46,S,Mr,female
7,8,0,3,"Palsson, Master. Gosta Leonard",2.0,3,1,349909,21.075,,S,Master,male
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",27.0,0,2,347742,11.1333,,S,Mrs,female
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",14.0,1,0,237736,30.0708,,C,Mrs,female


In [32]:
df_estimated["EstimatedSex"].value_counts(normalize=True) # kadın sonucu gözüme çok fazla geldiği için dağılımını kontrol ettim

Unnamed: 0_level_0,proportion
EstimatedSex,Unnamed: 1_level_1
female,0.955107
male,0.044893


In [33]:
# 6. Yeni Özellik Oluşturma
def create_new_features(df):
    df_copy = df.copy()
    df_copy['FamilySize'] = df_copy['SibSp'] + df_copy['Parch'] + 1
    df_copy['IsAlone'] = (df_copy['FamilySize'] == 1).astype(int)
    df_copy['AgeGroup'] = pd.cut(df_copy['Age'], bins= 4, labels=["Çocuk", "Genç", "Yetişkin", "Yaşlı"] )


    return df_copy



In [34]:
df_final = create_new_features(df_estimated)
df_final.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,EstimatedSex,FamilySize,IsAlone,AgeGroup
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Mr,female,2,0,Genç
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Mrs,female,2,0,Genç
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Miss,female,1,1,Genç
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Mrs,female,2,0,Genç
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Mr,female,1,1,Genç


In [36]:
# 7. Tüm İşlemleri Birleştirme
def process_titanic_data(file_path):
 df = load_data("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
 df = fill_missing_values(df)
 df = drop_sex_column(df)
 df = extract_title(df)
 df = estimate_sex_from_title(df)
 df = create_new_features(df)


- Pipeline süreçleri oluşturun ve ColumnsTransformer kullanın.

- Kendi Fonksiyonlarınızı Pipeline ile kulanmaya çalışın.
- Fonksiyonlarınızı yazarken, her zaman DataFrame’in bir kopyasını döndürerek orijinal veriyi korumaya özen gösterin.
- `EstimatedSex` için unvanların cinsiyetle ilişkisini belirlerken, yaygın unvanlar (`Mr`, `Mrs`, `Miss`, `Master`) için sabit kurallar kullanabilirsiniz. Nadir unvanlar için varsayılan bir cinsiyet atayabilirsiniz (örneğin, `male`).


Başarılar!

💡 FunctionTransformer Nedir?
FunctionTransformer, sklearn dışı (custom) fonksiyonları Pipeline içinde kullanmamızı sağlayan bir araçtır. İçine bir fonksiyon verirsin, o fonksiyon veriyi işler ve sıradaki adıma gönderilir.

In [38]:
# Pipeline oluşturmak için FunctionTransformer kullanarak sklearn dışı fonksiyonları dönüştürmem gerekiyormuş.
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer


In [39]:
fill_missing_transformer = FunctionTransformer(lambda X: fill_missing_values(X.copy()))
extract_title_transformer = FunctionTransformer(lambda X: extract_title(X.copy()))
drop_sex_transformer = FunctionTransformer(lambda X: drop_sex_column(X.copy()))
estimate_sex_transformer = FunctionTransformer(lambda X: estimate_sex_from_title(X.copy()))
create_features_transformer = FunctionTransformer(lambda X: create_new_features(X.copy()))

# buradaki mantık şu, kendi yazdığımız fonksiyonu sarmalıyoruz. kendi fonksiyonumuzu parametre olarak alan yeni  bir fonksiyon yazıp bu yeni fonksiyonu da FunctionTransformer içinde kullanıyoruz.

In [None]:
preprocess_pipeline = Pipeline(steps=[
    ('fill_missing', fill_missing_transformer),
    ('extract_title', extract_title_transformer),
    ('drop_sex', drop_sex_transformer),
    ('estimate_sex', estimate_sex_transformer),
    ('create_features', create_features_transformer)
])

In [None]:
# Kullanım Örneği

def load_data(file_path):
    if not file_path.startswith("https") and not os.path.exists(file_path):
        raise FileNotFoundError(f"{file_path} bulunamadı.")
    df = pd.read_csv(file_path)
    return df

file_path = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = load_data(file_path)
processed_df = preprocess_pipeline.fit_transform(df)  # buradaki fit_transform ile ilgili not yazıcam

print(processed_df.head())


Yapay zekaya bu noktada neden fit_transform kullandığımızı sordum kafam karışmıştı. Cevabı şöyle oldu:

Senin FunctionTransformer'larda aslında “öğrenilecek” bir şey yok. Sadece dönüşüm (transform) yapıyorsun. Ama Pipeline içinde olunca fit_transform() kullanmak gerekiyor, çünkü bu yapı otomatik olarak önce fit, sonra transform çağırıyor.



processed_df = preprocess_pipeline.fit_transform(df)



➡ fit hiçbir şey “öğrenmiyor”
➡ Ama scikit-learn prosedür gereği çağırıyor
➡ Sonra transform() ile işlemler uygulanıyor


Senin kullandığın özel FunctionTransformer yapılarında aslında yalnızca transform işlevi önemlidir. Ama Pipeline içinde fit_transform() çağrılır çünkü yapı bunu bekler.
