# Titanic Veri Seti ile Özellik Mühendisliği Ödevi


- **Veri seti**: Titanic veri seti.
- **Amaç**:
  - `Sex` sütununu veri setinden düşürmek.
  - `Name` sütunundan unvanları (`Title`, örneğin Mr, Mrs, Miss) çıkararak cinsiyet tahmini yapmak.
  - Eksik verileri doldurmak ve yeni özellikler oluşturmak.
  - Bu aşamaya kadar kullanılan kodların fonksiyonlaştırılması.
  - Tüm işlemleri fonksiyonlar halinde düzenlemek.
- **Kullanılan kütüphaneler**: `pandas`, `numpy`.


## Görevler
Aşağıdaki adımları takip ederek özellik mühendisliği yapın. Her bir görev için ayrı bir fonksiyon yazmanız gerekiyor. Fonksiyonlar, modüler ve tekrar kullanılabilir olmalıdır.

### 1. Veri Setini Yükleme
- **Görev**: Titanic veri setini bir pandas DataFrame’e yükleyin.
- **Fonksiyon**: `load_data(file_path)`
  - **Parametre**: `file_path` (dosya yolu, örneğin "train.csv")
  - **Çıktı**: Pandas DataFrame

### 2. Eksik Verileri Doldurma
- **Görev**: `Age` ve `Embarked` sütunlarındaki eksik verileri doldurun.
  - `Age`: Ortalama yaş ile doldurun.
  - `Embarked`: En sık kullanılan liman ile doldurun.
- **Fonksiyon**: `fill_missing_values(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: Eksik verileri doldurulmuş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 3. Sex Sütununu Düşürme
- **Görev**: `Sex` sütununu veri setinden kaldırın.
- **Fonksiyon**: `drop_sex_column(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `Sex` sütunu kaldırılmış DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 4. Unvan Çıkarımı (Title Extraction)
- **Görev**: `Name` sütunundan unvanları (`Mr`, `Mrs`, `Miss`, `Master` vb.) çıkarın ve yeni bir `Title` sütunu oluşturun.
- **Fonksiyon**: `extract_title(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `Title` sütunu eklenmiş DataFrame
  - **Not**: Unvanları düzenli ifadeler (regex) kullanarak çıkarın. Örneğin, "Mr." veya "Mrs." gibi ifadeleri arayın.

### 5. Cinsiyet Tahmini
- **Görev**: `Title` sütununa dayalı olarak cinsiyet tahmini yapın ve yeni bir `EstimatedSex` sütunu oluşturun.
  - Örneğin: `Mr`, `Master` → `male`; `Mrs`, `Miss` → `female`; diğer unvanlar için en yaygın cinsiyeti kullanın.
- **Fonksiyon**: `estimate_sex_from_title(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: `EstimatedSex` sütunu eklenmiş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 6. Yeni Özellik Oluşturma
- **Görev**: Aşağıdaki yeni özellikleri oluşturun:
  - `FamilySize`: `SibSp` + `Parch` + 1 (kendi dahil)
  - `IsAlone`: `FamilySize` 1 ise 1, değilse 0
  - `AgeGroup`: Yaşı kategorilere ayırın (örneğin, 0-12: Çocuk, 13-19: Genç, 20-59: Yetişkin, 60+: Yaşlı)
- **Fonksiyon**: `create_new_features(df)`
  - **Parametre**: DataFrame
  - **Çıktı**: Yeni özellikler eklenmiş DataFrame
  - **Not**: Orijinal DataFrame’i değiştirmemek için kopyasını döndürün.

### 7. Tüm İşlemleri Birleştirme
- **Görev**: Yukarıdaki tüm işlemleri sırayla uygulayan bir ana fonksiyon yazın.
- **Fonksiyon**: `process_titanic_data(file_path)`
  - **Parametre**: `file_path`
  - **Çıktı**: İşlenmiş DataFrame
  - **Not**: Tüm fonksiyonları sırayla çağırarak veri setini tamamen işleyin.

In [1]:
import pandas as pd
import os

def load_data(file_path):
    df = pd.read_csv(file_path)
    return df

In [5]:
df = load_data("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
import pandas as pd

def fill_missing_values(df):
    df_copy = df.copy()
    df_copy['Age'] = df_copy['Age'].fillna(df_copy['Age'].mean())
    df_copy['Embarked'] = df_copy['Embarked'].fillna(df_copy['Embarked'].mode()[0])
    return df_copy

df_filled = fill_missing_values(df)
print(df_filled.isnull().sum())
print(df_filled.head())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171

In [7]:
def drop_sex_column(df):
    df_copy = df.copy()
    if 'Sex' in df_copy.columns:
        df_copy = df_copy.drop(columns=['Sex'])
    return df_copy

df_no_sex = drop_sex_column(df_filled)

print(df_no_sex.columns)
print(df_no_sex.head())

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0      1      0   
2                             Heikkinen, Miss. Laina  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0      1      0   
4                           Allen, Mr. William Henry  35.0      0      0   

             Ticket     Fare Cabin Embarked  
0         A/5 21171   7.2500   NaN        S  
1          PC 17599  71.2833   C85        C  
2  STON/O2. 3101282   7.9250   NaN        

In [8]:
import re

def extract_title(df):
    df_copy = df.copy()
    
    def get_title(name):
        match = re.search(r',\s*([^\.]+)\.', name)
        return match.group(1) if match else 'Unknown'
    
    df_copy['Title'] = df_copy['Name'].apply(get_title)
    return df_copy

# Önce 3. sorudan çıkan df_no_sex değişkenini kullanalım
df_with_title = extract_title(df_no_sex)

print(df_with_title['Title'].value_counts())
print(df_with_title.head())

Title
Mr              517
Miss            182
Mrs             125
Master           40
Dr                7
Rev               6
Col               2
Mlle              2
Major             2
Ms                1
Mme               1
Don               1
Lady              1
Sir               1
Capt              1
the Countess      1
Jonkheer          1
Name: count, dtype: int64
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0      1      0   
2                             Heikkinen, Miss. Laina  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0      1      0   
4                           All

In [12]:
def estimate_sex_from_title(df):
    df_copy = df.copy()
        
    title_to_sex = {
        'Mr': 'male',
        'Master': 'male',
        'Mrs': 'female',
        'Miss': 'female'
    }
    

    def get_estimated_sex(title):
        return title_to_sex.get(title, 'male')  # Diğer unvanlarda 'male' varsayıyoruz
    
    df_copy['EstimatedSex'] = df_copy['Title'].apply(get_estimated_sex)
    return df_copy

df_estimated_sex = estimate_sex_from_title(df_with_title)

print(df_estimated_sex[['Title', 'EstimatedSex']].head(10))

    Title EstimatedSex
0      Mr         male
1     Mrs       female
2    Miss       female
3     Mrs       female
4      Mr         male
5      Mr         male
6      Mr         male
7  Master         male
8     Mrs       female
9     Mrs       female


In [14]:
def create_new_features(df):
    df_copy = df.copy()
    
    # FamilySize hesapla
    df_copy['FamilySize'] = df_copy['SibSp'] + df_copy['Parch'] + 1
    
    # IsAlone hesapla
    df_copy['IsAlone'] = df_copy['FamilySize'].apply(lambda x: 1 if x == 1 else 0)
    
    # AgeGroup kategorileri oluştur
    def age_group(age):
        if age <= 12:
            return 'Çocuk'
        elif age <= 19:
            return 'Genç'
        elif age <= 59:
            return 'Yetişkin'
        else:
            return 'Yaşlı'
    
    df_copy['AgeGroup'] = df_copy['Age'].apply(age_group)
    
    return df_copy

# Önceki adımdan gelen df_estimated_sex kullanıyoruz
df_with_features = create_new_features(df_estimated_sex)

print(df_with_features[['FamilySize', 'IsAlone', 'AgeGroup']].head())


   FamilySize  IsAlone  AgeGroup
0           2        0  Yetişkin
1           2        0  Yetişkin
2           1        1  Yetişkin
3           2        0  Yetişkin
4           1        1  Yetişkin


In [19]:
import pandas as pd
import os
import re

def load_data(file_path=None):
    if file_path and os.path.exists(file_path):
        df = pd.read_csv(file_path)
    else:
        url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
        df = pd.read_csv(url)
    print(" Veri seti yüklendi. Satır x Sütun:", df.shape)
    return df

def fill_missing_values(df):
    df_copy = df.copy()
    df_copy['Age'] = df_copy['Age'].fillna(df_copy['Age'].mean())
    df_copy['Embarked'] = df_copy['Embarked'].fillna(df_copy['Embarked'].mode()[0])
    return df_copy

def drop_sex_column(df):
    df_copy = df.copy()
    if 'Sex' in df_copy.columns:
        df_copy = df_copy.drop(columns=['Sex'])
    return df_copy

def extract_title(df):
    df_copy = df.copy()
    def get_title(name):
        match = re.search(r',\s*([^\.]+)\.', name)
        return match.group(1) if match else 'Unknown'
    df_copy['Title'] = df_copy['Name'].apply(get_title)
    return df_copy

def estimate_sex_from_title(df):
    df_copy = df.copy()
    title_to_sex = {'Mr': 'male', 'Master': 'male', 'Mrs': 'female', 'Miss': 'female'}
    def get_estimated_sex(title):
        return title_to_sex.get(title, 'male')
    df_copy['EstimatedSex'] = df_copy['Title'].apply(get_estimated_sex)
    return df_copy

def create_new_features(df):
    df_copy = df.copy()
    df_copy['FamilySize'] = df_copy['SibSp'] + df_copy['Parch'] + 1
    df_copy['IsAlone'] = df_copy['FamilySize'].apply(lambda x: 1 if x == 1 else 0)
    def age_group(age):
        if age <= 12:
            return 'Çocuk'
        elif age <= 19:
            return 'Genç'
        elif age <= 59:
            return 'Yetişkin'
        else:
            return 'Yaşlı'
    df_copy['AgeGroup'] = df_copy['Age'].apply(age_group)
    return df_copy

def process_titanic_data(file_path=None):
    df = load_data(file_path)
    df = fill_missing_values(df)
    df = drop_sex_column(df)
    df = extract_title(df)
    df = estimate_sex_from_title(df)
    df = create_new_features(df)
    return df

# Fonksiyonu çalıştır ve sonucu gör
processed_df = process_titanic_data("train.csv")  # "train.csv" yoksa URL'den indirir
print(processed_df.head())


 Veri seti yüklendi. Satır x Sütun: (891, 12)
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0      1      0   
2                             Heikkinen, Miss. Laina  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0      1      0   
4                           Allen, Mr. William Henry  35.0      0      0   

             Ticket     Fare Cabin Embarked Title EstimatedSex  FamilySize  \
0         A/5 21171   7.2500   NaN        S    Mr         male           2   
1          PC 17599  71.2833   C85        C   Mrs       female           2   
2  STON/O2. 3101282   7.9250   NaN        S  M

- Pipeline süreçleri oluşturun ve ColumnsTransformer kullanın.

- Kendi Fonksiyonlarınızı Pipeline ile kulanmaya çalışın.
- Fonksiyonlarınızı yazarken, her zaman DataFrame’in bir kopyasını döndürerek orijinal veriyi korumaya özen gösterin.
- `EstimatedSex` için unvanların cinsiyetle ilişkisini belirlerken, yaygın unvanlar (`Mr`, `Mrs`, `Miss`, `Master`) için sabit kurallar kullanabilirsiniz. Nadir unvanlar için varsayılan bir cinsiyet atayabilirsiniz (örneğin, `male`).


Başarılar!