# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

In [None]:
df['Embarked'].isna().sum()

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

In [None]:
df['Cabin_filled'] = df['Cabin'].fillna('Unknown')
df['Cabin_filled'].isna().sum()


**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

In [None]:
mean_age = df['Age'].mean()
df['Age_mean'] = df['Age'].fillna(mean_age)
df[['Age', 'Age_mean']].head()

**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

In [None]:
df['Pclass'] = df['Pclass'].astype('category')
df['Pclass'].dtype

**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

In [None]:
df["Sex"].unique()

**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

In [None]:
le = LabelEncoder()
df['Sex_encoded'] = le.fit_transform(df['Sex'])
df[['Sex', 'Sex_encoded']].head()

**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

In [None]:
df["Name_lower"] = df["Name"].apply(str.lower)
df[['Name', 'Name_lower']].head()

**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

In [None]:
minmax_scaler = MinMaxScaler()
df['Fare_minmax'] = minmax_scaler.fit_transform(df[['Fare']])
df[['Fare', 'Fare_minmax']].head()

**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

In [None]:
df['Ticket'].str.isdigit()

**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

In [None]:
std_scaler = StandardScaler()
df['Age_std'] = std_scaler.fit_transform(df[['Age']])
df[['Age', 'Age_std']].head()

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

In [None]:
df['Age'] = df.groupby('Pclass')['Age'].transform(lambda x: x.fillna(x.median()))

**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

In [None]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers_iqr = df[(df['Fare'] < lower_bound) | (df['Fare'] > upper_bound)]
len(outliers_iqr)

**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

In [None]:
df_dummies = pd.get_dummies(df['Embarked'], prefix='Embarked', drop_first=True)
df = pd.concat([df, df_dummies], axis=1)
df.head()

**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

In [None]:
df['Is_Miss'] = df['Name'].str.contains('Miss.', na=False)
df[['Name', 'Is_Miss']].head()

**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

In [None]:
df['Ticket_cleaned'] = df['Ticket'].str.strip()
df[['Ticket', 'Ticket_cleaned']].head()

**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

In [None]:
df['Z_Score_Age'] = (df['Age'] - df['Age'].mean()) / df['Age'].std()
outliers_zscore = df[np.abs(df['Z_Score_Age']) > 3]
len(outliers_zscore)

**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

In [None]:
class_S_E = list(zip(df['Sex'], df['Embarked']))
df['class_S_E'] = pd.Series([f"{p}_{s}" for p, s in class_S_E])
df[['Sex', 'Embarked', 'class_S_E']].head()

**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

In [None]:
embarked_mode = df['Embarked'].mode()[0]
df['Embarked'] = df['Embarked'].fillna(embarked_mode)

**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

In [None]:
df['Name_replaced'] = df['Name'].str.replace(',', '.')
df[['Name', 'Name_replaced']].head()

**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

In [None]:
negative_or_zero = df[(df['Fare'] <= 0)]
if len(negative_or_zero) > 0:
    fare_median = df[df['Fare'] > 0]['Fare'].median()
    df.loc[df['Fare'] <= 0, 'Fare'] = fare_median

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

In [None]:
df['Age_group'] = df.groupby(['Pclass', 'Sex'])['Age'].transform(lambda x: x.fillna(x.median()))
df[['Age', 'Age_group']].head()

**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

In [None]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df['Fare_capped'] = df['Fare'].clip(lower=lower_bound, upper=upper_bound)
df[['Fare', 'Fare_capped']].describe()

**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

In [None]:
Embarked_target = df.groupby('Embarked')['Survived'].mean()
df['Embarked_target'] = df['Embarked'].map(Embarked_target)
df[['Embarked', 'Embarked_target', 'Survived']].head()

**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

In [None]:
df['Title'] = df['Name'].str.extract(r'([A-Za-z]+\.)')
df['Title'].value_counts()
df[['Name', 'Title']].head()

**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

In [None]:
df['Age_Group'] = df['Age'].apply(lambda x: 'child' if x < 18 
                                          else 'adult' if x <= 60 
                                          else 'old')
df['Age_Group'].value_counts()
df[['Age','Age_Group']].head(10)

**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

In [None]:
df['Ticket_numeric'] = pd.to_numeric(df['Ticket'], errors='coerce')
df[['Ticket', 'Ticket_numeric']].head()

**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

In [None]:
df['Z_Score_Fare'] = (df['Fare'] - df['Fare'].mean()) / df['Fare'].std()
outliers_zscore = df[np.abs(df['Z_Score_Fare']) > 3].index
fare_median = df['Fare'].median()
df.loc[outliers_zscore, 'Fare'] = fare_median
len(outliers_zscore)

**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

In [None]:
df['Cabin_letter'] = df['Cabin'].str[0]
df[['Cabin', 'Cabin_letter']].head()

**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

In [None]:
embarked_freq = df['Embarked'].value_counts()
df['Embarked_freq'] = df['Embarked'].map(embarked_freq)
df[['Embarked', 'Embarked_freq']].drop_duplicates().sort_values('Embarked')

**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

In [None]:
# df['Age_Fare_Ratio'] = df.apply(lambda row: row['Age'] / row['Fare'] if row['Fare'] != 0 else 0, axis=1)
# df[['Age', 'Fare', 'Age_Fare_Ratio']].head()
age_fare_series = df.apply(lambda row: row['Age'] / row['Fare'] if row['Fare'] != 0 else 0, axis=1)
df['Age_Fare_Ratio'] = age_fare_series.map(lambda x: x)
df[['Age', 'Fare', 'Age_Fare_Ratio']].head()


## Araştırma Soruları


**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imputer = IterativeImputer(max_iter=10, random_state=0)
df['Age_imputed'] = imputer.fit_transform(df[['Age']])

# IterativeImputer, eksik verileri diğer özellikler arasındaki ilişkiyi kullanarak tahmin eder
# Her iterasyonda daha iyi tahminler yapmaya çalışır
# Özellikle diğer sütunlarla korelasyonu yüksek verilerde iyi sonuç verir

**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df['Fare_robust'] = scaler.fit_transform(df[['Fare']])

# RobustScaler, aykırı değerlere karşı dayanıklı bir ölçeklendirme yöntemidir
# Medyanı çıkarır ve Interquartile Range (IQR) ile böler
# StandardScaler'a göre aykırı değerlerden daha az etkilenir

**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

In [None]:
df['Age_bins'] = pd.cut(df['Age'], bins=5, labels=['0-16', '17-32', '33-48', '49-64', '65+'])

#pd.cut verileri eşit aralıklı gruplara ayırır
# bins parametresiyle grup sayısını veya kesim noktalarını belirleyebiliriz
# Kategorik veri analizi için kullanışlıdır

**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(categories=[['C', 'Q', 'S']])
df['Embarked_encoded'] = encoder.fit_transform(df[['Embarked']])

# OrdinalEncoder kategorik değerleri sayısala çevirirken sıralı bilgiyi korur
# categories parametresiyle sıralamayı kontrol edebiliriz
# LabelEncoder'dan farkı, birden çok sütuna aynı anda uygulanabilmesidir

**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.

In [None]:
import numpy as np

df['Fare_log'] = np.log1p(df['Fare'])

# np.log1p verinin çarpıklığını azaltmak için kullanılır
# Özellikle sağa çarpık (pozitif skew) verilerde etkilidir
# log(0) tanımsız olduğu için log1p kullanıyoruz (log(1+x))
# Makine öğrenmesi modellerinde daha iyi performans sağlayabilir