# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

## Kolay Sorular

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

In [2]:
df['Embarked'].isnull().sum()


2

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

In [3]:
df['Cabin_filled'] = df['Cabin'].fillna('Unknown')
df['Cabin_filled'].head()

0    Unknown
1        C85
2    Unknown
3       C123
4    Unknown
Name: Cabin_filled, dtype: object

**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

In [44]:

df['Age'] = df['Age'].fillna(df['Age'].mean())
print(df['Age'].head())

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64


**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

In [45]:
df['Pclass'] = df['Pclass'].astype('category')
df['Pclass'].dtype
print(df['Pclass'].head())

0    3.0
1    1.0
2    3.0
3    1.0
4    3.0
Name: Pclass, dtype: category
Categories (3, float64): [1.0, 2.0, 3.0]


**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

In [46]:
unique_sex = df['Sex'].unique()
print(unique_sex)

['male' 'female']


**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

In [47]:
le = LabelEncoder()
df['Sex_encoded'] = le.fit_transform(df['Sex'])
print(df[['Sex', 'Sex_encoded']].head())

      Sex  Sex_encoded
0    male            1
1  female            0
2  female            0
3  female            0
4    male            1


**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

In [8]:
df['Name_lower'] = df['Name'].str.lower()
df['Name_lower'].head()

0                              braund, mr. owen harris
1    cumings, mrs. john bradley (florence briggs th...
2                               heikkinen, miss. laina
3         futrelle, mrs. jacques heath (lily may peel)
4                             allen, mr. william henry
Name: Name_lower, dtype: object

**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

In [10]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['Fare_scaled'] = scaler.fit_transform(df[['Fare']])
df['Fare_scaled'].head()

0    0.014151
1    0.139136
2    0.015469
3    0.103644
4    0.015713
Name: Fare_scaled, dtype: float64

**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

In [11]:
numeric_tickets = df[df['Ticket'].str.isdigit()]['Ticket']
print(numeric_tickets)

3      113803
4      373450
5      330877
6       17463
7      349909
        ...  
885    382652
886    211536
887    112053
889    111369
890    370376
Name: Ticket, Length: 661, dtype: object


**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

In [48]:
scaler = StandardScaler()
df['Age_scaled'] = scaler.fit_transform(df[['Age']])
print(df['Age_scaled'].head())

0   -0.592481
1    0.638789
2   -0.284663
3    0.407926
4    0.407926
Name: Age_scaled, dtype: float64


## Orta Düzey Sorular

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

In [49]:
df['Age'] = df.groupby('Pclass')['Age'].transform(lambda x: x.fillna(x.median()))
print(df['Age'].head())

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64


  df['Age'] = df.groupby('Pclass')['Age'].transform(lambda x: x.fillna(x.median()))


**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

In [14]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['Fare'] < lower_bound) | (df['Fare'] > upper_bound)].index
print(outliers)

Index([  1,  27,  31,  34,  52,  61,  62,  72,  88, 102,
       ...
       792, 802, 820, 829, 835, 846, 849, 856, 863, 879],
      dtype='int64', length=116)


**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

In [50]:
embarked_dummies = pd.get_dummies(df['Embarked'], prefix='Embarked', drop_first=True)
df = pd.concat([df, embarked_dummies], axis=1)
print(df[['Embarked', 'Embarked_Q', 'Embarked_S']].head())

  Embarked  Embarked_Q  Embarked_Q  Embarked_S  Embarked_S
0        S       False       False        True        True
1        C       False       False       False       False
2        S       False       False        True        True
3        S       False       False        True        True
4        S       False       False        True        True


**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

In [51]:
df['Is_Miss'] = df['Name'].str.contains('Miss.', regex=False).astype(int)
print(df[['Name', 'Is_Miss']].head())

                                                Name  Is_Miss
0                            Braund. Mr. Owen Harris        0
1  Cumings. Mrs. John Bradley (Florence Briggs Th...        0
2                             Heikkinen. Miss. Laina        1
3       Futrelle. Mrs. Jacques Heath (Lily May Peel)        0
4                           Allen. Mr. William Henry        0


**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

In [52]:
df['Ticket'] = df['Ticket'].str.strip()
print(df['Ticket'].head())

0           A/5 21171
1            PC 17599
2    STON/O2. 3101282
3              113803
4              373450
Name: Ticket, dtype: object


**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

In [53]:
z_scores = np.abs((df['Age'] - df['Age'].mean()) / df['Age'].std())
outliers = df[z_scores > 3].index
print(outliers.tolist())

[96, 116, 493, 630, 672, 745, 851]


**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

In [54]:
df['Sex_Embar ked'] = [f"{s}_{e}" for s, e in zip(df['Sex'], df['Embarked'])]
print(df['Sex_Embarked'].head())

0      male_S
1    female_C
2    female_S
3    female_S
4      male_S
Name: Sex_Embarked, dtype: object


**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

In [55]:
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])
print(df['Embarked'].isna().sum())
print(df['Embarked'].head())

0
0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object


**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

In [57]:
df['Name'] = df['Name'].str.replace(',', '.', regex=False)
print(df['Name'].head())

0                              Braund. Mr. Owen Harris
1    Cumings. Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen. Miss. Laina
3         Futrelle. Mrs. Jacques Heath (Lily May Peel)
4                             Allen. Mr. William Henry
Name: Name, dtype: object


**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

In [None]:
median_fare = df['Fare'].median()
df.loc[df['Fare'] <= 0, 'Fare'] = median_fare
print(df[df['Fare'] <= 0]['Fare'])  
print(df['Fare'].head())

Series([], Name: Fare, dtype: float64)
0     7.2500
1    65.6125
2     7.9250
3    53.1000
4     8.0500
Name: Fare, dtype: float64


## İleri Düzey Sorular

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

In [59]:
df['Age'] = df.groupby(['Pclass', 'Sex'])['Age'].transform(lambda x: x.fillna(x.median()))
print(df['Age'].head())

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64


  df['Age'] = df.groupby(['Pclass', 'Sex'])['Age'].transform(lambda x: x.fillna(x.median()))


**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

In [60]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df['Fare'] = df['Fare'].clip(lower=lower_bound, upper=upper_bound)
print(df['Fare'].describe())

count    891.000000
mean      24.287299
std       20.273302
min        4.012500
25%        7.925000
50%       14.454200
75%       31.000000
max       65.612500
Name: Fare, dtype: float64


**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

In [61]:
target_means = df.groupby('Embarked')['Survived'].mean()
df['Embarked_target'] = df['Embarked'].map(target_means)
print(df[['Embarked', 'Embarked_target']].head())

  Embarked  Embarked_target
0        S         0.339009
1        C         0.553571
2        S         0.339009
3        S         0.339009
4        S         0.339009


**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

In [62]:
df['Title'] = df['Name'].str.extract(r' ([A-Za-z]+)\.', expand=False)
print(df[['Name', 'Title']].head())

                                                Name Title
0                            Braund. Mr. Owen Harris    Mr
1  Cumings. Mrs. John Bradley (Florence Briggs Th...   Mrs
2                             Heikkinen. Miss. Laina  Miss
3       Futrelle. Mrs. Jacques Heath (Lily May Peel)   Mrs
4                           Allen. Mr. William Henry    Mr


**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

In [63]:
bins = [-float('inf'), 18, 60, float('inf')]
labels = ['Child', 'Adult', 'Senior']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels)
print(df[['Age', 'Age_Group']].head())

    Age Age_Group
0  22.0     Adult
1  38.0     Adult
2  26.0     Adult
3  35.0     Adult
4  35.0     Adult


**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

In [64]:
df['Ticket_numeric'] = pd.to_numeric(df['Ticket'], errors='coerce')
print(df[['Ticket', 'Ticket_numeric']].head())

             Ticket  Ticket_numeric
0         A/5 21171             NaN
1          PC 17599             NaN
2  STON/O2. 3101282             NaN
3            113803        113803.0
4            373450        373450.0


**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

In [65]:
z_scores = np.abs((df['Fare'] - df['Fare'].mean()) / df['Fare'].std())
median_fare = df['Fare'].median()
df.loc[z_scores > 3, 'Fare'] = median_fare
print(df['Fare'].describe())

count    891.000000
mean      24.287299
std       20.273302
min        4.012500
25%        7.925000
50%       14.454200
75%       31.000000
max       65.612500
Name: Fare, dtype: float64


**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

In [66]:
df['Cabin_letter'] = df['Cabin'].str[0]
print(df[['Cabin', 'Cabin_letter']].head())

  Cabin Cabin_letter
0   NaN          NaN
1   C85            C
2   NaN          NaN
3  C123            C
4   NaN          NaN


**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

In [67]:
freq_encoding = df['Embarked'].value_counts()
df['Embarked_freq'] = df['Embarked'].map(freq_encoding)
print(df[['Embarked', 'Embarked_freq']].head())

  Embarked  Embarked_freq
0        S            646
1        C            168
2        S            646
3        S            646
4        S            646


**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

In [68]:
df['Age_Fare_Ratio'] = df.apply(lambda x: x['Age'] / x['Fare'] if x['Fare'] != 0 else 0, axis=1)
print(df[['Age', 'Fare', 'Age_Fare_Ratio']].head())

    Age     Fare  Age_Fare_Ratio
0  22.0   7.2500        3.034483
1  38.0  65.6125        0.579158
2  26.0   7.9250        3.280757
3  35.0  53.1000        0.659134
4  35.0   8.0500        4.347826


## Araştırma Soruları

Aşağıdaki sorular, belirtilen konularda bahsedilmeyen ancak önemli olan yöntem ve fonksiyonları keşfetmek için tasarlanmıştır.

**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

In [69]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imputer = IterativeImputer(random_state=0)
df[['Age', 'Pclass', 'SibSp', 'Parch', 'Fare']] = imputer.fit_transform(df[['Age', 'Pclass', 'SibSp', 'Parch', 'Fare']])
print(df['Age'].head())

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64


**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

In [70]:
scaler = RobustScaler()
df['Fare_scaled_robust'] = scaler.fit_transform(df[['Fare']])
print(df['Fare_scaled_robust'].head())

0   -0.312208
1    2.217044
2   -0.282956
3    1.674791
4   -0.277538
Name: Fare_scaled_robust, dtype: float64


**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

In [72]:
df['Age_Group_Equal'] = pd.cut(df['Age'], bins=5, labels=['Group1', 'Group2', 'Group3', 'Group4', 'Group5'])
print(df[['Age', 'Age_Group_Equal']].head())

    Age Age_Group_Equal
0  22.0          Group2
1  38.0          Group3
2  26.0          Group2
3  35.0          Group3
4  35.0          Group3


**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

In [73]:
encoder = OrdinalEncoder()
df['Embarked_ordinal'] = encoder.fit_transform(df[['Embarked']])
print(df[['Embarked', 'Embarked_ordinal']].head())

  Embarked  Embarked_ordinal
0        S               2.0
1        C               0.0
2        S               2.0
3        S               2.0
4        S               2.0


**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.

In [74]:
df['Fare_log'] = np.log1p(df['Fare'])
print(df[['Fare', 'Fare_log']].head())

      Fare  Fare_log
0   7.2500  2.110213
1  65.6125  4.198892
2   7.9250  2.188856
3  53.1000  3.990834
4   8.0500  2.202765
