# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

## Kolay Sorular

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

In [None]:
df['Embarked'].isnull().sum()

np.int64(2)

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

In [None]:
df['Age'].mean()

np.float64(29.69911764705882)

**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

In [None]:
df['Cabin'].fillna('Unknown', inplace=True)
df['Cabin'].head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Cabin'].fillna('Unknown', inplace=True)


Unnamed: 0,Cabin
0,Unknown
1,C85
2,Unknown
3,C123
4,Unknown


**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

In [None]:
df['Fare'].fillna(df['Fare'].median(), inplace=True)
df['Fare'].isnull().sum()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Fare'].fillna(df['Fare'].median(), inplace=True)


np.int64(0)

**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

In [None]:
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Age'].isnull().sum()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)


np.int64(0)

**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

In [None]:
scaler = MinMaxScaler()
df['Age_normalized'] = scaler.fit_transform(df[['Age']])
df[['Age', 'Age_normalized']].head()

Unnamed: 0,Age,Age_normalized
0,22.0,0.271174
1,38.0,0.472229
2,26.0,0.321438
3,35.0,0.434531
4,35.0,0.434531


**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

In [None]:
scaler = StandardScaler()
df['Fare_standardized'] = scaler.fit_transform(df[['Fare']])
df[['Fare', 'Fare_standardized']].head()

Unnamed: 0,Fare,Fare_standardized
0,7.25,-0.502445
1,71.2833,0.786845
2,7.925,-0.488854
3,53.1,0.42073
4,8.05,-0.486337


**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

In [None]:
le = LabelEncoder()
df['Embarked_encoded'] = le.fit_transform(df['Embarked'])
df[['Embarked', 'Embarked_encoded']].head()

Unnamed: 0,Embarked,Embarked_encoded
0,S,2
1,C,0
2,S,2
3,S,2
4,S,2


**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

In [None]:
df['Cabin_first_letter'] = df['Cabin'].apply(lambda x: x[0] if pd.notnull(x) else 'U')
df[['Cabin', 'Cabin_first_letter']].head()

Unnamed: 0,Cabin,Cabin_first_letter
0,Unknown,U
1,C85,C
2,Unknown,U
3,C123,C
4,Unknown,U


**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

In [None]:
df = pd.get_dummies(df, columns=['Sex'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_normalized,Fare_standardized,Embarked_encoded,Cabin_first_letter,Sex_female,Sex_male
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,Unknown,S,0.271174,-0.502445,2,U,False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,0.472229,0.786845,0,C,True,False
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,Unknown,S,0.321438,-0.488854,2,U,True,False
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,0.434531,0.42073,2,C,True,False
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,Unknown,S,0.434531,-0.486337,2,U,False,True


## Orta Düzey Sorular

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

In [None]:
df['Age'] = df['Age'].fillna(df.groupby('Pclass')['Age'].transform('median'))
df['Age'].isnull().sum()  # Eksik kaldı mı kontrol


np.int64(0)

**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

In [None]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

alt_sinir = Q1 - 1.5 * IQR
ust_sinir = Q3 + 1.5 * IQR

aykiri_indeksler = df[(df['Fare'] < alt_sinir) | (df['Fare'] > ust_sinir)].index
aykiri_indeksler.tolist()


[1,
 27,
 31,
 34,
 52,
 61,
 62,
 72,
 88,
 102,
 118,
 120,
 124,
 139,
 151,
 159,
 180,
 195,
 201,
 215,
 218,
 224,
 230,
 245,
 256,
 257,
 258,
 262,
 268,
 269,
 275,
 290,
 291,
 297,
 299,
 305,
 306,
 307,
 310,
 311,
 318,
 319,
 324,
 325,
 332,
 334,
 336,
 337,
 341,
 366,
 369,
 373,
 375,
 377,
 380,
 385,
 390,
 393,
 412,
 435,
 438,
 445,
 453,
 484,
 486,
 496,
 498,
 504,
 505,
 520,
 527,
 537,
 540,
 544,
 550,
 557,
 558,
 581,
 585,
 587,
 591,
 609,
 627,
 641,
 645,
 655,
 659,
 660,
 665,
 679,
 681,
 689,
 698,
 700,
 708,
 716,
 730,
 737,
 741,
 742,
 745,
 759,
 763,
 765,
 779,
 789,
 792,
 802,
 820,
 829,
 835,
 846,
 849,
 856,
 863,
 879]

**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

In [None]:
embarked_dummies = pd.get_dummies(df['Embarked'], drop_first=True)
df = pd.concat([df, embarked_dummies], axis=1)
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_normalized,Fare_standardized,Embarked_encoded,Cabin_first_letter,Sex_female,Sex_male,Q,S
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,Unknown,S,0.271174,-0.502445,2,U,False,True,False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,0.472229,0.786845,0,C,True,False,False,False
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,Unknown,S,0.321438,-0.488854,2,U,True,False,False,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,0.434531,0.42073,2,C,True,False,False,True
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,Unknown,S,0.434531,-0.486337,2,U,False,True,False,True


**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

In [None]:
df['Is_Miss'] = df['Name'].str.contains('Miss\.').astype(int)
df[['Name', 'Is_Miss']].head()


Unnamed: 0,Name,Is_Miss
0,"Braund, Mr. Owen Harris",0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0
2,"Heikkinen, Miss. Laina",1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0
4,"Allen, Mr. William Henry",0


**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

In [None]:
df['Ticket'] = df['Ticket'].str.strip()
df['Ticket'].head()


Unnamed: 0,Ticket
0,A/5 21171
1,PC 17599
2,STON/O2. 3101282
3,113803
4,373450


**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

In [None]:
age_mean = df['Age'].mean()
age_std = df['Age'].std()

z_scores = (df['Age'] - age_mean) / age_std
aykiri_indeksler = df[abs(z_scores) > 3].index
aykiri_indeksler.tolist()


[96, 116, 493, 630, 672, 745, 851]

**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

In [None]:
df['Embarked_filled'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

df['Sex_Embarked'] = [f"{'female' if s_f else 'male'}_{e}" for s_f, e in zip(df['Sex_female'], df['Embarked_filled'])]

df[['Sex_female', 'Sex_male', 'Embarked', 'Sex_Embarked']].head()

Unnamed: 0,Sex_female,Sex_male,Embarked,Sex_Embarked
0,False,True,S,male_S
1,True,False,C,female_C
2,True,False,S,female_S
3,True,False,S,female_S
4,False,True,S,male_S


**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

In [None]:

most_common_embarked = df['Embarked'].mode()[0]

df['Embarked_filled'] = df['Embarked'].fillna(most_common_embarked)

print("Eksik değer sayısı (doldurulduktan sonra):", df['Embarked_filled'].isnull().sum())
df[['Embarked', 'Embarked_filled']].head()


Eksik değer sayısı (doldurulduktan sonra): 0


Unnamed: 0,Embarked,Embarked_filled
0,S,S
1,C,C
2,S,S
3,S,S
4,S,S


**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

In [None]:
df['Name'] = df['Name'].str.replace(',', '.')
df['Name'].head()


Unnamed: 0,Name
0,Braund. Mr. Owen Harris
1,Cumings. Mrs. John Bradley (Florence Briggs Th...
2,Heikkinen. Miss. Laina
3,Futrelle. Mrs. Jacques Heath (Lily May Peel)
4,Allen. Mr. William Henry


**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

In [None]:
fare_median = df['Fare'].median()
df.loc[df['Fare'] <= 0, 'Fare'] = fare_median
df['Fare'].describe()


Unnamed: 0,Fare
count,891.0
mean,32.447545
std,49.570235
min,4.0125
25%,7.925
50%,14.4542
75%,31.0
max,512.3292


## İleri Düzey Sorular

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

In [None]:

df['Age'] = df.groupby(['Pclass', 'Sex_female', 'Sex_male'])['Age'].transform(lambda x: x.fillna(x.median()))


df['Age'].isna().sum()

np.int64(0)

**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

In [None]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df['Fare_clipped'] = df['Fare'].clip(lower=lower_bound, upper=upper_bound)
df[['Fare', 'Fare_clipped']].describe()


Unnamed: 0,Fare,Fare_clipped
count,891.0,891.0
mean,32.447545,24.287299
std,49.570235,20.273302
min,4.0125,4.0125
25%,7.925,7.925
50%,14.4542,14.4542
75%,31.0,31.0
max,512.3292,65.6125


**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

In [None]:

embarked_target_mean = df.groupby('Embarked')['Survived'].mean()

df['Embarked_target'] = df['Embarked'].map(embarked_target_mean)

df[['Embarked', 'Survived', 'Embarked_target']].head()

Unnamed: 0,Embarked,Survived,Embarked_target
0,S,0,0.339009
1,C,1,0.553571
2,S,1,0.339009
3,S,1,0.339009
4,S,0,0.339009


**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

In [None]:
df['Title'] = df['Name'].str.extract(r' ([A-Za-z]+)\.', expand=False)
df[['Name', 'Title']].head()


Unnamed: 0,Name,Title
0,Braund. Mr. Owen Harris,Mr
1,Cumings. Mrs. John Bradley (Florence Briggs Th...,Mrs
2,Heikkinen. Miss. Laina,Miss
3,Futrelle. Mrs. Jacques Heath (Lily May Peel),Mrs
4,Allen. Mr. William Henry,Mr


**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

In [None]:
df['Age_Group'] = df['Age'].apply(
    lambda x: 'Çocuk' if x < 18 else ('Yaşlı' if x > 60 else 'Yetişkin')
)
df[['Age', 'Age_Group']].head()


Unnamed: 0,Age,Age_Group
0,22.0,Yetişkin
1,38.0,Yetişkin
2,26.0,Yetişkin
3,35.0,Yetişkin
4,35.0,Yetişkin


**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

In [None]:
df['Ticket_numeric'] = pd.to_numeric(df['Ticket'], errors='coerce')
df[['Ticket', 'Ticket_numeric']].head()


Unnamed: 0,Ticket,Ticket_numeric
0,A/5 21171,
1,PC 17599,
2,STON/O2. 3101282,
3,113803,113803.0
4,373450,373450.0


**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

In [None]:
from scipy.stats import zscore

z_scores = zscore(df['Fare'])

aykiri_indeksler = df[abs(z_scores) > 3].index
fare_median = df['Fare'].median()

df.loc[aykiri_indeksler, 'Fare'] = fare_median

df.loc[aykiri_indeksler, ['Fare']].head()


Unnamed: 0,Fare
27,14.4542
88,14.4542
118,14.4542
258,14.4542
299,14.4542


**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

In [None]:
df['Cabin_letter'] = df['Cabin'].astype(str).str[0]
df[['Cabin', 'Cabin_letter']].head()


Unnamed: 0,Cabin,Cabin_letter
0,Unknown,U
1,C85,C
2,Unknown,U
3,C123,C
4,Unknown,U


**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

In [None]:

embarked_freq = df['Embarked'].value_counts()

df['Embarked_freq'] = df['Embarked'].map(embarked_freq)

df[['Embarked', 'Embarked_freq']].head()


Unnamed: 0,Embarked,Embarked_freq
0,S,644.0
1,C,168.0
2,S,644.0
3,S,644.0
4,S,644.0


**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

In [None]:
df['Age_Fare_Ratio'] = list(map(lambda age, fare: age / fare if fare != 0 else None, df['Age'], df['Fare']))
df[['Age', 'Fare', 'Age_Fare_Ratio']].head()


Unnamed: 0,Age,Fare,Age_Fare_Ratio
0,22.0,7.25,3.034483
1,38.0,71.2833,0.533084
2,26.0,7.925,3.280757
3,35.0,53.1,0.659134
4,35.0,8.05,4.347826


## Araştırma Soruları

Aşağıdaki sorular, belirtilen konularda bahsedilmeyen ancak önemli olan yöntem ve fonksiyonları keşfetmek için tasarlanmıştır.

**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

In [None]:
import pandas as pd
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

data = pd.DataFrame({
    'Age': [22, np.nan, 24, 35, np.nan, 30],
    'Fare': [7.25, 71.83, 8.05, 53.10, 8.46, 13.00],
    'Pclass': [3, 1, 3, 1, 3, 2]
})

imputer = IterativeImputer(random_state=0)

imputed_data = imputer.fit_transform(data)

data_imputed = pd.DataFrame(imputed_data, columns=data.columns)

print(data_imputed)

         Age   Fare  Pclass
0  22.000000   7.25     3.0
1  38.707529  71.83     1.0
2  24.000000   8.05     3.0
3  35.000000  53.10     1.0
4  25.206425   8.46     3.0
5  30.000000  13.00     2.0


**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df['Fare_robust_scaled'] = scaler.fit_transform(df[['Fare']])

df[['Fare', 'Fare_robust_scaled']].head()


Unnamed: 0,Fare,Fare_robust_scaled
0,7.25,-0.335274
1,71.2833,2.644752
2,7.925,-0.30386
3,53.1,1.798525
4,8.05,-0.298043


**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)


embarked_values = df[['Embarked']]

encoder = OrdinalEncoder()


df['Embarked_ordinal'] = encoder.fit_transform(embarked_values)

df[['Embarked', 'Embarked_ordinal']].head()


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)


Unnamed: 0,Embarked,Embarked_ordinal
0,S,2.0
1,C,0.0
2,S,2.0
3,S,2.0
4,S,2.0


**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

embarked_values = df[['Embarked']]

encoder = OrdinalEncoder()

df['Embarked_ordinal'] = encoder.fit_transform(embarked_values)

df[['Embarked', 'Embarked_ordinal']].head()

Unnamed: 0,Embarked,Embarked_ordinal
0,S,2.0
1,C,0.0
2,S,2.0
3,S,2.0
4,S,2.0


**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.

In [None]:
import numpy as np

df['Fare'].fillna(df['Fare'].median(), inplace=True)

df['Fare_log'] = np.log1p(df['Fare'])

df[['Fare', 'Fare_log']].describe()


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Fare'].fillna(df['Fare'].median(), inplace=True)


Unnamed: 0,Fare,Fare_log
count,891.0,891.0
mean,26.502442,2.94435
std,28.913735,0.797489
min,4.0125,1.611935
25%,7.925,2.188856
50%,14.4542,2.737881
75%,29.4125,3.414809
max,164.8667,5.111184
