# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

## Kolay Sorular

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

In [2]:
df['Embarked'].isnull().sum()

np.int64(2)

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

In [3]:
df['Cabin'].fillna('Unknown', inplace=True)
df['Cabin_filled'] = df['Cabin']

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Cabin'].fillna('Unknown', inplace=True)


**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

In [4]:
df['Age'].fillna(df['Age'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)


**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

In [5]:
df['Pclass'] = df['Pclass'].astype('category')

**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

In [6]:
df['Sex'].unique()

array(['male', 'female'], dtype=object)

**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

In [7]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['Sex'] = le.fit_transform(df['Sex'])
df['Sex']

Unnamed: 0,Sex
0,1
1,0
2,0
3,0
4,1
...,...
886,1
887,0
888,0
889,1


**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

In [8]:
nameLower = df['Name'].str.lower()
df['Name_lower'] = nameLower
df['Name_lower']

Unnamed: 0,Name_lower
0,"braund, mr. owen harris"
1,"cumings, mrs. john bradley (florence briggs th..."
2,"heikkinen, miss. laina"
3,"futrelle, mrs. jacques heath (lily may peel)"
4,"allen, mr. william henry"
...,...
886,"montvila, rev. juozas"
887,"graham, miss. margaret edith"
888,"johnston, miss. catherine helen ""carrie"""
889,"behr, mr. karl howell"


**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

In [9]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['Fare'] = scaler.fit_transform(df[['Fare']])
df['Fare']

Unnamed: 0,Fare
0,0.014151
1,0.139136
2,0.015469
3,0.103644
4,0.015713
...,...
886,0.025374
887,0.058556
888,0.045771
889,0.058556


**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

In [10]:
df[df['Ticket'].str.isdigit()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Cabin_filled,Name_lower
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.000000,1,0,113803,0.103644,C123,S,C123,"futrelle, mrs. jacques heath (lily may peel)"
4,5,0,3,"Allen, Mr. William Henry",1,35.000000,0,0,373450,0.015713,Unknown,S,Unknown,"allen, mr. william henry"
5,6,0,3,"Moran, Mr. James",1,29.699118,0,0,330877,0.016510,Unknown,Q,Unknown,"moran, mr. james"
6,7,0,1,"McCarthy, Mr. Timothy J",1,54.000000,0,0,17463,0.101229,E46,S,E46,"mccarthy, mr. timothy j"
7,8,0,3,"Palsson, Master. Gosta Leonard",1,2.000000,3,1,349909,0.041136,Unknown,S,Unknown,"palsson, master. gosta leonard"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",0,39.000000,0,5,382652,0.056848,Unknown,Q,Unknown,"rice, mrs. william (margaret norton)"
886,887,0,2,"Montvila, Rev. Juozas",1,27.000000,0,0,211536,0.025374,Unknown,S,Unknown,"montvila, rev. juozas"
887,888,1,1,"Graham, Miss. Margaret Edith",0,19.000000,0,0,112053,0.058556,B42,S,B42,"graham, miss. margaret edith"
889,890,1,1,"Behr, Mr. Karl Howell",1,26.000000,0,0,111369,0.058556,C148,C,C148,"behr, mr. karl howell"


**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

In [11]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['Age'] = scaler.fit_transform(df[['Age']])
df['Age']

Unnamed: 0,Age
0,-0.592481
1,0.638789
2,-0.284663
3,0.407926
4,0.407926
...,...
886,-0.207709
887,-0.823344
888,0.000000
889,-0.284663


## Orta Düzey Sorular

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

In [12]:
df['Age'].fillna(df.groupby('Pclass')['Age'].transform('median'), inplace=True)

  df['Age'].fillna(df.groupby('Pclass')['Age'].transform('median'), inplace=True)


**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

In [13]:
IQR = df['Fare'].quantile(0.75) - df['Fare'].quantile(0.25)
lower_bound = df['Fare'].quantile(0.25) - 1.5 * IQR
upper_bound = df['Fare'].quantile(0.75) + 1.5 * IQR
outliers = df[(df['Fare'] < lower_bound) | (df['Fare'] > upper_bound)].index
outliers

Index([  1,  27,  31,  34,  52,  61,  62,  72,  88, 102,
       ...
       792, 802, 820, 829, 835, 846, 849, 856, 863, 879],
      dtype='int64', length=116)

**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

In [14]:
df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Cabin_filled,Name_lower,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",1,-0.592481,1,0,A/5 21171,0.014151,Unknown,Unknown,"braund, mr. owen harris",False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,0.638789,1,0,PC 17599,0.139136,C85,C85,"cumings, mrs. john bradley (florence briggs th...",False,False
2,3,1,3,"Heikkinen, Miss. Laina",0,-0.284663,0,0,STON/O2. 3101282,0.015469,Unknown,Unknown,"heikkinen, miss. laina",False,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,0.407926,1,0,113803,0.103644,C123,C123,"futrelle, mrs. jacques heath (lily may peel)",False,True
4,5,0,3,"Allen, Mr. William Henry",1,0.407926,0,0,373450,0.015713,Unknown,Unknown,"allen, mr. william henry",False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",1,-0.207709,0,0,211536,0.025374,Unknown,Unknown,"montvila, rev. juozas",False,True
887,888,1,1,"Graham, Miss. Margaret Edith",0,-0.823344,0,0,112053,0.058556,B42,B42,"graham, miss. margaret edith",False,True
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",0,0.000000,1,2,W./C. 6607,0.045771,Unknown,Unknown,"johnston, miss. catherine helen ""carrie""",False,True
889,890,1,1,"Behr, Mr. Karl Howell",1,-0.284663,0,0,111369,0.058556,C148,C148,"behr, mr. karl howell",False,False


**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

In [15]:
df['Is_Miss'] = df['Name'].apply(lambda x: 1 if 'Miss.' in x else 0)
df['Is_Miss']

Unnamed: 0,Is_Miss
0,0
1,0
2,1
3,0
4,0
...,...
886,0
887,1
888,1
889,0


**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

In [16]:
df['Ticket'] = df['Ticket'].str.strip()
df['Ticket']

Unnamed: 0,Ticket
0,A/5 21171
1,PC 17599
2,STON/O2. 3101282
3,113803
4,373450
...,...
886,211536
887,112053
888,W./C. 6607
889,111369


**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

In [17]:
df['Z_Score'] = (df['Age'] - df['Age'].mean()) / df['Age'].std()
outliers = df[np.abs(df['Z_Score']) > 3].index
outliers

Index([96, 116, 493, 630, 672, 745, 851], dtype='int64')

**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

In [18]:
df['Sex_Embarked'] = list(zip(df['Sex'], df['Embarked']))
df['Sex_Embarked']

KeyError: 'Embarked'

**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

In [19]:
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

KeyError: 'Embarked'

**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

In [20]:
df['Name'].str.replace(',', '.')

Unnamed: 0,Name
0,Braund. Mr. Owen Harris
1,Cumings. Mrs. John Bradley (Florence Briggs Th...
2,Heikkinen. Miss. Laina
3,Futrelle. Mrs. Jacques Heath (Lily May Peel)
4,Allen. Mr. William Henry
...,...
886,Montvila. Rev. Juozas
887,Graham. Miss. Margaret Edith
888,"Johnston. Miss. Catherine Helen ""Carrie"""
889,Behr. Mr. Karl Howell


**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

In [21]:
df['Fare'].loc[df['Fare'] <= 0] = df['Fare'].median()
df['Fare']

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df['Fare'].loc[df['Fare'] <= 0] = df['Fare'].median()
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Fare'

Unnamed: 0,Fare
0,0.014151
1,0.139136
2,0.015469
3,0.103644
4,0.015713
...,...
886,0.025374
887,0.058556
888,0.045771
889,0.058556


## İleri Düzey Sorular

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

In [22]:
df['Age'].fillna(df.groupby(['Pclass', 'Sex'])['Age'].transform('median'), inplace=True)
df['Age']

  df['Age'].fillna(df.groupby(['Pclass', 'Sex'])['Age'].transform('median'), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df.groupby(['Pclass', 'Sex'])['Age'].transform('median'), inplace=True)


Unnamed: 0,Age
0,-0.592481
1,0.638789
2,-0.284663
3,0.407926
4,0.407926
...,...
886,-0.207709
887,-0.823344
888,0.000000
889,-0.284663


**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

In [None]:
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df['Fare'] = df['Fare'].clip(lower=lower_bound, upper=upper_bound)
df['Fare']

**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

In [None]:
embarked_target_encoding = df.groupby('Embarked')['Survived'].mean()
df['Embarked_target'] = df['Embarked'].map(embarked_target_encoding)
df[['Embarked', 'Survived', 'Embarked_target']].head()

**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

In [None]:
df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
df['Title'].unique()

**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

In [23]:
bins = [0, 18, 60, float('inf')]
labels = ['cocuk', 'yetiskin', 'yasli']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
df[['Age', 'Age_Group']].head()

Unnamed: 0,Age,Age_Group
0,-0.592481,
1,0.638789,cocuk
2,-0.284663,
3,0.407926,cocuk
4,0.407926,cocuk


**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

In [24]:
df['Ticket_numeric'] = pd.to_numeric(df['Ticket'], errors='coerce')
df[['Ticket', 'Ticket_numeric']].head()

Unnamed: 0,Ticket,Ticket_numeric
0,A/5 21171,
1,PC 17599,
2,STON/O2. 3101282,
3,113803,113803.0
4,373450,373450.0


**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

In [25]:
zSkoru = np.abs((df['Fare'] - df['Fare'].mean()) / df['Fare'].std())
outliers= df[zSkoru > 3].index
df['Fare'].loc[outliers] = df['Fare'].median()
df['Fare']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Fare'].loc[outliers] = df['Fare'].median()


Unnamed: 0,Fare
0,0.014151
1,0.139136
2,0.015469
3,0.103644
4,0.015713
...,...
886,0.025374
887,0.058556
888,0.045771
889,0.058556


**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

In [26]:
df['Cabin_letter'] = df['Cabin'].str[0]
df[['Cabin', 'Cabin_letter']].head()

Unnamed: 0,Cabin,Cabin_letter
0,Unknown,U
1,C85,C
2,Unknown,U
3,C123,C
4,Unknown,U


**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

In [27]:
embarkedFrekans = df['Embarked'].value_counts(normalize=True)
df['Embarked_Frekans'] = df['Embarked'].map(embarkedFrekans)
df[['Embarked', 'Embarked_Frekans']].head()

KeyError: 'Embarked'

**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

In [28]:
df['Age/Fare'] = list(map(lambda x, y: x / y if y != 0 else np.nan, df['Age'], df['Fare']))
df[['Age', 'Fare', 'Age/Fare']].head()

Unnamed: 0,Age,Fare,Age/Fare
0,-0.592481,0.014151,-41.868291
1,0.638789,0.139136,4.591121
2,-0.284663,0.015469,-18.402684
3,0.407926,0.103644,3.935826
4,0.407926,0.015713,25.961786


## Araştırma Soruları

Aşağıdaki sorular, belirtilen konularda bahsedilmeyen ancak önemli olan yöntem ve fonksiyonları keşfetmek için tasarlanmıştır.

**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

Bu fonksiyon anladığım kadarıyla tek değişkenli (mod,medyan veya ortalama değerlerle doldurarak) değil, çok değişkenli bir ölçüm yaparak boş değerleri doldurmaya çalışıyor. İterativ bir yaklaşım göstererek "Round Robin" gibi algoritmalarla diğer nitelikler arasındaki ilişkilere göre bu verilere doldurmaya çalışıyor.

Age sütünundaki boş verileri, Yaş veya Bindiği liman veya Bilet fiyatı gibi değişkenlerle ilişkisini inceleyerek kullanabiliriz.

**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

Min-Max ölçekleyici veya Standart Ölçekleme yaparken aykırı değerlerimiz varsa Ölçeklerimiz sağlıklı sonuçlar vermekte zorlanır fakat Robust Ölçekleyici kullanırsak - IQR ve Medyan'ı kullandığı için - bu aykırı değerlerden çok etkilenmeden sağlıklı bir indirgeme yapılabilir.

Fare sütünundaki 582$ gibi aykırı bir değer için bu ölçeklemeyi kullanmak diğerlerine göre daha doğru olur diyebiliriz.

**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

Verimizi etiketleyebileceğimiz kutulara koyar diyebiliriz. Örneğin Yaş için örnek verdiğimizde varsayalım ki değerlerimiz 0-100 aralığında ve biz bu değerleri 0-2 bebek, 2-14 çocuk, 14-18 genç, 18-65 yetişkin, 65+ yaşlı gibi gruplara ayırabiliriz. Bu daha çok verimizin hangi ihtiyaçlara cevap verebilmesine göre değişebilir.

**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

Verilerimizde hiyerarşik bir düzen varsa kullanbileceğimiz bir fonksiyondur. Mesela C köy, Q ilçe ve S şehir gibi olabilir.

**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.

Verilerimiz özellikle 0'a yakınsa kullanılan bu fonksiyonda çarpıklığı azaltmak için kullanabiliriz çünkü küçük pozitif değerler için hassas bir işlem sergiler.