# Veri Bilimi Çalışma Soruları


Veri seti: [Titanic](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)

In [98]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)


## Kolay Sorular

**Soru 1**: `Embarked` sütununda kaç tane eksik veri olduğunu bulun.

In [99]:
df['Embarked'].isna().sum()

np.int64(2)

**Soru 2**: `Cabin` sütunundaki eksik verileri 'Unknown' ile doldurun ve sonucu yeni bir sütun (`Cabin_filled`) olarak kaydedin.

In [100]:
Cabin_filled=df['Cabin']
df['Cabin_filled']=df['Cabin'].fillna('Unknow')
df['Cabin_filled'].head()

Unnamed: 0,Cabin_filled
0,Unknow
1,C85
2,Unknow
3,C123
4,Unknow


**Soru 3**: `Age` sütunundaki eksik verileri ortalama yaş ile doldurun.

In [101]:
Age_mean=df['Age'].mean()
df['Age']=df['Age'].fillna(Age_mean)
df['Age'].head()

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0


**Soru 4**: `Pclass` sütununu kategorik veri tipine (`category`) dönüştürün.

In [102]:
df['Pclass']=df['Pclass'].astype('category')
df['Pclass'].dtype

CategoricalDtype(categories=[1, 2, 3], ordered=False, categories_dtype=int64)

**Soru 5**: `Sex` sütunundaki benzersiz değerleri listeleyin.

In [103]:
df['Sex'].unique()

array(['male', 'female'], dtype=object)

**Soru 6**: `Sex` sütununu LabelEncoder kullanarak sayısal değerlere dönüştürün (`male=0`, `female=1`).

In [104]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

le=LabelEncoder()
df['Sex_encoder']=le.fit_transform(df['Sex'])
df[['Sex','Sex_encoder']].head()

Unnamed: 0,Sex,Sex_encoder
0,male,1
1,female,0
2,female,0
3,female,0
4,male,1


**Soru 7**: `Name` sütunundaki değerleri küçük harfe çevirin ve yeni bir sütun (`Name_lower`) oluşturun.

In [105]:
df['Name_lower']=df['Name'].str.lower()
df[['Name','Name_lower']].head()


Unnamed: 0,Name,Name_lower
0,"Braund, Mr. Owen Harris","braund, mr. owen harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...","cumings, mrs. john bradley (florence briggs th..."
2,"Heikkinen, Miss. Laina","heikkinen, miss. laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)","futrelle, mrs. jacques heath (lily may peel)"
4,"Allen, Mr. William Henry","allen, mr. william henry"


**Soru 8**: `Fare` sütununu MinMaxScaler ile [0,1] aralığına normalleştirin.

In [106]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

minmax_scaler=MinMaxScaler()
df['Fare_minmax']=minmax_scaler.fit_transform(df[['Fare']])
df[['Fare','Fare_minmax']].head()




Unnamed: 0,Fare,Fare_minmax
0,7.25,0.014151
1,71.2833,0.139136
2,7.925,0.015469
3,53.1,0.103644
4,8.05,0.015713


**Soru 9**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri bulun (`str.isdigit`).

In [107]:
import seaborn as sns
df['Ticket'] = df['Ticket'].astype(str).str.strip()
df_rakam_ticket = df[df['Ticket'].str.isdigit()]
print(df_rakam_ticket[['Ticket']].head())

   Ticket
3  113803
4  373450
5  330877
6   17463
7  349909


**Soru 10**: `Age` sütununu StandardScaler ile standardize edin (ortalama 0, standart sapma 1).

In [108]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

std_scaler=StandardScaler()
df['Age_std']=std_scaler.fit_transform(df[['Age']])
df[['Age','Age_std']].head()

Unnamed: 0,Age,Age_std
0,22.0,-0.592481
1,38.0,0.638789
2,26.0,-0.284663
3,35.0,0.407926
4,35.0,0.407926


## Orta Düzey Sorular

**Soru 11**: `Age` sütunundaki eksik verileri, `Pclass` gruplarına göre medyan ile doldurun.

In [109]:
df['Age_'] = df['Age'].fillna(
    df.groupby('Pclass')['Age'].transform(lambda x: x.median())
)
df[['Age','Age_']].head()

  df.groupby('Pclass')['Age'].transform(lambda x: x.median())


Unnamed: 0,Age,Age_
0,22.0,22.0
1,38.0,38.0
2,26.0,26.0
3,35.0,35.0
4,35.0,35.0


**Soru 12**: `Fare` sütununda IQR yöntemiyle aykırı değerleri tespit edin ve aykırı olan satırların indekslerini listeleyin.

In [110]:
import numpy as np

Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1

# Alt ve üst sınırlar
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Aykırı değerleri bulan koşul
outlier_condition = (df['Fare'] < lower_bound) | (df['Fare'] > upper_bound)

# Aykırı değerlerin indeksleri
outlier_indices = df.index[outlier_condition].tolist()

print(outlier_indices)

[1, 27, 31, 34, 52, 61, 62, 72, 88, 102, 118, 120, 124, 139, 151, 159, 180, 195, 201, 215, 218, 224, 230, 245, 256, 257, 258, 262, 268, 269, 275, 290, 291, 297, 299, 305, 306, 307, 310, 311, 318, 319, 324, 325, 332, 334, 336, 337, 341, 366, 369, 373, 375, 377, 380, 385, 390, 393, 412, 435, 438, 445, 453, 484, 486, 496, 498, 504, 505, 520, 527, 537, 540, 544, 550, 557, 558, 581, 585, 587, 591, 609, 627, 641, 645, 655, 659, 660, 665, 679, 681, 689, 698, 700, 708, 716, 730, 737, 741, 742, 745, 759, 763, 765, 779, 789, 792, 802, 820, 829, 835, 846, 849, 856, 863, 879]


**Soru 13**: `Embarked` sütununu one-hot encoding ile kodlayın ve dummy tuzağını önlemek için bir sütunu silin.

In [111]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

df_dummies = pd.get_dummies(df['Embarked'], prefix='Embarked', drop_first=True)
df = pd.concat([df, df_dummies], axis=1)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Cabin_filled,Sex_encoder,Name_lower,Fare_minmax,Age_std,Age_,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Unknow,1,"braund, mr. owen harris",0.014151,-0.592481,22.0,False,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,C85,0,"cumings, mrs. john bradley (florence briggs th...",0.139136,0.638789,38.0,False,False
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Unknow,0,"heikkinen, miss. laina",0.015469,-0.284663,26.0,False,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,C123,0,"futrelle, mrs. jacques heath (lily may peel)",0.103644,0.407926,35.0,False,True
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Unknow,1,"allen, mr. william henry",0.015713,0.407926,35.0,False,True


**Soru 14**: `Name` sütununda 'Miss.' içeren satırları filtreleyin ve yeni bir sütun (`Is_Miss`) oluşturun (1: Miss, 0: Değil).

In [112]:
df['Is_miss']=df['Name'].str.contains('Miss.').astype(int)
df[['Name','Is_miss']]

Unnamed: 0,Name,Is_miss
0,"Braund, Mr. Owen Harris",0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0
2,"Heikkinen, Miss. Laina",1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0
4,"Allen, Mr. William Henry",0
...,...,...
886,"Montvila, Rev. Juozas",0
887,"Graham, Miss. Margaret Edith",1
888,"Johnston, Miss. Catherine Helen ""Carrie""",1
889,"Behr, Mr. Karl Howell",0


**Soru 15**: `Ticket` sütunundaki değerlerin başındaki ve sonundaki boşlukları kaldırın (`str.strip`).

In [113]:
df['ticket_']=df['Ticket'].str.strip()
df[['ticket_','Ticket']]

Unnamed: 0,ticket_,Ticket
0,A/5 21171,A/5 21171
1,PC 17599,PC 17599
2,STON/O2. 3101282,STON/O2. 3101282
3,113803,113803
4,373450,373450
...,...,...
886,211536,211536
887,112053,112053
888,W./C. 6607,W./C. 6607
889,111369,111369


**Soru 16**: `Age` sütununda Z-Score yöntemiyle (|Z| > 3) aykırı değerleri tespit edin.

In [114]:
import numpy as np
df['Z_score_age']=(df['Age']-df['Age'].mean())/df['Age'].std()
outlier_age=df[np.abs(df['Z_score_age'])>3]
len(outlier_age)

7

**Soru 17**: `Sex` ve `Embarked` sütunlarını birleştirerek yeni bir özellik oluşturun (ör. `male_S`, `female_Q`) ve `zip` fonksiyonunu kullanın.

In [115]:
class_embarked=list(zip(df['Sex'],df['Embarked']))
df['class_embarked']=pd.Series([f" {s}_{e}" for s,e in class_embarked])
df[['Sex','Embarked','class_embarked']].head()

Unnamed: 0,Sex,Embarked,class_embarked
0,male,S,male_S
1,female,C,female_C
2,female,S,female_S
3,female,S,female_S
4,male,S,male_S


**Soru 18**: `Embarked` sütunundaki eksik verileri mod ile doldurun.

In [116]:
mode_embarked=df['Embarked'].mode()[0]
df['Embarked']=df['Embarked'].fillna(mode_embarked)
df['Embarked'].head()

Unnamed: 0,Embarked
0,S
1,C
2,S
3,S
4,S


**Soru 19**: `Name` sütununda virgül (`,`) karakterini nokta (`.`) ile değiştirin (`str.replace`).

In [117]:
df['Name']=df['Name'].str.replace(',','.')
df['Name']

Unnamed: 0,Name
0,Braund. Mr. Owen Harris
1,Cumings. Mrs. John Bradley (Florence Briggs Th...
2,Heikkinen. Miss. Laina
3,Futrelle. Mrs. Jacques Heath (Lily May Peel)
4,Allen. Mr. William Henry
...,...
886,Montvila. Rev. Juozas
887,Graham. Miss. Margaret Edith
888,"Johnston. Miss. Catherine Helen ""Carrie"""
889,Behr. Mr. Karl Howell


**Soru 20**: `Fare` sütununda negatif veya sıfır değerleri kontrol edin ve bunları medyan ile değiştirin.

In [118]:
df['Fare']

Unnamed: 0,Fare
0,7.2500
1,71.2833
2,7.9250
3,53.1000
4,8.0500
...,...
886,13.0000
887,30.0000
888,23.4500
889,30.0000


## İleri Düzey Sorular

**Soru 21**: `Age` sütunundaki eksik verileri, `Pclass` ve `Sex` kombinasyonlarına göre medyan ile doldurun.

In [119]:
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')
df['Age_group']=df.groupby(['Pclass','Sex'])['Age'].transform(lambda x:x.fillna(x.median()))
df[['Age','Age_group']].head()

  df['Age_group']=df.groupby(['Pclass','Sex'])['Age'].transform(lambda x:x.fillna(x.median()))


Unnamed: 0,Age,Age_group
0,22.0,22.0
1,38.0,38.0
2,26.0,26.0
3,35.0,35.0
4,35.0,35.0


**Soru 22**: `Fare` sütunundaki aykırı değerleri IQR yöntemiyle tespit edin ve bunları Q1 - 1.5*IQR ve Q3 + 1.5*IQR sınırlarıyla sınırlandırın (`clip`).

In [120]:
Q1=df['Fare'].quantile(0.25)
Q3=df['Fare'].quantile(0.75)

IQR=Q3-Q1

lower_bound=Q1-1.5*IQR
upper_bound=Q3+1.5*IQR

df['Fare_capped']=df['Fare'].clip(lower=lower_bound,upper=upper_bound)
df['Fare_capped'].head()

Unnamed: 0,Fare_capped
0,7.25
1,65.6344
2,7.925
3,53.1
4,8.05


**Soru 23**: `Embarked` sütununu hedef (`Survived`) bazlı kodlayın (target encoding) ve yeni bir sütun (`Embarked_target`) oluşturun.

In [121]:
embarked_target=df.groupby('Embarked')['Survived'].mean()
df['embarked_target']=df['Embarked'].map(embarked_target)
df['embarked_target'].head()

Unnamed: 0,embarked_target
0,0.339009
1,0.553571
2,0.339009
3,0.339009
4,0.339009


**Soru 24**: `Name` sütunundan unvanları (ör. Mr., Mrs., Miss.) çıkarın ve yeni bir sütun (`Title`) oluşturun (`str.extract` ile regex kullanın). Yeni oluşturulan Title sütunu yolcunun sadece unvanını içermeli.

In [122]:
df['Name']
df['Title']=df['Name'].str.extract(r'\.\s*([^\.]+)\.',expand=False)
df['Title'].head()



Unnamed: 0,Title
0,Mr
1,Mrs
2,Miss
3,Mrs
4,Mr


**Soru 25**: `Age` sütununu üç gruba ayırın (çocuk: <18, yetişkin: 18-60, yaşlı: >60) ve `lambda` fonksiyonu kullanarak yeni bir sütun (`Age_Group`) oluşturun. Kodlama ile yapılabileceği gibi `cut`, `qcut` fonksiyonlarının araştırılması ve bu fonskyionlardan uygun olanın kullanılması istenmektedir.

In [123]:
def age_group(x):
    if pd.isna(x):
        return None
    elif x < 18:
        return 'Çocuk'
    elif 18 <= x <= 60:
        return 'Yetişkin'
    else:
        return 'Yaşlı'

df['Age_Group'] = df['Age'].apply(age_group)

bins = [0, 18, 60, np.inf]
labels = ['Çocuk', 'Yetişkin', 'Yaşlı']
df['Age_Group_cut'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
df[['Age','Age_Group_cut']]



Unnamed: 0,Age,Age_Group_cut
0,22.000000,Yetişkin
1,38.000000,Yetişkin
2,26.000000,Yetişkin
3,35.000000,Yetişkin
4,35.000000,Yetişkin
...,...,...
886,27.000000,Yetişkin
887,19.000000,Yetişkin
888,29.699118,Yetişkin
889,26.000000,Yetişkin


**Soru 26**: `Ticket` sütununda yalnızca rakamlardan oluşan değerleri sayısala çevirin ve yeni bir sütun (`Ticket_numeric`) oluşturun (`to_numeric`, `errors='coerce'`).

In [124]:
df['Ticket']
df['Ticket_str']=df['Ticket'].astype(str)
df['Ticket_numeric']=pd.to_numeric(df['Ticket_str'],errors='coerce')
df[['Ticket_str','Ticket_numeric']].head()

Unnamed: 0,Ticket_str,Ticket_numeric
0,A/5 21171,
1,PC 17599,
2,STON/O2. 3101282,
3,113803,113803.0
4,373450,373450.0


**Soru 27**: `Fare` sütununda aykırı değerleri Z-Score yöntemiyle (|Z| > 3) tespit edin ve bunları medyan ile değiştirin.

In [125]:
df['Fare_zscore'] = (df['Fare'] - df['Fare'].mean()) / df['Fare'].std()
outlier_mask = np.abs(df['Fare_zscore']) > 3
fare_median = df['Fare'].median()

df.loc[outlier_mask, 'Fare'] = fare_median

print(df[['Fare', 'Fare_zscore']].head(10))


      Fare  Fare_zscore
0   7.2500    -0.502163
1  71.2833     0.786404
2   7.9250    -0.488580
3  53.1000     0.420494
4   8.0500    -0.486064
5   8.4583    -0.477848
6  51.8625     0.395591
7  21.0750    -0.223957
8  11.1333    -0.424018
9  30.0708    -0.042931


**Soru 28**: `Cabin` sütununda yalnızca ilk harfi alın (ör. 'C23' → 'C') ve yeni bir sütun (`Cabin_letter`) oluşturun (`str[0]`).

In [126]:
df['Cabin_letter'] = df['Cabin'].str[0]
df['Cabin_letter']

Unnamed: 0,Cabin_letter
0,
1,C
2,
3,C
4,
...,...
886,
887,B
888,
889,C


**Soru 29**: `Embarked` sütununu frekans bazlı kodlayın (her kategorinin frekansını kullanın) ve yeni bir sütun (`Embarked_freq`) oluşturun.

In [127]:
freq=df['Embarked'].value_counts()
df['Embarked_freq'] = df['Embarked'].map(freq)
df[['Embarked','Embarked_freq']]

Unnamed: 0,Embarked,Embarked_freq
0,S,646
1,C,168
2,S,646
3,S,646
4,S,646
...,...,...
886,S,646
887,S,646
888,S,646
889,C,168


**Soru 30**: `Age` ve `Fare` sütunlarını kullanarak `map` fonksiyonu ile bir yaş-fiyat oranı (`Age_Fare_Ratio`) oluşturun (ör. `Age / Fare`).

In [128]:
#df['Age_Fare_Ratio'] = df['Age'] / df['Fare']
#df['Age_Fare_Ratio']

#map ile
df['Age_Fare_Ratio']=df['Age'].map(lambda age:age/df.loc[df['Age'] == age, 'Fare'].values[0])
df['Age_Fare_Ratio']

  df['Age_Fare_Ratio']=df['Age'].map(lambda age:age/df.loc[df['Age'] == age, 'Fare'].values[0])


Unnamed: 0,Age_Fare_Ratio
0,3.034483
1,0.533084
2,3.280757
3,0.659134
4,0.659134
...,...
886,2.425157
887,1.314497
888,3.511240
889,3.280757


## Araştırma Soruları

Aşağıdaki sorular, belirtilen konularda bahsedilmeyen ancak önemli olan yöntem ve fonksiyonları keşfetmek için tasarlanmıştır.

**Araştırma Soru 1**: `sklearn.impute.IterativeImputer` fonksiyonunu araştırın ve `Age` sütunundaki eksik verileri doldurmak için nasıl kullanılabileceğini açıklayın.

In [129]:
#IterativeImputer, her sütundaki eksik değerleri, diğer sütunlardaki değerleri kullanarak model ile tahmin eder.Yani her eksik hücre, "bir regresyon problemi" gibi ele alınır
from sklearn.experimental import enable_iterative_imputer  # ÖNEMLİ: Bu satır olmalı!
from sklearn.impute import IterativeImputer
import pandas as pd
import numpy as np

imputer=IterativeImputer(max_iter=10,random_state=0)
imputer_array=imputer.fit_transform(df[['Age','Fare','Pclass']])
df[['Age','Fare','Pclass']]=imputer_array
df[['Age','Fare','Pclass']]

Unnamed: 0,Age,Fare,Pclass
0,22.000000,7.2500,3.0
1,38.000000,71.2833,1.0
2,26.000000,7.9250,3.0
3,35.000000,53.1000,1.0
4,35.000000,8.0500,3.0
...,...,...,...
886,27.000000,13.0000,2.0
887,19.000000,30.0000,1.0
888,29.699118,23.4500,3.0
889,26.000000,30.0000,1.0


**Araştırma Soru 2**: `sklearn.preprocessing.RobustScaler` fonksiyonunu araştırın ve `Fare` sütununu ölçeklendirmek için nasıl kullanılabileceğini açıklayın.

In [130]:
#Veriyi medyan ve IQR (Interquartile Range, yani 1. ve 3. çeyrekler arası mesafe) kullanarak ölçeklendirir.
#Bu sayede aykırı değerlerin etkisini azaltır.
from sklearn.preprocessing import RobustScaler
import pandas as pd

# Diyelim ki df Titanic veri seti, Fare sütunu var
fare_data = df[['Fare']]  # DataFrame olarak seçiyoruz (2D array gerekiyor)

# RobustScaler nesnesi oluştur
scaler = RobustScaler()

# Fare sütununu fit edip dönüştür
fare_scaled = scaler.fit_transform(fare_data)

# Sonucu orijinal DataFrame'e ekle
df['Fare_scaled'] = fare_scaled

print(df[['Fare', 'Fare_scaled']].head())

      Fare  Fare_scaled
0   7.2500    -0.335046
1  71.2833     2.642956
2   7.9250    -0.303654
3  53.1000     1.797304
4   8.0500    -0.297841


**Araştırma Soru 3**: `pandas.cut` fonksiyonunu araştırın ve `Age` sütununu eşit aralıklı yaş gruplarına ayırmak için nasıl kullanılabileceğini açıklayın.

In [131]:
#pandas.cut fonksiyonu, sayısal verileri belirli aralıklara  bölmek için kullanılır. Yani, sürekli değişkenleri kategorik (gruplar halinde) değişkenlere dönüştürür.

df['Age_group'] = pd.cut(df['Age'], bins=5)

print(df[['Age', 'Age_group']].head(10))

         Age         Age_group
0  22.000000  (16.336, 32.252]
1  38.000000  (32.252, 48.168]
2  26.000000  (16.336, 32.252]
3  35.000000  (32.252, 48.168]
4  35.000000  (32.252, 48.168]
5  29.699118  (16.336, 32.252]
6  54.000000  (48.168, 64.084]
7   2.000000    (0.34, 16.336]
8  27.000000  (16.336, 32.252]
9  14.000000    (0.34, 16.336]


**Araştırma Soru 4**: `sklearn.preprocessing.OrdinalEncoder` fonksiyonunu araştırın ve `Embarked` sütununu sıralı bir şekilde kodlamak için nasıl kullanılabileceğini açıklayın.

In [132]:
#Kategorik (text/string) değişkenleri, makine öğrenmesi modellerinde kullanmak için sayısal değerlere çevirir.
from sklearn.preprocessing import OrdinalEncoder

# Embarked sütununu 2D array olarak seçiyoruz (fit_transform için)
embarked_values = df[['Embarked']]

# Encoder nesnesi oluşturuyoruz
encoder = OrdinalEncoder(categories=[['C','Q','S']])  # İstediğimiz sıra

# Dönüştürüyoruz
df['Embarked_encoded'] = encoder.fit_transform(embarked_values)

print(df[['Embarked', 'Embarked_encoded']].head(10))

  Embarked  Embarked_encoded
0        S               2.0
1        C               0.0
2        S               2.0
3        S               2.0
4        S               2.0
5        Q               1.0
6        S               2.0
7        S               2.0
8        S               2.0
9        C               0.0


**Araştırma Soru 5**: `numpy.log1p` fonksiyonunu araştırın ve `Fare` sütunundaki çarpıklığı azaltmak için nasıl kullanılabileceğini açıklayın.

In [133]:
#log1p fonksiyonu, log(1 + x) değerini hesaplar.
#Fare sütunu genellikle çok yüksek ve çok düşük değerlere sahiptir.
#Bu durum, modelleme ve analizlerde sorun yaratabilir çünkü dağılım simetrik değildir (sağa çarpık).
#Çarpıklığı azaltmak için veriyi dönüştürmek (transform) gerekir.
#Doğrudan log dönüşümü sıfır veya negatif değerlerde problem yaratabilir.
#np.log1p fonksiyonu, log(1 + Fare) hesaplar, böylece sıfır olan değerler için log(1) = 0 sonucu döner ve hata olmaz.
import numpy as np

df['Fare_log'] = np.log1p(df['Fare'])

print(df[['Fare', 'Fare_log']].head(10))


      Fare  Fare_log
0   7.2500  2.110213
1  71.2833  4.280593
2   7.9250  2.188856
3  53.1000  3.990834
4   8.0500  2.202765
5   8.4583  2.246893
6  51.8625  3.967694
7  21.0750  3.094446
8  11.1333  2.495954
9  30.0708  3.436268
