In [26]:
import pandas as pd
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

- pandas (pd): Veri manipülasyonu ve analizi için kullanılan bir kütüphane.
- numpy (np): Bilimsel hesaplamalar için kullanılan bir kütüphane.
- ColumnTransformer: Farklı sütunlara farklı dönüşümler uygulamak için kullanılır.
- OneHotEncoder: Kategorik verileri sayısal formata dönüştürmek için kullanılır.
- LabelEncoder: Etiketleri sayısal değerlere dönüştürmek için kullanılır.

In [27]:
dataset = pd.read_csv('titanic.csv')

- Bu satır, 'titanic.csv' dosyasını pandas DataFrame'ine yükler.

In [28]:
# Veri setinin yapısını inceleme
dataset.info()
print("\nVeri setinin ilk birkaç satırı:")
dataset.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 183 entries, 0 to 182
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  183 non-null    int64  
 1   Survived     183 non-null    int64  
 2   Pclass       183 non-null    int64  
 3   Name         183 non-null    object 
 4   Sex          183 non-null    object 
 5   Age          183 non-null    float64
 6   SibSp        183 non-null    int64  
 7   Parch        183 non-null    int64  
 8   Ticket       183 non-null    object 
 9   Fare         183 non-null    float64
 10  Cabin        183 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 17.3+ KB

Veri setinin ilk birkaç satırı:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
1,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
2,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
3,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
4,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


- info(): Veri seti hakkında genel bilgi verir (sütun isimleri, veri tipleri, eksik değerler).
- head(): İlk birkaç satırı gösterir.

In [29]:
categorical_features = ['Pclass', 'Sex', 'Embarked']
print("\nKategorik özellikler:", categorical_features)


Kategorik özellikler: ['Pclass', 'Sex', 'Embarked']


 - Kategorik olarak işlenecek özellikleri belirler.

In [30]:
ct = ColumnTransformer(
    transformers=[('encoder', OneHotEncoder(), categorical_features)],
    remainder='passthrough')

- Bu, kategorik özelliklere OneHotEncoder uygulamak için bir ColumnTransformer oluşturur. 'remainder='passthrough'' diğer sütunları olduğu gibi bırakır.

In [31]:
X_encoded = ct.fit_transform(dataset)

- ColumnTransformer'ı veri setine uygular, kategorik verileri one-hot encode eder.

In [32]:
X = np.array(X)

- Kodlanmış veriyi NumPy dizisine dönüştürür.

In [33]:
le = LabelEncoder()
y = le.fit_transform(dataset['Survived'])

- Bu, 'Survived' sütununu sayısal etiketlere dönüştürür (0 ve 1).

In [34]:
print("Güncellenmiş özellik matrisi:")
print(X)
print("\nBağımlı değişken vektörü:")
print(y)

Güncellenmiş özellik matrisi:
[[0.0 0.0 0.0 ... 'PC 17599' 71.2833 'C85']
 [0.0 0.0 1.0 ... '113803' 53.1 'C123']
 [1.0 0.0 1.0 ... '17463' 51.8625 'E46']
 ...
 [0.0 0.0 0.0 ... '11767' 83.1583 'C50']
 [0.0 0.0 1.0 ... '112053' 30.0 'B42']
 [1.0 0.0 0.0 ... '111369' 30.0 'C148']]

Bağımlı değişken vektörü:
[1 1 0 1 1 1 1 0 1 0 0 1 0 1 0 0 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 1 1 1 0 1 1
 1 1 1 0 1 0 0 1 0 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 1 1 1 1
 1 1 1 0 1 1 1 1 1 1 0 1 0 1 1 0 1 0 1 0 1 1 1 0 0 1 0 1 0 1 0 1 1 1 0 1 1
 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 1 1
 0 1 1 1 1 1 0 1 0 0 1 1 1 1 0 1 1 0 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 1]
