# Veri Yükleme

Veri analizi 6 aşamadan oluşur.
- Veri Edinme, yükleme
- İlk Keşif ( Exploratory Data Analysis - EDA)
- Veri Temizleme ( Data Cleaning )
- Özellik Mühendisliği ( Feature Engineering )
- Analiz ve İçgörü Çıkarma

Şimdi ilk aşama olan veri yükleme aşamasını gerçekleştireceğiz. Veri setimizi kaggle üzerinden indirmiş olup, proje içerisindeki data kalsörüne kaydetmiş bulunmaktayız.
Veri seti linki: https://www.kaggle.com/c/titanic

In [4]:
import pandas as pd
import numpy as np

try:
    df = pd.read_csv('data/train.csv')
    print("Veri seti başarıyla yüklendi!")

    print("\nVeri setinin ilk 5 satırı")
    print(df.head())

    print("\nVeri setinin son 5 satırı")
    print(df.tail())

    print("\nVeri seti hakkında özet bilgi:")
    df.info()
except FileNotFoundError:
    print("Dosya bulunamadı!")


Veri seti başarıyla yüklendi!

Veri setinin ilk 5 satırı
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S 

### EDA - İlk Keşif

Veri setimiz kaggle üzerinden çektik. Şimdi veri setini anlayabilmek için biraz keşif yapabiliriz. Bunun için birkaç fonksiyon kullanıyoruz:
- df.head() => Bu fonksiyon veri setinin ilk 5 elemanını gösterir
- df.tail() => Bu fonksiyon veri setinin son 5 elemanını gösterir
- df.info() => Bu fonksiyon ise veri seti le alakalı özet bilgi sunar. Buradan veri seti içerisindeki null kolonları tespit edebiliriz. Bu veri temizleme aşaması için önemli bir adımdır

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [8]:
df[df['Embarked'].isnull()] # Embarked sutünu null olan değerleri getirir.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


## Veri Temizleme
Veri temizleme eksik, yanlış, tutarsızi, yinelenen verilerin tespitini içeren bir aşamadır. Bu sorunları tespit eder ve onlara uygun çözümler ararız.

### Kayıp Veri Problemi
Veri setindeki kayıp, null değerli verilerin bulunma aşamasıdır. İlgili null değerler veri setine uygun şekilde doldurulur veyahut veri setinden tamamen temizlenir. Genellikle çok fazla null değerli sayısal değişken yoksa, bu eksik verileri ortalaması alınma vb. yöntemlerden faydalanarak doldurma yoluna gidebiliriz. Kategorik verileri ise genellikle rastgele doldurmayız. Bu tahmini etkileyebilir. İlgili feature belirtilmediyse, belirtilmedi şeklinde bir sınıf daha açabiliriz. İlla doldurmak istersek ise, ilgili satır verisine (row) en yakın değerleri içeren veriye göre bir kategori değeri atayabiliriz.

Amacımız bilgi kaybını en aza indirmek ve veri setine uygun şekilde hareket etmektir.

- **Tutarsız Veri Düzeltme**: Tutarsız verilerin tespit edilip düzeltilme işlemidir.
- **Yinelenen Verilerin Silinmesi**
- **Gereksiz Sütunların silinmesi**

Not: **Veri Kodlaması** dediğimiz kavram, kategorik verilerin, numeric (sayısal) verilere dönüştürme işlemidir.

In [9]:
# Yaş sütunundaki boş değerleri ortalama değer ile dolduracağız...
average_age = df['Age'].mean()
print(f"Hesaplanan Ortalama Yaş: {average_age}")

df['Age'] = df['Age'].fillna(average_age)
print("Age sütunundaki boşluklar dolduruldu!")

Hesaplanan Ortalama Yaş: 29.69911764705882
Age sütunundaki boşluklar dolduruldu!


In [13]:
df[df['Cabin'].notna()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [14]:
df['Cabin'] = df['Cabin'].fillna("U")
df[df['Cabin'].notna()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,U,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,U,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,U,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,U,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,U,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C148,C


In [20]:
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked


In [21]:
# Temizleme Sonrası Veri İçeriği
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Feature Engineering
Bu aşamada ham veriye yeni feature'lar ekleriz veyahut çıkartırız. Buranın altında yatan mantık, veri setimizi, makine öğrenmesi modelimizin daha iyi anlayabileceği ve daha iyi performans gösterebileceği bir formata dönüştürmeye çalışmaktır. Bu model performansını ve doğruluğunu arttırmada bir rol oynar. Ayrıca bir çok karmaşık özelliği tek bir özellik altında birleştirerek karmaşıklığı azaltabiliriz.

Mesela ev fiyat tahmini yapan bir model inşa etmek istiyoruz. O yüzden veri setimizdeki feature'lara bakıyoruz diyelim. Bunlar için oda sayısı m'2 vb. güel featurelarımız var. Ancak bir tane çok işimize yaramayacak olan bir featrue olduğunu düşünelim. Mesela binanın kaç katlı olduğu. Bu özelliğin ilgili daire fiyatı ile çok da ilgisi olmadığını düşünerek bunu tamamen veri setimizden çıkarabiliriz.

Ayrıca yüksek korelasyonlu ( feature'lar arası ilişki katsayısı ) feature'ları indirgeyerek boyut azaltmaya da gidebiliriz. Mesela yaş ile doğum tarihi feature'larından sadece birisini eğitim verisi için seçebiliriz.

#### Amaçlar
- Model Performansını Arttırma
- Boyut Azaltma
- Hesaplama Maliyetini Azaltma

In [22]:
df["FamilySize"] = df['SibSp'] + df['Parch'] + 1
print("Family Size sütunu oluşturuldu")

Family Size sütunu oluşturuldu


In [23]:
df["IsAlone"] = np.where(df["FamilySize"] == 1, 1, 0)
print("Is Alone kolonu oluşturuldu")

Is Alone kolonu oluşturuldu


In [24]:
df['Sex'] = np.where(df['Sex'] == "male", 0, 1) # Erkekse 0, kadınsa 1
print("Sex sütunu sayısal veriye çevrildi")

Sex sütunu sayısal veriye çevrildi


In [25]:
df["Embarked"] = df["Embarked"].map({"S": 0, "C": 1, "Q": 2}).astype(int)
print("Embarked sütunu'da sayısal verilere çevrildi")

Embarked sütunu'da sayısal verilere çevrildi


In [27]:
print("Feature Engineering sonrası veriler")
df.head()

Feature Engineering sonrası veriler


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,IsAlone
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,U,0,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,1,2,0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,U,0,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,0,2,0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,U,0,1,1


### Analiz
Bu aşamada elimizdeki veri üzerinden bir takım analizler yapmaya çalışacağız. Mesela cinsiyete göre hayatta kalma oranlarının ne olduğunu görebiliriz. Veyahut yolcu sınıfının ( örn 1. sınıf yolcu) hayatta kolma oranını etkileyip etkilemediğini görmek isteyebiliriz. Korelaasyon analzii ile hayatta kalma oranının hangi özelliklerle ile daha çok ilişkili olduğunu anlamaya çalışabiliriz.

In [35]:
cinsiyet_analizi = df.groupby('Sex')['Survived'].mean()
cinsiyet_analizi

Sex
0    0.188908
1    0.742038
Name: Survived, dtype: float64

In [37]:
sınıf_analizi = df.groupby('Pclass')['Survived'].mean()
sınıf_analizi

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

In [38]:
korelasyon = df[['Survived', 'Pclass', 'Sex', 'Age', 'Fare', 'FamilySize', 'IsAlone', 'Embarked']].corr()
korelasyon['Survived'].sort_values(ascending=False)

Survived      1.000000
Sex           0.543351
Fare          0.257307
Embarked      0.106811
FamilySize    0.016639
Age          -0.069809
IsAlone      -0.203367
Pclass       -0.338481
Name: Survived, dtype: float64