In [5]:
import pandas as pd
import numpy as np
import seaborn as sns

In [6]:
dataset = pd.read_csv("TitanicDataset.csv")

## 1. Veriyi Anlama ve Tanıma

Bir veri analizine başlarken öncelikle veri setini tanımak gerekir. İlk başta aşağıdaki kodlarla veriyi tanımaya çalışmak her veri analizinin başında yapılması gereken bir işlemlerdir. Gerekli başlangıç bilgilerine bu şekilde ulaşabiliriz.

1. head() ile veri setinden bir parça görüp sütun isimlerini ve veri tiplerini görebiliriz.
2. info() ile her sütunun veri tipini ve boş olmayan değer sayısını görebiliriz.
3. describe() ile ayısal sütunların temel istatistiksel özetlerini (sayı, ortalama, standart sapma, minimum, maksimum, çeyreklikler vb.) görebiliriz.
4. isnull().sum() veya isna().sum() ile her sütundaki boş değer sayısını görebiliriz.
6. type() ile veri setinin tipini görebiliriz.

In [7]:
dataset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [8]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [52]:
dataset.describe().T #T ile matrisin transpozesini alabiliriz

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.353842,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
SibSp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


In [10]:
dataset.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [11]:
type(dataset)

pandas.core.frame.DataFrame

In [12]:
dataset.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [13]:
dataset.shape

(891, 12)

## 2. Keşifsel Veri Analizi (Exploratory Data Analysis - EDA)

### 1. Kazada ölenlerin yaş ortalamasını bulunuz

In [14]:
dead = dataset[dataset['Survived'] == 0]

In [15]:
dead.count()

PassengerId    549
Survived       549
Pclass         549
Name           549
Sex            549
Age            424
SibSp          549
Parch          549
Ticket         549
Fare           549
Cabin           68
Embarked       549
dtype: int64

In [16]:
dead_age_mean = dead['Age'].mean()


In [17]:
#.0f bir formatlama şeklidir, virgülden sonra 0 basamak göstermemizi sağlar.
print(f"Kazada ölenlerin yaş ortalaması: {dead_age_mean:.0f}") 

Kazada ölenlerin yaş ortalaması: 31


### 2. Kazada ölenlerin bilet fiyatlarının ortalamasını ve medyanını bulunuz

In [18]:
dead_fare_mean = dead['Fare'].mean()
dead_fare_median = dead['Fare'].median()

In [19]:
print(f"Kazada ölenlerin bilet fiyatlarının ortalaması: {dead_fare_mean:.4f}") 
print(f"Kazada ölenlerin bilet fiyatlarının medyan değeri: {dead_age_mean:.4f}") 

Kazada ölenlerin bilet fiyatlarının ortalaması: 22.1179
Kazada ölenlerin bilet fiyatlarının medyan değeri: 30.6262


### 3. Kazada ölen erkeklerin yaş ortalamasını bulunuz

In [20]:
dead_men = dead[dead['Sex'] == "male"]

In [21]:
dead_men_age_mean = dead_men['Age'].mean()

In [22]:
print(f"Kazada ölen erkeklerin yaş ortalaması: {dead_men_age_mean:.0f}") 

Kazada ölen erkeklerin yaş ortalaması: 32


### 4. Kazada ölen Kadınların yaş ortalamasını bulunuz

In [23]:
dead_female = dead[dead['Sex'] == "female"]

In [24]:
dead_female_age_mean = dead_female['Age'].mean()

In [25]:
print(f"Kazada ölen kadınların yaş ortalaması: {dead_female_age_mean:.0f}") 

Kazada ölen kadınların yaş ortalaması: 25


### 5. Kazadan kurtulanların yaş ortalamasını bulunuz

In [26]:
survived = dataset[dataset['Survived'] == 1]

In [27]:
survived_mean = survived['Age'].mean()

In [28]:
print(f"Kazadan kurtulanların yaş ortalaması: {survived_mean:.0f}")

Kazadan kurtulanların yaş ortalaması: 28


### 6. Kazadan kurtulanların bilet fiyatlarının ortalamasını bulunuz

In [29]:
survived_fare_mean = survived['Fare'].mean()

In [30]:
print(f"Kazadan kurtulanların bilet fiyatlarının ortalaması: {survived_fare_mean:.4f}")

Kazadan kurtulanların bilet fiyatlarının ortalaması: 48.3954


### 7. Kazadan kurtulan toplam kişi sayısını bulunuz

In [31]:
survived.count()

PassengerId    342
Survived       342
Pclass         342
Name           342
Sex            342
Age            290
SibSp          342
Parch          342
Ticket         342
Fare           342
Cabin          136
Embarked       340
dtype: int64

In [32]:
survived_count = survived['PassengerId'].count()

In [33]:
print(f"Kazadan kurtulan toplam kişi sayısı: {survived_count}")

Kazadan kurtulan toplam kişi sayısı: 342


### 8. 10 yaşından küçüklerin bilet fiyatlarının medyan değerini bulunuz

In [34]:
child = dataset[dataset['Age'] < 10]

In [35]:
child_fare_median = child['Fare'].median()

In [36]:
print(f"10 yaşından küçük çocukların bilet fiyatlarının medyan değeri: {child_fare_median:.4f}")

10 yaşından küçük çocukların bilet fiyatlarının medyan değeri: 27.0000


### 9. 1.sınıf, 2.sınıf ve 3.sınıf bilet fiyatlarının ortalama ve medyanlarını karşılaştırınız. (Pclass değişkeni sınıfları barındırmaktadır.)

In [37]:
fare_groupby_pclass = dataset.groupby('Pclass')['Fare']

In [38]:
fare_groupby_pclass.head()

0      7.2500
1     71.2833
2      7.9250
3     53.1000
4      8.0500
5      8.4583
6     51.8625
7     21.0750
9     30.0708
11    26.5500
15    16.0000
17    13.0000
20    26.0000
21    13.0000
23    35.5000
Name: Fare, dtype: float64

In [39]:
fare_mean = fare_groupby_pclass.mean()

In [40]:
print(f"Bilet fiyatları ortalaması: {fare_mean}")

Bilet fiyatları ortalaması: Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64


In [41]:
fare_median = fare_groupby_pclass.median()

In [42]:
print(f"Bilet fiyatlarının medyan değeri: {fare_median}")

Bilet fiyatlarının medyan değeri: Pclass
1    60.2875
2    14.2500
3     8.0500
Name: Fare, dtype: float64


#### Ortalama ve medyan farkının karşılaştırılması
 1.sınıf biletlerdeki ortalama medyan değeri arasındaki farkın (84.15 - 60.28 = 23.87) bu kadar büyük olmasının sebebi bu sınıftaki çok yüksek fiyatlı sınırlı sayıdaki biletler olabilir.
 2. ve 3. sınıf biletlerinin ortalama ve medyan değerleri arasında fark ise bu sınıflarda satılan bilet fiyatlarının daha homojen olduğunu gösteriyor diyebiliriz

### 10. Kazada ölen kadınların oranı ile erkeklerin oranını karşılaştırınız. (Örnek: erkekler için; ölen erkeklerin, erkek sayısına bölümü bu oranı vermektedir.)

In [43]:
female = dataset[dataset['Sex'] == 'female']

In [44]:
male = dataset[dataset['Sex'] == 'male']

In [45]:
female_count = female.shape[0]
male_count = male.shape[0]

In [46]:
print(f"Kadın sayısı: {female_count}")
print(f"Erkek sayısı: {male_count}")

Kadın sayısı: 314
Erkek sayısı: 577


In [47]:
dead_female_count = female[female['Survived'] == 0].shape[0]

In [48]:
dead_male_count = male[male['Survived'] == 0].shape[0]

In [49]:
print(f"Ölen kadın sayısı: {dead_female_count}")
print(f"Ölen erkek sayısı: {dead_male_count}")

Ölen kadın sayısı: 81
Ölen erkek sayısı: 468


In [50]:
dead_female_ratio = dead_female_count/female_count
dead_male_ratio = dead_male_count/male_count

In [51]:
print(f"Ölen kadın oranı: {dead_female_ratio:.2f}")
print(f"Ölen erkek oranı: {dead_male_ratio:.2f}")

Ölen kadın oranı: 0.26
Ölen erkek oranı: 0.81
