# Havayolu Yolcu Memnuniyeti Veri Analizi Projesi

Bu proje, Kaggle platformundan temin edilen ["Havayolu Yolcu Memnuniyeti" (Airline Passenger Satisfaction)](https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction) veri setini kullanarak kapsamlı bir veri analizi gerçekleştirmeyi amaçlamaktadır. Projenin temel hedefi, yolcu memnuniyetini etkileyen faktörleri belirlemek ve veri analizi becerilerini (istatistiksel özetleme, eksik değer analizi, aykırı değer tespiti ve görselleştirme) uygulamaktır.


## Veri Seti Hakkında

Bu veri seti, bir havayolu şirketinin yolcularına uyguladığı memnuniyet anketinin sonuçlarını içermektedir. Temel amaç, hangi faktörlerin yolcuların memnuniyet düzeyini (memnun, nötr veya memnuniyetsiz) etkilediğini anlamak ve potansiyel olarak yolcu memnuniyetini tahmin edebilecek modeller geliştirmek için bir temel oluşturmaktır.

Veri seti, yolculara ait demografik bilgileri, uçuş detaylarını ve çeşitli hizmetlere yönelik memnuniyet değerlendirmelerini içeren birden fazla değişkenden oluşmaktadır.

### Veri Seti İçeriği (Öznitelikler)

Aşağıda veri setinde bulunan öznitelikler ve açıklamaları listelenmiştir:

* **Gender**: Yolcunun cinsiyeti (Female, Male).
* **Customer Type**: Müşteri tipi (Loyal customer - Sadık Müşteri, disloyal customer - Sadık Olmayan Müşteri).
* **Age**: Yolcunun gerçek yaşı.
* **Type of Travel**: Yolculuğun amacı (Personal Travel - Kişisel Seyahat, Business Travel - İş Seyahati).
* **Class**: Uçaktaki seyahat sınıfı (Business, Eco, Eco Plus).
* **Flight distance**: Bu yolculuğun uçuş mesafesi.
* **Inflight wifi service**: Uçak içi Wi-Fi hizmetinin memnuniyet düzeyi (0: Uygulanamaz; 1-5).
* **Departure/Arrival time convenient**: Kalkış/Varış saati uygunluğunun memnuniyet düzeyi.
* **Ease of Online booking**: Online rezervasyon kolaylığının memnuniyet düzeyi.
* **Gate location**: Kapı konumunun memnuniyet düzeyi.
* **Food and drink**: Yiyecek ve içecek hizmetinin memnuniyet düzeyi.
* **Online boarding**: Online biniş hizmetinin memnuniyet düzeyi.
* **Seat comfort**: Koltuk rahatlığının memnuniyet düzeyi.
* **Inflight entertainment**: Uçak içi eğlence sisteminin memnuniyet düzeyi.
* **On-board service**: Uçak içi genel hizmetin memnuniyet düzeyi.
* **Leg room service**: Bacak mesafesi hizmetinin memnuniyet düzeyi.
* **Baggage handling**: Bagaj hizmetlerinin memnuniyet düzeyi.
* **Check-in service**: Check-in hizmetinin memnuniyet düzeyi.
* **Inflight service**: Uçuş sırasındaki hizmetin memnuniyet düzeyi.
* **Cleanliness**: Uçağın temizliğinin memnuniyet düzeyi.
* **Departure Delay in Minutes**: Kalkıştaki gecikme süresi (dakika).
* **Arrival Delay in Minutes**: Varıştaki gecikme süresi (dakika).
* **Satisfaction**: Havayolu memnuniyet düzeyi (satisfaction - memnun, neutral or dissatisfaction - nötr veya memnuniyetsiz).


### Projenin Adımları

Bu analiz projesi aşağıdaki adımları içerecektir:
1.  **Veri Setinin Yüklenmesi ve İlk Bakış:** Veri setlerinin pandas DataFrame olarak yüklenmesi ve temel yapısının incelenmesi.
2.  **İstatistiksel Özet:** Veri setindeki sayısal ve kategorik değişkenler için merkezi eğilim ve dağılım ölçülerinin hesaplanması.
3.  **Eksik Değer Analizi:** Veri setindeki eksik değerlerin tespit edilmesi ve bu eksikliklerle başa çıkma stratejilerinin değerlendirilmesi.
4.  **Aykırı Değer Analizi:** Sayısal değişkenlerdeki aykırı değerlerin belirlenmesi ve bu değerlerin analize etkilerinin incelenmesi.
5.  **Görselleştirme:** Veriyi daha iyi anlamak ve bulguları sunmak için sayısal ve kategorik değişkenlere uygun grafiklerin oluşturulması.

Bu adımlar, veri setini derinlemesine anlamamıza ve yolcu memnuniyetine etki eden faktörler hakkında değerli içgörüler kazanmamıza yardımcı olacaktır.

### İlk Bakış 

**Gerekli Kütüphanelerin Yüklenmesi**

In [42]:
import pandas as pd # pandas: Veri manipülasyonu ve DataFrame işlemleri için temel kütüphane.
import numpy as np # numpy: Sayısal hesaplamalar ve çok boyutlu dizilerle çalışmak için kullanılır.
import matplotlib.pyplot as plt # matplotlib.pyplot: Temel veri görselleştirme kütüphanesi.
import seaborn as sns # seaborn: matplotlib tabanlı, daha gelişmiş ve estetik istatistiksel görselleştirmeler için.

**Veri Setlerinin Yüklenmesi**

In [43]:
try:
    train_df = pd.read_csv('train.csv') # train.csv dosyasını pandas DataFrame olarak oku.
    test_df = pd.read_csv('test.csv') # test.csv dosyasını pandas DataFrame olarak oku.
    print("Veri setleri başarıyla yüklendi!")
except FileNotFoundError:
    #Dosyalar bulunamazsa hata mesajı göster ve programın devam etmesi için boş DataFrame'ler oluştur.
    print(f"Hata: Dosyalar bulunamadı. Lütfen dosya yollarını kontrol et: {'train.csv'}, {'test.csv'}")
    train_df = pd.DataFrame()
    test_df = pd.DataFrame()

Veri setleri başarıyla yüklendi!


**Veri Setinin Boyutları**

In [44]:
print(f"Satır Sayısı: {train_df.shape[0]}")
print(f"Sütun Sayısı: {train_df.shape[1]}")

Satır Sayısı: 103904
Sütun Sayısı: 25


Veri seti, 103904 adet yolcuya ve 25 adet özelliğe sahiptir. Bu, analiz yapmak için yeterli büyüklükte bir veri seti olduğunu göstermektedir.

**Veri Setinin İlk 5 Satırı**

In [45]:
print("Veri Setinden İlk 5 Satır:")
display(train_df.head())

Veri Setinden İlk 5 Satır:


Unnamed: 0.1,Unnamed: 0,id,Gender,Customer Type,Age,Type of Travel,Class,Flight Distance,Inflight wifi service,Departure/Arrival time convenient,...,Inflight entertainment,On-board service,Leg room service,Baggage handling,Checkin service,Inflight service,Cleanliness,Departure Delay in Minutes,Arrival Delay in Minutes,satisfaction
0,0,70172,Male,Loyal Customer,13,Personal Travel,Eco Plus,460,3,4,...,5,4,3,4,4,5,5,25,18.0,neutral or dissatisfied
1,1,5047,Male,disloyal Customer,25,Business travel,Business,235,3,2,...,1,1,5,3,1,4,1,1,6.0,neutral or dissatisfied
2,2,110028,Female,Loyal Customer,26,Business travel,Business,1142,2,2,...,5,4,3,4,4,4,5,0,0.0,satisfied
3,3,24026,Female,Loyal Customer,25,Business travel,Business,562,2,5,...,2,2,5,3,1,4,2,11,9.0,neutral or dissatisfied
4,4,119299,Male,Loyal Customer,61,Business travel,Business,214,3,3,...,3,3,4,4,3,3,3,0,0.0,satisfied


* Veri setinin ilk beş satırı incelendiğinde, sütun adlarının veri seti tanımında belirtilenlerle uyumlu olduğu görülmektedir.
* Unnamed: 0 ve id sütunları dikkat çekmektedir. Bu sütunların, veri setine muhtemelen otomatik olarak eklenmiş indeks veya kimlik belirteçleri olduğu ve analiz için doğrudan bir katkısı olmayabilir.
* Herhangi bir bariz veri giriş hatası veya beklenmedik karakter (örn: '?', '*') ilk beş satırda gözlemlenmemiştir.

 **Sütun İsimleri ve Veri Tipleri**

In [46]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103904 entries, 0 to 103903
Data columns (total 25 columns):
 #   Column                             Non-Null Count   Dtype  
---  ------                             --------------   -----  
 0   Unnamed: 0                         103904 non-null  int64  
 1   id                                 103904 non-null  int64  
 2   Gender                             103904 non-null  object 
 3   Customer Type                      103904 non-null  object 
 4   Age                                103904 non-null  int64  
 5   Type of Travel                     103904 non-null  object 
 6   Class                              103904 non-null  object 
 7   Flight Distance                    103904 non-null  int64  
 8   Inflight wifi service              103904 non-null  int64  
 9   Departure/Arrival time convenient  103904 non-null  int64  
 10  Ease of Online booking             103904 non-null  int64  
 11  Gate location                      1039

*Sütun Veri Tipleri*
* Age, Flight Distance, Inflight wifi service gibi çoğu memnuniyet skoru sütunu ve Departure Delay in Minutes beklendiği gibi sayısal (int64) olarak görünmektedir. Toplam 19 adet int64 tipinde sütun bulunmaktadır.
* Arrival Delay in Minutes sütunu float64 veri tipindedir. Bu, ondalıklı değerler içerebileceği anlamına gelir.
* ender, Customer Type, Type of Travel, Class ve hedef değişkenimiz olan satisfaction gibi 5 sütun object veri tipindedir. Bu, bu sütunların metin içerdiği anlamına gelir.
* Unnamed: 0 ve id sütunları da int64 tipindedir.
* Unnamed: 0 ve id sütunları da int64 tipindedir ve daha önce belirtildiği gibi analiz için gereksiz görünmektedir.

*Eksik Değerler*
* Çıktıdaki 'Non-Null Count' (Eksik Olmayan Değer Sayısı) sütunu, toplam 103.904 kayda kıyasla incelendiğinde: Arrival Delay in Minutes sütununda 103.594 adet eksik olmayan değer olduğu görülmektedir. Bu durum, bu sütunda (103.904 - 103.594) = 310 adet eksik değer olduğunu göstermektedir.
* Diğer tüm sütunlar tam (103.904 non-null) görünmektedir, yani Arrival Delay in Minutes dışında eksik değere sahip başka bir sütun bulunmamaktadır.

* Veri setinin toplam bellek kullanımı yaklaşık 19.8+ MB olarak raporlanmıştır.

### İstatistiksel Özet

In [47]:
print("\nSayısal Sütunlar İçin İstatistiksel Özet:")
display(train_df.describe().T)


Sayısal Sütunlar İçin İstatistiksel Özet:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,103904.0,51951.5,29994.645522,0.0,25975.75,51951.5,77927.25,103903.0
id,103904.0,64924.210502,37463.812252,1.0,32533.75,64856.5,97368.25,129880.0
Age,103904.0,39.379706,15.114964,7.0,27.0,40.0,51.0,85.0
Flight Distance,103904.0,1189.448375,997.147281,31.0,414.0,843.0,1743.0,4983.0
Inflight wifi service,103904.0,2.729683,1.327829,0.0,2.0,3.0,4.0,5.0
Departure/Arrival time convenient,103904.0,3.060296,1.525075,0.0,2.0,3.0,4.0,5.0
Ease of Online booking,103904.0,2.756901,1.398929,0.0,2.0,3.0,4.0,5.0
Gate location,103904.0,2.976883,1.277621,0.0,2.0,3.0,4.0,5.0
Food and drink,103904.0,3.202129,1.329533,0.0,2.0,3.0,4.0,5.0
Online boarding,103904.0,3.250375,1.349509,0.0,2.0,3.0,4.0,5.0


In [48]:
print("\nKategorik Sütunlar İçin İstatistiksel Özet:")
display(train_df.describe(include=['object']).T)


Kategorik Sütunlar İçin İstatistiksel Özet:


Unnamed: 0,count,unique,top,freq
Gender,103904,2,Female,52727
Customer Type,103904,2,Loyal Customer,84923
Type of Travel,103904,2,Business travel,71655
Class,103904,3,Business,49665
satisfaction,103904,2,neutral or dissatisfied,58879
