In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from scipy import stats
from statsmodels.graphics.gofplots import qqplot
import pylab as py
from scipy.stats import skew

In [None]:
data_train = pd.read_csv('dataset/airline_df.csv', index_col='Unnamed: 0')
data_train.head()

# Párová analýza
## spojité - spojité
V tejto časti vykonávame párovú analýzu na stĺpcoch Age, Departure Delay in Minutes, Arrival Delay in Minutes a Flight Distance. Hľadáme medzi nimi závislosť a koreláciu. Na pairplote je vidieť, že jediná korelácia je medzi atribútmi Departure Delay in Minutes a Arrival Delay in Minutes. Potvrdil to aj Pearsonov korelačný koeficient, ktorý pri nich dosiahol hodnotu 0.965481. To značí, že sa medzi nimi nachádza silná pozitívna korelácia. Medzi ostatnými kombináciami atribútov bol Pearsonov korelačný koeficient vždy blízko nule.

In [None]:
columns = ['Age', 'Departure Delay in Minutes', 'Arrival Delay in Minutes', 'Flight Distance', 'satisfaction']
continuous_data = data_train[columns]

In [None]:
sns.pairplot(continuous_data, hue='satisfaction')

### Pearsonov korelačný koeficient

In [None]:
continuous_data.corr()

In [None]:
sns.scatterplot(continuous_data['Departure Delay in Minutes'], continuous_data['Arrival Delay in Minutes'], hue=continuous_data['satisfaction'])

# Párová analýza
## kategorické - spojité
Pre tento typ párovej analýzy sme využili boxploty. Výsledné analýzy, nám prišli z pohľadu výsledkov ako najzaujímavejšie.

### Vplyv veku pasažiera na jeho spokojnosť

Z grafu vyplýva, že vek pasažiera nemá vplyv na jeho spokojnosť s letom.

In [None]:
sns.boxplot('satisfaction', 'Age', data=continuous_data)

### Vplyv meškania odletu na spokojnosť pasažiera

Z prvého grafu nie je jasne viditeľné, aký vplyv má meškanie odletu na spokojnosť. Preto sme sa rozhodli rozdeliť meškanie na dve časti, malé meškanie < 60 min a veľké meškanie >= 60 min. Z týchto grafov je jasnejšie, že meškanie odletu nemá veľký vplyv na spokojnosť pasažierov. 

In [None]:
sns.boxplot('satisfaction', 'Departure Delay in Minutes', data=continuous_data)

In [None]:
small_delay = continuous_data[continuous_data['Departure Delay in Minutes'] < 60]
sns.boxplot('satisfaction', 'Departure Delay in Minutes', data=small_delay)

In [None]:
big_delay = continuous_data[continuous_data['Departure Delay in Minutes'] >= 60]
sns.boxplot('satisfaction', 'Departure Delay in Minutes', data=big_delay)

### Vplyv meškania príletu na spokojnosť pasažiera

Z grafu nie je jasne viditeľné, aký vplyv má meškanie príletu na spokojnosť. Preto sme sa rozhodli rozdeliť meškanie na dve časti, malé meškanie < 60 min a veľké meškanie >= 60 min. Z týchto grafov je jasnejšie, že meškanie príletu nemá veľký vplyv na spokojnosť pasažierov.

In [None]:
sns.boxplot('satisfaction', 'Arrival Delay in Minutes', data=continuous_data)

In [None]:
small_delay = continuous_data[continuous_data['Arrival Delay in Minutes'] < 60]
sns.boxplot('satisfaction', 'Arrival Delay in Minutes', data=small_delay)

In [None]:
small_delay = continuous_data[continuous_data['Arrival Delay in Minutes'] >= 60]
sns.boxplot('satisfaction', 'Arrival Delay in Minutes', data=small_delay)

### Vplyv dĺžky letu na spokojnosť pasažiera

Z grafu vyplýva, že pri dlhších letoch býva viac pasažierov spokojných ako nespokojných. Väčšina nespokojných pasažierov absolvovala let, ktorý mal menej ako 1000 km. Takmer všetky lety od 1000 do 2500 km označili pasažieri ako uspokojivé.

In [None]:
sns.boxplot('satisfaction', 'Flight Distance', data=continuous_data)

# Párová analýza
## kategorické - kategorické

V tejto časti robíme párovú analýzu kategorických parametrov Customer type, Type of Travel, Class, Inflight Wifi Service, Ease of Online booking, Food and drink, Seat comfort, Inflight entertainment, Leg room service, Cleanliness.

Pri atribúte Customer Type takmer 50% lojálnych zákazníkov uviedlo, že boli s letom spokojný. Rovnako však bolo zhruba 50% lojálnych zákazníkov nespokojných alebo neutrálnych. Pri dislojálnych zákazníkoch prevládal neutrálny alebo nespokojný názor.

Pri atribúte Type of Travel prevládala u bussines travel spokojnosť, zatiaľ čo pri personal travel prevládala nespokojnosť.

Pri atribúte Class pasažieri, ktorý cestovali bussines triedou boli väčšinou spokojný. Pri ECO a ECO plus triede boli pasažieri väčšinou nespokojný.

Pri atribútoch Inflight Wifi Service, Ease of Online booking, Food and drink, Seat comfort, Inflight entertainment, Leg room service, Cleanliness sme pozorovali veľmi podobné správanie. Ak pasažieri ohodnotili danú službu 1-3, boli väčšinou nespokojný s letom. Ak ohodnotili službu 4-5, boli prevažne spokojný s letom.

In [None]:
classification = pd.crosstab(index=data_train['Customer Type'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f') 

In [None]:
classification = pd.crosstab(index=data_train['Type of Travel'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Class'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Inflight wifi service'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Ease of Online booking'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Food and drink'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Seat comfort'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Inflight entertainment'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Leg room service'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')

In [None]:
classification = pd.crosstab(index=data_train['Cleanliness'], columns=data_train['satisfaction'])
print(classification)
sns.heatmap(classification, annot=True, fmt='.4f')