In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from scipy import stats
from statsmodels.graphics.gofplots import qqplot
import pylab as py
from scipy.stats import skew


# Opis datasetu

Tento dataset obsahuje prieskum spokojnosti pasažierov leteckých liniek. Obsahuje 103 904 riadkov a 24 atribútov. Atribúty sú obsahujú typ kategorický, ordinálny a spojitý.

## Opis stĺpcov

Gender: Pohlavie pasažiera (Female, Male)

Customer Type: Typ zákazníka (Loyal customer, disloyal customer)

Age: Vek pasažiera

Type of Travel: Dôvod cesty (Personal Travel, Business Travel)

Class: Trieda  (Business, Eco, Eco Plus)

Flight distance: Dĺžka letu

Inflight wifi service: Spokojnosť s dostupnosťou wi-fi siete (0-5)

Departure/Arrival time convenient: Spokojnosť s časom odletu/príletu (0-5)

Ease of Online booking: Spokojnosť s jednoduchosťou online bookingu letu (0-5)

Gate location: Spokojnosť s umiestnením nástupnej brány (0-5)

Food and drink: Spokojnosť s jedlom a pitím (0-5)

Online boarding: Spokojnosť s online boardingom (0-5)

Seat comfort: Spokojnosť s pohodlnosťou sedadla (0-5)

Inflight entertainment: Spokojnosť so zábavou počas letu (0-5)

On-board service: Spokojnosť so servisom na palube lietadla (0-5)

Leg room service: Spokojnosť s miestom na nohy (0-5)

Baggage handling: Spokojnosť s manipuláciou s batožinou (0-5)

Check-in service: Spokojnosť s check-inom (0-5)

Inflight service: Spokojnosť so servisom počas letu (0-5)

Cleanliness: Spokojnosť s čistotou (0-5)

Departure Delay in Minutes: Meškanie odletu v minútach

Arrival Delay in Minutes: Meškanie príletu v minútach

Satisfaction: Spokojnosť zákazníka(Satisfaction, neutral or dissatisfaction)

In [None]:
data_train = pd.read_csv('dataset/airline_df.csv', index_col='Unnamed: 0')
data_train.head()

V datasete sa nachádza 18 stĺpcov s integer hodnotami, 4 stĺpce s object hodnotou a 1 stĺpec s hodnotou float.

In [None]:
data_train.dtypes

# Kategorické dáta

In [None]:
for col in data_train.columns:
    if data_train[col].dtypes == 'object':
        print(f"{col}: {data_train[col].unique()}")

### Gender
Stĺpec "Gender" pozostáva z dvoch unikátnych hodnôt "Female" a "Male". Z grafu je vidno, že dáta v tomto stĺpci sú vyvážené. Počet "Female" záznamov je 52 727 (51%) a "Male" je 51 177 (49%). 

In [None]:
n_female = len(data_train[data_train["Gender"] == 'Female'])
n_male = len(data_train[data_train["Gender"] == 'Male'])

print(f"Number of females: {n_female}, {round(n_female/(n_female+n_male), 2)*100}%")
print(f"Number of males: {n_male}, {round(n_male/(n_female+n_male), 2)*100}%")

data_train["Gender"].value_counts().plot(kind='bar')

### Customer Type
Stĺpec "Customer Type" pozostáva z dvoch uniukátnych hodnôt "Loyal Customer" a "disloyal Customer". Z grafu je vidno, že dáta v tomto stĺpci sú výrazne nevyvážené. Prevažuje "Loyal Customer" s počtom výskytov 84 923 (82%). Pričom "Loyal Customer" má len 18 981 (18%).

In [None]:
n_loyal = len(data_train[data_train["Customer Type"] == 'Loyal Customer'])
n_disloyal = len(data_train[data_train["Customer Type"] == 'disloyal Customer'])

print(f"Number of loyal customer: {n_loyal}, {round(n_loyal/(n_loyal+n_disloyal), 2)*100}%")
print(f"Number of disloyal customers: {n_disloyal}, {round(n_disloyal/(n_loyal+n_disloyal), 2)*100}%")

data_train["Customer Type"].value_counts().plot(kind='bar')

### Type of Travel
Stĺpec "Type of Travel" pozostáva z dvoch unikátnych hodnôt "Business travel" a "Personal Travel". Počet riadko s hodnotou "Business travel" je 71 655 (69%) a s hodnotou "Personal Travel" je 32 249 (31%). Ako môžeme vidieť na grafe nižšie, dáta v tomto stĺpci sú nevyvážené. Avšak nie až tak výrazne ako v prípade stĺpca "Customer type".

In [None]:
n_business = len(data_train[data_train["Type of Travel"] == 'Business travel'])
n_personal = len(data_train[data_train["Type of Travel"] == 'Personal Travel'])

print(f"Number of business travels: {n_business}, {round(n_business/(n_business+n_personal), 2)*100}%")
print(f"Number of personal travel: {n_personal}, {round(n_personal/(n_business+n_personal), 2)*100}%")

data_train["Type of Travel"].value_counts().plot(kind='bar')

### Class
Stĺpec "Class" pozostáva z troch unikátnych hodnôt "Business", "Eco" a "Eco Plus". Počet riadkov s hodnotou "Business" je 49 665 (48%), "Eco" je 46 745 (45%) a "Eco Plus" je 7 494 (7%). Na grafe nižšie môžeme vidieť že počet riadkov s hodnotami "Business" a "Eco" je celkom vyrovnaný. Avšak počet riadkov s hodnotou "Eco Plus" je oveľa menší.

In [None]:
n_business = len(data_train[data_train["Class"] == 'Business'])
n_eco = len(data_train[data_train["Class"] == 'Eco'])
n_eco_plus = len(data_train[data_train["Class"] == 'Eco Plus'])

print(f"Number of business class: {n_business}, {round(n_business/(n_business+n_eco+n_eco_plus), 2)*100}%")
print(f"Number of eco class: {n_eco}, {round(n_eco/(n_business+n_eco+n_eco_plus), 2)*100}%")
print(f"Number of eco plus class: {n_eco_plus}, {round(n_eco_plus/(n_business+n_eco+n_eco_plus), 2)*100}%")

data_train["Class"].value_counts().plot(kind='bar')

### satisfaction
Stĺpec "satisfaction" pozostáva z dvoch unikátnyc hodnôt "neutral or dissatisfied" and "satisfied". Počet riadkov s hodnotou "neutral or dissatisfied" je 58 879 (57%) a s hodnotou "satisfied" je 45 025 (43%). Jedná sa o target values, ktoré budeme predikovať.

In [None]:
n_dissatisfied = len(data_train[data_train["satisfaction"] == 'neutral or dissatisfied'])
n_satisfied = len(data_train[data_train["satisfaction"] == 'satisfied'])

print(f"Number of neutral or dissatisfied: {n_dissatisfied}, {round(n_dissatisfied/(n_dissatisfied+n_satisfied), 2)*100}%")
print(f"Number of satisfied: {n_satisfied}, {round(n_satisfied/(n_dissatisfied+n_satisfied), 2)*100}%")

data_train["satisfaction"].value_counts().plot(kind='bar')

## Ordinálne stĺpce
V nasledujúcej časti sa nachádzajú stĺpcové grafy znázorňujúce početnosť jednotlivých hodnotení danej otázky. Oborom hodnôt je {0, 1, 2, 3, 4, 5}. 5 znamená, že pasažier bol maximálne spokojný. 1 znamená najmenšiu možnú spokojnoť. 0 znamená, že sa pasažier nevyjadril.

### Inflight wifi service
Stĺpec reprezentuje službu wifi počas trvania letu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 3. Tesne za ňou nasleduje 2. Najmenej frekventovaná odpoveď mala hodnotu 5, ak nepočítame hodnotu 0. Rozdelenie dát histogramu pripomína Gaussovú krivku s naklonením do ľavej strany. Hodnota Shapiro-Wilkov testu je 6.985e-05 a skewness 0.04.
  
3 = 25 868 (25%)  
2 = 25 830 (25%)  
4 = 19 794 (19%)  
1 = 17 840 (17%)  
5 = 11 469 (11%)  
0 = 3 103 (3%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 3  
Priemer = 2.72

In [None]:
data_train["Inflight wifi service"].value_counts().sort_index().plot(kind='bar')

### Departure/Arrival time convenient
Stĺpec reprezentuje vhodný čas odletu/príletu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.94e-06 a skewness -0.33.
  
4 = 25 546 (25%)  
5 = 22 403 (22%)  
3 = 17 966 (17%)  
2 = 17 191 (17%)  
1 = 15 498 (15%)  
0 = 5 300 (5%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 3  
Priemer = 3.06

In [None]:
data_train["Departure/Arrival time convenient"].value_counts().sort_index().plot(kind='bar')

### Ease of Online booking
Stĺpec reprezentuje jednoduchosť online rezervovania. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 3. Tesne za ňou nasleduje 2. Najmenej frekventovaná odpoveď mala hodnotu 5, ak nepočítame hodnotu 0. Rozdelenie dát histogramu pripomína Gaussovú krivku s naklonením do pravej strany. Hodnota Shapiro-Wilkov testu je 6.22e-05 a skewness -0.018.
  
3 = 24 449 (24%)  
2 = 24 021 (23%)  
4 = 19 571 (19%)  
1 = 17 525 (17%)  
5 = 13 851 (13%)  
0 = 4 487 (4%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 3  
Priemer = 2.75

In [None]:
data_train["Ease of Online booking"].value_counts().sort_index().plot(kind='bar')

### Gate location
Stĺpec reprezentuje umiestnenie odletovej brány. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 3. Tesne za ňou nasleduje 2. Najmenej frekventovaná odpoveď mala hodnotu 5, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.59e-06 a skewness -0.058.
  
3 = 28 577 (28%)  
4 = 24 426 (24%)  
2 = 19 459 (19%)  
1 = 17 562 (17%)  
5 = 13 879 (13%)  
0 = 1 (<1%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 3  
Priemer = 2.97

In [None]:
data_train["Gate location"].value_counts().sort_index().plot(kind='bar')

### Food and drink
Stĺpec reprezentuje jedlo a nápoje. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.74e-07 a skewness -0.151.
  
4 = 24 359 (23%)  
5 = 22 313 (21%)  
3 = 22 300 (21%)  
2 = 21 988 (21%)  
1 = 12 837 (12%)  
0 = 107 (<1%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 4  
Priemer = 3.2

In [None]:
data_train["Food and drink"].value_counts().sort_index().plot(kind='bar')

### Online boarding
Stĺpec reprezentuje online nastupovanie. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 3. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 5.37e-06 a skewness -0.453.

4 = 30 762 (30%)  
3 = 21 804 (21%)  
5 = 20 713 (20%)  
2 = 17 505 (17%)  
1 = 10 692 (10%)  
0 = 2 428 (2%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 4  
Priemer = 3.25

In [None]:
data_train["Online boarding"].value_counts().sort_index().plot(kind='bar')

### Seat comfort
Stĺpec reprezentuje pohodlnosť sedačiek. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.28e-08 a skewness -0.482.

4 = 31 765 (31%)  
5 = 26 470 (25%)  
3 = 18 696 (18%)  
2 = 14 897 (14%)  
1 = 12 075 (12%)  
0 = 1 (<1%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.43

In [None]:
data_train["Seat comfort"].value_counts().sort_index().plot(kind='bar')

### Inflight entertainment
Stĺpec reprezentuje zábavu počas letu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.39e-08 a skewness -0.365.

4 = 29 423 (28%)  
5 = 25 213 (24%)  
3 = 19 139 (18%)  
2 = 17 637 (17%)  
1 = 12 478 (12%)  
0 = 14 (<1%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.35

In [None]:
data_train["Inflight entertainment"].value_counts().sort_index().plot(kind='bar')

### On-board service
Stĺpec reprezentuje palubný servis. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 5.14e-07 a skewness -0.42.

4 = 30 867 (30%)  
5 = 23 648 (23%)  
3 = 22 833 (22%)  
2 = 14 681 (14%)  
1 = 11 872 (11%)  
0 = 3 (<1%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.38

In [None]:
data_train["On-board service"].value_counts().sort_index().plot(kind='bar')

### Leg room service
Stĺpec reprezentuje priestor pre nohy. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 2.42e-07 a skewness -0.35.

4 = 28 789 (28%)  
5 = 24 667 (24%)  
3 = 20 098 (19%)  
2 = 19 525 (19%)  
1 = 10 353 (10%)  
0 = 472 (<1%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.35

In [None]:
data_train["Leg room service"].value_counts().sort_index().plot(kind='bar')

### Baggage handling
Stĺpec reprezentuje manipuláciu s batožinou. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1. Neexistuje ani jedna jedna hodnota 0, čiže na túto otázku odpovedali všetci pasažieri. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 5.003e-08 a skewness -0.677.

4 = 37 383 (36%)  
5 = 27 131 (26%)  
3 = 20 632 (20%)  
2 = 11 521 (11%)  
1 = 7 237 (7%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.36

In [None]:
data_train["Baggage handling"].value_counts().sort_index().plot(kind='bar')

### Checkin service
Stĺpec reprezentuje check-in službu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 3. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 1.18e-07 a skewness -0.364.

4 = 29 055 (28%)  
3 = 28 446 (27%)  
5 = 20 619 (20%)  
2 = 12 893 (12%)  
1 = 12 890 (12%)  
0 = 1 (<1%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 4  
Priemer = 3.3

In [None]:
data_train["Checkin service"].value_counts().sort_index().plot(kind='bar')

### Inflight service
Stĺpec reprezentuje príletovú službu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 5. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 5.35e-09 a skewness -0.69.

4 = 37 945 (37%)  
5 = 27 116 (26%)  
3 = 20 299 (20%)  
2 = 11 457 (11%)  
1 = 7 084 (7%)  
0 = 3 (<1%)  
  
Stredné hodnoty:  
Median = 4  
Modus = 4  
Priemer = 3.64

In [None]:
data_train["Inflight service"].value_counts().sort_index().plot(kind='bar')

### Cleanliness
Stĺpec reprezentuje čistotu. Na bar a pie grafe je znázornené, že najčastejšia hodnota je číslo 4. Za ňou nasleduje 3. Najmenej frekventovaná odpoveď mala hodnotu 1, ak nepočítame hodnotu 0. Rozdelenie dát histogramu je naklonené do pravej strany. Hodnota Shapiro-Wilkov testu je 1.22e-07 a skewness -0.3.

4 = 27 179 (26%)  
3 = 24 574 (24%)  
5 = 22 689 (22%)  
2 = 16 132 (16%)  
1 = 13 318 (13%)  
0 = 12 (<1%)  
  
Stredné hodnoty:  
Median = 3  
Modus = 4  
Priemer = 3.28

In [None]:
data_train["Cleanliness"].value_counts().sort_index().plot(kind='bar')

## Spojite stĺpce
V datasete sa dokopy nachádzajú štyri spojité stĺpce. Konkrétne sa jedná o stĺpec "Age", "Flight Distance", "Departure Delay in Minutes" a "Arrival Delay in Minutes".

### "Age"

Tento stĺpec reprezentuje vek pasažiera. Boxplot ukazuje, že v tomto stĺci sa nenachádzajú vychýlené hodnoty. Z qqPlotu a historamu je možné vyčítať, že rozdelenie dát sa podobá normálnemu. Potvrdil to aj Shapiro-Wilkov test, kedy nadobudol hodnotu 0.17 čo je viac ako 0.05. Na qqPlotu je možné vyčítať, že krajné hodnoty sa vychýľujú od normálneho rozdelenia. Zároveň dáta sú vychýlené do pravej strany, čo potvrdil aj test na skewness, pri ktorom vyšla záporná hodnota -0.0045. Boxplot znázorňuje hodnoty vypísané nižšie.    

Stredné hodnoty:  
Medián = 40  
Modus = 39  
Priemer = 39.379706  

Variabilita dáta:  
75% kvartil = 51  
25% kvartil = 27  
min = 7  
max = 85  
rozpätie = 78  
medzikvartilové rozpätie = 24  
variancia = 228.46  
std = 15.11



In [None]:
# test na normalnost
print(stats.shapiro(data_train['Age'].iloc[:100]))
# test na skewness
print(skew(data_train['Age']))

In [None]:
sns.boxplot(y=data_train['Age'], width=0.5)

In [None]:
qqplot(data_train['Age'], line='s')
py.show()

In [None]:
sns.distplot(data_train["Age"], bins=30)

### "Flight Distance"
Tento stĺpec reprezentuje vzdialenosť letu. Boxplot ukazuje, že sa v tomto stĺpci vyskytujú vychýlené hodnoty. Z qqPlotu a histogramu je možné vyčítať, že rozdelenie dát nie je normálne. Čo potvrdil aj Shapiro-Wilkov test, kde je hodnota nižšia ako 0.05, konkrétne 5.28e-08.
Zároveň z histogramu je možné vyčítať, že dáta sú naklonené do ľavej strany, čo potvrdil aj test na skewness, pri ktorom vyšla pozitívna hodnota 1.109. Boxplot znázorňuje hodnoty vypísané nižšie.

Stredné hodnoty:  
Medián = 843  
Modus = 337  
Priemer = //nepoužijeme pretože je citlivý na vychýlené hodnoty  

Variabilita dáta:  
75% kvartil = 1743  
25% kvartil = 414  
min = 31  
max = 4983  
rozpätie = 4952  
medzikvartilové rozpätie = 1329  
variancia = 994302.69  
std = 997.14

In [None]:
# test na normalnost
print(stats.shapiro(data_train['Flight Distance'].iloc[:100]))
# test na skewness
print(skew(data_train['Flight Distance']))

In [None]:
sns.boxplot(y=data_train['Flight Distance'], width=0.5)

In [None]:
qqplot(data_train['Flight Distance'], line='s')
py.show()

In [None]:
sns.distplot(data_train["Flight Distance"], bins=30)

### "Departure Delay in Minutes"
Tento stĺpec reprezentuje dobu meškania odletu v minútach. Na boxplote je znázornené veľké množstvo vychýlených hodnôt. Tie sú spôsobené tým, že signifikantná väčšina letov odletela načas alebo do pár minút. Tým pádom, keď nastalo meškanie odletu, tak bolo posúdené ako vychýlená hodnota. Už z pohľadu na qqPlot a histogram si môžeme uvedomiť, že rozdelenie dát je ďaleko od normálneho. Potvrdil to aj Shapiro-Wilkov test, v ktorom nadobudlo hodnotu 6.98e-14, čo je výrazne menej ako 0.05. Dáta sú extrémne naklonené do ľavej strany, čo potvrdil aj test na skewness, pri ktorom vyšla hodnota 6.73.


Stredné hodnoty:  
Medián = 0  
Modus = 0  
Priemer = //nepoužijeme pretože je citlivý na vychýlené hodnoty  

Variabilita dáta:  
75% kvartil = 12  
25% kvartil = 0  
min = 0  
max = 1592  
rozpätie = 1592  
medzikvartilové rozpätie = 12  
variancia = 1461.6  
std = 38.23

In [None]:
# test na normalnost
print(stats.shapiro(data_train['Departure Delay in Minutes'].iloc[:100]))
# test na skewness
print(skew(data_train['Departure Delay in Minutes']))

In [None]:
sns.boxplot(y=data_train['Departure Delay in Minutes'], width=0.5)

In [None]:
qqplot(data_train['Departure Delay in Minutes'], line='s')
py.show()

In [None]:
sns.distplot(data_train["Departure Delay in Minutes"], bins=30)

### "Arrival Delay in Minutes"
Tento stĺpec reprezentuje dobu meškania príletu v minútach. Na boxplote je znázornené veľké množstvo vychýlených hodnôt. Tie sú spôsobené tým, že signifikantná väčšina letov priletela načas alebo do pár minút. Tým pádom, keď nastalo meškanie príletu, tak bolo posúdené ako vychýlená hodnota. Už z pohľadu na qqPlot a histogram si môžeme uvedomiť, že rozdelenie dát je ďaleko od normálneho. Potvrdil to aj Shapiro-Wilkov test, v ktorom nadobudlo hodnotu 2.62e-14, čo je výrazne menej ako 0.05. Dáta sú extrémne naklonené do ľavej strany, čo potvrdil aj test na skewness, pri ktorom vyšla hodnota 6.59.


Stredné hodnoty:  
Medián = 0  
Modus = 0  
Priemer = //nepoužijeme pretože je citlivý na vychýlené hodnoty  

Variabilita dáta:  
75% kvartil = 13  
25% kvartil = 0  
min = 0  
max = 1584  
rozpätie = 1584  
medzikvartilové rozpätie = 13  
variancia = 1497.58  
std = 38.69

In [None]:
# test na normalnost
print(stats.shapiro(data_train['Arrival Delay in Minutes'].iloc[:100].dropna()))
# test na skewness
print(skew(data_train['Arrival Delay in Minutes'].dropna()))

In [None]:
sns.boxplot(y=data_train['Arrival Delay in Minutes'].dropna(), width=0.5)

In [None]:
qqplot(data_train['Arrival Delay in Minutes'].dropna(), line='s')
py.show()

In [None]:
sns.distplot(data_train["Arrival Delay in Minutes"].dropna(), bins=30)

## Identifikácia chýb v dátach

### Identifikácia NaN hodnôt

Nan hodnoty sa v celom datasete nachádzajú iba v jednom stĺpci. Konkrétne sa jedná o stĺpec "Arrival Delay in Minutes".

Návrh riešenia: keďže je takýchto dát v celom datasete málo, tak navrhujeme odstrániť záznamy, v ktorých chýbajú hodnoty.

In [None]:
data_train.isna().sum()

## Duplikátne hodnoty
V celom datasete sa nenachádzajú žiadne duplikátne hodnoty.

Ak by sa v datasete nachádzali, tak by sme ich navrhli odstrániť.

In [None]:
len([1 for row in data_train.duplicated() if row])

## Vychýlené hodnoty

V celom datasete sa nachádzajú vychýlené hodnoty v troch stĺpcoch "Flight Distance", "Departure Delay in Minutes" a "Arrival Delay in Minutes". Všetky vychýlené hodnoty sú reálne hodnoty (nejedná sa o chyby pri zbere dát). Pri "Flight Distance" medián 843 kilometrov. Tým pádom dlhé lety, ktoré majú 4000 a viac kilometrov sú automaticky označované za vychýlené hodnoty. 

Pri "Departure Delay in Minutes" a "Arrival Delay in Minutes" je meškanie zväčša nulové. Tým pádom sú všetky hodnoty väčšie ako 0 označené za vychýlené hodnoty.

Návrh riešenia: keďže tieto hodnoty sú reálne a nie sú to chyby a mali by mať významný vplyv na predikovanú premennú, tak sme sa rozhodli ich neodstraňovať.

### Flight Distance

In [None]:
sns.boxplot(y=data_train['Flight Distance'], width=0.5)

### Departure Delay in Minutes

In [None]:
sns.boxplot(y=data_train['Departure Delay in Minutes'], width=0.5)

### Arrival Delay in Minutes

In [None]:
sns.boxplot(y=data_train['Arrival Delay in Minutes'], width=0.5)

## Kontrola formy dát
V tejto časti kontrolujeme jednotnosť formy dát. Na výstupe je vidieť, že hodnoty v kategorických stĺpcoch sú jednotné a nachádzajú sa tam len kategórie, ktoré očakávame.


In [None]:
cols = ['Gender', 'Customer Type', 'Type of Travel', 'Class', 'Inflight wifi service',
       'Departure/Arrival time convenient', 'Ease of Online booking',
       'Gate location', 'Food and drink', 'Online boarding', 'Seat comfort',
       'Inflight entertainment', 'On-board service', 'Leg room service',
       'Baggage handling', 'Checkin service', 'Inflight service',
       'Cleanliness', 'satisfaction']

for col in data_train[cols]:
    print(f"{col}: {data_train[col].unique()}")