# Hypotézy

1. Loajálnym zákazníkom menej prekáža horší inflight service ako neloajálnym zákazníkom.
2. Ľuďom nad 50 rokov menej prekáža zlé pokrytie wifi počas letu.
3. Ak je pasažier počas dlhého letu nespokojný s komfortom, tak je nespokojný aj s celým letom.
4. Počas dlhých letov je pasažierom ponúkané lepšie jedlo.
5. Čím dlhšie meškanie odletu, tak tým dlhšie meškanie príletu (hypotéza so spojitými dátami)


In [None]:
import pandas as pd
import seaborn as sns
import scipy.stats as stats
import random
from scipy.stats import chisquare
from scipy.stats import chi2_contingency
from scipy.stats import chi2

In [None]:
df = pd.read_csv('dataset/airline_df.csv', index_col='Unnamed: 0')

In [None]:
def tests(x, y):
    for _ in range(20):
        x = random.sample(x, 100)
        y = random.sample(y, 100)

        print(chisquare(x, f_exp=y))

## 1. Loajálnym zákazníkom menej prekáža horší inflight service ako neloajálnym zákazníkom. 

### Nul. Loajálnym zákazníkom prekáža horší inflight service rovnako alebo viac ako neloajálnym zákazníkom

### Alt. Loajálnym zákazníkom prekáža horší inflight service menej neloajálnym zákazníkom

In [None]:
loyal_customer = df.loc[(df['Customer Type'] == 'Loyal Customer') & (df['Inflight service'] <= 3), 'satisfaction']
disloyal_customer = df.loc[(df['Customer Type'] == 'disloyal Customer') & (df['Inflight service'] <= 3), 'satisfaction']

In [None]:
loyal_customer.value_counts().sort_index().plot(kind='bar')

loyal = loyal_customer.value_counts().sort_index()
loyal / sum(loyal.values.tolist()) * 100

In [None]:
disloyal_customer.value_counts().sort_index().plot(kind='bar')

disloyal = disloyal_customer.value_counts().sort_index()
disloyal / sum(disloyal.values.tolist()) * 100

In [None]:
chisquare(loyal.values.tolist(), f_exp=disloyal.values.tolist())

## 2. Ľuďom nad 50 rokov menej prekáža zlá wifi počas letu

### Nul. ľuďom nad 50 rokov prekáža zlé pokrytie wifi rovnako alebo viac ako ľuďom pod 50 rokov.

### Alt. Ľuďom nad 50 rokov prekáža zlé pokrytie wifi počas letu menej ako ľuďom pod 50 rokov.

In [None]:
older_than_fifty = df.loc[(df['Age'] >= 50) & (df['Inflight wifi service'] <= 3), 'satisfaction']
younger_than_fifty = df.loc[(df['Age'] < 50) & (df['Inflight wifi service'] <= 3), 'satisfaction']

In [None]:
older_than_fifty.value_counts().plot(kind='bar')

older = older_than_fifty.value_counts().sort_index()
older / sum(older.values.tolist()) * 100

In [None]:
younger_than_fifty.value_counts().plot(kind='bar')

younger = younger_than_fifty.value_counts().sort_index()
younger / sum(younger.values.tolist()) * 100

In [None]:
chisquare(older.values.tolist(), f_exp=younger.values.tolist())

## 3 Ak je pasažier počas dlhého letu spokojný s komfortom, tak je spokojný aj s celým letom.

### Nul. Pasažieri, ktorí sú počas dlhého letu nespokojní s komfortom, tak sú spokojní s celým letom rovnako alebo viac ako tí čo sú spokojní s komfortom.

### Alt. Pasažieri, ktorí sú počas dlhého letu spokojní s komfortom, tak sú spokojní s celým letom viac ako tí čo nie sú spokojní s komfortom.

In [None]:
long_flights_discomfort = df.loc[(df['Flight Distance'] > 843) & (df['Seat comfort'] <= 3), 'satisfaction']
long_flights_comfort = df.loc[(df['Flight Distance'] > 843) & (df['Seat comfort'] > 3), 'satisfaction']

In [None]:
long_flights_discomfort.value_counts().sort_index().plot(kind='bar')

discomfort = long_flights_discomfort.value_counts().sort_index()
discomfort / sum(discomfort.values.tolist()) * 100

In [None]:
long_flights_comfort.value_counts().sort_index().plot(kind='bar')

comfort = long_flights_comfort.value_counts().sort_index()
comfort / sum(comfort.values.tolist()) * 100

In [None]:
chisquare(comfort.values.tolist(), f_exp=discomfort.values.tolist())

## 4 Počas dlhých letov je pasažierom ponúkané lepšie jedlo ako je ponúkané počas krátkych letov.

### Nul. Počas dlhých letov je pasažierom ponúkané horšie/rovnako kvalitné jedlo ako je ponúkané počas krátkych letov.

### Alt. Počas dlhých letov je pasažierom ponúkané kvalitnejšie jedlo ako je ponúkané počas krátkych letov.

In [None]:
long_flights = df.loc[df['Flight Distance'] > 843, 'Food and drink']
short_flights = df.loc[df['Flight Distance'] <= 843, 'Food and drink']

In [None]:
long_flights.value_counts().sort_index().plot(kind='bar')

long_f = long_flights.value_counts().sort_index()
long_f / sum(long_f.values.tolist()) * 100

In [None]:
short_flights.value_counts().sort_index().plot(kind='bar')

short = short_flights.value_counts().sort_index()
short / sum(short.values.tolist()) * 100

In [None]:
chisquare(long_f.values.tolist(), f_exp=short.values.tolist())

## 5 Rozdiel dĺžky meškania odletu pasažierov, ktorí sú spokojní s letom a pasažierov, ktorí sú nespokojní s letom je signifikantný.

### Nul Rozdiel dĺžky meškania odletu pasažierov, ktorí sú spokojní s letom a tých, ktorých sú nespokojní s letom nie je signigikantný.

### Alt Rozdiel dĺžky meškania odletu pasažierov, ktorí sú spokojní s letom a tých, ktorých sú nespokojní s letom je signigikantný.

In [None]:
delay_dissatisfied = df.loc[(df['satisfaction'] == 'neutral or dissatisfied'), 'Departure Delay in Minutes']
sns.distplot(delay_dissatisfied, bins=30)

stats.shapiro(delay_dissatisfied)

In [None]:
delay_satisfied = df.loc[(df['satisfaction'] == 'satisfied'), 'Departure Delay in Minutes']
sns.distplot(delay_satisfied, bins=30)

stats.shapiro(delay_satisfied)

In [None]:
for _ in range(20):
    x = random.sample(delay_dissatisfied.tolist(), 100)
    y = random.sample(delay_satisfied.tolist(), 100)

    print(stats.mannwhitneyu(x, y))
