# Izpit iz vaj (12. 12. 2023)

### Tematika podatkov: Zadovoljstvo potnikov z letom

Med potniki, ki potujejo z letalom, je bila izvedena raziskava z namenom ugotoviti, kateri dejavniki močno vplivajo na njihovo zadovoljstvo oziroma nezadovoljstvo z letom. Pridobljeni podatki so razdeljeni v tri datoteke:

- datoteko s podatki o potniku in letu (`passengers.csv`),
- datoteko s podatki o zadovoljstvu glede na različne kriterije (`passengers_service_rating.txt`),
- datoteko s podatki o zamudah in končni oceni zadovoljstva (`passengers_satisfaction.xlsx`).

### Opis spremenljivk

- *Gender* - spol potnika (kategorični: 'Female', 'Male')
- *Customer Type* - tip stranke - ali gre za redno stranko ali ne (kategorični: 'Loyal customer', 'disloyal customer')
- *Age* - točna starost potnika (številski)
- *Type of Travel* - namen potnikovega leta (kategorični: 'Personal Travel', 'Business Travel')
- *Class* - v katerem razredu je letel potnik (kategorični: 'Business', 'Eco', 'Eco Plus')
- *Flight Distance* - dolžina leta (številski)
- *Inflight wifi service* - stopnja zadovoljstva za wifi storitev na letalu (številski: 0:'Not Applicable'; 1-5)
- *Departure/Arrival time convenient* - stopnja zadovoljstva za organiziran čas odhoda/prihoda (številski)
- *Ease of Online booking* - stopnja zadovoljstva za spletno rezervacijo (številski)
- *Gate location* - stopnja zadovoljstva za lokacijo vrat, za vkrcanje na letalo (številski)
- *Food and drink* - stopnja zadovoljstva za hrano in pijačo na letalu (številski)
- *Online boarding* - stopnja zadovoljstva za vkrcavanje na letalo (številski)
- *Seat comfort* - stopnja zadovoljstva za udobje sedežev (številski)
- *Inflight entertainment* - stopnja zadovoljstva za ponujeno zabavo med letom (številski)
- *On-board service* - stopnja zadovoljstva za ponujene storitve na letalu (številski)
- *Leg room service* - stopnja zadovoljstva za storitve za noge (številski)
- *Baggage handling* - stopnja zadovoljstva za ravnanje s prtljago (številski)
- *Checkin service* - stopnja zadovoljstva za storitev prijave (številski)
- *Inflight service* - stopnja zadovoljstva za izvedene storitve na letalu (številski)
- *Cleanliness* - stopnja zadovoljstva s čistočo (številski)
- *Departure Delay in Minutes* - čas zamude od odhodu v minutah (številski)
- *Arrival Delay in Minutes* - čas zamude ob prihodu v minutah (številski)
- *Satisfaction* - zadovoljstvo z letom (kategorični: 'Satisfaction', 'neutral or dissatisfaction')
- *Final_rating* - končna ocena zadovoljstva potnika z letom (številski)

### Naloga 1 (5T)

Najprej preberite vse tri datoteke s podatki: `passengers.csv`, `passengers_service_rating.txt` in `passengers_satisfaction.xlsx`. Vse prebrane podatke združite v eno datoteko. Pri združevanju pazite, da potnike združite po njihovi ID številki. Indeks stolpec naj bo poimenovan `Passenger_id`.

- Izpišite prve štiri vrstice združenih podatkov.
- Izpišite število stolpcev ter število vrstic združenih podatkov.
- Izpišite podatkovne tipe za vse stolpce.

In [None]:
import pandas as pd

df_passengers = pd.read_csv("passengers.csv", sep=";")
df_satisfaction = pd.read_excel("passengers_satisfaction.xlsx", index_col=0, sheet_name=0)
df_service_rating = pd.read_csv("passengers_service_rating.txt", sep="\t", index_col=0)
imena_stolpcev = ["passenger_ID", "Gender", "Customer Type", "Age", "Type of Travel", "Class" ,"Flight Distance"]
df_passengers.columns = imena_stolpcev
df_passengers.set_index("passenger_ID", inplace=True)
df = pd.concat([df_passengers, df_satisfaction, df_service_rating], axis=1)
df.head(4)

In [None]:
df.shape

In [None]:
df.dtypes

### Naloga 2 (15T)

- Prikažite povprečno dolžino leta (`Flight Distance`), glede na potnikov spol, zaokroženo na eno decimalko.

- V obliko razpredelnice shranite *starost, potovalni razred in končno oceno leta* za vse potnike, ki z letom niso bili zadovoljni in je bila njihova končna ocena med 11 in 14. Zbrane potnike sortirajte po starosti, od najmlajšega do najstarejšega. Iz te razpredelnice izpišite podatke za 5 najstarejših potnikov.

- Izrišite graf, ki bo prikazoval maksimalni čas zamude ob prihodu (`Arrival Delay in Minutes`) glede na tip zadovoljstva z letom (`Satisfaction`). Graf naj bo pobarvan v odtenke oranžne.

- Izrišite graf raztrosa, tako da bo prikazoval stopnjo zadovoljstva s hrano in pijačo glede na dolžino leta, ločeno glede na razred (`Class`), v katerem je potnik letel (vsak razred mora biti prikazan v obliki ločenega podgrafa brez črte).

In [None]:
povprecna_dolzina = df.groupby("Gender")["Flight Distance"].mean().round(1)
print(povprecna_dolzina)

In [None]:
iskani_potniki = df.loc[(df["Satisfaction"] == "neutral or dissatisfied") & (df["Final_rating"] > 11) & (df["Final_rating"] < 14)]
df_iskani_potniki = pd.DataFrame(iskani_potniki[["Age", "Class", "Final_rating"]]).sort_values(by="Age")
df_iskani_potniki.tail()

In [None]:
import seaborn as sns
maksimalni_cas_zamude = df.groupby("Satisfaction")["Arrival Delay in Minutes"].max()
satisfaction_skupine = ["neutral or dissatisfied", "satisfied"]
maksimalne_zamude = [maksimalni_cas_zamude[0], maksimalni_cas_zamude[1]]

sns.barplot(x=satisfaction_skupine, y=maksimalne_zamude)

In [None]:
sns.scatterplot(x="Flight Distance", y="Food and drink", hue="Class", data=df)

### Naloga 3 *(5 T)*

- Izpišite koliko je manjkajočih podatkov v posameznih stolpcih.
- Nato manjkajoče podatke iz stolpcev zapolnite s sledečo strategijo:
    - `Flight Distance` in `Arrival Delay in Minutes` zapolnite s povprečno vrednostjo stolpca.
    - `Type of Travel` in `Class` zapolnite z najpogosteje pojavljeno vrednostjo stolpca
    - Za ostale manjkajoče vrednosti poskrbite tako, vrstice z manjkajočimi podatki odstranite.
  

- Ponovno izpišite število manjkajočih podatkov, vendar samo za stoplce, ki smo jih dopolnjevali.

In [None]:
df.isnull().sum()